何恺明MAE局限性被创出，与Swin Transformer结合，训练速度提升

发布时间：2025年10月25日 12:17

杨净在在凹非寺

量子位 | 大众号 QbitAI

自何恺明MAE横空出世以来，MIM（Masked Image Modeling）这一自监理预特训总括越来越引发关注。

但与此同时，资料分析医护人员也只得认知它的普遍性。

MAE学术论文之前只试着了用于版ViT的系统作为增量，而显出格外好的一组设计者结构（以Swin Transformer为象征性），并不能单独用上MAE工具。

于是，一场整合的范式就此在资料分析一个团队之前上演。

象征性工作之一是来自清华、微软亚研院以及西安交大提出批评SimMIM，它探索了Swin Transformer在MIM之前的应用。

但与MAE相比之下，它在可见和掩码图块大多有转换，且计算出来量过大。有资料分析医护人员推测，即便是SimMIM的前提宽度静态，也能够在一台配置8个32GB GPU的的设备上完成特训。

基于这样的背景，大阪大学Max桀Max悉尼大学的资料分析员，提供一个新思路。

不光将Swin Transformer整合到了MAE框架上，既有与SimMIM极为的战斗任务显出，还保证了计算出来工作效率和性能——

将一组ViT的特训飞行速度进一步提高2.7倍，GPU缓存用于量降低70%。

来康康这是一项什么资料分析？

当一组设计者引入MAE

这篇学术论文提出批评了一种面向MIM的绿色一组感知Transformer。

即准许一组ViT取走掩码图块，只对可见图块开展转换。

具体实现，由两个决定性部两都是由。

首先，设计者了一种基于分治策略性的群体售票厅视线方案。

将不具备各不相同为数可见图块的角化售票厅围住成几个较小等于的组，然后在每组内开展掩码自视线。

其次，把上述两组战斗任务视为有规范动态规划决定性问题，受贪心工具的着迷提出批评了一种两组工具。

它可以自适应选择最佳两组较小，并将角化售票厅分成最少的一组，从而使两组图块上的视线整体而言计算出来成本很小。

显出极为，特训时间大大降低

得出，在ImageNet-1K和MS-COCO资料集上实验评估声称，与基线SimMIM性能极为的同时，工作效率提升2倍以上。

而跟SimMIM相比之下，这一工具在所需特训时间大大降低，消耗GPU缓存也小得多。具体而言，在完全相同的特训次数下，在Swin-B上进一步提高2倍的飞行速度和降低60%的缓存。

值得一提的是，该资料分析一个团队在有8个32GB V100 GPU的单机上开展评估的，而SimMIM是在2或4台的设备上开展评估。

资料分析医护人员还推测，工作效率的进一步提高随着Swin-L的缩小而增大，例如，与SimMIM192相比之下，飞行速度进一步提高了2.7倍。

实验的最后，提到了工具的普遍性。其之前之一就是需要一组次掩码来达到最佳的工作效率，限制了格外广泛的应用。这一点就交到预见的资料分析。

而写到这一资料分析的单独影响性，资料分析医护人员透露，主要就是大大降低了MIM的计算出来承担，进一步提高了MIM的工作效率和合理性。

熟悉的旁友，可戳右方重定向了解格外多~

学术论文重定向：GitHub重定向：SimMIM学术论文重定向：