何恺明MAE局限性被创出,与Swin Transformer结合,训练速度提升
发布时间:2025年10月25日 12:17
杨净 在在 凹非寺
量子位 | 大众号 QbitAI
自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监理预特训总括越来越引发关注。
但与此同时, 资料分析医护人员也只得认知它的普遍性。
MAE学术论文之前只试着了用于版ViT的系统作为增量,而显出格外好的一组设计者结构(以Swin Transformer为象征性),并不能单独用上MAE工具。
于是,一场整合的范式就此在资料分析一个团队之前上演。
象征性工作之一是来自清华、微软亚研院以及西安交大提出批评SimMIM,它探索了Swin Transformer在MIM之前的应用。
但与MAE相比之下,它在可见和掩码图块大多有转换,且计算出来量过大。有资料分析医护人员推测,即便是SimMIM的前提宽度静态,也能够在一台配置8个32GB GPU的的设备上完成特训。
基于这样的背景,大阪大学Max桀Max悉尼大学的资料分析员,提供一个新思路。
不光将Swin Transformer整合到了MAE框架上,既有与SimMIM极为的战斗任务显出,还保证了计算出来工作效率和性能——
将一组ViT的特训飞行速度进一步提高2.7倍,GPU缓存用于量降低70%。
来康康这是一项什么资料分析?
当一组设计者引入MAE这篇学术论文提出批评了一种面向MIM的绿色一组感知Transformer。
即准许一组ViT取走掩码图块,只对可见图块开展转换。
具体实现,由两个决定性部两都是由。
首先,设计者了一种基于分治策略性的群体售票厅视线方案。
将不具备各不相同为数可见图块的角化售票厅围住成几个较小等于的组,然后在每组内开展掩码自视线。
其次,把上述两组战斗任务视为有规范动态规划决定性问题,受贪心工具的着迷提出批评了一种两组工具。
它可以自适应选择最佳两组较小,并将角化售票厅分成最少的一组,从而使两组图块上的视线整体而言计算出来成本很小。
显出极为,特训时间大大降低得出,在ImageNet-1K和MS-COCO资料集上实验评估声称,与基线SimMIM性能极为的同时,工作效率提升2倍以上。
而跟SimMIM相比之下,这一工具在所需特训时间大大降低,消耗GPU缓存也小得多。具体而言,在完全相同的特训次数下,在Swin-B上进一步提高2倍的飞行速度和降低60%的缓存。
值得一提的是,该资料分析一个团队在有8个32GB V100 GPU的单机上开展评估的,而SimMIM是在2或4台的设备上开展评估。
资料分析医护人员还推测,工作效率的进一步提高随着Swin-L的缩小而增大,例如,与SimMIM192相比之下,飞行速度进一步提高了2.7倍。
实验的最后,提到了工具的普遍性。其之前之一就是需要一组次掩码来达到最佳的工作效率,限制了格外广泛的应用。这一点就交到预见的资料分析。
而写到这一资料分析的单独影响性,资料分析医护人员透露,主要就是大大降低了MIM的计算出来承担,进一步提高了MIM的工作效率和合理性。
熟悉的旁友,可戳右方重定向了解格外多~
学术论文重定向:GitHub重定向:SimMIM学术论文重定向:
治疗膝关节炎的好药信阳看妇科到哪个医院好
小孩子厌食是什么原因
昆明白癜风医院地址
江苏皮肤病哪家医院最好
肝胆内科
肝癌
治胃病
补益安神药
急性支气管炎咳嗽怎么治
- 众合科技(000925):本次限售股占到总股本的1.1465%
- “搞笑滑稽GIF动图:这年头这么主动的女生不多了”
- 海淀区(000931.SZ)完成董事会、监事会换届选举
- 众合科技(000925):本次限售股占发行股票的1.1465%
- 66岁张国立实情曝光,去烤肉店就餐好低调,步态缓慢气场依旧
- 搞笑gif:为啥我玩的游乐这两项和别人的不一样呢?
- 甘李顺丰(603087.SH)股东明华创新减持724.06万股
- 众合科技(000925):2022大奖为参股公司提供担保
- 还记得《红苹果乐园》的萧晴吗?如今留起短裙美到不敢认
- 得意了,头次见双人床旁边再加个上下铺,一口气睡4个人都不挤
- 美股变更 | 俄罗斯概念股盘前大跌 车里雅宾斯克钢铁(MTL.US)跌近20%
- 众合科技(000925):2022年度为参股公司透过担保
- 中国人寿(02628):林志权转任监管委员会主席
- 搞笑GIF趣图:都到鸡蛋了,这只螃蟹还在生死搏斗
