Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环为基础(RNN, LSTM等)。从本质上来讲,RNN是以串行的方式来处理数据,对应到NLP任务上,即按照句中词语的先后顺序,每一个时间步处理一个词语。
相较于这种串行模式,Transformer的巨大创新便在于并行化的语言处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系,且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系,来决定应该对哪些词或短语赋予更多的注意力。
相较于RNN必须按时间顺序进行计算,Transformer并行处理机制的显著好处便在于更高的计算效率,可以通过并行计算来大大加快训练速度,从而能在更大的数据集上进行训练。例如GPT-3(Transformer的第三代)的训练数据集大约包含5000亿个词语,并且模型参数量达到1750亿,远远超越了现有的任何基于RNN的模型。
现有的各种基于Transformer的模型基本只是与NLP任务有关,这得益于GPT-3等衍生模型的成功。然而,最近ICLR 2021的一篇投稿文章开创性地将Transformer模型跨领域地引用到了计算机视觉任务中,并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代,甚至可能完全取代传统的卷积操作。 其中,Google的Deepmind 研究科学家Oriol Vinyals的看法很直接:告别卷积。 以下为该论文的详细工作:
基本内容 Transformer的核心原理是注意力机制,注意力机制在具体实现时主要以矩阵乘法计算为基础,这意味着可以通过并行化来加快计算速度,相较于只能按时间顺序进行串行计算的RNN模型而言,大大提高了训练速度,从而能够在更大的数据集上进行训练。 此外,Transformer模型还具有良好的可扩展性和伸缩性,在面对具体的任务时,常用的做法是先在大型数据集上进行训练,然后在指定任务数据集上进行微调。并且随着模型大小和数据集的增长,模型本身的性能也会跟着提升,目前为止还没有一个明显的性能天花板。
Transformer的这两个特性不仅让其在NLP领域大获成功,也提供了将其迁移到其他任务上的潜力。此前已经有文章尝试将注意力机制应用到图像识别任务上,但他们要么是没有脱离CNN的框架,要么是对注意力机制进行了修改,导致计算效率低,不能很好地实现并行计算加速。因此在大规模图片分类任务中,以ResNet为基本结构的模型依然是主流。
这篇文章首先尝试在几乎不做改动的情况下将Transformer模型应用到图像分类任务中,在 ImageNet 得到的结果相较于 ResNet 较差,这是因为Transformer模型缺乏归纳偏置能力,例如并不具备CNN那样的平移不变性和局部性,因此在数据不足时不能很好的泛化到该任务上。 然而,当训练数据量得到提升时,归纳偏置的问题便能得到缓解,即如果在足够大的数据集上进行与训练,便能很好地迁移到小规模数据集上。 在此基础上,作者提出了Vision Transformer模型。下面将介绍模型原理。
模型原理 该研究提出了一种称为Vision Transformer(ViT)的模型,在设计上是尽可能遵循原版Transformer结构,这也是为了尽可能保持原版的性能。 虽然可以并行处理,但Transformer依然是以一维序列作为输入,然而图片数据都是二维的,因此首先要解决的问题是如何将图片以合适的方式输入到模型中。本文采用的是切块 + embedding的方法,如下图:
首先将原始图片划分为多个子图(patch),每个子图相当于一个word,这个过程也可以表示为:
其中x是输入图片,xp则是处理后的子图序列,P2则是子图的分辨率,N则是切分后的子图数量(即序列长度),显然有。由于Transformer只接受1D序列作为输入,因此还需要对每个patch进行embedding,通过一个线性变换层将二维的patch嵌入表示为长度为D的一维向量,得到的输出被称为patch嵌入。 类似于BERT模型的[class] token机制,对每一个patch嵌入,都会额外预测一个可学习的嵌入表示,然后将这个嵌入表示在encoder中的最终输出()作为对应patch的表示。在预训练和微调阶段,分类头都依赖于。 此外还加入了位置嵌入信息(图中的0,1,2,3…),因为序列化的patch丢失了他们在图片中的位置信息。作者尝试了各种不同的2D嵌入方法,但是相较于一般的1D嵌入并没有任何显著的性能提升,因此最终使用联合嵌入作为输入。 模型结构与标准的Transformer相同(如上图右侧),即由多个交互层多头注意力(MSA)和多层感知器(MLP)构成。在每个模块前使用LayerNorm,在模块后使用残差连接。使用GELU作为MLP的激活函数。整个模型的更新公式如下:
其中(1)代表了嵌入层的更新,公式(2)和(3)则代表了MSA和MLP的前向传播。 此外本文还提出了一种直接采用ResNet中间层输出作为图片嵌入表示的方法,可以作为上述基于patch分割方法的替代。
模型训练和分辨率调整 和之前常用的做法一样,在针对具体任务时,先在大规模数据集上训练,然后根据具体的任务需求进行微调。这里主要是更换最后的分类头,按照分类数来设置分类头的参数形状。此外作者还发现在更高的分辨率进行微调往往能取得更好的效果,因为在保持patch分辨率不变的情况下,原始图像分辨率越高,得到的patch数越大,因此得到的有效序列也就越长。
对比实验 4.1 实验设置 首先作者设计了多个不同大小的ViT变体,分别对应不同的复杂度。
其中ViT模型都是在JFT-300M数据集上进行了预训练。从上表可以看出,复杂度较低,规模较小的ViT-L在各个数据集上都超过了ResNet,并且其所需的算力也要少十多倍。ViT-H规模更大,但性能也有进一步提升,在ImageNet, CIFAR,Oxford-IIIT, VTAB等数据集上超过了SOTA,且有大幅提升。 作者进一步将VTAB的任务分为多组,并对比了ViT和其他几个SOTA模型的性能:
可以看到除了在Natrual任务中ViT略低于BiT外,在其他三个任务中都达到了SOTA,这再次证明了ViT的性能强大。 4.3 不同预训练数据集对性能的影响 预训练对于该模型而言是一个非常重要的环节,预训练所用数据集的规模将影响模型的归纳偏置能力,因此作者进一步探究了不同规模的预训练数据集对性能的影响:
上图展示了不同规模的预训练数据集(横轴)对不同大小的模型的性能影响,注意微调时的数据集固定为ImageNet。可以看到对大部分模型而言,预训练数据集规模越大,最终的性能越好。并且随着数据集的增大,较大的ViT模型(ViT-H/14)要由于较小的ViT模型(ViT-L)。 此外,作者还在不同大小的JFT数据集的子集上进行了模型训练:
可以发现ViT-L对应的两个模型在数据集规模增大时有非常明显的提升,而ResNet则几乎没有变化。这里可以得出两个结论,一是ViT模型本身的性能上限要优于ResNet,这可以理解为注意力机制的上限高于CNN。二是在数据集非常大的情况下,ViT模型性能大幅超越ResNet, 这说明在数据足够的情况下,注意力机制完全可以代替CNN,而在数据集较小的情况下(10M),卷积则更为有效。 除了以上实验,作者还探究了ViT模型的迁移性能,实验结果表明不论是性能还是算力需求,ViT模型在进行迁移时都优于ResNet。
可视化分析 可视化分析可以帮助我们了解ViT的特征学习过程。显然,ViT模型的注意力一定是放在了与分类有关的区域:
总结 本文提出的基于patch分割的图像解释策略,在结合Transformer的情况下取得了非常好的效果,这为CV领域的其他研究提供了一个很好的思路。此外,接下来应该会出现许多基于这篇工作的研究,进一步将这一划时代的模型应用到更多的任务上,例如目标检测、实例分割、行为识别等等。此外,也会出现针对patch分割策略的改进,来进一步提高模型性能。
原文标题:告别 CNN?一张图等于 16×16 个字,计算机视觉也用上 Transformer 了
原文标题:告别 CNN?一张图等于 16×16 个字,计算机视觉也用上 Transformer 了
文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。
高通交付首批CloudAI100加速器和边缘方案开发套件:从终端到云端AI的联合
在 2019 年 4 月,高通公司发布了一款专用于云端 AI 加速的处理器 Qualcomm Clo….
OPPO Reno4 Pro与其他5G手机的最大区别,就是格外的轻薄。一般来说,性能好,特别是一直主….
全球人工智能在电信市场研究调查代表了对市场的全面假设,并附有必要的未来估计,行业认可的数据以及市场事….
安森美XGS图像传感器获选为“最具创新价值产品”:人工智能和5G技术的结合
随着世界经济的复苏和产业升级,越来越多的新技术运用到工厂企业和各行业当中去。在这个升级换代的形势下,….
ABEJA加入了由罗兰·贝格(Roland Berger)在2020年建立的“价值协作网络”(VCN….
Gartner 2020年新兴技术成熟度曲线项技术概况,它们将在未来五到十年内对社会及….
深度学习属于人工智能的一种,在医疗领域,它可以准确地利用CT扫描图像找到大脑供血动脉的阻塞,由于这种….
数据显示,2019年我国智慧物流市场规模为5074亿元,同比增长23.10%,预计到2020年,其市….
10 月 20 日,美国司法部提起了一桩反垄断案,指控谷歌通过反竞争手段,维护其在搜索引擎和线上广告….
随着世界经济的复苏和产业升级,越来越多的新技术运用到工厂企业和各行业当中去。在这个升级换代的形势下,….
36岁的联想,“转行”干起了服务业。刚刚结束的联想Techworld 2020大会,第一日主题是“行….
瑞萨电子推出RA6T1 MCU,适用于电机控制及基于AI的端点预测性维护
瑞萨电子物联网及基础设施事业本部高级副总裁Roger Wendelken表示:“随着家电、楼宇和工业….
2020年,随着5G商业化落地加速,AI+IoT时代全面开启,伴随着新基建带来的广受益效应,还有疫情….
随着社会系统和数据量的飞跃性增加,人工智能的工程系统越来越普遍与复杂,传统系统工程TSE(Tradi….
弗洛伊德说:“英伟达在竞争激烈的竞争者中表现出色。” 与(Nvidia)V100(GPU)相比,他们….
如果我们巧妙地越过专利组合的那薄弱的威胁,以及它对 Cerebras 的可能性证明所鼓舞的潜在初创公….
C114讯 10月27日消息(艾斯)市场研究公司Omdia的最新报告显示,在2020年9月24日举行….
波士顿咨询集团(Boston Consulting Group)和《麻省理工学院斯隆管理评论》(MI….
Noritaka Ikeda: 这些图像传感器用于自动驾驶(AD)和高级驾驶员辅助系统(ADAS)的….
“评估是对即将到来的数字化时代,第四次工业革命以及RTA内人工智能范围的扩大的需求的回应。它涵盖了三….
在手机厂商大力推进5G手机普及之际,vivo近日发布了6G系列白皮书,公布了在6G时代的应用场景畅想….
据美国白宫高级技术官员迈克尔·克拉特西奥斯(Michael Kratsios)表示,特朗普政府正在完….
药品购买,能否像自动贩卖机一样,在急需时即可在自助机柜直接下单立刻拿到?传统上,我们依赖24小时营业….
华为Mate40系列全球线上发布会结尾时,一段彩虹与曙光的视频让不少网友泪目。许多人可能都将目光放在….
当然,人工智能所带来的巨大机遇不仅局限在物流领域,而是包含多个方面。受益于我国人工智能领域市场需求的….
现在,如果数据不感到痛苦,那么至少Singer提供给生物的道德地位的原因之一就无法实现。但是即使没有….
今日,人工智能视觉创作AppVersa宣布获得数千万美元B轮融资,由B站领投、金浦投资跟投,公司估值….
10月27日,在万向区块链实验室主办的第六届区块链全球峰会上,多位业内人士发表了对区块链技术与其他技….
谷歌今天在其搜索工具中添加了一个新的“哼歌识曲”功能,你可以哼出(或吹口哨或唱出)那首在你脑海里循环….
同属“AI四小龙”的旷视科技则早在2019年8月25日披露港股IPO的招股书,在港股上市进程暂停后,….
10 月 28 日早间消息,知情人士称,苹果公司已经在今年稍早时候收购了巴塞罗那公司 Vilynx,….
近日,创新奇智推出赋能物流供应链领域的全新产品AI无感知扫码终端,助力现代化物流仓储设施建设。
会上,产业经济决策智库雨前顾问发布了《成都人工智能产业创新发展报告2020》(以下简称《报告》),解….
据《财经涂鸦》消息,北京积加科技有限公司(下称积加科技)近日获元璟资本新一轮股权投资。积加科技(AD….
据公司情报专家《财经涂鸦》消息,北京必示科技有限公司(下称必示科技)近日获红杉资本中国新一轮股权融资….
据公司情报专家《财经涂鸦》消息,北京必示科技有限公司(下称“必示科技”)近日获红杉资本中国新一轮股权….
中国移动动感地带5G合伙人&AI宣推官张艺兴10月7日生日当天,热搜话题#张艺兴客服语音包#引起热议….
华为品质专线解决方案最早源自金融行业对高品质网络的需求。随着企业数字化转型的加速,品质专线的超低时延….
科技对于生活而言究竟扮演的是什么角色?在科技至上者的眼中,科技是生活、社会进步的唯一钥匙,是人类长河….
10月20日,迪拜世博会中国参展线上路演和授牌仪式在北京中国贸促会举行。迪拜世博会中国馆组委会宣布,….
据美国白宫高级技术官员迈克尔克拉特西奥斯(Michael Kratsios)表示,特朗普政府正在完善….
目前,复旦微基于28nm工艺制程的 FPGA 产品已经多达数十款。此外,公司正在28nm工艺制程上研….
2020年3月,深圳市大疆创新科技有限公司(简称大疆)发布了RoboMasterEP机器人教育套装。….
近日,HPE公司宣布将获得1.6亿美元资金来打造一台超级计算机LUMI,据悉,这台超级计算机的理论峰….
如何让自动驾驶汽车致盲?如何远程劫持农业无人机?利用AI竟然能变脸蒋昌建?在GeekPwn舞台上,极….
律师群体在统计与数学方面一直表现得比较消极。传统上,他们的观点来自数年甚至数十年的从业积累与个人洞见….
首席产品官Cyra Richardson负责领导风河的产品战略。Cyra Richardson是人工….
今日,vivo 研发总部开工仪式于东莞长安举行。vivo 研发总部的动工标志着公司将持续加大创新投入….
Google采取了一项大胆的新举措,扩大了街景视图的视野,现在已经走向了大海。在世界海洋日为6月8日….
近期,张亚勤教授在CNCC 2020上带来以“智能技术趋势”为主题的演讲,随着数字化3.0的到来,张….
Biu~哈喽大家好,今天接着聊聊ADK的新功能。在ADK6.4的release中,有一个sink 新功能被正式release——Google Fast Pa…
内容:学习实现小型嵌入式语言的方法,学习单片机处理、显示信息的技术。…
好奇~!谷歌的 Edge TPU 专用 ASIC 旨在将机器学习推理能力引入边缘设备
在去年于旧金山召开的 Google Next 大会上,Injong Rhee 通过主题演讲披露了谷歌公司的两款全新硬件产品:一款开发单片,外加…
随着5G网络的深入推进,物联网的细分市场越来越多,科技企业纷纷加码,欲抢先布局占据有利位置。其中,智能汽车是未来生活的重要…
谷歌的Dataset Search开放至今,为什么还搜不到我的数据集?
本月早些时候,谷歌推出了数据集搜索专用引擎 Dataset Search,这是一个建立在元数据上的搜索引擎,可以对网络上数千个存储库…
2016年10月,新成立的国防创新委员会首次提出了一系列建议(该委员会是美国国防部高级领导的顾问机构,成员包括来自私营部门、…
1、刷屏的谷歌“猜画小歌“ 7月18日 Google 推出首款微信小程序,它采用了“人类绘画+人工智能猜题”的模式,让很多人…
从“跳一跳”之后,又有一款小程序游戏因其独特好玩的个性,在朋友圈C位出道了。 几天前,谷歌发布了一款名为“猜画小歌”…
最精练的基于STM32的PLC解释器核心算法源代码!!! 不仅可用于可编程解释执行的内核代码,也可以用于IC设计的IP核…
解析Android移动设备光电传感器技术在移动技术中,传感器是被测量信号输入的首要技术,也是传感器系统中的元件组成部分,它包括…