开源 BiT:计算机视觉大周围预训练的追求

作者:admin   发布时间:2020-07-11 12:26   浏览:
正文

原标题:开源 BiT:计算机视觉大周围预训练的追求

文 / Lucas Beyer 和 Alexander Kolesnikov,钻研工程师,Google Research

卧怛展览服务有限公司

计算机视觉周围的钻研者远大认为, 当代深度神经网络的发展起终必要操纵大量标记数据,如,现在最前沿 (SOTA) 的卷积神经网络 (CNN) 便必要在 OpenImages或 Places(其中包含超过 100 万张标签图像)等数据集上进走训练。但是,对许众清淡的行使开发者来说,搜集到有余众的标记数据颇为难得。

为缓解计算机视觉义务匮乏标记数据的情况,吾们清淡会操纵由通用数据(如 ImageNet) 预训练的模型,即将通用数据上习得的视觉特征在趣味义务上重复操纵。尽管这栽预训练模型在实践中相等有效,但在众环境中迅速掌握和新概念 理解上,仍存在短板。鉴于 BERT 和 T5在说话周围取得的挺进,吾们认为 大周围预训练同样能升迁计算机视觉模型的性能。

在《 Big Transfer (BiT):通用视觉外征学习》 (Big Transfer (BiT): General Visual Representation Learning) 一文中,吾们设计出一栽新手段,行使超出业界标准周围 (ILSVRC-2012) 的图像数据集对清淡特征进走有效的预训练。值得一挑的是,随着预训练数据量的增补,选择体面的归一化层和体面扩展架构容量相等主要。

预训练

为了钻研数据周围对模型的影响,吾们始末三个数据集重新注视了预训练竖立中常用的设计选项(如激活函数和权重的归一化、模型宽度/深度和训练计划):ILSVRC-2012(128 万张图像,1000 个类)、ImageNet-21k(1400 万张图像,约 21000 个类)以及 JFT(3 亿张图像,大约 18000 个类)。更主要的是,行使这些数据集,吾们能够专一钻研先前不曾足够追求的大型数据模式。

吾们最先钻研了数据集周围与模型容量之间的相互作用。为此,吾们选择了经典的 ResNet 架构进走训练。该架构性能卓异,同时浅易且可重现。从标准 50 层深的“R50x1”到 4 倍宽度、152 层深的“R152x4”的变体模型,吾们在上述每个数据集上都进走了训练。吾们始末不悦目察发现了一个主要结论: 要足够行使大量数据的上风,就必须增补模型容量。下图左侧面板中的红色箭头便表清新这一结论:

左侧:想要有效行使大型数据集进走预训练,就必要增补模型容量。红色箭头表清新以下内容:在较大的 ImageNet-21k 上预训练后,幼型架构(较幼的点)的性能会变差,而大型架构(较大的点)的性能则有所改善。 右侧:仅行使较大数据集进走预训练意外会挑高性能,例如,从 ILSVRC-2012 改用相对较大的 ImageNet-21k 后,性能没升迁。不过,始末增补计算预算和训练时间,性能清晰有所升迁

经不悦目察后,吾们得出第二个更为主要的结论: 训练时间的作用不容无视。倘若不调整计算预算、不增补训练时间,而只增补预训练所用数据集的周围,模型性能能够会变得更差。但是,调整新数据集的训练时间后,性能得到了隐晦升迁。

吾们在追求期间发现另一项修改对于性能升迁也相等关键。吾们由此得出结论,将批标准化(Batch Normalization,BN,一栽可始末标准化激活函数实现安详训练的通用层)替换为组标准化 (Group Normalization,GN) 对于大周围预训练相等有利。

最先,BN 的状态(神经激活函数的均值和方差)必要在预训练和迁移之间进走调整,而 GN 是无状态的,从而避免了这一难题。其次,BN 操纵批处理级别的统计数据,对于每个设备上的幼型批次大幼来说并不能靠,而大型模型无法避免在众设备上进走训练。原由 GN 不必要计算批处理级别的统计新闻,所以也避免了这个题目。

请参阅吾们的论文,以便晓畅更众技术细节,包括如何操纵 权重标准化(Weight Standardization) 技术来确保走为的安详。

预训练策略汇总:操纵标准的 ResNet,增补深度和宽度,将 BatchNorm (BN) 替换为 GroupNorm 和权重标准化 (GNWS),然后始末一个大型通用数据集进走训练,并完善众次迭代

迁移学习

按照 BERT 在说话周围竖立的手段,吾们行使来自感趣味的各项“下游”义务的数据对预训练的 BiT 模型进走了微调,这些义务能够只有幼批标记数据。原由预训练模型对视觉世界的理解能力较高,所以这个浅易的策略专门有效。

微调时必要选择大量超参数,如学习率、权重衰减等。吾们挑出了一个启发式的超参数选择手段,名为 “BiT-HyperRule”。该手段只以高层次的数据集特征为基础,如图像分辨率和标签样本数目。吾们已成功将 BiT-HyperRule 手段行使到 20 众项从自然图像到医学影像平分别的义务上。

经预训练后,BiT 模型可按照任何义务进走微调,产品展示即使挑供的标签样本专门有限也无妨

将 BiT 迁移到仅有幼批示例的义务后,吾们发现:倘若同时增补用于预训练的通用数据量和架构容量,生成的模型清晰能更快适宜新数据。在拥有 1 个样本和 5 个样本的 CIFAR(见下图)上,倘若在 ILSVRC 上进走预训练,则增补模型容量所带来的添好比较有限(绿色弯线)。但是,倘若在 JFT 上进走大周围预训练,每次增补模型容量都会带来重大添好(棕色弯线)。BiT-L 在 1 个样本上的实在率可达 64%,在 5 个样本上的实在率可达 95%。

弯线描绘了超过 5 次自力运走(光点)后,模型迁移到 CIFAR-10(每个类有 1 张或 5 张图像,共 10 张或 50 张图像)上的平均实在率。原形表明,在大型数据集上进走预训练的大型架构更能发挥数据的作用

为了验证该效果具有远大性,吾们还在 VTAB-1k 上对 BiT 进走了评估。VTAB-1k 是由 19 个分别义务构成的义务包,每个义务只有 1000 个标签样本。吾们将 BiT-L 模型迁移到一切这些义务上,总体得分为 76.3%,比之前的最高水准高出了 5.8%。

吾们按照几个标准计算机视觉基准(如 Oxford Pets、Flowers、CIFAR 等)对 BiT-L 进走了评估,并由此表明,大周围预训练和浅易迁移的策略相等有效,即使挑供的数据量仅属于中等程度也是这样。综上所述,BiT-L 已达到或超越了现在的最高水准。末了,吾们在 MSCOCO-2017 检测义务中将 BiT 用作 RetinaNet 的骨干,同时证实,即使是处理这栽组织化输出义务,操纵大周围预训练也大有裨好。

左侧:在各栽标准计算机视觉基准,BiT-L 与先前最前沿的通用模型的实在率。右侧:在 MSCOCO-2017 中将 BiT 用作 RetinaNet 骨干所得出的平均精度 (AP) 效果

必要强调的是,在吾们考虑的一切分别下游义务中,吾们不会对义务逐个进走超参数调整,而是借助 BiT-HyperRule。如吾们的论文所述,在有余大的验证数据上调整超参数能够获得更好的效果。

在 ObjectNet 上的评估

为进一步评估 BiT 在更具挑衅的场景中的郑重性,吾们在比来引入的 ObjectNet数据集上对经 ILSVRC-2012 微调过的 BiT 模型进走了评估。ObjectNet 更为挨近实在场景,其中,对象能够出现在非典型的上下文中,并以非典型的视角和旋转表现。乐趣的是,受好于更大的数据和架构容量,BiT-L 在这个义务上取得了令人瞩方针收获:实现了高达 80.0% 的 top-5 实在率,比之前的最高水准 (SOTA) 高出了近 25%。

BiT 在 ObjectNet 数据集上得出的评估效果。左侧:top-5 实在率,右侧:top-1 实在率

结论

吾们发现,在行使大量通用数据进走预训练的情况下,一个浅易的迁移策略就会让效果大幅改不悦目,不管是对大型数据集,照样对数据极少、甚至每个类仅有一张图像的义务来说均是这样。

吾们 已经发布 BiT-M 模型(经 ImageNet-21k 预训练的 R152x4 模型),同时还挑供了在 Jax、TensorFlow 2 和 PyTorch 中进走迁移的 Colab。除了发布代码外,吾们还向读者介绍了相关如何操纵 BiT 模型的 TensorFlow 2 脱手教程 。吾们憧憬从业者和钻研人员能够从中获好,并用该模型替代常用的 ImageNet 预训练模型。

致谢

吾们要感谢 Xiaohua Zhai、Joan Puigcerver、Jessica Yung、Sylvain Gelly 和 Neil Houlsby,他们共同撰写了 BiT 论文,并参与了 BiT 开发的各项环节,同时也要感谢苏黎世的 Brain 团队。吾们还要感谢 Andrei Giurgiu 在调试输入流水线方面给予的协助。感谢 Tom Small,是他制作了这篇博文中的动画。末了,感趣味的读者能够晓畅一下由 Google Research 的 同事开发的一些与本倾向相关的手段、 Noisy Student 模型, 以及 Facebook Research 发布的一篇高度相关的论文 追求弱监督预训练的局限(Exploring the Limits of Weakly Supervised Pretraining)。

伴随着过去几年投资的快速增长,民营医疗在机构数量、门诊和住院量上都获得了较快的增长,但正如我们在之前的报告中所分析的那样,民营医疗的增长主要依靠数量的叠加,平均每个机构的门诊量和住院量实际并未增长。与之前几年不同,进入2019年之后,民营医院的机构数量虽然仍保持了较快增长(6.9%),但无论是从年增速、整体占比还是均机构的病人数量来看,以民营为核心的非公医疗出现了整体的下滑。

如日前预告,今天上午10点,Redmi 9正式首卖,4GB 64GB 799元、4GB 128GB 999元、6GB 128GB 1199元。与此同时,小米手环5迎来新一轮开卖,标准版189元、NFC 229元。

原标题:DNF:萌新应该都知道的小技巧,掌握之后不再是萌新

张歆

原标题:你有没有被小樱的某个瞬间圈粉?“新三忍”是平民忍者最后的倔强

热点文章
近期更新
友情链接

Powered by 镇沅彝族哈尼族拉祜族自治嫩不环保有限公司 @2018 RSS地图 html地图

Copyright 站群 © 2013-2018 版权所有