{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019

admin 6个月前 (04-16) 科技 50 1

诚信‘(《在》)’线官网会员帐查『询』

诚信‘(《在》)’线官网会员帐查『询』(原诚信‘(《在》)’线官网)现已开放阳光‘(《在》)’线手机版、阳光‘(《在》)’线电脑客户端下载。阳光‘(《在》)’线娱乐游戏公平、公开、〖公正〗, 用[实力赢取信誉。

,

论文[ 『提出』‘了’[实时<「的」>超轻量级two-stage detector ThunderNet,“靠着精心设计<「的」>主干网” 络以及提高[特征表达能『力<「的」>』CEM〖【((和))】〗SAM模块,{使 用[}很少<「的」>计算量就能「超越」目前<「的」>one-stage detectors,‘(《在》)’ARM「平台」也达到‘了’实时性,GPU<「的」>速度更是达到267fps

【来源】:【晓飞<「的」>算法工程笔记】 公众号

论文: ThunderNet: Towards Real-time Generic Object Detection

  • 论文地址:https://arxiv.org/abs/1903.11752

Introduction

  one-stage detector〖【((和))】〗two-stage detector分别‘有’着实时优势〖【((和))】〗准确率优势。two-stage detector实时性较差,几乎不能‘(《在》)’移动设备上{运行}, 尽管已经‘有’‘了’[light-head〖版〗本,〖但 对[于小主〗干网络【而】言,这依然是过度设计<「的」>。【而】one-stage由于缺少ROI-wise《<「的」>特征》提取,准确率一直较差

  为此,论文『提出』TunderNet,一个超轻量级<「的」>two-stage detector。‘(《在》)’综合考虑输入分辨率,主干网络〖【((和))】〗detection head后,整体架构如图2,主要‘有’两【部分】创新:

  • Backbone part,‘『提出』轻量级’主干网络SNet
  • Detection part,『参考』Light-Head R-CNN<「的」>设计, 对[RPN〖【((和))】〗R-CNN〖子网进〗一步压缩。 对[于小主干〖【((和))】〗小特征图“产生<「的」>性能退化”【问题】,《『提出』两个高效》<「的」>block:Context Enhancement Module(CEM),组合多尺寸《<「的」>特征》图来整合本地〖【((和))】〗全局上下文(信<息>);Spatial Attention Module(SAM),{使 用[}RPN中<「的」>上下文(信<息>)来优化RoI warping“《<「的」>特征》分布”

  ThunderNet准确率比目前<「的」>轻量级one-stage detector都要高,『且仅 用[‘了’很』少<「的」>计算量,‘(《在》)’ARM〖【((和))】〗x86设备上分别达到‘了’24.1fps〖【((和))】〗47.3fps

ThunderNet

Backbone Part

  • Input Resolution

  two-stage detector<「的」>输入通常都很大,为‘了’{减少}计算量,ThunderNet{使 用[}$320\times 320$<「的」>输入分辨率。“需要注意”,“输入”分辨率应该与主干网络<「的」>能力匹配

  • Backbone Networks

  由于图像分类〖【((和))】〗图像检测需要主干网络 用[不同<「的」>属性,简单地直接应 用[图像分类<「的」>网络(作为)主干不是【最】优<「的」>:

  1. Receptive field:『感受』域是『卷积』网络中很『重要』<「的」>特性,大<「的」>感受域能更‘有’效地利 用[更多<「的」>上下文(信<息>)以及处理远距离<「的」>像素间关系,这 对[定位任务相当『重要』,(特别是大目标)
  2. Early-stage and late-stage features:主干网络<「的」>early-stage‘特征图较大’,‘低层特征能’表达空间细节,【而】late-stage《<「的」>特征》图较小,〖高层特征更具区分能〗力。【一般定位任务 对[】低层特征更敏感,高层特征 对[分类任务更『重要』。‘(《在》)’实际中发现,‘(《在》)’大网络中定位任务比分类任务要难,表明低层特征 对[定位更『重要』,「【而】过小<「的」>网络」由于弱表“达”能力限制‘了’两种任务(<「的」>准确率),表明低层〖【((和))】〗高层特征都是『重要』<「的」>

  目前<「的」>轻量级主干网络<都不>符合上面<「的」>因素:ShuffleNetV1/V2限制‘了’感受域<「的」>大小(121 pixels vs. 320 pixels,(这里<「的」>计算方法暂时不‘了’解,“另外下面说”V2为121 pixels,跟这里不一致,希望‘了’解<「的」>读者能留言告知)),ShuffleNetV2〖【((和))】〗MobileNetV2【则缺少‘了’】early-stage《<「的」>特征》,【而】Xception“则没”‘有’足够<「的」>高层特征

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第1张

  基于以上<「的」>观察,《论文改造》ShuffleNetV2,设计‘了’轻量级主干网络SNet 用[于实时检测,『共』3个〖版〗本: SNet49更快速推理;SNet535更准确;SNet146是耗时〖【((和))】〗准确率<「的」>折中,〖结〗构如表1所示,主要改进如下:

  • 〖<将>〗所‘有’3x3『<「的」>』深度『卷积』替换成5x5<「的」>深度『卷积』,‘扩大感受域’(121 to 193 pixels)但不会带来过多额外<「的」>计算
  • 对[于SNet146〖【((和))】〗SNet535,移除Conv5,然后增加early-stage‘<「的」>层<「的」>’channel「数」,这样能不带来过多额外<「的」>计算<「的」>情况下提供更多低层特征
  • 对[于SNet49,〖<将>〗conv5<压缩到>512维,然后增加early-stage‘<「的」>层<「的」>’channel「数」,【这样能很好地】平衡低层特征〖【((和))】〗高层特征

Detection Part

  • Compressing RPN and Detection Head

  Light-Head R-CNN虽然已经够轻量级‘了’,但是相 对[于小主干网络,<仍>然是过度设计<「的」>。为‘了’解决这一【问题】,论文〖<将>〗256-channel 3x3『卷积』压缩为5x5深度『卷积』〖【((和))】〗256-channel 1x1『卷积』<「的」>组合,〖加大『卷积』核大小来增加〗感受域,【而】anchor box<「的」>尺寸〖【((和))】〗长宽比分别为${322,642,1282,2562,512^2}$〖【((和))】〗${1:2,3:4,1:1,4:3,2:1}$
  对[于detection head,Light-Head R-CNN‘(《在》)’RoI warping前生成很精简特征图(thin feature map)大小$\alpha\times p\times p$ ,$\alpha=10$,$p=7$为池化大小。‘由于主’干网络更小,缩小$\alpha=5$来移除多余<「的」>计算, 用[PSRoI align($(p\times p\times c)\times w\times h$ to$c\times p\times p$)进行RoI warping,〖<将>〗245-d<「的」>RoI特征输出为$\alpha$-d,之后‘(《在》)’R-CNN【子网接一个】1024-d【全连接】

  • Context Enhancement Module(CEM)

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第2张

  Light-Head R-CNN{使 用[}Global Convolutional Network(GCN)<来产>生精简特征图,GCN{使 用[}$k\times 1 + 1\times k$〖【((和))】〗$1\times k + k\times 1$『卷积』代替$k\times k$『卷积』, 这样能[提升感受域,但会带来两倍<「的」>计算量,不能采 用[。(因此),{论文}借鉴FPN<「的」>思想, 『提出』‘了’[Context Enhancement Module(CEM)来整合多尺度<「的」>局部上下文(信<息>)〖【((和))】〗全局<「的」>上下文(信<息>)

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第3张

  CEM融合$C_4$,$C_5$〖【((和))】〗$C_{glb}$,其中$C_{glb}$为global average pooling<「的」>全局特征,然后 用[1x1『卷积』〖<将>〗每组特征图压缩{「至」}$\alpha\times p\times p=245$,再$C_5$〖【((和))】〗$C_{glb}$进行2x上采样〖【((和))】〗直接复制(broadcast),最后进行融合。通过利 用[局部〖【((和))】〗全局(信<息>),CEM能够‘有’效地‘扩大感受域’〖【((和))】〗改善精简特征图<「的」>表达能力。『『 对[比』』FPN,CEM精算量相当小

  • Spatial Attention Module

  由于ThunderNet{使 用[}‘了’更小<「的」>主干网络〖【((和))】〗输入分辨率,这增加‘了’检测<「的」>难度。论文『提出』Spatial Attention Module(SAM),‘(《在》)’空间维度 对[RoI warping前《<「的」>特征》图进行re-weight,核心思想是利 用[RPN<「的」>(信<息>)来优化特征图“《<「的」>特征》分布”

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第4张

  RPN能够识别目标区域,(因此),RPN<「的」>中间特征能 用[来区分前景特征。SAM接受RPN<「的」>中间特征$\mathcal{F}{RPN}$〖【((和))】〗来自CEM《<「的」>特征》$\mathcal{F}{CEM}$,输出$\mathcal{F}^{SAM}$。整体流程如图4,$\theta$为维度转化函「数」,〖<将>〗特征图转化为特定channel,一般 用[1x1『卷积』,最后<「的」>Sigmoid〖<将>〗「数」值限制‘(《在》)’$[0,1]$

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第5张

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第6张

  SAM包含两个函「数」,第一个是推理函「数」, 用[来加强前景特征同时抑制背景特征。另一个是反向传播函「数」,「因为」SAM增加‘了’额外<「的」>R-CNN(梯度到)RPN,需要稳定RPN<「的」>训练,RPN特征$i$与全部SAM特征$j$相关

Experiments

Implementation Details

  每张图训练〖【((和))】〗测试分别‘有’2000〖【((和))】〗200 RoIs,输入分辨率为$320\times 320$,{使 用[}多尺寸训练${240,320,480}$,{使 用[}SSD<「的」>「数」据增强,‘(《在》)’VOC〖【((和))】〗COCO分别训练62.5K〖【((和))】〗375K,{使 用[}OHEM〖【((和))】〗Soft-NMS

Results on PASCAL VOC

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第7张

  可以看到,ThunderNet 能达到[SOTA,【而】且相 对[于同准确率<「的」>模型,计算量降低‘了’很多

Results on MS COCO

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第8张

  MS COCO「数」据集包含很多小物体,尽管ThunderNet输入分辨率〖【((和))】〗主干网络都较小,但是准确率依然能‘(《在》)’大幅{减少}参「数」量<「的」>情况下达到目前<「的」>SOTA

Ablation Experiments

  • Input Resolution

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第9张

  可以看到,〖小〗主干网络与大输入分辨率〖【((和))】〗大主干网络〖【((和))】〗小输入分辨率都达不到【最】优<「的」>结果,两者需要match

  • Backbone Networks

  论文〖<将>〗SNet146〖【((和))】〗SNet49(作为)baselines, 对[主干网络<「的」>设计进行实验『『 对[比』』:

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第10张

  1. 5×5 Depthwise Convolutions,『『 对[比』』$5\times 5$深度『卷积』〖【((和))】〗$3\times 3$『卷积』。【从】5(b)〖【((和))】〗5(c) 可以看出[,$5\times 5$『卷积』提供<「的」>大感受域 对[目标检测很『重要』
  2. Early-stage and Late-stage Features,『『 对[比』』early-stage〖【((和))】〗late-stage特征<「的」>平衡关系。【从】5(d)、5(f)〖【((和))】〗5(g) 可以看出[,高层特征 对[分类‘有’很多作 用[,但是 对[目标检测则不一定作 用[。(因此),需要平衡高低层特征

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第11张

  1. Comparison with Lightweight Backbones,〖<将>〗SNet与其它轻量级主干网络进行『『 对[比』』,SNet检测准确率是最好<「的」>
  • Detection Part

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第12张

  论文〖<将>〗压缩后<「的」>Light-Head R-CNN with SNet146(作为)baseline, 对[ThunderNet<「的」>detection part<「的」>设计进行『『 对[比』』:

  1. Baseline,性 能达到[21.9AP
  2. RPN and R-CNN subnet, 用[5x5深度『卷积』代替RPN中<「的」>3x3『卷积』,{减少}28%参「数」量,保持‘了’差不多(<「的」>准确率)(7b)。〖<将>〗R-CNN子网<「的」>【全连接】输出减半{「至」}1024,{减少}13%参「数」量,『准确率降』低0.2AP(7c)
  3. Context Enhancement Module,〖<将>〗CEM应 用[到RPN〖【((和))】〗RoI warping,『『 对[比』』7c能提升1.7AP(7d)

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第13张

  1. Spatial Attention Module,仅{使 用[}SAM能提升1.3AP〖【((和))】〗增加5%计算量(7c),图6可视化‘了’7c〖【((和))】〗7e RoI warping前《<「的」>特征》图,SAM明显能加强前景特征
  2. 最后同时加入CEM〖【((和))】〗SAM,『『 对[比』』baseline能提升1.7AP(7f)
  • Balance between Backbone and Detection Head

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第14张

  论文『『 对[比』』‘了’主干网络〖【((和))】〗head<「的」>关系,large-backbone-small-head(<「的」>准确率)要高点,可能由于small-backbone-large-head<「的」>主干网络《<「的」>特征》太弱‘了’,{导致}head过度设计

  • Inference Speed

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第15张

  论文『『 对[比』』‘了’不同设备上<「的」>不同网络<「的」>推理速度,Yhunder with SNet49‘(《在》)’ARM〖【((和))】〗CPU上都 能达到[实时性,【而】所‘有’<「的」>网络‘(《在》)’GPU‘上都大于’200fps,【速度相当劲爆】

CONCLUSION

  论文[ 『提出』‘了’[实时<「的」>轻量级two-stage detector ThunderNet,‘(《在》)’backbone【部分】,{使 用[}一个精心设计<「的」>目标检测专 用[<「的」>轻量级网络SNet,‘(《在》)’detection【部分】,采 用[极度精简<「的」>detection head〖【((和))】〗RPN,『提出』Context Enhancement Module〖【((和))】〗Spatial Attention Module 用[于增强特征表达能力,最后 对[输入分辨率、backbone〖【((和))】〗detection head进行‘了’缩减〖【((和))】〗平衡。ThunderNet{使 用[}很少量<「的」>计算量超越‘了’目前<「的」>one-stage detectors,‘(《在》)’ARM「平台」也达到‘了’实时性,GPU<「的」>速度更是达到267fps

『参考』内容

  • Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network



写作不易,未经允许不得转载~
「更多内容请关注」 微信公众号【晓飞<「的」>算法工程笔记】

{佳木}斯社区:ThunderNet :像闪电一样,旷视再出超轻量级检测(器),(高达)267fps | ICCV 2019 第16张

网友评论

  • (*)

最新评论

  • 申傅官网 2020-04-16 03:23:04 回复

    Sunbet 申博Sunbet 申博www.0379st.com信誉来自于每一位客户的口碑,Sunbet贴心的服务,让你尊享贵宾通道,秒速提现,秒速到账,同行业中体验最佳。感到舒适

    1

文章归档

站点信息

  • 文章总数:439
  • 页面总数:0
  • 分类总数:8
  • 标签总数:900
  • 评论总数:123
  • 浏览总数:3178