本文共 1281 字,大约阅读时间需要 4 分钟。
这部分内容会持续更新,比较难的论文会单独开篇博文讲解,相对比较简单的就只写概要记录在此篇博文中。
PedHunter: Occlusion Robust Pedestrian Detector in Crowded Scenes
- 链接:
- 代码:(目前还未放)
- 网络架构
- 创新 其实就是mask-rcnn模型,与mask-rcnn不同的点为: 1)人体mask预测分支改为预测head的mask,并且在推断过程中,去掉mask预测分支;作用:对行人检测添加额外的监督信息,且不增加推断的计算量; 2)rpn选择proposal更加严格:iou阈值从0.5调整为0.7;作用:用来训练的正例质量更高,预测效果更好; 3)数据增强:为了对遮挡情况鲁棒性更好,将行人检测框分为五部分:头部,左上身、右上身、坐下身、右下身,训练时,每个图像groud truth内以0.5的概率随机遮挡后四部分的其中一部分,将值替换成imageNet中的均值。 4)提供一个新的行人检测数据集:SUR-PED
Attribute-aware Pedestrian Detection in a Crowd
- 链接:
- 代码:(只放了测试代码)
- 网络架构
- 创新 一阶段anchor-free的预测框。利用backbone提取特征,然后采用四个分支进行网络预测。 1)center分支:map大小为 R W r × H r × 1 R^{\frac{W}{r}\times\frac{H}{r}\times1} RrW×rH×1,(W, H)为原始图像尺寸,r为stride,预测center map中的每个点为中心点的概率。 2)scale分支:map大小为 R W r × H r × 2 R^{\frac{W}{r}\times\frac{H}{r}\times2} RrW×rH×2, 预测bounding box的宽和高; 3)offset分支:map大小为 R W r × H r × 2 R^{\frac{W}{r}\times\frac{H}{r}\times2} RrW×rH×2,预测中心点的偏移; 4)Attribute map: map大小为KaTeX parse error: Undefined control sequence: \timesm at position 32: …imes\frac{H}{r}\̲t̲i̲m̲e̲s̲m̲},每个点学习一个向量,对于正例,利用这个向量可以得到两个bounding box之间的密集度和差异度。 5)上述四个分支的结和:利用center分支和offset分支得到精度的中心点位置,再利用scale得到bounding box框,后处理时,利用attribute分支得到的属性采用Attribute-aware NMS算法得到最终的结果。 6)Attribute-aware NMS算法 上述为伪代码,整体思想为:只有当M框的密集度比较大而且M框与候选框的差异度比较大时,nms的阈值会比较大,其他时候nms阈值都较小。
转载地址:http://ymjti.baihongyu.com/