跳转至

R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation Tech report

061.png

首先利用选择性搜索算法获取初步预测的边界框。**选择性搜索**算法根据像素级别的特征合并各个区域,合并的规则包括颜色相似度、纹理相似度、尺寸相似度、形状相似性等。

再通过一定的变换,将初步预测的区域变成227*227像素。要么带上周围内容,要么不带周围内容,要么强行变成方的。注意要首先将初步预测的边框扩展16像素。

再使用AlexNet对每一个候选区域提取特征,得到2000*4096维的特征向量。

再用SVM分类器分类。将特征向量送入21个SVM分类器,每一个SVM分类器包含4096个参数。21个SVM分类器就相当于一个4096*21的矩阵,利用矩阵乘法计算类别。

再用非极大值抑制(NMS)方法来去除冗余候选框,对于每一个类别中IoU大于给定阈值的候选区域。

并使用一个简单的线性边界框回归来微调边界框提高定位性能。

**缺点:**提取出来的RoI会有很多区域重合,导致多次重复计算,改进方法SPPnet

**不懂:**为什么要用SVM分类器进行分类,为什么不用全连接层进行分类,虽然考虑到全连接层参数较多,但Fast R-CNN就是用全连接层进行的训练