R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation Tech report¶

首先利用选择性搜索算法获取初步预测的边界框。**选择性搜索**算法根据像素级别的特征合并各个区域，合并的规则包括颜色相似度、纹理相似度、尺寸相似度、形状相似性等。

再通过一定的变换，将初步预测的区域变成227*227像素。要么带上周围内容，要么不带周围内容，要么强行变成方的。注意要首先将初步预测的边框扩展16像素。

再使用AlexNet对每一个候选区域提取特征，得到2000*4096维的特征向量。

再用SVM分类器分类。将特征向量送入21个SVM分类器，每一个SVM分类器包含4096个参数。21个SVM分类器就相当于一个4096*21的矩阵，利用矩阵乘法计算类别。

再用非极大值抑制（NMS）方法来去除冗余候选框，对于每一个类别中IoU大于给定阈值的候选区域。

并使用一个简单的线性边界框回归来微调边界框提高定位性能。

**缺点：**提取出来的RoI会有很多区域重合，导致多次重复计算，改进方法SPPnet

**不懂：**为什么要用SVM分类器进行分类，为什么不用全连接层进行分类，虽然考虑到全连接层参数较多，但Fast R-CNN就是用全连接层进行的训练