YOLO v1: You Only Look Once: Unified, Real-Time Object Detection¶

将边框作为一个回归问题，直接卷积。选择直接用卷积神经网络来输出预测边框与预测类别准确度

最终输出是一个 \(7\times7\times30\)的三维矩阵

将整个输入图片分为 \(S\times S(S=7)\)个网格grid cell，每个网格对应一个30维的向量，前10维为这个grid cell上生成的两个bounding box的五个参数，后20维是该grid cell对应20个类别的条件概率

根据输出的 \(49\times2=98\)个bounding box与类别概率，进行非极大值抑制 non-maximum suppression，删除冗余边界框

分类所用技术¶

Single Shot Multibox Detection (SSD)：锚点，锚框