Skip to content

Latest commit

 

History

History
47 lines (32 loc) · 2.32 KB

SNIPER.md

File metadata and controls

47 lines (32 loc) · 2.32 KB

SNIPER: Efficient Multi-Sclae Training

RCNN & Fast RCNN의 소개

RCNN

  • RCNN detector에서 진화된 Object Detection 알고리즘들은 비지도 알고리즘으로 Region Proposal을 생성 (주어진 이미지에서 물체가 있을법한 위치 찾기)
  • 이렇게 생성된 proposal들을 224x224사이즈로 resize한 다음 CNN으로 classify함
    • RCNN 저자들은 이미지넷 데이터(ILSVRC2012 classification)로 미리 학습된 CNN 모델을 가져온 다음, fine tune하는 방식
  • scale invarient하지만 proposal이 많아질수록 연산량이 많아짐
  • 보완 -> Fast R-CNN

Fast RCNN

  • 모든 propossal이 up&dwom sampling의 대상
  • RCNN에서는 모든 proposal들이 224x224로 resize
  • 즉 large object는 not upsampled, small object들은 not downsampled 되었다면 Fast RCNN은 모든 proposal에 대해서 up&down sampling을 모두 진행
  • 따라서 RCNN이 더 효율적으로 up&down sampling을 함

SNIPER

  • RCNN은 Fast RCNN과 다르게 연산을 공유하지않기 때문에 훨씬 느린 단점이 있고 저자는 이에 따라 둘의 장점을 서로 합친 SNIPER을 제안

  • Scale specific context-regions(A.K.A chips)을 생성
  • Fast RCNN처럼 칩 안의 모든 proposal을 분류
  • 다수의 proposal에 대한 효율적인 분류를 가능하게 함
  • RCNN처럼 large object가 있는 이미지는 upsampling하지않고, 쉬운 Background region도 processing을 따로 하지않기 때문에 Fast RCNN detector보다 빠름
  • SNIPER은 Chips를 생성하기 때문에 효율적으로 multi scale training을 가능하게 함

multi-scale Strategies : Detector들이 Multi-scale 문제를 푸는 방법

Chip Generation

  • 이미지 안의 multi-scale에 대해 칩들을 생성
  • 즉 하나의 image로 다양한 scale의 image를 먼저 만들고 그 image들 안에서 stride를 돌면서 칩을 생성하는데
  • Chip size는 512x512로 고정
    • 작게 scale된 image에서의 칩은 보다 큰 object Detection을 할때 쓰임, 크게 scale이 된 image에서는 칩은 보다 작은 object를 detection할 때 쓰임
  • 각 Chip은 equal interval을 두고 생성되는데 paper에서는 interval d = 32로 설정

Positive Chip Selection

  • 각 scale마다 desired area range R(i) 존재

SNIP(Scale Normalized Image Pyramid)[CVPR 2018]