Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Scene Text Detection with Supervised Pyramid Context Network #75

Open
chullhwan-song opened this issue Jan 31, 2019 · 1 comment
Open

Comments

@chullhwan-song
Copy link
Owner

https://arxiv.org/abs/1811.08605

@chullhwan-song
Copy link
Owner Author

chullhwan-song commented Feb 7, 2019

Abstract

  • 기존의 SOTA 알고리즘도 Natural Scene (=real-world environments)에서의 text detection은 여전히 문제를 안고 있음.
  • 이 연구가
    • 제안한 연구는 Mask R-CNN에 영감을 얻음.
    • Feature Pyramid Network(FPN)제안
    • instance segmentation -> Mask R-CNN
      image
  • 정리하면, text detection을 위해 supervised pyramid context network (SPCNET) 제안.
  • outperforms
  • 내 생각엔 기본적으로 FCN based다.

Contribution

  • Mask R-CNN를 Text detection에 적용하기엔 문제가 있다.
    • Lack of context information clues - context 정보 필요 - 예를 들어, 그릇는 테이블 위에 많이 존재한다.
      • 개인적으론 text가 특정 주위 상황에 나타나는 pattern이 매우 다양하지 않을까... 라이센스, 흰바탕에 글씨등이 있지만, 실제 우리 주위에 텍스트는 너무 넘친다.
    • Inaccurate classification score - 기울어진 text 의 문제( : 이는 낮은 score가 발생.)
  • 그래서, 이 연구는 contribution
    • fp를 막기 위해 Text Context module 와 Re-Score mechanism 제안
    • 수평/회전/커브형태를 가진 다양한 shape을 가진 text 감지 방법 제안
    • SOTA 성능

Proposed method

image

Mask R-CNN based - 기본적으로 이 틀을 유지.

GT 구성

image

Text Context Module

  • FP를 제거하기 위해
  • 이를 위해 2개의 모듈로 구성 = Pyramid Attention Module (PAM) + Pyramid Fusion Module (PFM)

Pyramid Attention Module

  • 이 모듈은 "Single Shot Text Detector with Regional Attention" 의 연구에서 영감을 얻음.
    • SSD기반의 text detection 알고리즘 -
      • SSD는 기본적으로 backbone net의 여러 layer의 각 feature map를 이용하여 detection함.
      • 이 연구에서 언급한 Attention 모듈을 참고함.
  • FPN의 stage 2~5사이의 feature map을 이용하고 이는 각각의 layer에서 saliency map을 생성 - text/none에 대한 pixel 레벨정보를 획득.
  • text context model은 이런 saliency map과 이를 fusion한 것을 일컬음.
    • 이때 3x3, 1x1 conv을 이용한 조합.
  • output의 채널은 2 - text/non-text map
  • stage 2에서, 512×512의 input을 받고 feature map(S2)은 128×128×256이고, saliency map는 다음과 같은 방법으로 생성.
    image
    • Text Context module은 text/non-text 의 2 채널의 saliency map 생성하고 이후에, channel-wise softmax 단계를 걷치고 최종적으로 "text saliency map"를 획득.
      image
  • 이 전체 과정은 Fig.2의 d)를 보면 이해하기가 쉽다.
  • Mask R-CNN의 feature map, 즉,입력값의 역할을 하는듯하다.

Pyramid Fusion Module

  • Fig.2의 b & d
  • feature map(GTF) of global text segmentation. - Fig.2의 d에서 보면 쉬움.
    image
    • "+" : element-wise addition

Re-Score Mechanism

  • Mask R-CNN inference 과정에서, bounding boxe들에 대한 분류확률이 높은순으로 sorting - Top K sorting (K=1000)
  • 이후에, standard NMS 수행
  • Top-M(M=300)의 경우 retain (highest classification confidence)
  • 여기서 기울어진 text의 경우의 background의 정보가 많이 존재 그래서 FP 문제 발생 - score가 낮아짐.
    • 생각해보면 알수 있는데.. 수평모양 text보다 45도 기울어진 text의 경우 사각형을 그리면 아래와 같이 녹색 사각형을 보면, background 영역이 수평모양의 text보다 훨씬 많다.
      image
    • Global Text Segmentation 정보를 이용하여 background부분에 대한 문제 제거 즉, text instance 부분만..
    • 이는 이전의 과정에서 획득.
  • classification score(CS) 와 instance score(IS)을 다음과 같이 계산.
    image
    image
    • P_i is the set of the pixels’ value of i-th text instance on text segmentation map.

Loss Function Design

image

  • 다음을 제외한 loss는 Mask R-CNN의 loss
    image
    • softmax loss
    • p는 output prediction of the network

실험

image
image
image
image
image

@chullhwan-song chullhwan-song reopened this Feb 7, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant