Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Synthetically Supervised Feature Learning for Scene Text Recognition #60

Open
chullhwan-song opened this issue Jan 4, 2019 · 1 comment

Comments

@chullhwan-song
Copy link
Owner

http://openaccess.thecvf.com/content_ECCV_2018/html/Yang_Liu_Synthetically_Supervised_Feature_ECCV_2018_paper.html

@chullhwan-song
Copy link
Owner Author

chullhwan-song commented Jan 4, 2019

서론

  • 문자인식
  • multi-task network with an encoder-discriminator-generator architecture
  • 한마디로
    • 문자인식(CRNN)과 GAN이 접목된 형태
    • 보통 문자인식에서의 문제는 Noise가 많다는 것이다. 이런한 개념을 이논문에서는 nuisance factors라고 부름
      • nuisance factors such as font, lighting, shadow, border, background, image noise, geometric deformation, and compression artifacts.
    • 이러한 점을 해결하기 위해서, 입력 이미지(word단위의 natural scene에서 crop한 이미지)를 Clean 이미지 공간으로 Mapping하여, 이러한 nuisance factors를 제거함으로써, 인식률을 높이고자 하는 연구.
  • 개인적으론 오 신기하게 GAN의 개념을 문자인식에 적용한 첫번째 논문이 아닌가한다.

전체 구조

image

Encoder & Text Decoder

image

  • 위의 부분을 의미
  • 이부분은 CRNN 연구가 base다.
  • f의 의미는 CRNN에서 보면 다음을 의미하는것같다. (사실상 구조상 여기밖에 없는듯)
    image
  • CRNN도 처음 나왔을때 좀 특이한 구조라생각, CNN+RNN 의 결합된 형태이으로...인식률도 좋았구..아마도 word단위의 인식에서는 모두 base로 하는 논문이지 않을까 한다.

loss

Feature Matching

image

  • CRNN과정에서, CNN feature f간의 mapping(위의 빨간색) 즉, (natural scene crop) input image x와 clean input x간의 f 를 의미 > 그래서, 두 이미지를(의미적으로 같으니까..) 같은 공간으로 mapping (embedding한다라고 해도 무방할듯으로 보임)
    image

Image Generator

  • 위의 주황색 사각형
  • 이미지 레벨(generator)간의 loss, 즉 clean input 이미지와 generator된 clean 이미지간의 loss
    image

Adversarial discriminators

image

  • discriminators 위의 두 loss와 쌍을 이루는레 feature 레벨과 image 레벨에서의 discriminator를 주면된다. 이는 GAN과 동일
    image

total loss

  • 그래서 총 loss는
    image

network 구조

image

실험

image
image
image

  • 여기서는 SOTA성능이 나왔지만, 이와 비슷하게 나온 논문들(참조)에서 보인, STN기반 Rectification 연구들이 조금 더 좋은 성능를 보였다.
  • 하지만, idea는 참 탁월한 것같다. 이와 확장된 논문들이 더 나오지 않을까?
  • 소스가 공개되지 않아 좀 아쉽다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant