Synthetically Supervised Feature Learning for Scene Text Recognition #60

chullhwan-song · 2019-01-04T01:38:21Z

chullhwan-song · 2019-01-04T02:13:27Z

서론

문자인식
multi-task network with an encoder-discriminator-generator architecture
한마디로
- 문자인식(CRNN)과 GAN이 접목된 형태
- 보통 문자인식에서의 문제는 Noise가 많다는 것이다. 이런한 개념을 이논문에서는 nuisance factors라고 부름
  - nuisance factors such as font, lighting, shadow, border, background, image noise, geometric deformation, and compression artifacts.
- 이러한 점을 해결하기 위해서, 입력 이미지(word단위의 natural scene에서 crop한 이미지)를 Clean 이미지 공간으로 Mapping하여, 이러한 nuisance factors를 제거함으로써, 인식률을 높이고자 하는 연구.
개인적으론 오 신기하게 GAN의 개념을 문자인식에 적용한 첫번째 논문이 아닌가한다.

위의 부분을 의미
이부분은 CRNN 연구가 base다.
f의 의미는 CRNN에서 보면 다음을 의미하는것같다. (사실상 구조상 여기밖에 없는듯)
CRNN도 처음 나왔을때 좀 특이한 구조라생각, CNN+RNN 의 결합된 형태이으로...인식률도 좋았구..아마도 word단위의 인식에서는 모두 base로 하는 논문이지 않을까 한다.

CRNN과정에서, CNN feature f간의 mapping(위의 빨간색) 즉, (natural scene crop) input image x와 clean input x간의 f 를 의미 > 그래서, 두 이미지를(의미적으로 같으니까..) 같은 공간으로 mapping (embedding한다라고 해도 무방할듯으로 보임)

discriminators 위의 두 loss와 쌍을 이루는레 feature 레벨과 image 레벨에서의 discriminator를 주면된다. 이는 GAN과 동일

여기서는 SOTA성능이 나왔지만, 이와 비슷하게 나온 논문들(참조)에서 보인, STN기반 Rectification 연구들이 조금 더 좋은 성능를 보였다.
하지만, idea는 참 탁월한 것같다. 이와 확장된 논문들이 더 나오지 않을까?
소스가 공개되지 않아 좀 아쉽다.

chullhwan-song added OCR GAN labels Jan 4, 2019