# pororo를 사용한 한글 자연어 처리

2021년 초에 카카오브레인([https://www.kakaobrain.com/](https://www.kakaobrain.com/))에서 다양한 한글 자연어 처리 작업을 위한 `pororo`('뽀로로'라고 읽습니다)([https://github.com/kakaobrain/pororo](https://github.com/kakaobrain/pororo)) 파이썬 라이브러리를 릴리스했습니다. `pororo` 라이브러리는 BERT, Transformer 등 파이토치로 구현된 최신 NLP 모델을 사용해 30여 가지의 자연어 처리 작업을 수행합니다. 여기에서는 이 중에 대표적인 몇 가지 작업에 대해서 알아 보겠습니다. `pororo` 라이브러리가 수행할 수 있는 전체 작업 목록은 온라인 문서([https://kakaobrain.github.io/pororo/index.html](https://kakaobrain.github.io/pororo/index.html))를 참고하세요.

`pororo`라이브러리는 `pip` 명령으로 간단히 설치할 수 있습니다. 현재는 파이썬 3.6 버전 이상과 파이토치 1.6 버전(CUDA 10.1)을 지원합니다.

In [1]:
!pip install pororo

Collecting pororo
  Downloading pororo-0.4.2-py3-none-any.whl (256 kB)
[K     |████████████████████████████████| 256 kB 2.7 MB/s 
[?25hCollecting word2word
  Downloading word2word-1.0.0-py3-none-any.whl (31 kB)
Collecting g2p-en
  Downloading g2p_en-2.1.0-py3-none-any.whl (3.1 MB)
[K     |████████████████████████████████| 3.1 MB 43.8 MB/s 
[?25hCollecting nltk>=3.5
  Downloading nltk-3.7-py3-none-any.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 42.3 MB/s 
[?25hCollecting kss
  Downloading kss-3.4.tar.gz (42.4 MB)
[K     |████████████████████████████████| 42.4 MB 7.1 MB/s 
[?25hCollecting transformers>=4.0.0
  Downloading transformers-4.16.2-py3-none-any.whl (3.5 MB)
[K     |████████████████████████████████| 3.5 MB 43.3 MB/s 
[?25hCollecting whoosh
  Downloading Whoosh-2.7.4-py2.py3-none-any.whl (468 kB)
[K     |████████████████████████████████| 468 kB 65.9 MB/s 
[?25hCollecting wget
  Downloading wget-3.2.zip (10 kB)
Collecting torchvision==0.7.0
  Download

`pororo`를 사용하는 방법은 `Pororo` 클래스에 원하는 작업을 지정하여 작업에 맞는 클래스 객체를 얻는 것입니다. 전체 작업 목록은 온라인 문서에 있으며 다음과 같이 `available_tasks()` 메서드를 호출하여 얻을 수 있습니다.

In [2]:
from pororo import Pororo

Pororo.available_tasks()

"Available tasks are ['mrc', 'rc', 'qa', 'question_answering', 'machine_reading_comprehension', 'reading_comprehension', 'sentiment', 'sentiment_analysis', 'nli', 'natural_language_inference', 'inference', 'fill', 'fill_in_blank', 'fib', 'para', 'pi', 'cse', 'contextual_subword_embedding', 'similarity', 'sts', 'semantic_textual_similarity', 'sentence_similarity', 'sentvec', 'sentence_embedding', 'sentence_vector', 'se', 'inflection', 'morphological_inflection', 'g2p', 'grapheme_to_phoneme', 'grapheme_to_phoneme_conversion', 'w2v', 'wordvec', 'word2vec', 'word_vector', 'word_embedding', 'tokenize', 'tokenise', 'tokenization', 'tokenisation', 'tok', 'segmentation', 'seg', 'mt', 'machine_translation', 'translation', 'pos', 'tag', 'pos_tagging', 'tagging', 'const', 'constituency', 'constituency_parsing', 'cp', 'pg', 'collocation', 'collocate', 'col', 'word_translation', 'wt', 'summarization', 'summarisation', 'text_summarization', 'text_summarisation', 'summary', 'gec', 'review', 'review_s

## 광학 문자 인식
---
먼저 이미지에서 문자를 읽는 광학 문자 인식(Optical Character Recognition) 작업을 수행해 보겠습니다. 광학 문자 인식 작업을 수행하려면 `Pororo` 클래스에 `task='ocr'` 매개변수를 지정하여 객체를 만듭니다.

In [3]:
ocr = Pororo(task='ocr')






`ocr` 객체를 사용하는 방법은 간단합니다. 문자 인식을 하려는 이미지를 매개변수로 전달하면 됩니다. 다음과 같은 책 표지 이미지를 사용해 보죠.

In [4]:
!wget https://github.com/rickiepark/nlp-with-pytorch/raw/main/ocr-test.png

--2022-02-17 14:56:17--  https://github.com/rickiepark/nlp-with-pytorch/raw/main/ocr-test.png
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/ocr-test.png [following]
--2022-02-17 14:56:17--  https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/ocr-test.png
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 11615635 (11M) [application/octet-stream]
Saving to: ‘ocr-test.png’


2022-02-17 14:56:17 (90.7 MB/s) - ‘ocr-test.png’ saved [11615635/11615635]



![](https://github.com/rickiepark/nlp-with-pytorch/raw/main/ocr-test.png)

In [5]:
ocr('ocr-test.png')



['Machine Leaming with Python Cookbook 파이썬을 활용한 머신러닝 쿡북',
 '크리스 알본 지음 빅해선 옮김',
 "Introduction to Machine Learning with Pythan 안드레아스 뮐러. 세라 가이도 지음 파이썬 라이브러리를 활용한 머신러닝 번역개정판 '해선 옮김",
 'Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow',
 "핸즈온 머신러닝 '] 오렐리앙 제롱 지음 박해선 옮김",
 'GANS 텐서플로 2.x와 케라스로 구축하는 야쿠프 란그르, 블라디미르 보크 지음 GAN 인 액션 생성적 적대 신경망 박해선 옮김 INAGTION',
 '데이비드 포스터 지음 Generative 미술관에 GAN 딥러닝 실전 프로젝트 Deep Learning 박해선 옮김']

<핸즈온 머신러닝>에서 세로로 쓰여진 '2판'은 인식을 못했고 <GAN 인 액션>과 <미술관에 GAN 딥러닝>은 행을 조금 혼동하고 있지만 전반적으로 높은 인식율을 보여주고 있습니다.

광학 문자 인식 작업에 지원하는 언어는 영어와 한국어입니다. 지원하는 언어 목록을 보려면 `pororo` 패키지의 온라인 문서를 참고하세요. 현재는 `Pororo` 클래스에서 가능한 언어를 직접 확인할 수는 없습니다. 다만 다음처럼 `SUPPORTED_TASKS` 딕셔너리에 매핑된 광학 문자 인식 클래스의 `get_available_langs()` 정적 메서드를 호출하여 확인할 수 있습니다.

In [6]:
from pororo.pororo import SUPPORTED_TASKS

SUPPORTED_TASKS['ocr'].get_available_langs()

['en', 'ko']

로컬에 있는 파일 뿐만 아니라 URL을 전달할 수도 있습니다. 다음과 같이 영어로 쓰여진 표지판([https://bit.ly/london-sign](https://bit.ly/london-sign), Goldflakes, CC BY-SA 4.0)을 인식해 보죠.

![](https://bit.ly/london-sign)

In [7]:
ocr('https://bit.ly/london-sign', detail=True)

Progress: |--------------------------------------------------| 0.0% CompleteProgress: |--------------------------------------------------| 1.6% CompleteProgress: |█-------------------------------------------------| 3.1% CompleteProgress: |██------------------------------------------------| 4.7% CompleteProgress: |███-----------------------------------------------| 6.2% CompleteProgress: |███-----------------------------------------------| 7.8% CompleteProgress: |████----------------------------------------------| 9.3% CompleteProgress: |█████---------------------------------------------| 10.9% CompleteProgress: |██████--------------------------------------------| 12.4% CompleteProgress: |██████--------------------------------------------| 14.0% CompleteProgress: |███████-------------------------------------------| 15.5% CompleteProgress: |████████------------------------------------------| 17.1% CompleteProgress: |█████████--------------------------------------



{'bounding_poly': [{'description': 'Central London A4 (West End) alternative route for goods vehicles',
   'vertices': [{'x': 98, 'y': 68},
    {'x': 330, 'y': 68},
    {'x': 330, 'y': 182},
    {'x': 98, 'y': 182}]},
  {'description': '37n',
   'vertices': [{'x': 174, 'y': 254},
    {'x': 232, 'y': 254},
    {'x': 232, 'y': 280},
    {'x': 174, 'y': 280}]},
  {'description': 'pm 6 am',
   'vertices': [{'x': 160, 'y': 328},
    {'x': 254, 'y': 328},
    {'x': 254, 'y': 356},
    {'x': 160, 'y': 356}]},
  {'description': 'C. London (Westminster A3220 (A3212)',
   'vertices': [{'x': 132, 'y': 380},
    {'x': 333, 'y': 380},
    {'x': 333, 'y': 469},
    {'x': 132, 'y': 469}]}],
 'description': ['Central London A4 (West End) alternative route for goods vehicles',
  '37n',
  'pm 6 am',
  'C. London (Westminster A3220 (A3212)']}

결과에서 알 수 있듯이 이미지 구역에 따라 인식한 글씨를 나누어 리스트로 반환하고 있습니다. 또한 `detail=True`로 지정하면 인식된 글자 구역의 왼쪽 위에서 시계 방향으로 4개의 사각형 모서리 좌표를 반환합니다. `pororo`의 광학 인식 문자에 사용되는 OCR 모델은 내부 데이터와 AI hub의 한국어 글자체 이미지 AI 데이터([https://www.aihub.or.kr/aidata/133](https://www.aihub.or.kr/aidata/133))을 사용하여 훈련되었습니다.

## 이미지 캡셔닝
---
이미지 캡셔닝(image captioning)은 이미지를 설명하는 텍스트를 만드는 작업입니다. pororo의 이미지 캡션은 한국어, 영어, 중국어, 일본어를 지원합니다. 가능한 언어 목록을 확인해 보죠. 이미지 캡셔닝 작업은 'caption'으로 지정합니다.

In [8]:
SUPPORTED_TASKS['caption'].get_available_langs()

['en', 'ko', 'zh', 'ja']

광학 문자 인식과 마찬가지로 task 매개변수에 'caption'으로 지정하고 lang='ko'으로 지정하여 한글 캡션을 위한 객체를 만들어 보겠습니다.

In [9]:
caption = Pororo(task='caption', lang='ko')




Downloading:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/226k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/455k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading: "https://github.com/facebookresearch/detr/archive/master.zip" to /root/.cache/torch/hub/master.zip
Downloading: "https://download.pytorch.org/models/resnet50-19c8e357.pth" to /root/.cache/torch/hub/checkpoints/resnet50-19c8e357.pth


  0%|          | 0.00/97.8M [00:00<?, ?B/s]

Downloading: "https://dl.fbaipublicfiles.com/detr/detr-r50-e632da11.pth" to /root/.cache/torch/hub/checkpoints/detr-r50-e632da11.pth


  0%|          | 0.00/159M [00:00<?, ?B/s]






Pororo 클래스는 새로운 객체를 만들 때마다 사용할 모델을 다운로드하여 로드합니다. 다운로드된 데이터는 리눅스일 경우 ~/.pororo 아래 저장되고 윈도우의 경우 C:\\pororo 아래 저장하여 나중에 재사용합니다.  

다음과 같은 이미지(http://bit.ly/ny-timesquare, Terabass, CC BY-SA 3.0)의 캡션을 만들어 보겠습니다.

![](http://bit.ly/ny-timesquare)

In [10]:
caption('http://bit.ly/ny-timesquare')

UnidentifiedImageError: ignored