# Pororo를 사용한 한글 자연어 처리

In [None]:
# !pip install pororo

In [None]:
from pororo import Pororo

Pororo.available_tasks()

"Available tasks are ['mrc', 'rc', 'qa', 'question_answering', 'machine_reading_comprehension', 'reading_comprehension', 'sentiment', 'sentiment_analysis', 'nli', 'natural_language_inference', 'inference', 'fill', 'fill_in_blank', 'fib', 'para', 'pi', 'cse', 'contextual_subword_embedding', 'similarity', 'sts', 'semantic_textual_similarity', 'sentence_similarity', 'sentvec', 'sentence_embedding', 'sentence_vector', 'se', 'inflection', 'morphological_inflection', 'g2p', 'grapheme_to_phoneme', 'grapheme_to_phoneme_conversion', 'w2v', 'wordvec', 'word2vec', 'word_vector', 'word_embedding', 'tokenize', 'tokenise', 'tokenization', 'tokenisation', 'tok', 'segmentation', 'seg', 'mt', 'machine_translation', 'translation', 'pos', 'tag', 'pos_tagging', 'tagging', 'const', 'constituency', 'constituency_parsing', 'cp', 'pg', 'collocation', 'collocate', 'col', 'word_translation', 'wt', 'summarization', 'summarisation', 'text_summarization', 'text_summarisation', 'summary', 'gec', 'review', 'review_s

## 광학 문자 인식

In [None]:
ocr = Pororo(task='ocr')

![](https://github.com/rickiepark/nlp-with-pytorch/raw/main/ocr-test.png)

In [None]:
ocr('ocr-test.png')



['Machine Leaming with Python Cookbook 파이썬을 활용한 머신러닝 쿡북',
 '크리스 알본 지음 빅해선 옮김',
 "Introduction to Machine Learning with Pythan 안드레아스 뮐러. 세라 가이도 지음 파이썬 라이브러리를 활용한 머신러닝 번역개정판 '해선 옮김",
 'Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow',
 "핸즈온 머신러닝 '] 오렐리앙 제롱 지음 박해선 옮김",
 'GANS 텐서플로 2.x와 케라스로 구축하는 야쿠프 란그르, 블라디미르 보크 지음 GAN 인 액션 생성적 적대 신경망 박해선 옮김 INAGTION',
 '데이비드 포스터 지음 Generative 미술관에 GAN 딥러닝 실전 프로젝트 Deep Learning 박해선 옮김']

In [None]:
from pororo.pororo import SUPPORTED_TASKS

SUPPORTED_TASKS['ocr'].get_available_langs()

['en', 'ko']

[https://bit.ly/london-sign](https://bit.ly/london-sign)

![](https://bit.ly/london-sign)

In [None]:
ocr('https://bit.ly/london-sign', detail=True)

Progress: |██████████████████████████████████████████████████| 101.0% Complete

{'description': ['Central London A4 (West End) alternative route for goods vehicles',
  '37n',
  'pm 6 am',
  'C. London (Westminster A3220 (A3212)'],
 'bounding_poly': [{'description': 'Central London A4 (West End) alternative route for goods vehicles',
   'vertices': [{'x': 98, 'y': 68},
    {'x': 330, 'y': 68},
    {'x': 330, 'y': 182},
    {'x': 98, 'y': 182}]},
  {'description': '37n',
   'vertices': [{'x': 174, 'y': 254},
    {'x': 232, 'y': 254},
    {'x': 232, 'y': 280},
    {'x': 174, 'y': 280}]},
  {'description': 'pm 6 am',
   'vertices': [{'x': 160, 'y': 328},
    {'x': 254, 'y': 328},
    {'x': 254, 'y': 356},
    {'x': 160, 'y': 356}]},
  {'description': 'C. London (Westminster A3220 (A3212)',
   'vertices': [{'x': 132, 'y': 380},
    {'x': 333, 'y': 380},
    {'x': 333, 'y': 469},
    {'x': 132, 'y': 469}]}]}

In [None]:
# `detail=True`로 지정하면 인식된 글자 구역의 왼쪽 위에서 시계 방향으로 4개의 사각형 모서리 좌표를 반환한다.

## 이미지 캡셔닝

In [1]:
# 이미지 캡셔닝(image captioning)은 이미지를 설명하는 텍스트를 만드는 작업이다. 
# `pororo`의 이미지 캡션은 한국어, 영어, 중국어, 일본어를 지원한다.

In [None]:
SUPPORTED_TASKS['caption'].get_available_langs()

['en', 'ko', 'zh', 'ja']

In [None]:
caption = Pororo(task='caption', lang='ko')

Using cache found in /home/work/.cache/torch/hub/facebookresearch_detr_master


![](http://bit.ly/ny-timesquare)

In [None]:
caption('http://bit.ly/ny-timesquare')

'높은 건물들이 가득 차 있는 도시 거리'

In [None]:
caption = Pororo(task='caption', lang='en')
caption('http://bit.ly/ny-timesquare')

Using cache found in /home/work/.cache/torch/hub/facebookresearch_detr_master


'A city street filled with lots of tall buildings.'

In [None]:
# 각 작업이 사용하는 모델은 `Pororo` 클래스의 `available_models()` 정적 메서드에서 얻을 수 있다. 
# 이 메서드를 호출할 때 `task` 매개변수에 작업 이름을 지정합니다.

In [None]:
Pororo.available_models(task='caption')

'Available models for caption are ([lang]: en, [model]: transformer.base.en.caption), ([lang]: ko, [model]: transformer.base.en.caption), ([lang]: zh, [model]: transformer.base.en.caption), ([lang]: ja, [model]: transformer.base.en.caption)'

In [None]:
SUPPORTED_TASKS['caption'].get_available_models()

{'en': ['transformer.base.en.caption'],
 'ko': ['transformer.base.en.caption'],
 'zh': ['transformer.base.en.caption'],
 'ja': ['transformer.base.en.caption']}

## 기계 번역

In [None]:
mt = Pororo(task='translation', lang='multi')

In [2]:
text1 = '퍼서비어런스(Perseverance)는 화성 탐사차로 2020년 7월 30일 발사하여 2021년 2월 18일 화성에 착륙하였다. 화성의 생명체 거주 여부, 화성의 고대 환경 조사, 화성 지표의 역사 등을 밝히는 것이 이 탐사선의 목표다. 더불어 중요한 목표는 미래의 인류가 화성을 유인 탐사할 때 위험한 것이 없는지 탐색하고, 대기의 조성을 알려주어 미래의 기지를 건설하는 데 도움을 주는 것이다. 또 인간이 어떤 조건으로 착륙해야 되는지 등을 탐색한다. 예산은 원래 15억 달러를 배정했는데, 지금은 더 늘어나서 25억 달러다. 특이사항으로는 인사이트가 마스 큐브 원과 화성에 함께 갔던 것과 비슷하게 인제뉴어티와 함께 발사되었다. 또한 큐리오시티의 디자인을 많이 재사용했다. 따라서 새로운 기술보다는 이전 로버들의 좋은 점을 합친 것이라고 보면 된다. 참고로, 마스 2020(Mars 2020)은 퍼서비어런스와 인제뉴어티 드론 헬리콥터를 포함한, NASA의 화성 지표면 로봇 탐사 계획의 명칭이다. 최초로 화성의 바람소리를 녹음했다.'

In [None]:
mt(text1, src='ko', tgt='en')

"Perseverance was launched on July 30, 2020 by a Mars exploration vehicle and landed on Mars on February 18, 2021. The probe's goal is to reveal whether Mars lives, the ancient environmental survey of Mars, and the history of Mars' indicators. In addition, the important goal is to explore whether there is any danger when future humans attract Mars, and to inform the creation of the atmosphere to help build a future base. We also explore what conditions humans should land on. The budget originally allocated $1.5 billion, which is $2.5 billion now. In particular, the Internet was launched with Inje New York, similar to the fact that Insight went to Mars Cube One and Mars. It also reused many of the design of Curio City. Therefore, it can be seen as a combination of the good points of the previous Roberts rather than the new technology. By reference, Mars 2020 is the name of the NASA's Mars surface robot exploration plan, including the Parseverance and the International New York drone hel

In [None]:
# 몇몇 번역 오류가 있지만 대체적으로 번역 결과는 좋다.

# 기본 모델 외에 약간의 성능을 희생하면서 2배 정도 빠른 속도를 내는 `'transformer.large.multi.fast.mtpg'` 모델을 지정할 수 있다. 
이#  모델은 12개의 인코더 층과 1개의 디코더 층으로 이루어집니다. 

In [None]:
mt_fast = Pororo(task='translation', lang='multi', model='transformer.large.multi.fast.mtpg')

In [None]:
mt_fast(text1, src='ko', tgt='en')

"Perseverance was launched on July 30, 2020 and landed on Mars on February 18, 2021. The probe's goal is to reveal whether Mars lives in life, the ancient environmental survey of Mars, and the history of Mars indicators. In addition, an important goal is to explore whether there is anything dangerous when investigating Mars, and inform the creation of the atmosphere to help build a future base. It also explore what conditions humans have to land. The budget was originally allocated $1.5 billion, which is now increasing further and $2.5 billion. In particular, Insight was launched with Inje New Art, similar to the fact that Insight went with Mas Cube One and Hwaseong. Also, the design of Curio City has been reused. Therefore, you can see that it combines the good points of previous Robert rather than new technologies. For reference, Mas 2020 (Mars 2020) is the name of NASA's Mars surface robot exploration plan, including Per-subarance and Inje Newarty drone helicopter. For the first tim

## 텍스트 요약

In [None]:
# 텍스트 요약(text summarization)은 비교적 긴 텍스트를 짧은 문장 몇개로 압축하여 표현하는 작업입니다. 
# `pororo`는 텍스트 요약을 위해 3개의 모델을 제공합니다.

In [None]:
# `!pip install -U transformers==4.7.0`

In [None]:
abs_summ = Pororo(task='summary', lang='ko', model='abstractive')

In [None]:
abs_summ(text1)

'미래의서비어런스는 화성의 생명체 거주 여부, 화성의 고대 환경 조사, 화성 지표의 역사 등을 밝히는 것이 목표이며 미래의 인류가 화성을 유인 탐사할 때 위험한 것이 없는지 탐색하고, 대기의 조성을 알려주어 미래의 기지를 건설하는 데 도움을 주는 역할을 수행한다.'

In [None]:
# 짧은 몇 개의 문장으로 텍스트를 요약하는 `bullet` 모델

In [None]:
bul_summ = Pororo(task='summary', lang='ko', model='bullet')

In [None]:
bul_summ(text1)

['NASA 화성 지표면 로봇 탐사 계획', ' 퍼서비어런스, 인제뉴어티 드론 헬리콥터 포함']

In [None]:
text2 = "알로사우루스(라틴어: Allosaurus)는 후기 쥐라기(1억 5600만 년 전 ~ 1억 4500만 년 전)를 대표하는 큰 육식공룡이다. 알로사우루스라는 학명의 어원은 고대 그리스어 (그리스어: αλλοςσαυρος)인데, 이 말은 '특이한 도마뱀'이라는 뜻으로, 한자표기 이특룡(異特龍)은 여기서 비롯되었다. 미국의 고생물학자 오스니얼 찰스 마시가 알로사우루스속 화석을 처음으로 기재했다. 수각류 공룡 중 비교적 초기에 알려진 공룡 중 하나로, 그동안 여러 영화나 다큐멘터리에도 많이 등장했다. 알로사우루스는 짧은 목에 큰 머리, 긴 꼬리와 짧은 앞다리를 가진 전형적으로 거대한 수각류 공룡이다. 생존 당시에는 대형 포식자로서 먹이사슬의 최고점에 있었다. 보통 아성체나 소형 용각류, 조각류, 검룡류와 같은 대형 초식공룡을 사냥했을 것으로 추정된다. 아성체나 소형 용각류 등을 사냥할 때 무리를 지어 조직적으로 사냥했다는 추정이 있지만, 이들이 사회적이라는 증거는 많지 않으며 심지어 자신들끼리 싸움을 했을 수도 있다. 매복하다가 입을 크게 벌리고 윗턱을 손도끼 내리치듯이 가격해 큰 사냥감을 잡았을 것으로 생각된다."

In [None]:
bul_summ([text1, text2])

[['NASA 화성 지표면 로봇 탐사 계획', ' 퍼서비어런스, 인제뉴어티 드론 헬리콥터 포함'],
 ['짧은 목에 큰 머리, 긴 꼬리, 짧은 앞다리', ' 후기 쥐라기 대표하는 큰 육식공룡']]

In [None]:
# 텍스트에서 가중 중요한 3개의 문장을 추출하는 `extractive` 모델

In [None]:
ext_summ = Pororo(task='summary', lang='ko', model='extractive')
ext_summ(text1)

'퍼서비어런스(Perseverance)는 화성 탐사차로 2020년 7월 30일 발사하여 2021년 2월 18일 화성에 착륙하였다. 화성의 생명체 거주 여부, 화성의 고대 환경 조사, 화성 지표의 역사 등을 밝히는 것이 이 탐사선의 목표다. 참고로, 마스 2020(Mars 2020)은 퍼서비어런스와 인제뉴어티 드론 헬리콥터를 포함한, NASA의 화성 지표면 로봇 탐사 계획의 명칭이다.'

In [None]:
ext_summ([text1, text2], return_list=True)

[['퍼서비어런스(Perseverance)는 화성 탐사차로 2020년 7월 30일 발사하여 2021년 2월 18일 화성에 착륙하였다.',
  '화성의 생명체 거주 여부, 화성의 고대 환경 조사, 화성 지표의 역사 등을 밝히는 것이 이 탐사선의 목표다.',
  '참고로, 마스 2020(Mars 2020)은 퍼서비어런스와 인제뉴어티 드론 헬리콥터를 포함한, NASA의 화성 지표면 로봇 탐사 계획의 명칭이다.'],
 ['알로사우루스(라틴어: Allosaurus)는 후기 쥐라기(1억 5600만 년 전 ~ 1억 4500만 년 전)를 대표하는 큰 육식공룡이다.',
  '알로사우루스는 짧은 목에 큰 머리, 긴 꼬리와 짧은 앞다리를 가진 전형적으로 거대한 수각류 공룡이다.',
  '생존 당시에는 대형 포식자로서 먹이사슬의 최고점에 있었다.']]

## 감성 분석

In [None]:
# 감성 분석(sentiment analysis)는 텍스트를 긍정과 부정으로 분류하는 작업이다. 

In [None]:
sa_shop = Pororo(task='sentiment', model='brainbert.base.ko.shopping', lang='ko')

In [None]:
sa_shop('정말 혼자 공부하기 너무 좋은 머신러닝 독학 책')

'Positive'

In [None]:
sa_shop('달팽이 같은 놀라운 배송 속도')

'Positive'

In [None]:
# 쇼핑 리뷰 데이터를 사용해 훈련했기 때문에 비교적 쇼핑과 관련된 텍스트에 담긴 감정은 잘 잡아내지만 영화에 대한 것은 그렇지 못한다. 

In [None]:
sa_shop('택배 속도 놀랍군')

'Positive'

In [None]:
sa_shop('반전을 거듭하는데 와..')

'Negative'

In [None]:
# 네이터 영화 리뷰 데이터셋에서 훈련한 모델 사용해보기 `model='brainbert.base.ko.nsmc'

In [None]:
sa_movie = Pororo(task='sentiment', model='brainbert.base.ko.nsmc', lang='ko')

In [None]:
sa_movie('택배 속도 놀랍군')

'Negative'

In [None]:
sa_movie('반전을 거듭하는데 와..')

'Positive'

## 자연어 추론

In [None]:
# 두 문장 사이의 관계가 함의(entailment), 모순(contradiction), 중립(neutral)인지 추론합니다. 

In [None]:
SUPPORTED_TASKS['nli'].get_available_langs()

['en', 'ko', 'ja', 'zh']

In [None]:
nli = Pororo(task='nli', lang='ko')

In [None]:
nli('비가 온다', '날씨가 우중충하다')

'Entailment'

In [None]:
nli('비가 온다', '구름 사이로 햇살이 비친다')

'Contradiction'

In [None]:
nli('비가 온다', '옷이 비에 젖다')

'Neutral'

## 제로샷 토픽 분류

In [None]:
# 제로샷 토픽 분류는 주어진 텍스트를 훈련에서 사용하지 않은 처음 본 클래스 레이블에 할당할 수 있다.

In [None]:
zsl = Pororo(task="zero-topic", lang='ko')

In [None]:
zsl('손흥민이 골을 넣었다', ['정치', '사회', '스포츠', '연예'])

{'정치': 1.89, '사회': 10.9, '스포츠': 91.69, '연예': 37.32}

In [None]:
zsl('손흥민이 골을 넣었다', ['공격', '수비', '승리', '패배', '경기', '실수'])

{'공격': 88.43, '수비': 18.86, '승리': 94.84, '패배': 4.25, '경기': 85.46, '실수': 24.96}