# Pororo tutorial
- [Repository](https://github.com/kakaobrain/pororo)
- [Documentation](https://kakaobrain.github.io/pororo/)

In [1]:
from pororo import Pororo

## 1. `pororo`에서 이용 가능한  작업들 보기

In [2]:
Pororo.available_tasks()

"Available tasks are ['mrc', 'rc', 'qa', 'question_answering', 'machine_reading_comprehension', 'reading_comprehension', 'sentiment', 'sentiment_analysis', 'nli', 'natural_language_inference', 'inference', 'fill', 'fill_in_blank', 'fib', 'para', 'pi', 'cse', 'contextual_subword_embedding', 'similarity', 'sts', 'semantic_textual_similarity', 'sentence_similarity', 'sentvec', 'sentence_embedding', 'sentence_vector', 'se', 'inflection', 'morphological_inflection', 'g2p', 'grapheme_to_phoneme', 'grapheme_to_phoneme_conversion', 'w2v', 'wordvec', 'word2vec', 'word_vector', 'word_embedding', 'tokenize', 'tokenise', 'tokenization', 'tokenisation', 'tok', 'segmentation', 'seg', 'mt', 'machine_translation', 'translation', 'pos', 'tag', 'pos_tagging', 'tagging', 'const', 'constituency', 'constituency_parsing', 'cp', 'pg', 'collocation', 'collocate', 'col', 'word_translation', 'wt', 'summarization', 'summarisation', 'text_summarization', 'text_summarisation', 'summary', 'gec', 'review', 'review_s

## 2. 특정 task에서 이용 가능한 모델들 보기

In [3]:
Pororo.available_models("review")

'Available models for review are ([lang]: en, [model]: roberta.base.en.review), ([lang]: ko, [model]: brainbert.base.ko.review_rating), ([lang]: ja, [model]: jaberta.base.ja.review), ([lang]: zh, [model]: zhberta.base.zh.review)'

## 3. 특정 task를 수행하기
- 작업별 모델을 로드하는 팩토리 클래스 `Pororo`를 사용
- task명과 언어를 각 인자에 맞게 작성
- 객체를 출력함으로써 모듈 정보를 확인할 수 있음

In [4]:
review = Pororo(task="review", lang="ko")
review

[TASK]: REVIEW
[LANG]: KO
[MODEL]: brainbert.base.ko.review_rating

- 객체 생성 후에, 다음과 같이 입력 값을 전달

In [5]:
review("실리콘이라서 불편할거라 생각했는데 느낌이 보들보들하고 라이언이 너무 귀여워요. 안 찢어지고 지금 잘 사용하고 있습니다!!")

4.8

In [6]:
review("가격대비 최악이에요 먼지 묻어도 너무 심한거 아니에요? 주머니 넣기가 무섭네요 맨날 닦을수도 없구요 귀찮네요")

1.24

#### task가 여러 개의 모델을 지원한다면, `model` 인자를 바꿔 다른 모델을 사용할 수 있음

In [7]:
Pororo.available_models("mt")

'Available models for mt are ([lang]: multi, [model]: transformer.large.multi.mtpg, transformer.large.multi.fast.mtpg)'

In [8]:
mt = Pororo(task="mt", lang="multi", model="transformer.large.multi.mtpg")
print(mt)

[TASK]: MT
[LANG]: MULTI
[MODEL]: transformer.large.multi.mtpg


In [9]:
fast_mt = Pororo(task="mt", lang="multi", model="transformer.large.multi.fast.mtpg")
print(fast_mt)

[TASK]: MT
[LANG]: MULTI
[MODEL]: transformer.large.multi.fast.mtpg


# Text classification
## [Automated Essay Scoring](https://kakaobrain.github.io/pororo/text_cls/aes.html)

### 1. 이용 가능한 모델 확인

In [10]:
Pororo.available_models("aes")

'Available models for aes are ([lang]: en, [model]: roberta.base.en.aes)'

### 2. 객체 생성

In [11]:
aes = Pororo(task="aes", lang="en")
aes

[TASK]: AES
[LANG]: EN
[MODEL]: roberta.base.en.aes

### 3. 자동 에세이 채점

In [12]:
aes("""
More effort is wasted doing things that don't matter than is wasted doing things inefficiently.
And if that is the case, elimination is a more useful skill than optimization.
I am reminded of the famous Peter Drucker quote,
'There is nothing so useless as doing efficiently that which should not be done at all.'
""")

23.64

## [Age Suitability Prediction](https://kakaobrain.github.io/pororo/text_cls/age_suitability.html)
### 1. 이용 가능한 모델 확인

In [13]:
Pororo.available_models("age_suitability")

'Available models for age_suitability are ([lang]: en, [model]: roberta.base.en.movie)'

### 2. 객체 생성

In [14]:
age_suitability = Pororo(task="age_suitability", lang="en")
age_suitability

[TASK]: AGE_SUITABILITY
[LANG]: EN
[MODEL]: roberta.base.en.movie

### 3. 연령 적합성 예측

In [15]:
age_suitability("When I was a little girl in the 1950s, it would not have been possible for me to say, I want to be an anchorwoman when I grow up.")

{'rating': {'class': 'PG',
  'description': 'Parental Guidance Suggested. Some material may not be suitable for children.'},
 'emotion': {'nudity': 'Low',
  'violence': 'Low',
  'profanity': 'Low',
  'alcohol': 'Low',
  'frightening': 'Low'}}

In [16]:
age_suitability("The past can hurt, but you can either run from it, or learn from it.")

{'rating': {'class': 'R',
  'description': 'Restricted. Under 17 requires accompanying parent or adult guardian.'},
 'emotion': {'nudity': 'Low',
  'violence': 'Low',
  'profanity': 'Low',
  'alcohol': 'Low',
  'frightening': 'Low'}}

In [17]:
age_suitability("At some point you've got to decide for yourself who you gonna be. Can't let nobody make that decision for you.")

{'rating': {'class': 'PG-13',
  'description': 'Parents Strongly Cautioned. Some material may be inappropriate for children under 13.'},
 'emotion': {'nudity': 'Low',
  'violence': 'Low',
  'profanity': 'Low',
  'alcohol': 'Low',
  'frightening': 'Low'}}

## [Natural Language Inference](https://kakaobrain.github.io/pororo/text_cls/nli.html)
### 1. 이용 가능한 모델 확인

In [18]:
Pororo.available_models("nli")

'Available models for nli are ([lang]: en, [model]: roberta.base.en.nli), ([lang]: ko, [model]: brainbert.base.ko.kornli), ([lang]: ja, [model]: jaberta.base.ja.nli), ([lang]: zh, [model]: zhberta.base.zh.nli)'

### 2. 객체 생성

In [19]:
nli_ko = Pororo(task="nli", lang="ko")

In [20]:
nli_en = Pororo(task="nli", lang="en")

### 3. 자연어 추론

In [21]:
nli_ko("저는, 그냥 알아내려고 거기 있었어요", "나는 처음부터 그것을 잘 이해했다")

'Contradiction'

In [22]:
nli_ko("회색 개가 숲에서 쓰러진 나무를 핥고 있다.", "개가 밖에 있다.")

'Entailment'

In [23]:
nli_ko("스타벅스에서 뭐 마실지 고민된다.", "다양한 음료를 마셔봐도 역시 아메리카노가 최고다.")

'Neutral'

In [24]:
nli_en("A soccer game with multiple males playing.", "Some men are playing a sport.")

'Entailment'

In [25]:
nli_en("I have 2 cats.", "I do not have any pets. What is your cats name?")

'Contradiction'

In [26]:
nli_en("A senior is waiting at the window of a restaurant that serves sandwiches.", "A man is looking to order a grilled cheese sandwich.")

'Neutral'

## [Paraphrase Identification](https://kakaobrain.github.io/pororo/text_cls/para_id.html)
### 1. 이용 가능한 모델 확인

In [27]:
Pororo.available_models("pi")

'Available models for pi are ([lang]: ko, [model]: brainbert.base.ko.paws)'

### 2. 객체 생성

In [28]:
pi = Pororo(task="pi", lang="ko")




### 3. 의역 식별

In [29]:
pi("그는 빨간 자전거를 샀다", "그가 산 자전거는 빨간색이다.")

'Paraphrase'

In [30]:
pi("그는 빨간 자전거를 샀다", "그가 타고 있는 자전거는 빨간색이다.")

'NOT Paraphrase'

In [31]:
pi("그녀는 제주도에서 일출을 감상했다", "그녀는 일출을 감상하기 위해서 제주도에 갔다.")

'Paraphrase'

In [32]:
pi("그녀는 제주도에서 일출을 감상했다", "그녀는 제주도에 갔다.")

'Paraphrase'

In [33]:
pi("그녀는 제주도에서 일출을 감상했다", "그녀는 일출을 감상했다")

'Paraphrase'

In [34]:
pi("그녀는 제주도에서 일출을 감상했다", "그녀는 강릉에서 일출을 감상했다")

'NOT Paraphrase'

## [Review Scoring](https://kakaobrain.github.io/pororo/text_cls/review_score.html)
### 1. 이용 가능한 모델 확인

In [35]:
Pororo.available_models("review")

'Available models for review are ([lang]: en, [model]: roberta.base.en.review), ([lang]: ko, [model]: brainbert.base.ko.review_rating), ([lang]: ja, [model]: jaberta.base.ja.review), ([lang]: zh, [model]: zhberta.base.zh.review)'

### 2. 객체 생성

In [36]:
review_ko = Pororo(task="review", lang="ko")
review_en = Pororo(task="review", lang="en")




### 3. 리뷰 평점

In [37]:
review_en("Just what I needed! Perfect for western theme party.")

4.79

In [38]:
review_en("Received wrong size.")

2.65

In [39]:
review_ko("그냥저냥 다른데랑 똑같숩니다")

2.96

In [40]:
review_ko("좋습니다 만족해요 배송만 좀 더 빨랐으면..")

3.92

## [Semantic Textual Similarity](https://kakaobrain.github.io/pororo/text_cls/sts.html)
### 1. 이용 가능한 모델 확인

In [41]:
Pororo.available_models("similarity")

'Available models for similarity are ([lang]: en, [model]: roberta.base.en.sts), ([lang]: ko, [model]: brainbert.base.ko.korsts, brainsbert.base.ko.kornli.korsts), ([lang]: ja, [model]: jaberta.base.ja.sts, jasbert.base.ja.nli.sts), ([lang]: zh, [model]: zhberta.base.zh.sts, zhsbert.base.zh.nli.sts)'

### 2. 객체 생성

In [42]:
sts_ko = Pororo(task="similarity", lang="ko")
sts_en = Pororo(task="similarity", lang="en")





### 3. 의미적 텍스트 유사도

In [43]:
sts_ko("나는 동물을 좋아하는 사람이야", "강아지를 좋아하는 아버지")

0.415

In [44]:
sts_ko("빨리 주말이 왔으면 좋겠다", "저녁 뭐 먹지")

0.215

In [47]:
sts_ko("아메리카노 좋아 좋아 좋아", "싸구려 커피를 마신다")

0.749

In [48]:
sts_en("Two dogs and one cat sitting on couch.", "Two dogs and a cat resting on a couch.")

0.921

In [49]:
sts_en("I hope the weekend comes soon", "what to eat for dinner?")

0.017

In [50]:
sts_en("I like Starbucks better than Hollys", "I prefer Hollys than Starbucks")

0.835

## [Sentence Embedding](https://kakaobrain.github.io/pororo/text_cls/sent2vec.html)
### 1. 이용 가능한 모델 확인

In [51]:
Pororo.available_models("sentence_embedding")

'Available models for sentence_embedding are ([lang]: en, [model]: stsb-roberta-base, stsb-roberta-large, stsb-bert-base, stsb-bert-large, stsb-distillbert-base), ([lang]: ko, [model]: brainsbert.base.ko.kornli.korsts), ([lang]: ja, [model]: jasbert.base.ja.nli.sts), ([lang]: zh, [model]: zhsbert.base.zh.nli.sts)'

### 2. 객체 생성

In [52]:
se_ko = Pororo(task="sentence_embedding", lang="ko")
se_en = Pororo(task="sentence_embedding", lang="en")





Downloading:   0%|          | 0.00/744 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.90k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/672 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/499M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/798k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

### 3. 문장 임베딩

In [53]:
se_ko("나는 칵테일을 좋아하는 사람이야")

array([-1.11333758e-01, -1.35307372e-01, -7.16666281e-01,  4.40386869e-02,
       -3.23292576e-02,  7.28820562e-02,  7.84086064e-02,  1.85461298e-01,
        2.15100035e-01,  1.87195837e-01,  2.51216531e-01,  1.10763721e-01,
       -2.04379261e-01, -2.05295190e-01, -1.47498831e-01,  5.79995476e-02,
        1.75289258e-01,  1.04383618e-01,  2.93260515e-01,  4.02837098e-02,
       -2.40168825e-01, -1.90112218e-01, -4.69484478e-02, -1.42773092e-01,
        3.78997773e-02,  9.07172486e-02, -1.47194222e-01,  2.66549766e-01,
        5.33436164e-02, -6.24033175e-02,  1.97511062e-01,  1.39006460e-02,
       -7.20208213e-02,  2.33352751e-01,  2.96607524e-01,  2.02621520e-01,
       -1.52824238e-01, -4.48255055e-02, -3.64014894e-01,  3.27529907e-01,
       -4.52227332e-02, -2.09124386e-01,  7.84826636e-01, -1.07783321e-02,
        1.64855585e-01,  2.65738852e-02,  1.12240359e-01, -3.45210344e-01,
       -5.95277585e-02,  2.34145168e-02, -1.71330944e-03, -1.60204887e-01,
        4.32447821e-01,  

In [54]:
se_en("I'm a cocktail lover!")

array([ 7.80217588e-01,  7.32849464e-02, -8.01883757e-01,  8.56393874e-01,
        6.60546780e-01,  1.44161963e+00, -6.75821066e-01, -5.98490119e-01,
       -1.03425372e+00, -7.70245790e-01, -1.07619655e+00,  5.10522485e-01,
        8.12755227e-02,  5.32469392e-01, -4.27171201e-01,  1.48525953e+00,
       -1.29110718e+00,  1.13370693e+00, -1.82235718e-01,  1.22072828e+00,
       -7.79307544e-01,  6.45991385e-01,  1.50008941e+00,  4.50024158e-01,
        7.67633677e-01, -5.10136008e-01, -1.21352367e-01, -3.06882709e-01,
        3.62064838e-02, -1.57526523e-01, -1.63681650e+00, -4.75979447e-01,
        5.97763658e-01,  4.51422721e-01, -6.70185983e-01, -2.34835580e-01,
       -1.61100760e-01, -2.05329680e+00,  6.88002825e-01, -2.61599898e-01,
       -1.18386555e+00,  1.29555777e-01,  7.65036419e-02,  1.27786815e-01,
       -1.01904936e-01, -2.29878306e-01, -2.58991480e-01, -4.36614692e-01,
        4.67166342e-02,  5.14221847e-01,  5.69943190e-01,  1.40233099e+00,
       -3.22453052e-01,  

In [55]:
query_ko = "고양이가 창 밖을 바라본다"
cands_ko = [
    "고양이가 카메라를 켠다",
    "남자와 여자가 걷고 있다",
    "고양이가 개를 만지려 하고 있다",
    "두 마리의 고양이가 창문을 보고 있다",
    "테이블 위에 앉아 있는 고양이가 창밖을 내다보고 있다",
    "창밖을 내다보는 고양이"
]
se_ko.find_similar_sentences(query_ko, cands_ko)

{'query': '고양이가 창 밖을 바라본다',
 'ranking': [(5, '창밖을 내다보는 고양이', 0.93),
  (4, '테이블 위에 앉아 있는 고양이가 창밖을 내다보고 있다', 0.91),
  (3, '두 마리의 고양이가 창문을 보고 있다', 0.78),
  (0, '고양이가 카메라를 켠다', 0.74),
  (2, '고양이가 개를 만지려 하고 있다', 0.41)]}

In [56]:
query_en = "He is the tallest person in the world"
cands_en = [
    "I hate this guy.",
    "You are so lovely!",
    "Tom is taller than Jim."
]
se_en.find_similar_sentences(query_en, cands_en)

{'query': 'He is the tallest person in the world',
 'ranking': [(1, 'You are so lovely!', 0.5),
  (2, 'Tom is taller than Jim.', 0.44),
  (0, 'I hate this guy.', 0.2)]}