# Pororo
- [Repository](https://github.com/kakaobrain/pororo)
- [Documentation](https://kakaobrain.github.io/pororo/)

In [1]:
from pororo import Pororo

# Sequence Tagging
## [Contextualized Embedding](https://kakaobrain.github.io/pororo/tagging/contextualized.html)
### 1. 이용 가능한 모델 확인

In [2]:
Pororo.available_models("cse")

'Available models for cse are ([lang]: en, [model]: roberta.base.en), ([lang]: ko, [model]: brainbert.base.ko), ([lang]: zh, [model]: zhberta.base.zh), ([lang]: ja, [model]: jaberta.base.ja)'

### 2. 객체 생성

In [3]:
cse_ko = Pororo(task="cse", lang="ko")
cse_en = Pororo(task="cse", lang="en")

### 3. 하위 단어 단위로 문맥에 따른 문장 임베딩 

In [4]:
cse_ko("하늘을 나는 새")

array([[-0.21313499, -0.11196373, -0.02407344, ..., -0.2571211 ,
        -0.23565257, -0.12325783],
       [ 0.13783577,  0.2669262 , -0.6433762 , ...,  0.01077018,
        -0.11404316, -0.02197149],
       [ 0.08259992,  0.24554944, -0.6630615 , ...,  0.02181647,
        -0.11622939, -0.06948961],
       [-0.20931226, -0.1354514 , -0.3357223 , ..., -0.12552167,
        -0.19938025, -0.01137309],
       [-0.25663525, -0.11936974, -0.01797597, ..., -0.2369157 ,
        -0.19555894, -0.18572047]], dtype=float32)

In [5]:
cse_ko("나른한 오후엔 음악과 커피를!")

array([[-1.06049813e-02, -1.86113492e-01,  3.88148427e-03, ...,
        -2.41542086e-01, -9.00222510e-02, -6.55645281e-02],
       [ 9.95350853e-02, -1.23527922e-01,  1.22392386e-01, ...,
         1.07821867e-01,  9.81458724e-02, -2.25251410e-02],
       [-1.43838581e-04, -1.04551390e-01, -3.65026921e-01, ...,
         7.41251931e-02, -1.71310231e-01,  1.15158353e-02],
       ...,
       [-2.24484839e-02, -7.06166923e-02,  1.99606985e-01, ...,
        -1.82698280e-01,  8.40096921e-02,  8.68557170e-02],
       [ 4.74012047e-02, -1.40060291e-01, -6.09750375e-02, ...,
        -4.04116884e-02, -3.20566148e-02,  5.58848679e-02],
       [ 6.44097999e-02, -8.70263278e-02,  1.42253563e-01, ...,
         7.63181373e-02, -1.82041749e-02,  4.39261831e-03]], dtype=float32)

In [6]:
cse_en("How are you going to spend your life?")

array([[-0.03558701,  0.11585447, -0.01496094, ..., -0.05464038,
        -0.01766211, -0.04984224],
       [ 0.04018528, -0.07011816, -0.11749196, ...,  0.27356097,
         0.14581394, -0.24985018],
       [ 0.23272096,  0.2758757 , -0.1045337 , ..., -0.00551438,
         0.23068707, -0.16332047],
       ...,
       [-0.05810062,  0.12190569,  0.1875323 , ...,  0.14579834,
         0.0088409 ,  0.01141189],
       [ 0.00383297,  0.13403621,  0.19824538, ..., -0.27938277,
         0.03267471,  0.0310562 ],
       [-0.02350142,  0.12627493, -0.03620733, ..., -0.0935569 ,
        -0.0096098 , -0.08637227]], dtype=float32)

## [Dependency Parsing](https://kakaobrain.github.io/pororo/tagging/dp.html)
### 1. 이용 가능한 모델 확인

In [24]:
Pororo.available_models("dep_parse")

'Available models for dep_parse are ([lang]: ko, [model]: posbert.base.ko.dp)'

### 2. 객체 생성

#### 개발 환경
- macOS Big Sur 11.5.1
- Python 3.8
- pip 20.3.4
- python-mecab-ko 1.0.9
- python-dev-tools 2020.9.10
- wget 1.21.1

문제 원인 분석 및 해결 중...
일단 버전은 문제되지 않도록 다 맞춰보았는데 해결되지 않았다. 필요한 패키지는 모두 설치한 상황이다.

In [25]:
dp = Pororo(task="dep_parse", lang="ko")

TypeError: pybind11::init(): factory function returned nullptr

### 3. 의존성 구문 분석

In [None]:
dp("분위기도 좋고 음식도 맛있었어요. 한 시간 기다렸어요.")

In [None]:
dp("한시간 기다렸어요.")

## [Fill-in-the-blank](https://kakaobrain.github.io/pororo/tagging/fill.html)
### 1. 이용 가능한 모델 확인

In [26]:
Pororo.available_models("fib")

'Available models for fib are ([lang]: en, [model]: roberta.base.en), ([lang]: ko, [model]: posbert.base.ko), ([lang]: ja, [model]: jaberta.base.ja), ([lang]: zh, [model]: zhberta.base.zh)'

### 2. 객체 생성
Dependency parsing과 마찬가지로 에러 발생함

In [27]:
fib_ko = Pororo(task="fib", lang="ko")
fib_en = Pororo(task="fib", lang="en")

TypeError: pybind11::init(): factory function returned nullptr

### 3. 빈칸 채우기

In [None]:
fib_ko("김연아는 __의 피겨스케이팅 선수이다.")

In [None]:
fib_en("New Hope Club is a famouse __ group.")

## [Machine Reading Comprehension](https://kakaobrain.github.io/pororo/tagging/mrc.html)
### 1. 이용 가능한 모델 확인

In [28]:
Pororo.available_models("mrc")

'Available models for mrc are ([lang]: ko, [model]: brainbert.base.ko.korquad)'

### 2. 객체 생성

In [29]:
mrc = Pororo(task="mrc", lang="ko")

TypeError: pybind11::init(): factory function returned nullptr

### 3. 기계 독해

In [None]:
mrc(
    "카카오브레인이 공개한 것은?",
    "카카오 인공지능(AI) 연구개발 자회사 카카오브레인이 AI 솔루션을 첫 상품화했다. 카카오는 카카오브레인 '포즈(pose·자세분석) API'를 유료 공개한다고 24일 밝혔다. 카카오브레인이 AI 기술을 유료 API를 공개하는 것은 처음이다. 공개하자마자 외부 문의가 쇄도한다. 포즈는 AI 비전(VISION, 영상·화면분석) 분야 중 하나다. 카카오브레인 포즈 API는 이미지나 영상을 분석해 사람 자세를 추출하는 기능을 제공한다."
   )

mecab이 후 처리를 잘 수행하지 못할 때는 `postprocess` 옵션을 `False`로 설정할 수 있다.

In [None]:
mrc("카카오브레인이 공개한 라이브러리 이름은?", "카카오브레인은 자연어 처리와 음성 관련 태스크를 쉽게 수행할 수 있도록 도와 주는 라이브러리 pororo를 공개하였습니다.", postprocess=False)

## [Named Entity Recognition](https://kakaobrain.github.io/pororo/tagging/ner.html)
### 1. 이용 가능한 모델 확인

In [30]:
Pororo.available_models("ner")

'Available models for ner are ([lang]: en, [model]: roberta.base.en.ner), ([lang]: ko, [model]: charbert.base.ko.ner), ([lang]: zh, [model]: zhberta.base.zh.ner), ([lang]: ja, [model]: jaberta.base.ja.ner)'

### 2. 객체 생성

In [31]:
ner_ko = Pororo(task="ner", lang="ko")
ner_en = Pororo(task="ner", lang="en")

### 3. 명명된 엔티티 인식

In [32]:
ner_ko("안산은 21세의 170 센티미터이며, 2021 제32회 도쿄 올림픽 여자 양궁 국가대표로, 현재 세계랭킹 6위이다.")

[('안산', 'LOCATION'),
 ('은', 'O'),
 (' ', 'O'),
 ('21세', 'QUANTITY'),
 ('의', 'O'),
 (' ', 'O'),
 ('170 센티미터', 'QUANTITY'),
 ('이며,', 'O'),
 (' ', 'O'),
 ('2021', 'DATE'),
 (' ', 'O'),
 ('제32회', 'QUANTITY'),
 (' ', 'O'),
 ('도쿄 올림픽', 'EVENT'),
 (' ', 'O'),
 ('여자', 'O'),
 (' ', 'O'),
 ('양궁', 'CIVILIZATION'),
 (' ', 'O'),
 ('국가대표', 'CIVILIZATION'),
 ('로,', 'O'),
 (' ', 'O'),
 ('현재', 'O'),
 (' ', 'O'),
 ('세계랭킹', 'O'),
 (' ', 'O'),
 ('6위', 'QUANTITY'),
 ('이다.', 'O')]

한국어의 경우, Word Sense Disambiguation 모듈을 사용하여 보다 구체적인 태그를 얻을 수 있다.

In [33]:
ner_ko("김제덕은 18세의 176 센티미터, 72 킬로그램이며, 2021 제32회 도쿄 올림픽 남자 양궁 국가대표이다.", apply_wsd=True)

[('김제덕', 'PERSON'),
 ('은', 'O'),
 (' ', 'O'),
 ('18세', 'AGE'),
 ('의', 'O'),
 (' ', 'O'),
 ('176 센티미터', 'LENGTH/DISTANCE'),
 (',', 'O'),
 (' ', 'O'),
 ('72 킬로그램', 'WEIGHT'),
 ('이며,', 'O'),
 (' ', 'O'),
 ('2021', 'DATE'),
 (' ', 'O'),
 ('제32회', 'QUANTITY'),
 (' ', 'O'),
 ('도쿄 올림픽', 'EVENT'),
 (' ', 'O'),
 ('남자', 'O'),
 (' ', 'O'),
 ('양궁', 'CIVILIZATION'),
 (' ', 'O'),
 ('국가대표', 'CIVILIZATION'),
 ('이다.', 'O')]

In [34]:
ner_en("It was in midfield where Arsenal took control of the game, and that was mainly down to Thomas Partey and Mohamed Elneny.")

[('It', 'O'),
 ('was', 'O'),
 ('in', 'O'),
 ('midfield', 'O'),
 ('where', 'O'),
 ('Arsenal', 'ORG'),
 ('took', 'O'),
 ('control', 'O'),
 ('of', 'O'),
 ('the', 'O'),
 ('game', 'O'),
 (',', 'O'),
 ('and', 'O'),
 ('that', 'O'),
 ('was', 'O'),
 ('mainly', 'O'),
 ('down', 'O'),
 ('to', 'O'),
 ('Thomas Partey', 'PERSON'),
 ('and', 'O'),
 ('Mohamed Elneny', 'PERSON'),
 ('.', 'O')]

## [Part-of-Speech Tagging](https://kakaobrain.github.io/pororo/tagging/pos.html)
### 1. 이용 가능한 모델 확인

In [35]:
Pororo.available_models("pos")

'Available models for pos are ([lang]: en, [model]: nltk), ([lang]: ko, [model]: mecab-ko), ([lang]: ja, [model]: mecab-ipadic), ([lang]: zh, [model]: jieba)'

### 2. 객체 생성

In [36]:
pos_ko = Pororo(task="pos", lang="ko")
pos_en = Pororo(task="pos", lang="en")

TypeError: pybind11::init(): factory function returned nullptr

### 3. 품사 태깅

In [None]:
pos_ko("안녕하세요. 제 이름은 베니입니다.")

In [None]:
pos_en("The striped bats are hanging, on their feet for best.")

## [Semantic Role Labeling](https://kakaobrain.github.io/pororo/tagging/srl.html)
### 1. 이용 가능한 모델 확인

In [37]:
Pororo.available_models("srl")

'Available models for srl are ([lang]: ko, [model]: charbert.base.ko.srl)'

### 2. 객체 생성

In [38]:
srl = Pororo(task="srl", lang="ko")




TypeError: pybind11::init(): factory function returned nullptr

### 3. 의미역 결정

In [None]:
srl("덴버는 구리에서 재택근무한다.")

In [None]:
srl("피고인은 거제에서 400만 원 상당의 순금목걸이를 강취하였다.")