## 한국어 토크나이저

## KoNLPy
가장 기본적인 라이브러리 <br>
형태소(morpheme)를 토큰 단위로 사용 => 단어와 품사 정보를 같이 활용할 수 있음 <br>
<a href="http://namu.wiki/w/품사">9품사의 종류와 의미</a>

### 1. Kkma
꼬꼬마 형태소 분석기를 사용하기 위해서는 konlpy.tag 패키지의 Kkma 모듈을 불러와야 함

|함수|설명|
|:---:|:---:| 
| morphs(phrase) | 인자로 전달된 문장을 형태소 단위를 토크나이징, 리스트로 반환 |
| nouns(phrase) | 인자로 전달된 문장에서 명사인 토큰만 추출 |
| pos(phrase, flatten=True) | POS tagger, 형태소로 나누고 품사 태깅 후 튜플형태로 묶어서 리스트로 반환 |
| sentences(phrase) | 인자로 전달된 여러 문장을 분리하여 리스트로 반환 |

In [2]:
from konlpy.tag import Kkma

# Kkma 객체 생성
Kkma = Kkma()

text="아버지가 방에 들어갑니다."

# 형태소 추출
morphs = Kkma.morphs(text)
print("형태소 : ", morphs)

# 형태소와 품사 태그 추출
pos = Kkma.pos(text)
print("형태소와 품사 태그 : ", pos)

# 명사만 추출
nouns = Kkma.nouns(text)
print("명사 : ", nouns)

# 문장 분리
sentences = "오늘 날씨 어때? 내일은 좀 덥다더라."
sent = Kkma.sentences(sentences)
print("문장 분리 : ", sent)

형태소 :  ['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
형태소와 품사 태그 :  [('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
명사 :  ['아버지', '방']
문장 분리 :  ['오늘 날씨 어 때? 내일은 좀 덥다 더 라.']


### 2. Okt
트위터에서 개발한 한국어 처리기<br>
띄어쓰기가 어느 정도 되어 있는 문장을 빠르게 분석

|함수|설명|
|:---:|:---:| 
| morphs(phrase) | 인자로 전달된 문장을 형태소 단위를 토크나이징, 리스트로 반환 |
| nouns(phrase) | 인자로 전달된 문장에서 명사인 토큰만 추출 |
| pos(phrase, stem=False, join=False) | POS tagger, 형태소로 나누고 품사 태깅 후 튜플형태로 묶어서 리스트로 반환 |
| normalize(phrase) | 인자로 전달된 문장을 정규화 |
| phrases(phrase) | 인자로 전달된 문장에서 어구를 추출 |

In [6]:
from konlpy.tag import Okt

# Kkma 객체 생성
Okt = Okt()

text="아버지가 방에 들어갑니다."

# 형태소 추출
morphs = Okt.morphs(text)
print("형태소 : ", morphs)

# 형태소와 품사 태그 추출
pos = Okt.pos(text)
print("형태소와 품사 태그 : ", pos)

# 명사만 추출
nouns = Okt.nouns(text)
print("명사 : ", nouns)

# 정규화, 어구 추출
sentences = "오늘 날씨 개좋닼ㅋㅋ"
print("정규화 : ", Okt.normalize(sentences))
print("어구 : ", Okt.phrases(sentences))

형태소 :  ['아버지', '가', '방', '에', '들어갑니다', '.']
형태소와 품사 태그 :  [('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]
명사 :  ['아버지', '방']
정규화 :  오늘 날씨 개좋다ㅋㅋ
어구 :  ['오늘', '오늘 날씨', '오늘 날씨 개좋닼', '날씨', '개좋닼']


## 사용자 사전 구축
새로운 형태의 단어와 문장은 인식률 저하의 원인이 된다.<br>
형태소 분석기에서 인식하지 못하는 단어들을 직접 추가하는 방법

In [7]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "우리 챗봇은 엔엘피를 좋아해."
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]


In [8]:
from konlpy.tag import Komoran

komoran = Komoran(userdic='./dic.text')
text = "우리 챗봇은 엔엘피를 좋아해."
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]


## KoNLPy 형태소 분석기 비교

|형태소 분석기|장점|단점|
|:---:|:---:|:---:| 
| Kkma | 분석 품질이 좋고 지원하는 품사 태그가 가장 많음 | 속도가 느리고 사용자 사전으로 추가한 명사에 대해 불완전하게 동작 |
| Komoran | 자소가 분리된 문장이나 오탈자에 강하고 사용자 사전 관리 용이 | 적당한 분석 품질과 분석 속도 |
| Okt | 매우 빠른 분석 속도와 정규화 기능 지원 | 시용지 시잔 관리 어렵고 용언 분석ㅇ |