# 01. 토크나이징

## 1.1 토크나이징?
* 일상에서 사용하는 언어를 자연어라고 한다.
* 자연어의 의미를 분석해서 처리하는 것을 자연어처리(NLP, Natural Language Processing)라고 한다.
* 어떤 문장의 의미를 파악하기 위해서는 일정한 의미를 지닌 단어들을 `토큰 token`이라고 한다.
* 주어진 문장을 `토큰단위로 정보를 나누는 작업을 토크나이징`이라고 한다.
* 한국어 토크나이징을 지원하는 파이썬라이브러리중 가장 많이 사용하는 `KoNLPy 코엔엘파이`가 있다.

## 1.2 KoNLPy
* 설치 : `pip install konlpy`
* http://konlpy.org/ko/latest
* `형태소(morpheme)란 언어학에서 일정한 의미가 있는 작은 단위의 말`이다.
* `형태소를 토큰단위로 나워어 단어와 품사정보를 같이 사용`할 수 있기 때문에 효과적으로 사용할 수 있다.
* 영어의 경우는 띄어쓰기로 단어를 구분하지만 한국어는 명사와 조사를 띄어쓰지 않고 `용언에 따라 여러가지의 의미`가 있기 때문에 띄어쓰기로만 토크나이징을 할 수 없다.
* 한국어의 복잡한 특성때문에 형태를 분석할 수가 있는 도구가 필요한데 이를 `형태소분석기`라 한다.
* 챗봇개발에 있어서 형태소분석기가 매우 중요한 역할을 한다.
* 한국어의 9품사를 분석해주는 형태소분석기를 KoNLPy에서 라이브러리 형태로 제공해 준다.
  - Kkma(꼬꼬마) : 서울대학교 IDA(Intelligent Data System)연구실에서 개발
  - Komoran(Korea Morphological Analyzer) : Shineware에서 자바로 개발
  - Okt(Open-source Korean Text Processor) : 트위터에서 개발한 Twitter한국어처리기에서 파생된 오픈소스
  
### 1.2.1 Kkma

* 지원하는 함수
  - morphs(phrase) : 주어진 문장을 `형태소단위로 토크나이징해서 list형태로 리턴`해 주는 함수
  - nons(phrase) : 주어진 문장에서 `명사인 토큰만 추출`해 주는 함수
  - pos(phrase, flatten=True) : POS태그라고도 하면 `형태소추출후 품사태깅`을 한다. 형태소와 품사를 튜플로 리턴
  - sentences(phrase) : `여러개의 문장을 분리, 분리된 문장을 리스트로 리턴`
* 꼬꼬마 한국어 형태소 분석기
  - http://kkma.snu.ac.kr/documents/?doc=postag

In [7]:
from konlpy.tag import Kkma

# 꼬꼬마형태소 분석기 객체를 생성
kkma = Kkma()
text = "아버지가 가방에 들어갑니다."

# 1. 형태소추출
morphs = kkma.morphs(text)
print(type(morphs), morphs)

# 2. 형태소와 품사태그 추출
pos = kkma.pos(text)
print(type(pos), pos)

# 3. 명사만 추출
nons = kkma.nouns(text)
print(type(nons), nons)

# 4. 문장분리
setences = "오늘 날씨는 어때요? 내일은 덥다던데"
s = kkma.sentences(setences)
print(type(s), s)

<class 'list'> ['아버지', '가', '가방', '에', '들어가', 'ㅂ니다', '.']
<class 'list'> [('아버지', 'NNG'), ('가', 'JKS'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
<class 'list'> ['아버지', '가방']
<class 'list'> ['오늘 날씨는 어 때요?', '내일은 덥다 던 데']


### 1.2.2 Komoran

* 지원하는 함수
  - morphs(phrase), nons(phrase), pos(phrase, flatten=True) 
  - 코모란품사표 : https://docs.komoran.kr/firststep/postypes.html

In [9]:
from konlpy.tag import Komoran

# 형태소분석기객체생성
komoran = Komoran()
text = "아버지가 가방에 들어갑니다."

# 1. 형태소추출
morphs = komoran.morphs(text)
print(type(morphs), morphs)

# 2. 형태소와 품사태그 추출
pos = komoran.pos(text)
print(type(pos), pos)

# 3. 명사만 추출
nons = komoran.nouns(text)
print(type(nons), nons)

# Komoran은 Kkma보다 형태소를 빠르게 분석하며 다양한 품사태그를 지원

<class 'list'> ['아버지', '가', '가방', '에', '들어가', 'ㅂ니다', '.']
<class 'list'> [('아버지', 'NNG'), ('가', 'JKS'), ('가방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]
<class 'list'> ['아버지', '가방']


### 1.2.3 Okt

* Okt는 `색인어를 추출하는 것을 목표로 하기 때문에 완전한 수준의 형태소분석을 지향하지는 않는다`
* Okt는 띄어쓰기가 어느 정도 되어있는 문장을 빠르게 분석할 때 많이 사용한다.
* 지원하는 함수
  - morphs(phrase), nons(phrase), pos(phrase, stem=False, Join=False)
  - nomalize(phrase) : 문장을 정규화(사랑햌ㅋ -> 사랑해ㅋㅋ)
  - phrases(phrase) : 문장에서 `어구를 추출` (오늘 날씨가 좋아요 -> `['오늘', '오늘 날씨', '날씨']`
* 참고사이트 : https://github.com/open-korean-text/open-korean-text

In [13]:
from konlpy.tag import Okt

# 형태소분석기객체생성
okt = Okt()
text = "아버지가 가방에 들어갑니다."

# 1. 형태소추출
morphs = okt.morphs(text)
print(type(morphs), morphs)

# 2. 형태소와 품사태그 추출
pos = okt.pos(text)
print(type(pos), pos)

# 3. 명사만 추출
nons = okt.nouns(text)
print(type(nons), nons)

# 4. 정규화
text = "오늘 날씨가 좋아욬ㅋㅋ"
n = okt.normalize(text)
print(type(n), n)

# 5. 어구추출
p = okt.phrases(text)
print(type(p), p)

# 결과분석
# 1. Okt는 타 분석기보다 품사정보는 적지만 분석속도는 제일 빠르다.
# 2. normalize함수를 지원해 오타가 섞인 문장을 정규화해서 처리하는데 효과적이다.

<class 'list'> ['아버지', '가', '가방', '에', '들어갑니다', '.']
<class 'list'> [('아버지', 'Noun'), ('가', 'Josa'), ('가방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]
<class 'list'> ['아버지', '가방']
<class 'str'> 오늘 날씨가 좋아요ㅋㅋ
<class 'list'> ['오늘', '오늘 날씨', '좋아욬', '날씨']


### 1.2.4 사용자사전구축

* 쳇봇데이터는 인터넷 구어체와 관련이 많다.
* 일반적으로 SNS에서는 구어체나 문어체를 많이 사용하지 않는다.
* 신규 단어나 문장은 분석기에서 인식불가의 경우가 많다.
* 그렇기 때문에 새로운 형태의 단어나 문장의 인식률이 많이 떨어지는 원인이 된다.
* 이를 해결하기 위해서는 사용자사전을 구축해야 한다.
* `Komoran이 다른 형태소분석기에 비해 사전관리방법이 편리`하다.

In [15]:
# 미등록단어 '엔엘피'의 형태소 분석

komoran = Komoran()
text = "우리 챗봇은 엔엘피를 좋아해"
pos = komoran.pos(text)
print(pos)

# 결과분석
# 엔엘피를 한단어로 인식하는 것이 아니라 각각 문자를 명사로 인식
# 이를 해결하기 위해서는 엔엘피라는 단어를 신규 단어로 사전에 등록해야 한다.

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


* Komoran은 문장내에 사전에 등록된 단어가 나오면 `사전에 정의되느 품사태그를 선택`한다.
* 파일포맷
  - `단어와 품사는 tab으로 구분`
  - 단어는 띄어쓰기를 허용
  - `품사정보 생략시 기본적으로 고유명사(NNP)로 인식
  - 주석처리는 `#`로 정의

In [19]:
%%writefile user_dic.tsv
엔엘피	NNG
나는 내일, 어제의 너와 만난다	NNG
시샵

Overwriting user_dic.tsv


In [20]:
komoran = Komoran(userdic="./user_dic.tsv")
text = "우리 챗봇은 엔엘피를 좋아해"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔엘피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


## 1.3 형태소분석기 장단점

|형태소분석기|장점|단점|
|:------|:---------------|:---------|
|Kkma|분석품질이 좋음| 분석속도가 느림|
||지원하는 품사 태그가 가장 많음|사용자사전으로 추가한 복합명사에 대해 불완전하게 동작함|
|Komoran|자소가 분리된 문장이나 오탈자에 강함|적당한 분석 품질과 분석속동|
||사용자 사전관리 용이||
|Okt|매우 빠른 분석 속도|사용자 사전관리 어려움|
||정규화기능지원|용언 분석에 일관성이 부족함|