# 1. 토크나이징

## 1.1 토크나이징이란?
* 컴퓨터분야에서 자연어의 의미를 분석해서 처리할 수 있도록 하는 것이 `자연어처리 NLP(Natural Language Processing)`이라 한다.
* 자연어처리를 하는 가장 일반적인 방법은?
  1. 주어진 문장을 일정한 의미가 있는 `가장 단어로 분리`
  2. 그 다음에 분리된 단어를 이용해서 `의미를 분석`한다.
  3. 여기서 가장 기본이 되는 단어를 `토큰 token`이라고 한다.
  4. 토큰단위는 토크나이징하는 방법에 따라 달라질 수가 있다.
  5. 하지만, 일반적으로 일정한 의미가 있는 가장 작은 단위로 결정된다.
* 이렇게 주어진 `문장에서 토큰 단위오 정보를 분리하는 작업을 토크나이징`이라고 한다.
* 토크나이징을 구현하기 위해서는 한국어문법에 대한 이해가 필요하다.
* 하지만, 한국어 토크나이징을 지원하는 파이썬 라이브러리가 있다.
* 한국어 자연어처리에 가장 많이 사용되는 라이브러기가 `KoNLPy 코엔엘파이`가 있다.

## 1.2 KoNLPy

* KoNLPy는 오픈소스 GPL v3(or 그 이상)에 따라 자유롭게 코드를 사용할 수 있다.
* 한국어 문장을 분석하려면 토크나이징작업을 제일 먼저 수행해야 한다.
* 이때 토큰단위를 어떻게 정의하느냐에 따라 자연어처리 성능이 좌우가 된다.
* 한국어처리는 `형태소(morpheme)를 토큰단위로 사용`한다.
* 형태소란 언어학에서 사용되는 용어로서 `일정한 의미가 있는 가장 작은 말의 단위`를 말한다.
* 즉, 더이상 쪼개지지 않는 단어를 뜻한다.
* 형태소를 토큰단위로 사용할 경우 단어와 품사를 같이 활용할 수 있기 때문에 효과적이다.
* 영어와는 달리 한국어는 명사와 조사를 띄어쓰지 않고 용언에 따라 여러가지 어미가 붙기 때문에
* 영어처럼 띄어씌가로만으로는 토크나이징을 할 수가 없다.
* 한국어의 복잡한 특성때문에 형태소를 분석할 수 있는 분석도구가 필요하다.
* 형태소분석시는 형태소의 의미를 고려해서 품사를 태깅한다.
* 형태소분석기
  1. 꼬꼬마(Kkma)
  2. 코모란(Komoran)
  3. Okt(Open-source Korean Text processor)
* 한국어의 9품사
  1. 명사
  2. 대명사
  3. 수사
  4. 동사
  5. 형용사
  6. 관형사
  7. 부사
  8. 조사
  9. 감탄사

In [2]:
!pip install konlpy
!pip show konlpy

Defaulting to user installation because normal site-packages is not writeable
Name: konlpy
Version: 0.6.0
Summary: Python package for Korean natural language processing.
Home-page: http://konlpy.org
Author: Team KoNLPy
Author-email: konlpy@googlegroups.com
License: GPL v3
Location: C:\Users\EZEN\AppData\Roaming\Python\Python311\site-packages
Requires: JPype1, lxml, numpy
Required-by: 


# 1.2.1 Kkma

* Kkma는 서울대학교 IDS(Itelligent Data Systems)연구실에서 개발한 한국어 형대토 분석기
* Kkma 모듈의 함수
  1. morphs(phrase) : 전달된 문장을 형태소 단위로 토크나이징하는 함수, list로 전달
  2. nouns(phrase)  : 전달된 문장에서 품사가 명사인 토큰만 추출
  3. pos(phrase, flatten=True) : POS tagger라고 하며, 문장에서 형태소를 추출한 뒤
     품사를 태깅한다. 형태소, 품사를 tuple로 묶어서 list로 리턴
  4. sentences(phrase) : 전달된 문장을 여러개의 문장으로 분리해주는 함수, list로 리턴
* Kkma 품사 : 56개의 품사태그를 지원
  1. NNG : 일반명사
  2. JKS : 주격조사
  3. JKM : 부주격조사
  4. VV  : 동사
  5. EFN : 평서형 종결 어미
  6. SF  : 마침표, 느낌표, 물음표
* 참고사이트 : http://kkma.snu.ac.kr/documents/?doc=postag

In [14]:
from konlpy.tag import Kkma

kkma = Kkma() # 형태소분석기 객체 생성
# print(dir(kkma))

text = '아버지가 방에 들어갑니다.'

# 1) 문장에서 형태소를 추출
morphs = kkma.morphs(text)
print(morphs)

# 2) 품사를 태그
pos = kkma.pos(text)
print(pos)

# 3) 태깅된 형태소에서 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

# 4) 복합문장을 문장단위로 추출
sentences = '오늘 날씨는 어때요? 내일은 덥다던데.'
s = kkma.sentences(sentences)
print(len(s), s)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
['아버지', '방']
2 ['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


### 1.2.2 Komoran

* Komoran(Korean Morphological ANalyzer)은 Shineware에서 자바로 개발한 한국어 형태소 분석기
* Komoran모듈의 함수
  1. morphs(phrase) : 전달된 문장을 형태소 단위로 토크나이징하는 함수, list로 전달
  2. nouns(phrase)  : 전달된 문장에서 품사가 명사인 토큰만 추출
  3. pos(phrase, flatten=True) : POS tagger라고 하며, 문장에서 형태소를 추출한 뒤
     품사를 태깅한다. 형태소, 품사를 tuple로 묶어서 list로 리턴
* Komoran 품사 : 42개의 품사태그를 지원
  1. NNG : 일반명사
  2. JKS : 주격조사
  3. JKM : 부주격조사
  4. VV  : 동사
  5. EFN : 평서형 종결 어미
  6. SF  : 마침표, 느낌표, 물음표
* 참고사이트 : http://docs.komoran.kr/firststep/postypes.html

In [19]:
from konlpy.tag import Komoran

komoran = Komoran()

text = '아버지가 가방에 들어갑니다.'

# 1) 형태소추출
morphs = komoran.morphs(text)
print(morphs)

# 2) 품사태깅
pos = komoran.pos(text)
print(pos)

# 3) 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

['아버지', '가', '가방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('가방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]
['아버지', '가방']


### 1.2.3 Okt
* Okt는 twitter에서 개발한 Twitter한국어처리기에서 파생된 오픈소스 한국어 처리기
* 간단한 한국어 처리를 통해 색인어를 추출하는 것을 목표로 하기 때문에 완전한 수준의 형태소 분석을 지원하지 않는다.
* Okt는 다른 형태소분석기보다 분석되는 품사가 적지만 상대적으로 분석속도는 제일 빠르다.
* 또한, normalize()함수를 지원해서 오타가 섞인 문장을 정규화해서 처리하는데 효과적이다.
* Okt모듈의 함수
  1. morphs(phrase) : 전달된 문장을 형태소 단위로 토크나이징하는 함수, list로 전달
  2. nouns(phrase)  : 전달된 문장에서 품사가 명사인 토큰만 추출
  3. pos(phrase, stem=False, join=False) : POS tagger라고 하며, 문장에서 형태소를 추출한 뒤
     품사를 태깅한다. 형태소, 품사를 tuple로 묶어서 list로 리턴
  4. normalize(phrase): 입력한 문장을 정규화시킨다. 사랑햌ㅋㅋ -> 사랑해ㅋㅋㅋ
  5. phrases(phrase) : 전달된 문장에서 어구를 추출.
     오늘 날씨가 좋아요 -> 오늘, 오늘 날씨, 날씨
* Okt모듈의 품사
  1. Noun : 명사
  2. Verb : 동상
  3. Adjective : 형용사
  4. Josa : 조사
  5. Punctuation : 구두점
* 참고사이트 : https://github.com/twitter/twitter-korean-text

In [23]:
from konlpy.tag import Okt

okt = Okt()

text = '아버지가 가방에 들어갑니다.'

morphs = okt.morphs(text)
print(morphs)

pos = okt.pos(text)
print(pos)

nouns = okt.nouns(text)
print(nouns)

text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.normalize(text))
print(okt.phrases(text))

['아버지', '가', '가방', '에', '들어갑니다', '.']
[('아버지', 'Noun'), ('가', 'Josa'), ('가방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]
['아버지', '가방']
오늘 날씨가 좋아요ㅋㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


### 1.2.4 사용자사전구축

* 챗봇데이터의 입력데이터는 인터넷의 구어체와 관련이 많다.
* 일반적으로 인터넷상에서는 구어체만 문어체를 사용하지 않는다.
* 따라서, 새롭게 생겨나는 단어나 문장들은 형태소분석기가 인식하지 못하는 경우가 많다.
* 이런 경우는 새로운형태의 단언나 문장을 인식하는데 성능저하의 원인이 된다.
* 이문제를 해결하기 위해서 대부분의 형태소분석기는 사용자사전을 추가할 수 있도록 한다.

In [24]:
from konlpy.tag import Komoran
komoran = Komoran()

# 엔엘피는 새로운 단어
text = '우리 챗봇은 엔엘피를 좋아해.'
pos = komoran.pos(text)
print(pos)

# 품사태깅결과
# 엔엘피라는 단어를 인식하지 못해서 엔, 엘, 피를 각각 명사로 인식
# 이를 해결하려면 Komoran에 사용자 사전에 `엔엘피`라는 신규 단어를 등록해야 한다.

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]


* Komoran은 문장내에 사전에 포함된 단어가 나오면 우선적으로 사정에 정의된 품사를 태깅한다.
* 사용자사전을 추가할 경우 `단어와 품사를 tab으로 구분`해주어야 하고 단어에는 띄어쓰기도 가능하다.
* 만약, 품사를 생략할 경우에는 해당 단어는 고유명사(NNP)로 인식, 주석처리는 #으로 처리
* user_dic.tsv
  1. chatbot 폴더생성
  2. 생성된 폴더에 user_dic.tsv를 아래와 같이 생성
     ```csv
     # [단어]  Tab [품사]     
엔엘피	NNG     
나는 내일, 어제의 너와 만난다	NN     G
시샵
        

In [26]:
from konlpy.tag import Komoran

komoran = Komoran(userdic='./chatbot/user_dic.tsv')
text = '우리 챗봇은 엔엘피를 좋아해.'
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔엘피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]


#### KoNLPy 형태소분석기 비교
|형태소분석기|장점|단점|
|:----:|:-----------|:----------|
|Kkam|분석품질이 좋다|분석속도가 느리다|
||지원하는 품사태그가 가장 많음|사용자사전으로 추가한 복합명사에 대해 불완전하게 동작한다.|
|Komoran|자소가 분리된 문장이나 오탈자에 강함|적당한 분석품질과 속도|
||사용자사전 관리가 용이||
|Okt|매우 빠른 분석 속도|사용자 사전관리가 어려움|
||정규화기능을 지원|용언분석에 일관성이 부족함|