# 3장. 토크나이징
컴퓨터가 자연어 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일을 `자연어 처리`라고 한다.  

## 자연어 처리란
`자연어 처리`란, `Natural Language Processing`의 약자로 `NLP`라고 부른다.  
챗봇도 자연어 처리의 한 분야임!  

어떤 방식으로 자연어를 컴퓨터에게 학습시킬까?  
먼저 문장을 일정한 의미가 있는 `가장 작은 단어`들로 나누어, 그 단어들을 이용해 분석한다.  
여기서 `가장 작은 단어`가 바로 `토큰(token)`이다!!  

## 토크나이징
위에서 `토큰`이 무엇인지 알아봤는데, `토크나이징`은 말 그대로 `토큰화`하는 과정이라고 이해했다!  
여기서는 `KoNLPy(코엔엘파이)` 라이브러리를 사용했음!!  

## 3.2. KoNLPy
`KoNLPy`는 기본적인 한국어 자연어 처리를 위한 파이썬 라이브러리이다.  
여기서는 한국어 문장을 토크나이징 작업을 제일 먼저 수행할건데, 토큰 단위를 `형태소`를 기본으로 하여 토큰화 할 것이다.  

## 3.2.1 Kkma
`Kkma`는 `꼬꼬마`라고 부름!  
꼬꼬마 형태소 분석기를 사용하려면 `konlpy.tag`패키지의 `Kkma`모듈을 불러와야 함.  

### Kkma 모듈 함수

morphs(pharse) : 인자로 입력한 문장을 `형태소` 단위로 토크나이징함. 토크나이징된 형태소들은 `리스트` 형태로 반환.  
nouns(pharse)  : 인자로 입력한 문장에서 `명사`인 토큰만 추출.  
pos(pharse, flatten=True) : `POS tagge`라고 하며, 인자로 입력한 문장에서 형태소를 추출한 뒤, 품사 `태깅`을 함. `튜플`형태로 묶여서 `리스트`형태로 반환.  
sentences(pharse) : 인자로 입력한 여러 문장을 분리해줌. `리스트` 형태로 반환.  


[Kkma 품사 태그]  
NNG : 일반 명사  
JKS : 주격 조사  
JKM : 부사격 조사  
VV  : 동사  
EFN : 평서형 종결 어미  
SF  : 마침표, 물음표, 느낌표  

In [10]:
from konlpy.tag import Kkma

# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()

text = "아버지가 방에 들어갑니다."

# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)

# 형태소 품사 태그 추출
pos = kkma.pos(text)
print(pos)

# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

# 문장 분리
sentences = "오늘 날씨는 어때요? 내일은 덥다던데."
s = kkma.sentences(sentences)
print(s)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
['아버지', '방']
['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


## 3.2.2 Komoran
`Komoran`은 자바로 개발한 한국어 형태소 분석기이다.  
`코모란`이라고 부르고, 다른 분석기와는 다르게 `공백이 포함된 형태소`단위로도 분석 가능해 자주 쓰임!!  
이걸 쓰려면 코모란 모듈을 불러와야 함!  

```
from konlpy.tag import Komoran
```

### Komoran 모듈의 함수 설명
morphs(pharse) : 인자로 입력한 문장을 형태소 단위로 토크나이징함. `리스트`형태로 반환.  
nouns(pharse)  : 인자로 입력한 문장에서 `명사`들만 추출.  
pos(pharse, flatten=True) : `POS tagge`라고 하며, 인자로 입력한 문장에서 형태소를 추출한 뒤, 품사 `태깅`을 함. `튜플`형태로 묶여서 `리스트`형태로 반환. 

In [11]:
from konlpy.tag import Komoran

# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

text = "아버지가 방에 들어갑니다."

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

# 형태소 품사 태그 추출
pos = komoran.pos(text)
print(pos)

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]
['아버지', '방']


## 3.2.3 Okt
`Okt`는 트위터에서 개발한 한국어 처리기이다.  
얘도 쓰려면 `Okt`모듈을 불러와야 함.  
```
from konlpy.tag import Okt
```

### Okt모듈의 함수
morphs(pharse)  
nouns(pharse)  
pos(pharse, stem=Falsem join=False)  
nomalize(pharse) : 입력한 문장을 정규화함.  ex) 사랑햌ㅋ -> 사랑해 ㅋㅋ  
pharses(pharse) : 입력한 문장에서 어구를 추출함.  ex) 오늘 날씨가 좋아요. -> ['오늘', '오늘 날씨', '날씨']  
 
### Okt 품사 태그 표
Noun : 명사  
Verb : 동사  
Adjective : 형용사  
Josa : 조사  
Punctuation : 구두점  

In [12]:
from konlpy.tag import Okt

# Okt 형태소 분석기 객체 생성
okt = Okt()

text = "아버지가 방에 들어갑니다."

# 형태소 추출
morphs = okt.morphs(text)
print(maporphs)

# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출
text = "오늘 날씨가 좋아욬ㅋㅋ"
print(okt.nomalize(text))
print(okt.pharses(text))

NameError: name 'maporphs' is not defined

In [14]:
komoran = Komoran()
text = "우리 챗봇은 엔엘피를 좋아해"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


In [18]:
from konlpy.tag import Komoran

komoran = Komoran(userdic='./user_dic.tsv')
text = "우리 챗봇은 엔엘피를 좋아해"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


# 4장. 임베딩
컴퓨터는 자연어를 직접적으로 처리할 수 없음!  
수치연산만 가능해서 자연어를 숫자나 벡터 형태로 변환해야 하는데, 이런 과정을 `임베딩`이라고 함.  
즉, 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정을 말함.  
임베딩 기법에는 `문장 임베딩`과 `단어 임베딩`이 있음!  


## 4.2. 단어 임베딩
`단어 임베딩`은 말뭉치에서 각각의 단어를 벡터로 변환하는 기법을 말함.  
단어 임베딩은 의미와 문법적 정보를 지니고 있음.  

### 4.2.1 원-핫 인코딩
`원-핫-인코딩`은 단어를 숫자 벡터로 변환하는 가장 기본적인 방법임.  
요소들 중 단 하나의 값만 1이고 나머지 요솟값은 0인 인코딩을 의미함.  
원-핫-인코딩으로 나온 결과를 `원-핫-벡터`라고 하고, 전체 요소 중 단 하나만 1이기 때문에 `희소 벡터`라고 함!  

In [19]:
from konlpy.tag import Komoran
import numpy as np

komoran = Komoran()
text = "오늘 날씨는 구름이 많아요."

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

# 단어 사전 구축 및 단어별 인덱스 부여
dics = {}
for word in nouns:
    if word not in dics.keys():
        dics[word] = len(dics)
print(dics)

['오늘', '날씨', '구름']
{'오늘': 0, '날씨': 1, '구름': 2}


In [20]:
komoran = Komoran()
text = "오늘 날씨는 구름이 많아요."

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

# 단어 사전 구축 및 단어별 인덱스 부여
dics = {}
for word in nouns:
    if word not in dics.keys():
        dics[word] = len(dics)
print(dics)

# 원-핫-인코딩
nb_classes = len(dics)
targets = list(dics.values())
one_hot_targets = np.eye(nb_classes)[targets]
print(one_hot_targets)

['오늘', '날씨', '구름']
{'오늘': 0, '날씨': 1, '구름': 2}
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


### 4.2.2 희소 표현과 분산 표현
단어가 희소벡터로 표현되는 방식을 `희소 표현`이라고 한다.  
희소 표현은 각각의 차원이 독립적인 정보를 지니고 있어 사람이 이해하기에 직관적인 장점, 단어 간의 연관성이 전혀 없어 의미를 담을 수 없고, 단어 사전의 크기가 커질 수록 메모리 낭비와 계산 복잡도가 커지는 단점.  

자연어 처리를 잘하기 위해서는 기본 토큰이 되는 단어의 의미와 주변 단어 간의 관계가 단어 임베딩에 표현되어야 함.  
이를 해결하기 위해 단어 간의 유사성을 잘 표현하면서도 벡터 공간을 절약할 수 있는 방법을 고안했는데, 이를 `분산 표현`이라고 함! 

### 4.2.3 Word2Vec
원-핫-인코딩의 경우에는 구현이 간단하지만, 챗봇의 경우에는 단어간의 유사도를 계산할 수 있어야 좋은 성능을 낸다는 단점이 있다.  
그래서 챗봇의 경우에는 원-핫-인코딩은 좋은 기법은 아니다.  
그렇기 때문에! 분산 표현 형태의 단어 임베딩 모델을 사용할 것이다.  
대표적인 모델로는 `Word2Vec`모델이 있다.  

In [35]:
from gensim.models import Word2Vec
from konlpy.tag import Komoran
import time

# 네이버 영화 리뷰 데이터 읽어옴
def read_review_data(filename):
    with open('rating_test.txt', 'r') as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        data = data[1:]
    return data

# 학습 시간 측정 시작
start = time.time()

# 리뷰 파일 읽어오기
print('1) 더미 데이터 읽기 시작')
review_data = read_review_data('./rating_test.txt')
print(len(review_data))
print('1) 더미 데이터 읽기 완료 : ', time.time() - start)

# 문장 단위로 명사만 추출해 학습 입력 데이터로 만들기
print('2) 형태소에서 명사만 추출 시작')
komoran = Komoran()
docs = [komoran.nouns(sentence[1]) for sentence in review_data]
print('2) 형태소에서 명사만 추출 완료 : ', time.time() - start)

# Word2Vec 모델 학습
print('3) Word2Vec 모델 학습 시작')
model = Word2Vec(sentences=docs, vector_size=200, window=4, hs=1, min_count=2, sg=1)
print('3) Word2Vec 모델 학습 완료 : ', time.time() - start)

# 모델 저장
print('4) 학습된 모델 저장 시작')
model.save('nvmc.model')
print('4) 학습된 모델 저장 완료 : ', time.time() - start)

# 학습된 말뭉치 수, 코퍼스 내 전체 단어 수
print("corpus_count: ", model.corpus_count)
print("corpus_total_words : ", model.corpus_total_words)

1) 더미 데이터 읽기 시작
461
1) 더미 데이터 읽기 완료 :  0.009504556655883789
2) 형태소에서 명사만 추출 시작
2) 형태소에서 명사만 추출 완료 :  46.581286668777466
3) Word2Vec 모델 학습 시작
3) Word2Vec 모델 학습 완료 :  47.0680890083313
4) 학습된 모델 저장 시작
4) 학습된 모델 저장 완료 :  47.16570067405701
corpus_count:  461
corpus_total_words :  2463


In [36]:
from gensim.models import Word2Vec

# 모델 로딩
model = Word2Vec.load('nvmc.model')
print("corpus_total_words : ", model.corpus_total_words)

# '사랑'이란 단어로 생성한 단어 임베딩 벡터
print('사랑 : ', model.wv['사랑'])

# 단어 유사도 계산
print("일요일 = 월요일\t", model.wv.similarity(w1='일요일', w2='월요일'))
print("안성기 = 배우\t", model.wv.similarity(w1='안성기', w2='배우'))
print("대기업 = 삼성\t", model.wv.similarity(w1='대기업', w2='삼성'))
print("일요일 != 삼성\t", model.wv.similarity(w1='일요일', w2='삼성'))
print("히어로 != 삼성\t", model.wv.similarity(w1='히어로', w2='삼성'))



# 가장 유사한 단어 추출
print(model.wv.most_similar("안성기", topn=5))
print(model.wv.most_similar("시리즈", topn=5))

corpus_total_words :  2463
사랑 :  [ 1.19257662e-02 -1.06058056e-02 -1.00245327e-03  8.25968198e-03
  1.48530176e-03 -1.70327872e-02 -7.63928052e-03 -8.83328175e-05
  4.72895597e-04  8.73035565e-03 -8.53238627e-04  1.39602215e-03
 -1.85852672e-03  1.79800428e-02 -1.40954191e-02 -6.63968222e-03
  6.77065691e-03 -3.57975205e-03 -9.03997943e-03 -1.55340815e-02
  9.60858818e-03 -4.30998346e-03  5.98050514e-03 -1.68791669e-03
  2.80035019e-04  8.84239198e-05 -8.49485397e-03 -4.64181975e-03
 -7.87963346e-03  1.63556263e-02  2.36708932e-02 -1.64566073e-03
  9.92840622e-03 -2.17353762e-03 -3.73269897e-03  5.48698846e-03
  4.12611943e-03 -9.42074694e-03 -1.29102319e-02 -1.30211813e-02
 -1.71903726e-02  3.98366479e-03 -5.15509024e-03 -7.17564393e-03
  1.81411803e-02 -8.85075703e-03  4.69624763e-04 -1.10276490e-02
  1.69543605e-02  1.37519669e-02 -1.23556191e-02 -4.47953306e-03
 -2.06120498e-03 -1.20374691e-02  3.53826466e-03 -3.00696539e-03
  8.79746920e-04 -5.55339968e-03 -1.76490694e-02 -4.09394

KeyError: "Key '일요일' not present"

# 5장. 텍스트 유사도