# 튜토리얼 목차
1. 자연어 처리란? 
2. NLP Preprocessing 
## 3. Vectorization <<
<br>
4. Embedding 
5. Modeling
***

# Vectorization이란? 
- NLP를 컴퓨터가 이해할 수 있게 수치로 바꾸는 것을 말한다. 이 때 벡터로 변환된 고유의 토큰들이 모인 집합을 vocabulary라 하며, 이것이 크면 클수록 학습이 오래 걸리게 된다. 다양한 벡터화 함수들이 존재하지만 이번 노트북에서는 가장 기본적이며 많이 쓰이는 세 가지를 소개한다. 
- 이전 노트북에서 소개했던 것과 마찬가지로 토큰들을 벡터화하기 이전에 형태소 분석기를 사용하여 문장을 원하는 토큰들로 분리한다. 자세한 내용은 [이전 노트북]()을 참고.
<br>

Ex) 자연어 처리는 정말 즐거워. 즐거운 자연어 처리 다같이 해보자. <br>

의 문장들을 간단한 전처리와 okt를 활용하여 나누어보자. 

In [2]:
from konlpy.tag import Okt
import re

okt = Okt()

sentences = ['자연어 처리는 정말 정말 즐거워.', '즐거운 자연어 처리 다같이 해보자.']
tokens = []

for sentence in sentences:
    sentence = re.sub('[^가-힣a-z]', ' ', sentence) # 간단한 전처리
    token = (okt.morphs(sentence)) # 형태소 분석기를 이용한 토큰 나누기
    tokens.append(' '.join(token))
    
print("형태소 단위로 문장 분리")
print("+++++++++++++++++++++++")
print(tokens)

형태소 단위로 문장 분리
+++++++++++++++++++++++
['자연어 처리 는 정말 정말 즐거워', '즐거운 자연어 처리 다 같이 해보자']


## 1. One Hot Encoding 
- 두번째 노트북에서 설명했던 방식이 바로 one-hot-encoding이다. 해당 단어가 존재하면 1, 그렇지 않으면 모두 0으로 표시되는 기법이다. keras를 이용하면 쉽게 구현이 가능하며, texts_to_sequences를 활용해 각 토큰에 고유한 정수를 부여한 후 to_categorical을 활용하면 간단하게 구현이 가능하다.

In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts(tokens)
print("각 토큰에게 고유의 정수 부여")
print("============================")
print(t.word_index)
print(" ")

s1 = t.texts_to_sequences(tokens)[0]
print("부여된 정수로 표시된 문장1")
print("============================")
print(s1)
print(" ")

s2 = t.texts_to_sequences(tokens)[1]
print("부여된 정수로 표시된 문장2")
print("============================")
print(s2)
print(" ")

s1_one_hot = to_categorical(s1)
print("문장1의 one-hot-encoding")
print("============================")
print(s1_one_hot)
print(" ")

s2_one_hot = to_categorical(s2)
print("문장2의 one-hot-encoding")
print("============================")
print(s2_one_hot)
print(" ")


각 토큰에게 고유의 정수 부여
{'자연어': 1, '처리': 2, '정말': 3, '는': 4, '즐거워': 5, '즐거운': 6, '다': 7, '같이': 8, '해보자': 9}
 
부여된 정수로 표시된 문장1
[1, 2, 4, 3, 3, 5]
 
부여된 정수로 표시된 문장2
[6, 1, 2, 7, 8, 9]
 
문장1의 one-hot-encoding
[[0. 1. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 1.]]
 
문장2의 one-hot-encoding
[[0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
 


- 하지만 이 방식은 vocabulary 크기가 커짐에 따라 많은 공간을 차지하게 되고 벡터가 굉장히 sparse(희소)해지기 때문에 좋은 특성을 알려주지 못하는 경우가 대부분이다. 

## 2. Count vectorization
- 이 방식은 vocabulary를 활용하여 각 문장이 갖고 있는 토큰의 count를 기반으로 문장을 vectorization 해준다. 아래 예시를 통해 알아보자. 

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(tokens) # 반드시 여러 개의 문장을 넣어줘야만 작동한다!!

print(vectorizer.get_feature_names())
print(vectors.toarray())

['같이', '자연어', '정말', '즐거운', '즐거워', '처리', '해보자']
[[0 1 2 0 1 1 0]
 [1 1 0 1 0 1 1]]


![image.png](attachment:image.png)
- 벡터화 결과 각 문장은 vocabulary의 인덱스를 기준으로 카운트가 정수로 표시된 것을 알 수 있다. 아쉬운 점은 sklearn의 CountVectorizer는 한 글자를 자동으로 제거해준다는 점이다.
- 또한, 이 부분에서 형태소 분석기의 중요성에 대해서 알 수 있다. '즐거운'과 '즐거워'는 같은 의미를 갖는 토큰이지만 okt는 이를 구분해주지 못해서 다른 토큰으로 분리가 되었다. 이는 모델에서 같은 의미의 토큰을 다르게 학습할 수 있음을 의미한다. 

## 3. Tfldf