<a href="https://colab.research.google.com/github/catuscio/DeepLearning-Basic/blob/main/nlp_tokenize_and_encode_and_embed.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# __텐서플로우 케라스를 활용한 자연어 처리 기초__


---
## 단어를 토큰화하고 원-핫 인코딩 적용하기
## tokenize and one-hot encoding

In [10]:
# 1. 문장 토큰화하기

In [9]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = "오랫동안 꿈꾸는 이는 그 꿈을 닮아간다"

token = Tokenizer()
token.fit_on_texts([text])    #토큰화하기 위해 .fit_on_texts()에 입력

print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [11]:
# 2. 토큰의 인덱스로만 채워진 새로운 배열 생성

In [13]:
x = token.texts_to_sequences([text])

print(x)

[[1, 2, 3, 4, 5, 6]]


In [14]:
# 3. 원-핫 인코딩 함수 to_categorical() 사용

In [15]:
from keras.utils import to_categorical

#인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 생성
word_size = len(token.word_index) + 1   #맨 앞 주소는 인덱스이므로 0으로 비워두어야 하기 때문
x = to_categorical(x, num_classes=word_size)  #x를 입력값으로 하고 분류의 개수(데이터 개수)를 word_size로 한다다

print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


---
## 단어 임베딩하기
## word embedding

단어 토큰으로 이루어진 거대한 말뭉치를 원-핫 인코딩으로 벡터화하면, 매우 많은 단어벡터(배열)를 생성해야만 한다.\
이는 원-핫 인코딩의 벡터가 희소벡터이기 때문이다.\
단어 임베딩을 통해 실수형 밀집벡터로 변환하는 것으로, 이러한 공간적 낭비를 해소할 수 있다.

In [18]:
from keras.models import Sequential
from keras.layers import Embedding

model = Sequential()
model.add(Embedding(16, 4)) ##입력될 총 단어의 수는 16개, 임베딩 후 출력되는 벡터 크기는 4.

Embedding(samples, sequence_length, input_length) 함수를 통해 임베딩 공간을 생성한 모습이다.\
임베딩 공간에서는 단어 간의 유사도를 계산하여 원-핫 인코딩의 각 벡터를 새로운 수치로 변환한다. 해당 과정에서는 오차 역전파가 사용된다.\
함수의 매개변수는 사용할 단어의 개수(samples), 한번에 사용할 단어의 개수(input_length)로 설정한다.