## 자연어 인코딩

In [4]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow import keras
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [1]:
corpus = ['I love my dog', 'I love my cat', 'You love my dog!', 'Do you think my dog is amazing?']

In [5]:
## Tokenizer

from keras.preprocessing.text import Tokenizer

# num_words: 단어 빈도수 순으로 몇 개의 단어를 사용할 것인지 지정, 101번째 단어부터는 제외
# oov_token: out of vocabulary, 단어 집합에 없는 단어를 어떻게 할 것인지 지정 (num_words를 100으로 지정했을 때, 101번째 단어부터 <OOV>로 지정)
tokenizer = Tokenizer(num_words=100, oov_token="<OOV>")
tokenizer.fit_on_texts(corpus)

In [7]:
# 단어 집합 출력
# 많이 나온 순서대로 단어 집합을 만들어줌 (<OOV>는 맨 앞에 추가됨)
tokenizer.word_index 

{'<OOV>': 1,
 'my': 2,
 'love': 3,
 'dog': 4,
 'i': 5,
 'you': 6,
 'cat': 7,
 'do': 8,
 'think': 9,
 'is': 10,
 'amazing': 11}

In [8]:
# 위에서 구한 단어의 빈도를 기준으로 텍스트 데이터를 수치화
tokenizer.texts_to_sequences(corpus)

[[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]

In [11]:
# 길이를 모두 같게 맞춰줌, 문장의 길이가 짧을 때, 빈 부분을 채워줌
# maxlen: 최대 길이 지정
# padding='post': 뒤에 0을 채워줌


from keras.utils import pad_sequences

# padding='post': 뒤에 0을 채워줌
# maxlen: 최대 길이 지정
sequence = pad_sequences(tokenizer.texts_to_sequences(corpus), maxlen=5, padding='post')
sequence

array([[ 5,  3,  2,  4,  0],
       [ 5,  3,  2,  7,  0],
       [ 6,  3,  2,  4,  0],
       [ 9,  2,  4, 10, 11]], dtype=int32)

## 임베딩

In [13]:
# one-hot encoding

from keras.utils import to_categorical

paded_o = to_categorical(sequence)
print(paded_o.shape)

(4, 5, 12)
