1. 텍스트 벡터화
 - 텍스트를 숫자형 백터로 변환
 - 작업절차
   단계1 : 토큰 생성 : 텍스트 -> 토큰 (단어 or 문장)
   단계2 : 정수 인덱스 : 토큰에 중복되지 않는 고유숫자 할당
   단계3 : 인코딩 : 정수 인덱스 -> 숫자형 백터 할당
2. 인코딩 방법 : one-hot(sparse matrix), word embedding 

In [1]:

import tensorflow as tf 
from tensorflow.keras.preprocessing.text import Tokenizer # token 생성
from tensorflow.keras.preprocessing.sequence import pad_sequences # padding
from tensorflow.keras.utils import to_categorical # one-hot-encoding


# 토큰 생성기
tokenizer = Tokenizer()

texts = ['The dog sat on the table,', 'The dog is my poodle']

# 1. 토큰 생성
tokenizer.fit_on_texts(texts) # 텍스트 적용
token = tokenizer.word_index # 토큰 반환 : 정수 인덱스 생성
print(token) # {word : int index} : 중복 x
# {'the': 1, 'dog': 2, 'sat': 3, 'on': 4, 'table': 5, 'is': 6, 'my': 7, 'poodle': 8}


# 2. 정수 인덱스 : 토큰 -> 정수인덱스(단어 순서 인덱스)
seq_index = tokenizer.texts_to_sequences(texts)
print(seq_index)
# [[1, 2, 3, 4, 1, 5], [1, 2, 6, 7, 8]]


# 3. 패딩(padding) : 정수 인덱스 길이 맞춤
padding = pad_sequences(seq_index)
print(padding)
'''
[[1 2 3 4 1 5]
 [0 1 2 6 7 8]] -> 0 padding
'''


{'the': 1, 'dog': 2, 'sat': 3, 'on': 4, 'table': 5, 'is': 6, 'my': 7, 'poodle': 8}
[[1, 2, 3, 4, 1, 5], [1, 2, 6, 7, 8]]
[[1 2 3 4 1 5]
 [0 1 2 6 7 8]]


'\n[[1 2 3 4 1 5]\n [0 1 2 6 7 8]] -> 0 padding\n'

In [2]:
# 4. 인코딩(one-hot encoding) : true(1) vs false(0)
one_hot = to_categorical(padding)
print(one_hot)


one_hot.shape

[[[0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0.]]

 [[1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1.]]]


(2, 6, 9)