# 문자열 토큰화 하기
## 텍스트 데이터를 신경망에 입력하기
워드 임베딩 작업을 수행해야 한다.

워드 임베딩
토큰화 작업을 수행하고 정의된 토큰에 고유 인덱스를 부여한 뒤, 인코딩을 통해 적절한 형태로 가공하는 전처리 작업

### Token
- 문법적으로 더이상 나눌 수 없는 언어요소.
### Tokenizer(토큰화)
- 데이터를 Token으로 나누는 작업.
### 인코딩 방법
- 이진 인코딩
- 원-핫 인코딩
### Embedding
- 수많은 단어를 벡터(차수가 1인 배열) 형태로 표현한 것.
- 텍스트 분류를 위해 사용하는 가장 기본적인 층.
- CNN과 마찬가지로 사전 학습된 가중치를 불러와 사용할 수 있다.

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [2]:
# 토큰화 할 문장
texts = ['You are the Best', 'You are the Nice']

In [3]:
# num_words --> 최대 단어 개수를 지정
# oov_token --> Out Of Vocabulary. 테스트에서 주어진 문장에 포함되지 않은 단어가 존재할 경우 대체할 단어를 지정
tokenizer = Tokenizer(num_words = 10, oov_token = '<OOV>')
tokenizer.fit_on_texts(texts)

In [4]:
# 토큰화를 통해 각 토큰에 부여된 인덱스를 활용하여
# 주어진 문장에 존재하는 단어를 정수 인덱스 형태로 변환
# -> 공통 문장인 "You are the"는 [2, 3, 4]
# -> "Best"와 "Nice"는 각각 [5, 6]으로 변환됨
sequences = tokenizer.texts_to_sequences(texts)
sequences

[[2, 3, 4, 5], [2, 3, 4, 6]]

In [5]:
# sequences_to_matrix --> 이진 형태로 인코딩합니다.
# 인코딩 결과로 얻어지는 벡터를 `희소행렬`이라고 한다.
# [희소행렬]
# - 존재하는 단어의 인덱스를 제외하고 전부 0으로 표현
# - 단어의 유사성을 표현할 수는 없다.
binary_results = tokenizer.sequences_to_matrix(sequences, mode = 'binary')

print(tokenizer.word_index)
print(f'sequences: {sequences}\n')
print(f'binary_vectors:\n {binary_results}\n')

{'<OOV>': 1, 'you': 2, 'are': 3, 'the': 4, 'best': 5, 'nice': 6}
sequences: [[2, 3, 4, 5], [2, 3, 4, 6]]

binary_vectors:
 [[0. 0. 1. 1. 1. 1. 0. 0. 0. 0.]
 [0. 0. 1. 1. 1. 0. 1. 0. 0. 0.]]



In [6]:
# 원-핫 형태로 인코딩합니다.
print(to_categorical(sequences))

[[[0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]]

 [[0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


In [7]:
# 기존 문장에 존재하지 않는 단어 One을 <OOV>로 대체하고 숫자 1로 변환
test_text = ['You are the One']
test_seq = tokenizer.texts_to_sequences(test_text)

print(f'test sequences: {test_seq}')

test sequences: [[2, 3, 4, 1]]
