In [1]:
import tensorflow as tf
import keras

Using TensorFlow backend.


## 6.1.1 단어와 문자의 원-핫 인코딩

In [6]:
# 케라스를 사용한 단어 수준 one-hot encoding
from keras.preprocessing.text import Tokenizer

samples = ["The cat sat on the mat.", "The dog ate my homework."]

tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(samples) # 단어 인덱스 구축

sequences = tokenizer.texts_to_sequences(samples) # 문자열을 정수 인덱스 리스트로 변환

one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

word_index = tokenizer.word_index
print('%s개의 고유한 토큰을 찾았습니다.' % len(word_index))
tokenizer.index_word

9개의 고유한 토큰을 찾았습니다.


{1: 'the',
 2: 'cat',
 3: 'sat',
 4: 'on',
 5: 'mat',
 6: 'dog',
 7: 'ate',
 8: 'my',
 9: 'homework'}

In [8]:
# one-hot hasing : 어휘 사전에 고유 토큰 수가 너무 커서 모두 다루기 어려울 때 사용
# 각 단어에 명시적으로 인덱스 할당하는 것이 아니라 단어를 해싱하여 고정된 크기의 벡터로 변환
# 메모리 절약하고, 온라인 방식으로 데이터 인코딩할 수 있지만, 해시 충돌 발생 가능성 존재
import numpy as np
dimensionality = 1000 # 단어를 크기가 1000인 벡터로 저장. 1000개 이상의 단어가 존재할 경우 해싱 충돌이 늘어남
max_length = 10

results = np.zeros((len(samples), max_length, dimensionality))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = abs(hash(word)) % dimensionality # 단어를 해싱하여 0~1000 사이의 랜덤한 정수 인덱스로 변환
        results[i,j,index] = 1.

## 6.1.2 단어 임베딩 사용하기

- 원-핫 인코딩 : sparse / 고차원(어휘 사전에 있는 단어의 수와 동일 차원)
- 단어 임베딩 : 저차원의 실수형 밀집 벡터
    - 원-핫 인코딩(수동 인코딩)으로 얻은 단어 벡터와 달리 데이터로부터 학습
    - 보통 256차원, 512차원을 사용하며 큰 어휘 사전의 경우 1024차원의 단어 임베딩 사용
      (원-핫 인코딩의 경우 2만개 토큰의 어휘 사전일 경우 2만 차원 혹은 그 이상의 벡터가 만들어짐)