In [1]:
import numpy as np

# [4월 13일]
---

## # One-Hot Encoding
---
- 원-핫 인코딩은 토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법입니다. 
- 모든 단어에 고유한 정수 인덱스를 부여하고 이 정수 인덱스 i를 크기가 N(어휘 사전의 크기)인 이진 벡터로 변환합니다. 
- 이 벡터는 i번째 원소만 1이고 나머지는 모두 0입니다.
- 물론 원-핫 인코딩은 문자 수준에서도 적용할 수 있습니다.


In [31]:
# 단어 수준의 원-핫 인코딩 (간단한 예)

import numpy as np


# 초기 데이터 : 각 원소가 샘플 (여기서는 하나의 샘플이 하나의 문장이지만 문서 전체가 될 수도 있다.)
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 모든 토큰의 인덱스를 구축
token_index = {}
for sample in samples:
    for word in sample.split():

        # 단어마다 고유한 인덱스를 할당
        if word not in token_index:
            token_index[word] = len(token_index) + 1

# 샘플을 벡터로 변환. 각 샘플에서 max_length까지 단어만 사용.
max_length = 10

# 결과를 저장할 배열
results = np.zeros((len(samples), 
                    max_length, 
                    max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

print(token_index, '\n')
print(results)

{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework.': 10} 

[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]]


In [32]:
# 케라스를 사용한 단어 수준의 원-핫 인코딩

from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

tokenizer = Tokenizer(num_words = 1000) # 가장 빈도가 높은 1,000개의 단어만 선택
tokenizer.fit_on_texts(samples) # 단어 인덱스를 구축

# 문자열을 정수 인덱스의 리스트로 변환
sequences = tokenizer.texts_to_sequences(samples)

# 샘플을 원-핫 이진 벡터로 변환
one_hot_results = tokenizer.texts_to_matrix(samples, mode = 'binary')

# 계산된 인덱스를 구함
word_index = tokenizer.word_index

print(word_index, '\n')
print(one_hot_results, '\n')
print(f'{len(word_index)}개의 토큰을 찾았습니다.')

{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9} 

[[0. 1. 1. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]] 

9개의 토큰을 찾았습니다.


In [33]:
one_hot_results.shape

(2, 1000)