- 원-핫 인코딩은 토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법입니다. 
- 모든 단어에 고유한 정수 인덱스를 부여하고 이 정수 인덱스 i를 크기가 N(어휘 사전의 크기)인 이진 벡터로 변환합니다. 
- 이 벡터는 i번째 원소만 1이고 나머지는 모두 0입니다.

- 물론 원-핫 인코딩은 문자 수준에서도 적용할 수 있습니다.


In [None]:
import numpy as np

# 초기 데이터: 각 원소가 샘플입니다
# (이 예에서 하나의 샘플이 하나의 문장입니다. 하지만 문서 전체가 될 수도 있습니다)
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 데이터에 있는 모든 토큰의 인덱스를 구축합니다
token_index = {}
for sample in samples:
    # split() 메서드를 사용해 샘플을 토큰으로 나눕니다.
    # 실전에서는 구둣점과 특수 문자도 사용합니다.
    for word in sample.split():
        if word not in token_index:
            # 단어마다 고유한 인덱스를 할당합니다.
            token_index[word] = len(token_index) + 1
            # 인덱스 0은 사용하지 않습니다.

# 샘플을 벡터로 변환합니다.
# 각 샘플에서 max_length 까지 단어만 사용합니다.
max_length = 10

# 결과를 저장할 배열입니다
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1)) # 3차원 (2,10,11)

for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

In [None]:
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

In [None]:
print(samples)
print(token_index)

['The cat sat on the mat.', 'The dog ate my homework.']
{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework.': 10}


In [None]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 가장 빈도가 높은 1,000개의 단어만 선택하도록 Tokenizer 객체를 만듭니다.
tokenizer = Tokenizer(num_words=10)
# 단어 인덱스를 구축합니다.
tokenizer.fit_on_texts(samples)

# 문자열을 정수 인덱스의 리스트로 변환
sequences = tokenizer.texts_to_sequences(samples)

# 원-핫 이진 벡터 표현 
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

# 계산된 단어 인덱스를 구합니다.
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

Found 9 unique tokens.


In [None]:
print(word_index)

{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


In [None]:
print(sequences)

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]


In [None]:
print(one_hot_results[1])

[0. 1. 0. 0. 0. 0. 1. 1. 1. 1.]


[과제] 영어 5개 문장으로 구성된 텍스트를 가져와서 다음을 수행하세요.
- 수작업으로 벡터화
- Keras를 사용해 벡터화

In [17]:
texts = ["What are you going to do on your trip to the Big Apple ?", "I myself have been to New York several times."," Lots of things.", "We are going to eat a breakfast at the Embassy coffee shop.", " Besides we'll lunch and dinner at fancier places."," Anyway, after breakfast we're going to go to the Metropolitan Museum of Art."," Then we'ill take a bus across Central Park and go to the Museum of Natural History."," Then we'll head downtown and go shopping."]


In [18]:
# 수작업으로 벡터화
import numpy as np

# 데이터에 있는 모든 토큰의 인덱스를 구축합니다
token_index = {}
for text in texts:
    # split() 메서드를 사용해 샘플을 토큰으로 나누기
    for word in text.split():
        if word not in token_index:
            # 단어마다 고유한 인덱스를 할당합니다.
            token_index[word] = len(token_index) + 1
            # 인덱스 0은 사용하지 않음

# 샘플을 벡터로 변환합니다.
# 각 샘플에서 max_length 까지 단어만 사용합니다.
max_length = 30

# 결과를 저장할 배열입니다
results = np.zeros((len(texts), max_length, max(token_index.values()) + 1)) # 3차원 (2,10,11)

for i, text in enumerate(texts):
    for j, word in list(enumerate(text.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

In [19]:
results

array([[[0., 1., 0., ..., 0., 0., 0.],
        [0., 0., 1., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       ...,

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0.

In [20]:
print(token_index)

{'What': 1, 'are': 2, 'you': 3, 'going': 4, 'to': 5, 'do': 6, 'on': 7, 'your': 8, 'trip': 9, 'the': 10, 'Big': 11, 'Apple': 12, '?': 13, 'I': 14, 'myself': 15, 'have': 16, 'been': 17, 'New': 18, 'York': 19, 'several': 20, 'times.': 21, 'Lots': 22, 'of': 23, 'things.': 24, 'We': 25, 'eat': 26, 'a': 27, 'breakfast': 28, 'at': 29, 'Embassy': 30, 'coffee': 31, 'shop.': 32, 'Besides': 33, "we'll": 34, 'lunch': 35, 'and': 36, 'dinner': 37, 'fancier': 38, 'places.': 39, 'Anyway,': 40, 'after': 41, "we're": 42, 'go': 43, 'Metropolitan': 44, 'Museum': 45, 'Art.': 46, 'Then': 47, "we'ill": 48, 'take': 49, 'bus': 50, 'across': 51, 'Central': 52, 'Park': 53, 'Natural': 54, 'History.': 55, 'head': 56, 'downtown': 57, 'shopping.': 58}


In [21]:
# keras 활용
from keras.preprocessing.text import Tokenizer

# 가장 빈도가 높은 1,000개의 단어만 선택하도록 Tokenizer 객체를 만듭니다.
tokenizer = Tokenizer(num_words=1000)
# 단어 인덱스를 구축합니다.
tokenizer.fit_on_texts(texts)

# 문자열을 정수 인덱스의 리스트로 변환
sequences = tokenizer.texts_to_sequences(texts)

# 원-핫 이진 벡터 표현 
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

# 계산된 단어 인덱스를 구합니다.
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

Found 57 unique tokens.


In [22]:
print(word_index)

{'to': 1, 'the': 2, 'going': 3, 'of': 4, 'and': 5, 'go': 6, 'are': 7, 'a': 8, 'breakfast': 9, 'at': 10, "we'll": 11, 'museum': 12, 'then': 13, 'what': 14, 'you': 15, 'do': 16, 'on': 17, 'your': 18, 'trip': 19, 'big': 20, 'apple': 21, 'i': 22, 'myself': 23, 'have': 24, 'been': 25, 'new': 26, 'york': 27, 'several': 28, 'times': 29, 'lots': 30, 'things': 31, 'we': 32, 'eat': 33, 'embassy': 34, 'coffee': 35, 'shop': 36, 'besides': 37, 'lunch': 38, 'dinner': 39, 'fancier': 40, 'places': 41, 'anyway': 42, 'after': 43, "we're": 44, 'metropolitan': 45, 'art': 46, "we'ill": 47, 'take': 48, 'bus': 49, 'across': 50, 'central': 51, 'park': 52, 'natural': 53, 'history': 54, 'head': 55, 'downtown': 56, 'shopping': 57}


In [23]:
print(sequences)

[[14, 7, 15, 3, 1, 16, 17, 18, 19, 1, 2, 20, 21], [22, 23, 24, 25, 1, 26, 27, 28, 29], [30, 4, 31], [32, 7, 3, 1, 33, 8, 9, 10, 2, 34, 35, 36], [37, 11, 38, 5, 39, 10, 40, 41], [42, 43, 9, 44, 3, 1, 6, 1, 2, 45, 12, 4, 46], [13, 47, 48, 8, 49, 50, 51, 52, 5, 6, 1, 2, 12, 4, 53, 54], [13, 11, 55, 56, 5, 6, 57]]


In [24]:
print(one_hot_results[1])

[0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.