In [None]:
import numpy as np


In [None]:

# 초기 데이터: 각 원소가 샘플입니다
# (이 예에서 하나의 샘플이 하나의 문장입니다. 하지만 문서 전체가 될 수도 있습니다)
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 데이터에 있는 모든 토큰의 인덱스를 구축합니다
token_index = {} # word-to-index 매핑
index_to_word = {} # index_to_word 매핑
index_to_word[0] = '' # index 0번은 사용하지 않음.

for sample in samples:
    # split() 메서드를 사용해 샘플을 토큰으로 나눕니다.
    # 실전에서는 구둣점과 특수 문자도 사용합니다.
    for word in sample.split():
        if word not in token_index:
            # 단어마다 고유한 인덱스를 할당합니다.
            idx = len(token_index) + 1
            token_index[word] = idx
            index_to_word[idx] = word
            
            # 인덱스 0은 사용하지 않습니다.

# 샘플을 벡터로 변환합니다.
# 각 샘플에서 max_length 까지 단어만 사용합니다.
max_length = 10

# 결과를 저장할 배열입니다
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.


In [19]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 가장 빈도가 높은 10개의 단어만 선택하도록 Tokenizer 객체를 만듭니다.
tokenizer = Tokenizer(num_words=10)
# 단어 인덱스를 구축합니다.
tokenizer.fit_on_texts(samples)

# 문자열을 정수 인덱스의 리스트로 변환합니다.
sequences = tokenizer.texts_to_sequences(samples)

# 직접 원-핫 이진 벡터 표현을 얻을 수 있습니다.
# 원-핫 인코딩 외에 다른 벡터화 방법들도 제공합니다!
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

# 계산된 단어 인덱스를 구합니다.
word_to_index = tokenizer.word_index
print('유니크 단어의 개수: %s' % len(word_to_index))

유니크 단어의 개수: 9


##  word-2-index 

In [14]:
print(word_to_index)

{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


In [15]:
for word, idx in word_to_index.items():
  print('단어', word, '-->', '숫자', idx)

단어 the --> 숫자 1
단어 cat --> 숫자 2
단어 sat --> 숫자 3
단어 on --> 숫자 4
단어 mat --> 숫자 5
단어 dog --> 숫자 6
단어 ate --> 숫자 7
단어 my --> 숫자 8
단어 homework --> 숫자 9


In [22]:

for i in range(2):
  print('== 문장', i)
  print('문장 ', samples[i])
  print('문장 index들', sequences[i])
  print('문장 인코딩', one_hot_results[i])


== 문장 0
문장  The cat sat on the mat.
문장 index들 [1, 2, 3, 4, 1, 5]
문장 인코딩 [0. 1. 1. 1. 1. 1. 0. 0. 0. 0.]
== 문장 1
문장  The dog ate my homework.
문장 index들 [1, 6, 7, 8, 9]
문장 인코딩 [0. 1. 0. 0. 0. 0. 1. 1. 1. 1.]


In [20]:
print(one_hot_results)

[[0. 1. 1. 1. 1. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 1. 1. 1. 1.]]
