- 원-핫 인코딩은 토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법입니다. 
- 모든 단어에 고유한 정수 인덱스를 부여하고 이 정수 인덱스 i를 크기가 N(어휘 사전의 크기)인 이진 벡터로 변환합니다. 
- 이 벡터는 i번째 원소만 1이고 나머지는 모두 0입니다.

- 물론 원-핫 인코딩은 문자 수준에서도 적용할 수 있습니다.


In [1]:
import numpy as np 
samples =['The cat sat on the mat.', 'The dog ate my homework.']

token_index = {}
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word] = len(token_index) + 1

max_length = 10

results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

In [2]:
samples =['The cat sat on the mat.', 'The dog ate my homework.']
print(token_index)

{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework.': 10}


In [3]:
results[0]

array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [4]:
results[1]

array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [5]:
# 케라스를 사용

In [6]:
from keras.preprocessing.text import Tokenizer

samples =['The cat sat on the mat.', 'The dog ate my homework.']
tokenizer = Tokenizer(num_words = 1000)
# 단어 인덱스를 구축
tokenizer.fit_on_texts(samples)
# 정수 인덱스 리스트로 변환
sequences = tokenizer.texts_to_sequences(samples)
# 원-핫 이진 벡터 표현
one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

word_index = tokenizer.word_index
print(word_index)

{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


In [7]:
sequences 

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

In [8]:
one_hot_results[0]

array([0., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

[과제] 영어 5개 문장으로 구성된 텍스트를 가져와서 다음을 수행하세요.
 - 수작업으로 벡터화
 - Keras를 사용해 벡터화 

In [9]:
# 수작업으로 벡터회
import numpy as np 
samples =['Lasers are possible because of the way light interacts with electrons.', 'Electrons exist at specific energy levels or states characteristic of that particular atom or molecule.',
          'The energy levels can be imagined as rings or orbits around a nucleus.','Electrons in outer rings are at higher energy levels than those in inner rings.','Electrons can be bumped up to higher energy levels by the injection of energy']

token_index = {}
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word] = len(token_index) + 1

max_length = 10

results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

In [10]:
samples =['Lasers are possible because of the way light interacts with electrons.', 'Electrons exist at specific energy levels or states characteristic of that particular atom or molecule.',
          'The energy levels can be imagined as rings or orbits around a nucleus.','Electrons in outer rings are at higher energy levels than those in inner rings.','Electrons can be bumped up to higher energy levels by the injection of energy']
print(token_index)

{'Lasers': 1, 'are': 2, 'possible': 3, 'because': 4, 'of': 5, 'the': 6, 'way': 7, 'light': 8, 'interacts': 9, 'with': 10, 'electrons.': 11, 'Electrons': 12, 'exist': 13, 'at': 14, 'specific': 15, 'energy': 16, 'levels': 17, 'or': 18, 'states': 19, 'characteristic': 20, 'that': 21, 'particular': 22, 'atom': 23, 'molecule.': 24, 'The': 25, 'can': 26, 'be': 27, 'imagined': 28, 'as': 29, 'rings': 30, 'orbits': 31, 'around': 32, 'a': 33, 'nucleus.': 34, 'in': 35, 'outer': 36, 'higher': 37, 'than': 38, 'those': 39, 'inner': 40, 'rings.': 41, 'bumped': 42, 'up': 43, 'to': 44, 'by': 45, 'injection': 46}


In [11]:
results

array([[[0., 1., 0., ..., 0., 0., 0.],
        [0., 0., 1., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

    

In [12]:
# 케라스를 사용

from keras.preprocessing.text import Tokenizer

samples =['Lasers are possible because of the way light interacts with electrons.', 'Electrons exist at specific energy levels or states characteristic of that particular atom or molecule.',
          'The energy levels can be imagined as rings or orbits around a nucleus.','Electrons in outer rings are at higher energy levels than those in inner rings.',
           'Electrons can be bumped up to higher energy levels by the injection of energy']
tokenizer = Tokenizer(num_words = 1000)
# 단어 인덱스를 구축
tokenizer.fit_on_texts(samples)
# 정수 인덱스 리스트로 변환
sequences = tokenizer.texts_to_sequences(samples)
# 원-핫 이진 벡터 표현
one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

word_index = tokenizer.word_index
print(word_index)

{'energy': 1, 'electrons': 2, 'levels': 3, 'of': 4, 'the': 5, 'or': 6, 'rings': 7, 'are': 8, 'at': 9, 'can': 10, 'be': 11, 'in': 12, 'higher': 13, 'lasers': 14, 'possible': 15, 'because': 16, 'way': 17, 'light': 18, 'interacts': 19, 'with': 20, 'exist': 21, 'specific': 22, 'states': 23, 'characteristic': 24, 'that': 25, 'particular': 26, 'atom': 27, 'molecule': 28, 'imagined': 29, 'as': 30, 'orbits': 31, 'around': 32, 'a': 33, 'nucleus': 34, 'outer': 35, 'than': 36, 'those': 37, 'inner': 38, 'bumped': 39, 'up': 40, 'to': 41, 'by': 42, 'injection': 43}


In [13]:
sequences 

[[14, 8, 15, 16, 4, 5, 17, 18, 19, 20, 2],
 [2, 21, 9, 22, 1, 3, 6, 23, 24, 4, 25, 26, 27, 6, 28],
 [5, 1, 3, 10, 11, 29, 30, 7, 6, 31, 32, 33, 34],
 [2, 12, 35, 7, 8, 9, 13, 1, 3, 36, 37, 12, 38, 7],
 [2, 10, 11, 39, 40, 41, 13, 1, 3, 42, 5, 43, 4, 1]]

In [14]:
one_hot_results[0]

array([0., 0., 1., 0., 1., 1., 0., 0., 1., 0., 0., 0., 0., 0., 1., 1., 1.,
       1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

In [15]:
one_hot_results

array([[0., 0., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.]])