- 원-핫 인코딩은 토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법입니다. 
- 모든 단어에 고유한 정수 인덱스를 부여하고 이 정수 인덱스 i를 크기가 N(어휘 사전의 크기)인 이진 벡터로 변환합니다. 
- 이 벡터는 i번째 원소만 1이고 나머지는 모두 0입니다.

- 물론 원-핫 인코딩은 문자 수준에서도 적용할 수 있습니다.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [3]:
import numpy as np
samples = ['The cat sat on the mat.','The dog ate my homework.']

token_index = {}
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word] = len(token_index) + 1

max_length = 10

results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))

for i, sample in enumerate(samples):
  for j, word in list(enumerate(sample.split()))[:max_length]:
    index = token_index.get(word)
    results[i,j,index] = 1.

In [None]:
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

In [None]:
print(token_index)

{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework.': 10}


In [None]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.','The dog ate my homework.']
tokenizer = Tokenizer(num_words = 1000)
#단어 인덱스 구축
tokenizer.fit_on_texts(samples)

# 정수 인덱스 리스트로 변환
sequences = tokenizer.texts_to_sequences(samples)

# 원핫 이진 벡터 표현
one_hot_results = tokenizer.texts_to_matrix(samples,mode = 'binary')

word_index = tokenizer.word_index
print(word_index)

{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


In [None]:
sequences

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

In [None]:
one_hot_results[1]

array([0., 1., 0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

[과제] 영어 5개 문장으로 구성된 텍스트를 가져와서 다음을 수행하세요.
- 수작업으로 벡터화
- Keras를 사용해 벡터화

In [4]:
five_samples = ['In studying solid state electronic devices we are interested primarily in the electrical behavior of solids.',
           'However, we shall see in later chapters that the transport of charge through a metal or a semiconductor depends not only on the properties of the electron but also on the arrangement of atoms in the solid.',
           'In this chapter we shall discuss some of the pyshical properties of semiconductors compared with other solids, the atomic arrangements of various materials, and some methods of growing semiconductor crystals.',
           'Topics such as crystal structure and crystal growth technology are often the subjects of books rather than intoductory chapter.',
           'Thus we shall consider only a few of the more important and fundamental ideas that form the basis for understanding electronic properties of semiconductors and device fabrication.']

In [5]:
# 수작업으로 벡터화
token_index = {}
for sample in five_samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word] = len(token_index) + 1

max_length = 10

results = np.zeros((len(five_samples), max_length, max(token_index.values()) + 1))

for i, sample in enumerate(five_samples):
  for j, word in list(enumerate(sample.split()))[:max_length]:
    index = token_index.get(word)
    results[i,j,index] = 1.


In [7]:
print(max(token_index.values()))

85


In [None]:
results

array([[[0., 1., 0., ..., 0., 0., 0.],
        [0., 0., 1., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 1., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

    

In [None]:
print(token_index)

{'In': 1, 'studying': 2, 'solid': 3, 'state': 4, 'electronic': 5, 'devices': 6, 'we': 7, 'are': 8, 'interested': 9, 'primarily': 10, 'in': 11, 'the': 12, 'electrical': 13, 'behavior': 14, 'of': 15, 'solids.': 16, 'However,': 17, 'shall': 18, 'see': 19, 'later': 20, 'chapters': 21, 'that': 22, 'transport': 23, 'charge': 24, 'through': 25, 'a': 26, 'metal': 27, 'or': 28, 'semiconductor': 29, 'depends': 30, 'not': 31, 'only': 32, 'on': 33, 'properties': 34, 'electron': 35, 'but': 36, 'also': 37, 'arrangement': 38, 'atoms': 39, 'solid.': 40, 'this': 41, 'chapter': 42, 'discuss': 43, 'some': 44, 'pyshical': 45, 'semiconductors': 46, 'compared': 47, 'with': 48, 'other': 49, 'solids,': 50, 'atomic': 51, 'arrangements': 52, 'various': 53, 'materials,': 54, 'and': 55, 'methods': 56, 'growing': 57, 'crystals.': 58, 'Topics': 59, 'such': 60, 'as': 61, 'crystal': 62, 'structure': 63, 'growth': 64, 'technology': 65, 'often': 66, 'subjects': 67, 'books': 68, 'rather': 69, 'than': 70, 'intoductory': 

In [8]:
# Keras를 사용해 벡터화
from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words = 1000)
#단어 인덱스 구축
tokenizer.fit_on_texts(five_samples)

# 정수 인덱스 리스트로 변환
sequences = tokenizer.texts_to_sequences(five_samples)

# 원핫 이진 벡터 표현
one_hot_results = tokenizer.texts_to_matrix(five_samples,mode = 'binary')

word_index = tokenizer.word_index
print(word_index)

{'the': 1, 'of': 2, 'in': 3, 'we': 4, 'and': 5, 'shall': 6, 'a': 7, 'properties': 8, 'solid': 9, 'electronic': 10, 'are': 11, 'solids': 12, 'that': 13, 'semiconductor': 14, 'only': 15, 'on': 16, 'chapter': 17, 'some': 18, 'semiconductors': 19, 'crystal': 20, 'studying': 21, 'state': 22, 'devices': 23, 'interested': 24, 'primarily': 25, 'electrical': 26, 'behavior': 27, 'however': 28, 'see': 29, 'later': 30, 'chapters': 31, 'transport': 32, 'charge': 33, 'through': 34, 'metal': 35, 'or': 36, 'depends': 37, 'not': 38, 'electron': 39, 'but': 40, 'also': 41, 'arrangement': 42, 'atoms': 43, 'this': 44, 'discuss': 45, 'pyshical': 46, 'compared': 47, 'with': 48, 'other': 49, 'atomic': 50, 'arrangements': 51, 'various': 52, 'materials': 53, 'methods': 54, 'growing': 55, 'crystals': 56, 'topics': 57, 'such': 58, 'as': 59, 'structure': 60, 'growth': 61, 'technology': 62, 'often': 63, 'subjects': 64, 'books': 65, 'rather': 66, 'than': 67, 'intoductory': 68, 'thus': 69, 'consider': 70, 'few': 71, 

In [None]:
sequences

[[3, 21, 9, 22, 10, 23, 4, 11, 24, 25, 3, 1, 26, 27, 2, 12],
 [28,
  4,
  6,
  29,
  3,
  30,
  31,
  13,
  1,
  32,
  2,
  33,
  34,
  7,
  35,
  36,
  7,
  14,
  37,
  38,
  15,
  16,
  1,
  8,
  2,
  1,
  39,
  40,
  41,
  16,
  1,
  42,
  2,
  43,
  3,
  1,
  9],
 [3,
  44,
  17,
  4,
  6,
  45,
  18,
  2,
  1,
  46,
  8,
  2,
  19,
  47,
  48,
  49,
  12,
  1,
  50,
  51,
  2,
  52,
  53,
  5,
  18,
  54,
  2,
  55,
  14,
  56],
 [57, 58, 59, 20, 60, 5, 20, 61, 62, 11, 63, 1, 64, 2, 65, 66, 67, 68, 17],
 [69,
  4,
  6,
  70,
  15,
  7,
  71,
  2,
  1,
  72,
  73,
  5,
  74,
  75,
  13,
  76,
  1,
  77,
  78,
  79,
  10,
  8,
  2,
  19,
  5,
  80,
  81]]

In [9]:
one_hot_results

array([[0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.]])

In [10]:
one_hot_results.shape

(5, 1000)