<a href="https://colab.research.google.com/github/tjddyd2259/caba_nlp/blob/main/nlp10_one_hot_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

넘파이를 이용한 원-핫 인코딩

- 원-핫 인코딩은 토큰을 벡터로 변환하는 가장 일반적이고 기본적인 방법입니다. 
- 모든 단어에 고유한 정수 인덱스를 부여하고 이 정수 인덱스 i를 크기가 N(어휘 사전의 크기)인 이진 벡터로 변환합니다. 
- 이 벡터는 i번째 원소만 1이고 나머지는 모두 0입니다.

- 물론 원-핫 인코딩은 문자 수준에서도 적용할 수 있습니다. 

In [1]:
# 단어 수준 원-핫 인코딩
import numpy as np

samples = ['The cat sat on the mat.','The dog ate my homework.']
token_index = {}
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word] = len(token_index) + 1 # 인덱스 0은 사용하지 않는다.
max_length = 10
# 결과를 저장할 배열
results = np.zeros((len(samples),max_length,max(token_index.values())+1)) # 3차원 (2,10,11)

for i, sample in enumerate(samples):
  for j, word in list(enumerate(sample.split()))[:max_length]:
    index = token_index.get(word)
    results[i,j,index] = 1.

In [2]:
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

In [3]:
max(token_index.values())+1
token_index.values()

dict_values([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

In [4]:
token_index

{'The': 1,
 'ate': 8,
 'cat': 2,
 'dog': 7,
 'homework.': 10,
 'mat.': 6,
 'my': 9,
 'on': 4,
 'sat': 3,
 'the': 5}

In [6]:
import string
characters = string.printable # 출력 가능한 모든 아스키 문자
token_index = dict(zip(characters,range(1,len(characters)+1)))

max_length = 50
results = np.zeros((len(samples),max_length,max(token_index.values())+1))
for i, sample in enumerate(samples):
  for j, character in enumerate(sample[:max_length]):
    index = token_index.get(character)
    results[i,j,index] = 1.

In [7]:
results

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

### 케라스를 사용한 원-핫 인코딩

- Keras는 여러 텍스트 문서를 준비하는 데 적합하고 재사용 할 수 있는 텍스트 준비를 위한 보다 정교한 API를 제공합니다.
- Keras는 딥러닝을 위해 텍스트 문서를 준비하기 위한 Tokenizer 클래스를 제공합니다 . 
- Tokenizer를 구축하고 원시 텍스트 문서 또는 정수로 인코딩합니다.
- Tokenizer가 학습 데이터에 적합하면  테스트 데이터세트의 문서를 인코딩하는 데 사용할 수 있습니다. 
- Tokenizer의 texts_to_matrix () 함수는 입력별로 제공되는 문서 당 하나의 벡터를 만드는 데 사용할 수 있습니다. 벡터의 길이는 어휘의 전체 크기입니다.
- 이 함수는 함수에 대한 모드 인수를 통해 제공될 수 있는 표준 bag-of-word 모델 텍스트 인코딩 체계 모음을 제공

In [8]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.','The dog ate my homework.']
# 가장 빈도가 높은 1000개의 단어만 선택하도록 tokenizer 객체를 생성
tokenizer = Tokenizer(num_words=1000)
# 단어 인덱스를 구축
tokenizer.fit_on_texts(samples)

# 문자열을 정수 인덱스의 리스트로 변환
sequences = tokenizer.texts_to_sequences(samples)

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

# 계산된 단어 인덱스를 도출
word_index = tokenizer.word_index
print('found %s unique tokens' % len(word_index))

found 9 unique tokens


In [9]:
print(sequences)
print(one_hot_results)
print(word_index)

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]
[[0. 1. 1. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]]
{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


In [10]:
one_hot_results[0][:10]

array([0., 1., 1., 1., 1., 1., 0., 0., 0., 0.])