<a href="https://colab.research.google.com/github/bnv20/cakd3/blob/main/one_hot_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

자연어 처리를 위한 딥러닝은 단어, 문장, 문단에 적용한 패턴 인식

- 딥러닝 모델은 수치형 텐서만 다룰 수 있음
- 텍스트를 수치형 텐서로 변환하는 과정을 텍스트 벡터화라고 함
- 텍스트를 나누는 단위(단어, 문자, n-그램)을 토큰이라 함
- 텍스트를 토큰으로 나누는 작업을 토큰화라고 함
- 텍스트 벡터화 과정은 어떤 종류의 토큰화를 적용하고 생성된 토큰에 수치형 벡터를 연결하는 것
- 토큰과 벡터를 연결하는 방법은 원-핫 인코딩과 토큰 임베딩(단어 임베딩) 이 있음



In [2]:
import numpy as np
samples = ['The cat sat on the mat.','The dog ate my homework.']
token_index = {} # 딕셔너리 형태
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word] = len(token_index) + 1
token_index

{'The': 1,
 'ate': 8,
 'cat': 2,
 'dog': 7,
 'homework.': 10,
 'mat.': 6,
 'my': 9,
 'on': 4,
 'sat': 3,
 'the': 5}

In [5]:
token_index.items()

dict_items([('The', 1), ('cat', 2), ('sat', 3), ('on', 4), ('the', 5), ('mat.', 6), ('dog', 7), ('ate', 8), ('my', 9), ('homework.', 10)])

In [6]:
max(token_index.values())

10

In [10]:
max_length = 10
results = np.zeros((len(samples),max_length,max(token_index.values())+1))
results.shape


(2, 10, 11)

In [11]:
for i, sample in enumerate(samples):
  for j, word in list(enumerate(sample.split()))[:max_length]:
    index = token_index.get(word)
    results[i,j,index] = 1. # (sample, word(행), word(열)) 해당하는 위치에만 1, 나머지는 0
results   

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

In [15]:
# 케라스를 사용한 원-핫 인코딩
from tensorflow.keras.preprocessing.text import Tokenizer
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

tokenizer = Tokenizer(num_words=10)
tokenizer.fit_on_texts(samples) # 단어 인덱스를 구축

sequences = tokenizer.texts_to_sequences(samples) # 문자열을 정수 인덱스의 리스트로 변환
print(sequences)

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

word_index = tokenizer.word_index
print(word_index)

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]
{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}
