In [1]:
# Embedding: 단어를 고정된 크기의 실수 벡터로 변환하는 방식; ex> word2Vec, GloVe, FastText
# 원 핫 인코딩보다 훨씬 더 의미 있는 벡터 표현 -> 유사한 의미를 가질 수록 임베딩 공간에서 가깝게 배치

In [None]:
# 원 핫 인코딩 방식: 1. 토큰화, 2. 패딩, 3. 인코딩 -> 유사도 반영이 없음.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import tensorflow as tf
import keras

In [3]:
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

In [4]:
## Tokenizing

In [7]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=100, oov_token='<OOV>') # out of vocabulary 제한된 숫자 안에 안들어가는 숫자들은 oov 처리를 한다. 기호로 처리를 하는 것.
tokenizer.fit_on_texts(corpus)

In [8]:
tokenizer.word_index # 최빈값 순서대로 토큰화 되었음; OOV만 맨 앞에 배치하는 이유는 훈련되지 않은 단어를 만났을 때 바로 인식할 수 있게 하기 위해서

{'<OOV>': 1,
 'this': 2,
 'is': 3,
 'the': 4,
 'document': 5,
 'first': 6,
 'second': 7,
 'and': 8,
 'third': 9,
 'one': 10}

In [9]:
tokenizer.word_index['this']

2

In [10]:
sequences = tokenizer.texts_to_sequences(corpus)
sequences

[[2, 3, 4, 6, 5], [2, 5, 3, 4, 7, 5], [8, 2, 3, 4, 9, 10], [3, 2, 4, 6, 5]]

In [11]:
## 패딩 조지기

In [12]:
from keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(sequences, maxlen= 6, padding= 'pre', truncating= 'pre')
# pre랑 post가 있음. 앞에다가 0을 할지 뒤에다가 0을 할지에 대한 차이
# truncating은 만약 maxlen 보다 길어지면 어디를 자를지를 의미함.
# padding을 주는 이유는 모델의 입력 모양을 동일하게 유지하게 하기 위해서임.

padded

array([[ 0,  2,  3,  4,  6,  5],
       [ 2,  5,  3,  4,  7,  5],
       [ 8,  2,  3,  4,  9, 10],
       [ 0,  3,  2,  4,  6,  5]], dtype=int32)

In [13]:
## 원 핫 인코딩
### 각 단어를 벡터화시킨다

In [14]:
padded.shape

(4, 6)

In [15]:
from keras.utils import to_categorical

padded_o = to_categorical(padded)
padded_o

array([[[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.]],

       [[0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]],

       [[1., 0., 0., 0