# 엠베딩

In [1]:
corpus = {
    'I love my dog',
    'I love my cat',
    'You love my dog',
    'Do you think my dog is amazing',
}

# 한글 문장들을 모두 모아놓은 데이터셋을 corpus라고 함.

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words = 100, oov_token = '<OOV>')
tokenizer.fit_on_texts(corpus) 
# 100개의 단어를 벗어나면 자동으로 OOV로 변환처리한다.

In [4]:
tokenizer.word_index
# 많이 쓰인 순서대로 인덱스를 정해준다.

{'<OOV>': 1,
 'my': 2,
 'love': 3,
 'dog': 4,
 'i': 5,
 'you': 6,
 'cat': 7,
 'do': 8,
 'think': 9,
 'is': 10,
 'amazing': 11}

In [6]:
tokenizer.word_counts
# 단어마다 얼마나 쓰였는지 알려준다.

OrderedDict([('i', 2),
             ('love', 3),
             ('my', 4),
             ('cat', 1),
             ('you', 2),
             ('dog', 3),
             ('do', 1),
             ('think', 1),
             ('is', 1),
             ('amazing', 1)])

In [7]:
# RNN - (batch, time_step, 한단어를 binary형식으로 표현한것)
# 맨 위의 corpus에서 보면 마지막 문장만 4개의 단어를 넘어가는데,
# 모든 문장의 사이즈를 맞춰야하므로
# cnn에서 이미지사이즈를 전부 맞추기 위해 padding()을 사용하는 것 처럼,
# rnn에서는 그런 함수가 있다.
# rnn에서는 from tensorflow.keras.preprocessing.sequence import pad_sequences를 씀.

In [10]:
# 영어 문장을 숫자로 변환

sequences = tokenizer.texts_to_sequences(corpus)
sequences

[[5, 3, 2, 7], [6, 3, 2, 4], [5, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]

In [19]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

paded = pad_sequences(sequences, maxlen=6, padding='pre') 
# pre는 앞에를 자르라는 말이다.

paded
# 문장의 길이는 time_step으로 들어감.
# binary로 표현하기 위해 원핫인코딩을 사용하여 한다.

array([[ 0,  0,  5,  3,  2,  7],
       [ 0,  0,  6,  3,  2,  4],
       [ 0,  0,  5,  3,  2,  4],
       [ 6,  9,  2,  4, 10, 11]], dtype=int32)

In [20]:
# 원핫인코딩
from tensorflow.keras.utils import to_categorical

paded_seq = to_categorical(paded)
paded_seq
# corpus에서 단어가 자리하고있는 위치를 바이너리값으로 원핫인코딩시킨다.
# 이렇게 하면 데이터 낭비가 너무 심하다. 그래서 엠베딩이라는 방법으로 사용한다.

array([[[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.]],

       [[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.]],

       [[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0

In [None]:
# RNN 모델에 입력...