# 워드 임베딩
---
* 단어를 벡터로 표현하는 방법
* vs One-Hot Encoding : One-Hot Vector는 벡터의 차원이 한없이 커지는 단점을 가지고 있음
*                       공간적 단점 외에도 단어의 의미를 표현하지 못함(연관성을 표현하기 힘듬)
* 그래서 Dense vector로 특정 지정한 차원으로 압축하여 표현하는 워드 임베딩(word embedding) 사용
* 단순하게 차원 축소의 개념 외에도 단어벡터간 유사도를 계산할수도 있음
* LSA, Word2Vec, FastText. Glove 등 다양한 방법 존재
* Keras의 Embedding은 좀 다른 방법이지만 쨋든 밀집벡터로 변환하여 가중치를 학습시키는 방법


## Word2Vec
---
* 분산표현(Distributed Representation) : 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다
* 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현함, 단어벡터간 유의미한 유사도를 계산할 수 있음
* 분산표현의 대표적인 학습 방법이 Word2Vec이며, CBOW와 Skip-gram 방식으로 나누어짐


* CBOW(Continuous Bag of Words) : 주변에 있는 단어들을 입력으로하여 중간에 있는 단어를 예측하는 방법
* Skip-Gram : 중간에 있는 단어들을 입력으로 주변 단어들을 예측하는 방법 
* 일반적으로 Skip-Gram이 좀더 성능이 좋다는 평가가 있다.

In [2]:
# Word2Vec 모델 만들기
# gensim이라는 라이브러리 활용
# !pip install --upgrade gensim
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from gensim.models import Word2Vec
import re
from konlpy.tag import Mecab
mecab = Mecab(dicpath='C:/mecab/mecab-ko-dic/')

In [5]:
# 원래 ratings.txt로 예제를 구성하셨습니다 ^^
train_data = pd.read_table('./data/ratings_train.txt') 
train_data.dropna(inplace=True)
train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [6]:
def clean_txt(doc):
    doc = re.sub('[^ㄱ-ㅎ가-힣 ]', ' ', doc) # 한글이랑 공백(spacebar)만 남기고
    doc = re.sub('\s+', ' ', doc) # 다중 공백 하나의 공백으로 변환
    doc = np.nan if doc == '' or doc == ' ' else doc # 전처리 과정에서 공백만 남는경우 삭제
    return doc

train_data['clean_doc'] = train_data['document'].apply(clean_txt)
train_data.dropna(inplace=True)
train_data.head()

Unnamed: 0,id,document,label,clean_doc
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0,아 더빙 진짜 짜증나네요 목소리
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1,흠 포스터보고 초딩영화줄 오버연기조차 가볍지 않구나
2,10265843,너무재밓었다그래서보는것을추천한다,0,너무재밓었다그래서보는것을추천한다
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0,교도소 이야기구먼 솔직히 재미는 없다 평점 조정
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1,사이몬페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어보이기만 했던 커스틴 ...


In [9]:
stw = pd.read_csv('./data/stopwords-ko.txt', header=None) # 불용어 사전(?) 활용
stw_list = list(stw[0].values)
tokenized_data = []
for sen in train_data['clean_doc']:
    temp_x = mecab.morphs(sen)
    temp_x = [word for word in temp_x if not word in stw_list]
    tokenized_data.append(temp_x)

In [10]:
tokenized_data

[['더', '빙', '진짜', '짜증', '네요', '목소리'],
 ['흠', '포스터', '보고', '초딩', '영화', '줄', '오버', '연기', '가볍', '지', '않', '구나'],
 ['너무', '재', '밓었다그래서보는것을추천한다'],
 ['교도소', '이야기', '구먼', '솔직히', '재미', '는', '없', '다', '평점', '조정'],
 ['사이몬페그',
  '익살',
  '스런',
  '연기',
  '돋보였',
  '던',
  '영화',
  '스파이더맨',
  '늙',
  '보이',
  '기',
  '만',
  '했',
  '던',
  '커스틴',
  '던스트',
  '너무나',
  '도',
  '이뻐',
  '보였',
  '다'],
 ['막',
  '걸음마',
  '뗀',
  '세',
  '초등',
  '학교',
  '학년',
  '생',
  '인',
  '살용',
  '영화',
  'ㅋㅋㅋ',
  '별반',
  '개',
  '도',
  '아까움'],
 ['원작', '긴장감', '제대로', '살려', '내', '지', '못했', '다'],
 ['별',
  '반개',
  '도',
  '아깝',
  '다',
  '욕',
  '나온다',
  '이응경',
  '길용우',
  '연기',
  '생활',
  '인지',
  '정말',
  '발',
  '해도',
  '그것',
  '보단',
  '낫',
  '겟',
  '다',
  '납치',
  '감금',
  '만',
  '반복',
  '반복',
  '드라마',
  '는',
  '가족',
  '도',
  '없',
  '다',
  '연기',
  '못',
  '는',
  '사람',
  '만',
  '모엿'],
 ['액션', '없', '는데', '도', '재미', '있', '는', '안', '되', '는', '영화'],
 ['케',
  '평점',
  '낮',
  '은',
  '건데',
  '꽤',
  '볼',
  '만',
  '헐리우드',
  '식',
  '화려',
  '함',
  '만',
  '너무

In [11]:
# Word2Vec 모델 학습
# 학습 데이터 tokeninzed_data
# 차원은 vector_size : 100 차원
# window : context윈도우 크기(주변 단어 갯수)
# min_count : 최소 빈도수
# sg : 0 = CBOW, 1 Skip-gram
model = Word2Vec(sentences=tokenized_data, vector_size=100, window=5, min_count=5, sg=0)

In [12]:
model.wv.most_similar('재미')

[('스릴', 0.6992588639259338),
 ('감흥', 0.6749159097671509),
 ('잼', 0.5807540416717529),
 ('긴장감', 0.5694591999053955),
 ('제미', 0.5645007491111755),
 ('아무것', 0.5640243291854858),
 ('임팩트', 0.5435072183609009),
 ('짜임새', 0.5297133326530457),
 ('설득력', 0.5176892876625061),
 ('의미', 0.5152252316474915)]

In [13]:
model.wv.most_similar('나쁜')

[('죽인', 0.7494146823883057),
 ('착한', 0.7390394806861877),
 ('딴', 0.7148880362510681),
 ('미친', 0.7086080312728882),
 ('더러운', 0.6940464377403259),
 ('당한', 0.6917645335197449),
 ('쓴', 0.6870984435081482),
 ('걸린', 0.6232734322547913),
 ('무서운', 0.6225026249885559),
 ('나간', 0.6212233901023865)]

In [15]:
model.wv.most_similar('깐중') # OOV(Out of Vocabulary는 대책이 없다

KeyError: "Key '깐중' not present"

In [16]:
# 모델은 저장해놓고 쓸수 있다.
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('kor_w2v') # save
loaded_model = KeyedVectors.load_word2vec_format('kor_w2v') # load
loaded_model.most_similar('나쁜') # test

[('죽인', 0.7494146823883057),
 ('착한', 0.7390394806861877),
 ('딴', 0.7148880362510681),
 ('미친', 0.7086080312728882),
 ('더러운', 0.6940464377403259),
 ('당한', 0.6917645335197449),
 ('쓴', 0.6870984435081482),
 ('걸린', 0.6232734322547913),
 ('무서운', 0.6225026249885559),
 ('나간', 0.6212233901023865)]

## FastText
---
* 무려 Facebook에서 개발한 방법
* Word2Vec의 확장판이지만 하나의 단어 내에 여러 Subword가 존재하는 것으로 간주한다는 차이점
* n-gram : 시작과 끝을 의미하는 '<>'을 도입한 뒤 n개의 문자로 묶인 subword 토큰을 만들어서 벡터화  
ex) apple & n = 3인 경우 : <ap, app, ppl, ple, le> 
* n의 범위를 지정해서 할수도 있음
* subword 덕분에 OOV에 대해서 대처가 가능하며 빈도수가 적은 단어도 대처가 가능함

In [17]:
from gensim.models import FastText
fast_model = FastText(sentences=tokenized_data, vector_size=100, window=5, min_count=5, sg=0)

In [20]:
fast_model.wv.most_similar('깐중') # OHHHHHH

[('란', 0.3832547664642334),
 ('라는', 0.3539281189441681),
 ('나니', 0.32922178506851196),
 ('으라는', 0.29302772879600525),
 ('이야', 0.2551237940788269),
 ('모른다는', 0.23262009024620056),
 ('인생', 0.2323477566242218),
 ('라는지', 0.22996385395526886),
 ('아닐까', 0.22992071509361267),
 ('모든', 0.2271074801683426)]

In [21]:
fast_model.wv.most_similar('나쁜') # 평범

[('딴', 0.7263432741165161),
 ('죽인', 0.7221994400024414),
 ('착한', 0.7219528555870056),
 ('당한', 0.6962906718254089),
 ('더러운', 0.6878308057785034),
 ('미친', 0.6667739748954773),
 ('멍청이', 0.6660673022270203),
 ('자란', 0.6606120467185974),
 ('정신병자', 0.6600585579872131),
 ('나간', 0.654721736907959)]

## Keras Embedding()
---
* 네 익히 알고 있는 그거 맞습니다. 
* tensorflow.keras.layers.Embedding()의 임베딩 레이어
* Embedding(vocab_size, output_dim, input_length=input_length)

In [22]:
from tensorflow.keras.preprocessing.text import one_hot
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding

In [60]:
sample_text1 = 'bitty bought a bit of butter'
sample_text2 = 'but the bit of butter was a bit bitter'
sample_text3 = 'so she bought some better butter to make the bitter butter better'

corp = [sample_text1, sample_text2, sample_text3]
corp

['bitty bought a bit of butter',
 'but the bit of butter was a bit bitter',
 'so she bought some better butter to make the bitter butter better']

In [61]:
vocab_size = 50
encord_corp = []
for i , doc in enumerate(corp):
    encord_corp.append(one_hot(doc,50)) # Label Encoding?
encord_corp

[[10, 46, 49, 28, 1, 43],
 [33, 18, 28, 1, 43, 26, 49, 28, 32],
 [23, 7, 46, 16, 25, 43, 36, 31, 18, 32, 43, 25]]

In [26]:
model = Sequential()
model.add(Embedding(vocab_size, 128)) # 이렇게 임베딩 레이어를 선언하면 

In [29]:
embeddings = model.layers[0].get_weights()[0] 
embeddings.shape # vocab_size, outputdim

(50, 128)

In [28]:
embeddings[4] # 초기 웨이트 값(임의의 값), 이런식으로 50개가 선언

array([-2.55343318e-02, -1.45170093e-02, -3.89233455e-02, -4.69400883e-02,
        2.55208872e-02,  4.47079279e-02, -2.50175949e-02, -2.94444449e-02,
        3.01762670e-03, -1.96246039e-02, -4.44001220e-02,  4.02936675e-02,
       -7.15725496e-03, -4.46622148e-02, -1.21811740e-02,  8.27424601e-03,
        4.31750081e-02, -1.51906721e-02,  2.90755369e-02,  1.55739821e-02,
        2.29162462e-02, -4.54326980e-02, -3.97842638e-02, -3.18098813e-02,
       -2.28856802e-02,  2.16530003e-02, -2.33590007e-02, -1.00212321e-02,
       -5.22019714e-03, -1.68220289e-02, -4.42913175e-02,  1.98277570e-02,
        4.76150028e-02,  3.44644077e-02, -4.27816883e-02, -4.73615788e-02,
        2.91032679e-02, -2.97103077e-03,  3.74098308e-02, -9.56010818e-03,
       -1.62188523e-02,  2.07162015e-02, -4.88340966e-02,  4.02621366e-02,
        3.78690697e-02,  1.49094574e-02,  1.81049109e-06,  4.12828848e-03,
        3.97663154e-02,  4.46076281e-02,  7.80502707e-03,  4.65683006e-02,
        4.99423258e-02,  

In [None]:
# 그럼 실질적인 학습은?

In [30]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [31]:
sentences = [
    'nice great best amazing', # 1
    'stop lies', # 0
    'pitiful nerd', # 0
    'excellent work', # 1
    'supreme quality', # 1
    'bad', # 0
    'highly respectable' # 1
]
y_train = [1,0,0,1,1,0,1] # 라벨도 부여해보자

In [32]:
t = Tokenizer()
t.fit_on_texts(sentences)  # tokenizer를 sentences에 있는 단어에 대하여 fit
vocab_size = len(t.word_index)+1 # zero_padding 떄문에 +1 여분 자리
vocab_size 

16

In [33]:
t.word_index

{'nice': 1,
 'great': 2,
 'best': 3,
 'amazing': 4,
 'stop': 5,
 'lies': 6,
 'pitiful': 7,
 'nerd': 8,
 'excellent': 9,
 'work': 10,
 'supreme': 11,
 'quality': 12,
 'bad': 13,
 'highly': 14,
 'respectable': 15}

In [38]:
X_encoded = t.texts_to_sequences(sentences) # fit 한 index로 Label Encoding
max_len = max(len(l) for l in X_encoded) # 문장 최대 길이 
X_encoded

[[1, 2, 3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13], [14, 15]]

In [39]:
X_train = pad_sequences(X_encoded, maxlen=max_len, padding='post')
y_train = np.array(y_train)
print('패딩 결과 :')
print(X_train)

패딩 결과 :
[[ 1  2  3  4]
 [ 5  6  0  0]
 [ 7  8  0  0]
 [ 9 10  0  0]
 [11 12  0  0]
 [13  0  0  0]
 [14 15  0  0]]


In [40]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, Flatten
# 모델 학습을 통해 Embedding Layer에 라벨에 맞는 weight 부여 
embedding_dim = 4

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=max_len))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(X_train, y_train, epochs=100, verbose=2)

Epoch 1/100
1/1 - 1s - loss: 0.6921 - acc: 0.5714 - 1s/epoch - 1s/step
Epoch 2/100
1/1 - 0s - loss: 0.6907 - acc: 0.5714 - 5ms/epoch - 5ms/step
Epoch 3/100
1/1 - 0s - loss: 0.6892 - acc: 0.5714 - 10ms/epoch - 10ms/step
Epoch 4/100
1/1 - 0s - loss: 0.6878 - acc: 0.5714 - 6ms/epoch - 6ms/step
Epoch 5/100
1/1 - 0s - loss: 0.6864 - acc: 0.5714 - 5ms/epoch - 5ms/step
Epoch 6/100
1/1 - 0s - loss: 0.6850 - acc: 0.5714 - 6ms/epoch - 6ms/step
Epoch 7/100
1/1 - 0s - loss: 0.6836 - acc: 0.5714 - 6ms/epoch - 6ms/step
Epoch 8/100
1/1 - 0s - loss: 0.6821 - acc: 0.5714 - 6ms/epoch - 6ms/step
Epoch 9/100
1/1 - 0s - loss: 0.6807 - acc: 0.5714 - 5ms/epoch - 5ms/step
Epoch 10/100
1/1 - 0s - loss: 0.6793 - acc: 0.5714 - 5ms/epoch - 5ms/step
Epoch 11/100
1/1 - 0s - loss: 0.6779 - acc: 0.5714 - 10ms/epoch - 10ms/step
Epoch 12/100
1/1 - 0s - loss: 0.6764 - acc: 0.5714 - 5ms/epoch - 5ms/step
Epoch 13/100
1/1 - 0s - loss: 0.6750 - acc: 0.5714 - 6ms/epoch - 6ms/step
Epoch 14/100
1/1 - 0s - loss: 0.6736 - acc: 0

<keras.callbacks.History at 0x1c3c3321508>

In [None]:
# 이거로는 그때 그때 필요한 걸 만들수 있겠지만 훈련데이터가 적다면 최적화 시키기 쉽지 않음 
# 고로 이미 학습이 되어있는 임베딩 벡터를 사용한다면 성능개선도 가능!

In [43]:
import gensim.downloader as api
# 사전에 훈련된 Word2vec 임베딩 가져오기
path = api.load('word2vec-google-news-300', return_path=True)
path

'C:\\Users\\bitcamp/gensim-data\\word2vec-google-news-300\\word2vec-google-news-300.gz'

In [44]:
from gensim.models import KeyedVectors
w2v_model = KeyedVectors.load_word2vec_format(path, binary=True)

In [45]:
w2v_model.get_index('check')

1315

In [46]:
w2v_model.get_index('excellent')

2376

In [48]:
w2v_model.vectors.shape # 이 큰걸 굳이 다쓸 필요없지 필요한것만 골라내자

(3000000, 300)

In [50]:
embedding_matrix = np.zeros((vocab_size, 300))
def get_vector(word):
    if word in w2v_model:
        return w2v_model[word]
    else:
        return None
for word, index in t.word_index.items():
    # 단어와 맵핑되는 사전 훈련된 임베딩 벡터값
    vector_value = get_vector(word)
    if vector_value is not None:
        embedding_matrix[index] = vector_value

In [52]:
print(w2v_model['nice'])

[ 0.15820312  0.10595703 -0.18945312  0.38671875  0.08349609 -0.26757812
  0.08349609  0.11328125 -0.10400391  0.17871094 -0.12353516 -0.22265625
 -0.01806641 -0.25390625  0.13183594  0.0859375   0.16113281  0.11083984
 -0.11083984 -0.0859375   0.0267334   0.34570312  0.15136719 -0.00415039
  0.10498047  0.04907227 -0.06982422  0.08642578  0.03198242 -0.02844238
 -0.15722656  0.11865234  0.36132812  0.00173187  0.05297852 -0.234375
  0.11767578  0.08642578 -0.01123047  0.25976562  0.28515625 -0.11669922
  0.38476562  0.07275391  0.01147461  0.03466797  0.18164062 -0.03955078
  0.04199219  0.01013184 -0.06054688  0.09765625  0.06689453  0.14648438
 -0.12011719  0.08447266 -0.06152344  0.06347656  0.3046875  -0.35546875
 -0.2890625   0.19628906 -0.33203125 -0.07128906  0.12792969  0.09619141
 -0.12158203 -0.08691406 -0.12890625  0.27734375  0.265625    0.1796875
  0.12695312  0.06298828 -0.34375    -0.05908203  0.0456543   0.171875
  0.08935547  0.14648438 -0.04638672 -0.00842285 -0.0279

In [53]:
print('단어 nice의 맵핑된 정수 :', t.word_index['nice'])

단어 nice의 맵핑된 정수 : 1


In [54]:
print(embedding_matrix[1])

[ 0.15820312  0.10595703 -0.18945312  0.38671875  0.08349609 -0.26757812
  0.08349609  0.11328125 -0.10400391  0.17871094 -0.12353516 -0.22265625
 -0.01806641 -0.25390625  0.13183594  0.0859375   0.16113281  0.11083984
 -0.11083984 -0.0859375   0.0267334   0.34570312  0.15136719 -0.00415039
  0.10498047  0.04907227 -0.06982422  0.08642578  0.03198242 -0.02844238
 -0.15722656  0.11865234  0.36132812  0.00173187  0.05297852 -0.234375
  0.11767578  0.08642578 -0.01123047  0.25976562  0.28515625 -0.11669922
  0.38476562  0.07275391  0.01147461  0.03466797  0.18164062 -0.03955078
  0.04199219  0.01013184 -0.06054688  0.09765625  0.06689453  0.14648438
 -0.12011719  0.08447266 -0.06152344  0.06347656  0.3046875  -0.35546875
 -0.2890625   0.19628906 -0.33203125 -0.07128906  0.12792969  0.09619141
 -0.12158203 -0.08691406 -0.12890625  0.27734375  0.265625    0.1796875
  0.12695312  0.06298828 -0.34375    -0.05908203  0.0456543   0.171875
  0.08935547  0.14648438 -0.04638672 -0.00842285 -0.0279

In [55]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, Flatten, Input

model = Sequential()
model.add(Input(shape=(max_len,), dtype='int32'))
e = Embedding(vocab_size, 300, weights=[embedding_matrix], input_length=max_len, trainable=False)
model.add(e)
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(X_train, y_train, epochs=100, verbose=2)

Epoch 1/100
1/1 - 0s - loss: 0.7296 - acc: 0.4286 - 249ms/epoch - 249ms/step
Epoch 2/100
1/1 - 0s - loss: 0.7103 - acc: 0.4286 - 4ms/epoch - 4ms/step
Epoch 3/100
1/1 - 0s - loss: 0.6915 - acc: 0.5714 - 4ms/epoch - 4ms/step
Epoch 4/100
1/1 - 0s - loss: 0.6733 - acc: 0.5714 - 5ms/epoch - 5ms/step
Epoch 5/100
1/1 - 0s - loss: 0.6556 - acc: 0.5714 - 10ms/epoch - 10ms/step
Epoch 6/100
1/1 - 0s - loss: 0.6384 - acc: 0.5714 - 9ms/epoch - 9ms/step
Epoch 7/100
1/1 - 0s - loss: 0.6218 - acc: 0.5714 - 6ms/epoch - 6ms/step
Epoch 8/100
1/1 - 0s - loss: 0.6058 - acc: 0.5714 - 7ms/epoch - 7ms/step
Epoch 9/100
1/1 - 0s - loss: 0.5902 - acc: 0.8571 - 4ms/epoch - 4ms/step
Epoch 10/100
1/1 - 0s - loss: 0.5752 - acc: 1.0000 - 4ms/epoch - 4ms/step
Epoch 11/100
1/1 - 0s - loss: 0.5607 - acc: 1.0000 - 4ms/epoch - 4ms/step
Epoch 12/100
1/1 - 0s - loss: 0.5467 - acc: 1.0000 - 8ms/epoch - 8ms/step
Epoch 13/100
1/1 - 0s - loss: 0.5331 - acc: 1.0000 - 5ms/epoch - 5ms/step
Epoch 14/100
1/1 - 0s - loss: 0.5200 - ac

<keras.callbacks.History at 0x1c3894f4588>

# Seq2Seq
---
* 번역기에 사용되는 대표 모델(챗봇에서도 사용한다고는 한다)
* https://wikidocs.net/24996

In [98]:
import os
import shutil
import zipfile

import pandas as pd
import tensorflow as tf
import urllib3
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

In [99]:
http = urllib3.PoolManager()
url ='http://www.manythings.org/anki/fra-eng.zip'
filename = 'fra-eng.zip'
path = os.getcwd()
zipfilename = os.path.join(path, filename)
with http.request('GET', url, preload_content=False) as r, open(zipfilename, 'wb') as out_file:       
    shutil.copyfileobj(r, out_file)

with zipfile.ZipFile(zipfilename, 'r') as zip_ref:
    zip_ref.extractall(path)

In [100]:
lines = pd.read_csv('fra.txt', names=['src', 'tar', 'lic'], sep='\t')
del lines['lic']
lines = lines.loc[:, 'src':'tar']
lines = lines[0:30000] # 3만개만 사용
lines.sample(10)


Unnamed: 0,src,tar
28471,He came out on top.,Il finit en tête.
5597,Please smile.,"Souris, s'il te plaît !"
592,I did OK.,Je m'en suis bien sortie.
7534,I went inside.,J'y suis entré.
18123,I can't fix this.,Je n'arrive pas à réparer ceci.
8743,Tom looks mad.,Tom a l'air furieux.
10548,I saw the game.,J'ai vu le match.
29155,I give you my word.,Promis.
18802,I was devastated.,J'étais anéanti.
3286,I will walk.,Je marcherai.


In [121]:
lines.tar = lines.tar.apply(lambda x : '\t '+ x + ' \n')
lines.head()

Unnamed: 0,src,tar
0,Go.,\t \t Va ! \n \n
1,Go.,\t \t Marche. \n \n
2,Go.,\t \t Bouge ! \n \n
3,Hi.,\t \t Salut ! \n \n
4,Hi.,\t \t Salut. \n \n


In [102]:
# 문자 집합 구축
src_vocab = set()
for line in lines.src: # 1줄씩 읽음
    for char in line: # 1개의 문자씩 읽음
        src_vocab.add(char)

tar_vocab = set()
for line in lines.tar:
    for char in line:
        tar_vocab.add(char)

In [103]:
src_vocab_size = len(src_vocab)+1
tar_vocab_size = len(tar_vocab)+1
print('source 문장의 char 집합 :',src_vocab_size)
print('target 문장의 char 집합 :',tar_vocab_size)

source 문장의 char 집합 : 76
target 문장의 char 집합 : 103


In [104]:
src_vocab = sorted(list(src_vocab))
tar_vocab = sorted(list(tar_vocab))
print(src_vocab[45:75])
print(tar_vocab[45:75])

['X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'é']
['T', 'U', 'V', 'W', 'X', 'Y', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x']


In [105]:
src_to_index = dict([(word, i+1) for i, word in enumerate(src_vocab)])
tar_to_index = dict([(word, i+1) for i, word in enumerate(tar_vocab)])
print(src_to_index)
print(tar_to_index)

{' ': 1, '!': 2, '"': 3, '$': 4, '%': 5, '&': 6, "'": 7, ',': 8, '-': 9, '.': 10, '0': 11, '1': 12, '2': 13, '3': 14, '4': 15, '5': 16, '6': 17, '7': 18, '8': 19, '9': 20, ':': 21, '?': 22, 'A': 23, 'B': 24, 'C': 25, 'D': 26, 'E': 27, 'F': 28, 'G': 29, 'H': 30, 'I': 31, 'J': 32, 'K': 33, 'L': 34, 'M': 35, 'N': 36, 'O': 37, 'P': 38, 'Q': 39, 'R': 40, 'S': 41, 'T': 42, 'U': 43, 'V': 44, 'W': 45, 'X': 46, 'Y': 47, 'Z': 48, 'a': 49, 'b': 50, 'c': 51, 'd': 52, 'e': 53, 'f': 54, 'g': 55, 'h': 56, 'i': 57, 'j': 58, 'k': 59, 'l': 60, 'm': 61, 'n': 62, 'o': 63, 'p': 64, 'q': 65, 'r': 66, 's': 67, 't': 68, 'u': 69, 'v': 70, 'w': 71, 'x': 72, 'y': 73, 'z': 74, 'é': 75}
{'\t': 1, '\n': 2, ' ': 3, '!': 4, '"': 5, '$': 6, '%': 7, '&': 8, "'": 9, '(': 10, ')': 11, ',': 12, '-': 13, '.': 14, '0': 15, '1': 16, '2': 17, '3': 18, '4': 19, '5': 20, '6': 21, '7': 22, '8': 23, '9': 24, ':': 25, '?': 26, 'A': 27, 'B': 28, 'C': 29, 'D': 30, 'E': 31, 'F': 32, 'G': 33, 'H': 34, 'I': 35, 'J': 36, 'K': 37, 'L': 3

In [106]:
encoder_input = []

# 1개의 문장
for line in lines.src:
    encoded_line = []
    # 각 줄에서 1개의 char
    for char in line:
    # 각 char을 정수로 변환
        encoded_line.append(src_to_index[char])
    encoder_input.append(encoded_line)
print('source 문장의 정수 인코딩 :',encoder_input[:5])

source 문장의 정수 인코딩 : [[29, 63, 10], [29, 63, 10], [29, 63, 10], [30, 57, 10], [30, 57, 10]]


In [107]:
decoder_input = []
for line in lines.tar:
    encoded_line = []
    for char in line:
        encoded_line.append(tar_to_index[char])
    decoder_input.append(encoded_line)
print('target 문장의 정수 인코딩 :',decoder_input[:5])

target 문장의 정수 인코딩 : [[1, 3, 48, 52, 3, 4, 3, 2], [1, 3, 39, 52, 69, 54, 59, 56, 14, 3, 2], [1, 3, 28, 66, 72, 58, 56, 3, 4, 3, 2], [1, 3, 45, 52, 63, 72, 71, 3, 4, 3, 2], [1, 3, 45, 52, 63, 72, 71, 14, 3, 2]]


In [108]:
decoder_target = []
for line in lines.tar:
    timestep = 0
    encoded_line = []
    for char in line:
        if timestep > 0:
            encoded_line.append(tar_to_index[char])
        timestep = timestep + 1
    decoder_target.append(encoded_line)
print('target 문장 레이블의 정수 인코딩 :',decoder_target[:5])

target 문장 레이블의 정수 인코딩 : [[3, 48, 52, 3, 4, 3, 2], [3, 39, 52, 69, 54, 59, 56, 14, 3, 2], [3, 28, 66, 72, 58, 56, 3, 4, 3, 2], [3, 45, 52, 63, 72, 71, 3, 4, 3, 2], [3, 45, 52, 63, 72, 71, 14, 3, 2]]


In [109]:
max_src_len = max([len(line) for line in lines.src])
max_tar_len = max([len(line) for line in lines.tar])
print('source 문장의 최대 길이 :',max_src_len)
print('target 문장의 최대 길이 :',max_tar_len)

source 문장의 최대 길이 : 19
target 문장의 최대 길이 : 61


In [110]:
encoder_input = pad_sequences(encoder_input, maxlen=max_src_len, padding='post')
decoder_input = pad_sequences(decoder_input, maxlen=max_tar_len, padding='post')
decoder_target = pad_sequences(decoder_target, maxlen=max_tar_len, padding='post')

In [111]:
encoder_input = to_categorical(encoder_input)
decoder_input = to_categorical(decoder_input)
decoder_target = to_categorical(decoder_target)

In [112]:
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense
from tensorflow.keras.models import Model
import numpy as np

In [113]:
encoder_inputs = Input(shape=(None, src_vocab_size))
encoder_lstm = LSTM(units=256, return_state=True)

# encoder_outputs은 여기서는 불필요
encoder_outputs, state_h, state_c = encoder_lstm(encoder_inputs)

# LSTM은 바닐라 RNN과는 달리 상태가 두 개. 은닉 상태와 셀 상태.
encoder_states = [state_h, state_c]

In [114]:
decoder_inputs = Input(shape=(None, tar_vocab_size))
decoder_lstm = LSTM(units=256, return_sequences=True, return_state=True)

# 디코더에게 인코더의 은닉 상태, 셀 상태를 전달.
decoder_outputs, _, _= decoder_lstm(decoder_inputs, initial_state=encoder_states)

decoder_softmax_layer = Dense(tar_vocab_size, activation='softmax')
decoder_outputs = decoder_softmax_layer(decoder_outputs)

model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer="rmsprop", loss="categorical_crossentropy")

In [115]:
model.fit(x=[encoder_input, decoder_input], y=decoder_target, batch_size=64, epochs=40, validation_split=0.2)

Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


<keras.callbacks.History at 0x1c5d8cd1248>

In [116]:
encoder_model = Model(inputs=encoder_inputs, outputs=encoder_states)

In [117]:
# 이전 시점의 상태들을 저장하는 텐서
decoder_state_input_h = Input(shape=(256,))
decoder_state_input_c = Input(shape=(256,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

# 문장의 다음 단어를 예측하기 위해서 초기 상태(initial_state)를 이전 시점의 상태로 사용.
# 뒤의 함수 decode_sequence()에 동작을 구현 예정
decoder_outputs, state_h, state_c = decoder_lstm(decoder_inputs, initial_state=decoder_states_inputs)

# 훈련 과정에서와 달리 LSTM의 리턴하는 은닉 상태와 셀 상태를 버리지 않음.
decoder_states = [state_h, state_c]
decoder_outputs = decoder_softmax_layer(decoder_outputs)
decoder_model = Model(inputs=[decoder_inputs] + decoder_states_inputs, outputs=[decoder_outputs] + decoder_states)

In [118]:
index_to_src = dict((i, char) for char, i in src_to_index.items())
index_to_tar = dict((i, char) for char, i in tar_to_index.items())

In [119]:
def decode_sequence(input_seq):
  # 입력으로부터 인코더의 상태를 얻음
  states_value = encoder_model.predict(input_seq)

  # <SOS>에 해당하는 원-핫 벡터 생성
  target_seq = np.zeros((1, 1, tar_vocab_size))
  target_seq[0, 0, tar_to_index['\t']] = 1.

  stop_condition = False
  decoded_sentence = ""

  # stop_condition이 True가 될 때까지 루프 반복
  while not stop_condition:
    # 이점 시점의 상태 states_value를 현 시점의 초기 상태로 사용
    output_tokens, h, c = decoder_model.predict([target_seq] + states_value)

    # 예측 결과를 문자로 변환
    sampled_token_index = np.argmax(output_tokens[0, -1, :])
    sampled_char = index_to_tar[sampled_token_index]

    # 현재 시점의 예측 문자를 예측 문장에 추가
    decoded_sentence += sampled_char

    # <eos>에 도달하거나 최대 길이를 넘으면 중단.
    if (sampled_char == '\n' or
        len(decoded_sentence) > max_tar_len):
        stop_condition = True

    # 현재 시점의 예측 결과를 다음 시점의 입력으로 사용하기 위해 저장
    target_seq = np.zeros((1, 1, tar_vocab_size))
    target_seq[0, 0, sampled_token_index] = 1.

    # 현재 시점의 상태를 다음 시점의 상태로 사용하기 위해 저장
    states_value = [h, c]

  return decoded_sentence

In [120]:
for seq_index in [3,50,100,300,1001]: # 입력 문장의 인덱스
  input_seq = encoder_input[seq_index:seq_index+1]
  decoded_sentence = decode_sequence(input_seq)
  print(35 * "-")
  print('입력 문장:', lines.src[seq_index])
  print('정답 문장:', lines.tar[seq_index][2:len(lines.tar[seq_index])-1]) # '\t'와 '\n'을 빼고 출력
  print('번역 문장:', decoded_sentence[1:len(decoded_sentence)-1]) # '\n'을 빼고 출력

-----------------------------------
입력 문장: Hi.
정답 문장: Salut ! 
번역 문장: Salut. 
-----------------------------------
입력 문장: I see.
정답 문장: Aha. 
번역 문장: Je comprends. 
-----------------------------------
입력 문장: Hug me.
정답 문장: Serrez-moi dans vos bras ! 
번역 문장: Serrez-moi dans la voiture ! 
-----------------------------------
입력 문장: Help me.
정답 문장: Aidez-moi. 
번역 문장: Aide-moi. 
-----------------------------------
입력 문장: I am sure.
정답 문장: Je suis sûr. 
번역 문장: Je suis chanteure. 
