In [1]:
import pandas as pd
import numpy as np
import tensorflow
import os, re, string

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense, Masking
from tensorflow.keras.models import Model

In [2]:
file_path = os.getenv('HOME')+'/aiffel/translator_seq2seq/data/fra.txt'
lines = pd.read_csv(file_path, names=['eng', 'fra', 'cc'], sep='\t')
print('전체 샘플의 수 :',len(lines))
lines.sample(5) #샘플 5개 출력

전체 샘플의 수 : 197463


Unnamed: 0,eng,fra,cc
7063,He's a tycoon.,C'est un magnat.,CC-BY 2.0 (France) Attribution: tatoeba.org #1...
72208,I think this tastes good.,Je pense que ça a bon goût.,CC-BY 2.0 (France) Attribution: tatoeba.org #1...
14760,I'm feeling fit.,Je me sens en forme.,CC-BY 2.0 (France) Attribution: tatoeba.org #3...
13400,Do you go often?,Tu y vas souvent ?,CC-BY 2.0 (France) Attribution: tatoeba.org #1...
157446,You're even more naive than I thought.,Tu es encore plus naïf que je ne le pensais.,CC-BY 2.0 (France) Attribution: tatoeba.org #6...


In [3]:
lines = lines[['eng', 'fra']][:33000] # 5만개 샘플 사용
lines.sample(5) # 5744, 29273

Unnamed: 0,eng,fra
31077,It's like a plague.,C’est comme une peste.
28189,You're very timid.,Tu es très timide.
19153,I want your love.,Je veux ton amour.
25272,Keep to the right.,Reste à droite.
6088,Tom is awake.,Tom est debout.


In [4]:
# 시작 토큰과 종료 토큰 추가
sos_token = '\t'
eos_token = '\n'
lines.fra = lines.fra.apply(lambda x : '\t '+ x + ' \n')
print('전체 샘플의 수 :',len(lines))
lines.sample(5)

전체 샘플의 수 : 33000


Unnamed: 0,eng,fra
9303,Were you sick?,\t Tu étais malade ? \n
4488,Be attentive.,\t Sois attentif. \n
22350,You're dangerous.,\t Vous êtes dangereuse. \n
27212,We were newlyweds.,\t Nous étions jeunes mariés. \n
25869,Tell me the truth.,\t Dis-moi la vérité. \n


In [5]:
lines.head(8)

Unnamed: 0,eng,fra
0,Go.,\t Va ! \n
1,Go.,\t Marche. \n
2,Go.,\t En route ! \n
3,Go.,\t Bouge ! \n
4,Hi.,\t Salut ! \n
5,Hi.,\t Salut. \n
6,Run!,\t Cours ! \n
7,Run!,\t Courez ! \n


In [6]:
# \u202f
# \u2009
# \xa0
# ’
# —
# –
# –
# «, »

In [7]:
# regex reference: https://stackoverflow.com/questions/64125019/how-to-tokenize-punctuations-using-the-tokenizer-function-tensorflow
def pad_punctuation(s): return re.sub(f"([{string.punctuation}])", r' \1 ', s)

In [8]:
# create a full list from lines.eng and separate by punctuation
list_eng = [pad_punctuation(s) for s in lines.eng]
list_eng[:5]

['Go . ', 'Go . ', 'Go . ', 'Go . ', 'Hi . ']

In [9]:
list_fra = [pad_punctuation(s) for s in lines.fra]
list_fra[:5]

['\t Va  !  \n',
 '\t Marche .  \n',
 '\t En route  !  \n',
 '\t Bouge  !  \n',
 '\t Salut  !  \n']

In [10]:
eng_tokenizer = Tokenizer(filters='')    # 문자 단위로 Tokenizer를 생성합니다. 
eng_tokenizer.fit_on_texts(list_eng)               # 50000개의 행을 가진 eng의 각 행에 토큰화를 수행
input_text = eng_tokenizer.texts_to_sequences(list_eng)    # 단어를 숫자값 인덱스로 변환하여 저장
input_text[:3]

[[29, 1], [29, 1], [29, 1]]

In [11]:
eng_tokenizer.index_word[6], eng_tokenizer.index_word[5], eng_tokenizer.index_word[1]

('tom', '?', '.')

In [12]:
fra_tokenizer = Tokenizer(filters='')   # 문자 단위로 Tokenizer를 생성합니다. 
fra_tokenizer.fit_on_texts(list_fra)                 # 50000개의 행을 가진 fra의 각 행에 토큰화를 수행
target_text = fra_tokenizer.texts_to_sequences(list_fra)     # 단어를 숫자값 인덱스로 변환하여 저장
target_text[:3]

[[1, 76, 10, 2], [1, 345, 3, 2], [1, 27, 486, 10, 2]]

In [13]:
fra_tokenizer.index_word[1], fra_tokenizer.index_word[2],fra_tokenizer.index_word[3], fra_tokenizer.index_word[4], fra_tokenizer.index_word[5], fra_tokenizer.index_word[6]

('\t', '\n', '.', "'", 'je', 'est')

In [14]:
eng_vocab_size = len(eng_tokenizer.word_index) + 1
fra_vocab_size = len(fra_tokenizer.word_index) + 1
print('영어 단어장의 크기 :', eng_vocab_size)
print('프랑스어 단어장의 크기 :', fra_vocab_size)

영어 단어장의 크기 : 4713
프랑스어 단어장의 크기 : 9467


In [15]:
max_eng_seq_len = max([len(line) for line in input_text])
max_fra_seq_len = max([len(line) for line in target_text])
print('영어 시퀀스의 최대 길이', max_eng_seq_len)
print('프랑스어 시퀀스의 최대 길이', max_fra_seq_len)

영어 시퀀스의 최대 길이 10
프랑스어 시퀀스의 최대 길이 20


In [16]:
print('전체 샘플의 수 :',len(lines))
print('영어 단어장의 크기 :', eng_vocab_size)
print('프랑스어 단어장의 크기 :', fra_vocab_size)
print('영어 시퀀스의 최대 길이', max_eng_seq_len)
print('프랑스어 시퀀스의 최대 길이', max_fra_seq_len)

전체 샘플의 수 : 33000
영어 단어장의 크기 : 4713
프랑스어 단어장의 크기 : 9467
영어 시퀀스의 최대 길이 10
프랑스어 시퀀스의 최대 길이 20


In [17]:
encoder_input = input_text
# 종료 토큰 제거
decoder_input = [[ char for char in line if char != fra_tokenizer.word_index[eos_token] ] for line in target_text] 
# 시작 토큰 제거
decoder_target = [[ char for char in line if char != fra_tokenizer.word_index[sos_token] ] for line in target_text]

In [18]:
print(decoder_input[:3])
print(decoder_target[:3])

[[1, 76, 10], [1, 345, 3], [1, 27, 486, 10]]
[[76, 10, 2], [345, 3, 2], [27, 486, 10, 2]]


In [19]:
encoder_input = pad_sequences(encoder_input, maxlen = max_eng_seq_len, padding='post')
decoder_input = pad_sequences(decoder_input, maxlen = max_fra_seq_len, padding='post')
decoder_target = pad_sequences(decoder_target, maxlen = max_fra_seq_len, padding='post')
print('영어 데이터의 크기(shape) :',np.shape(encoder_input))
print('프랑스어 입력데이터의 크기(shape) :',np.shape(decoder_input))
print('프랑스어 출력데이터의 크기(shape) :',np.shape(decoder_target))

영어 데이터의 크기(shape) : (33000, 10)
프랑스어 입력데이터의 크기(shape) : (33000, 20)
프랑스어 출력데이터의 크기(shape) : (33000, 20)


In [20]:
print(encoder_input[0])

[29  1  0  0  0  0  0  0  0  0]


In [21]:
encoder_input = to_categorical(encoder_input)
decoder_input = to_categorical(decoder_input)
decoder_target = to_categorical(decoder_target)
print('영어 데이터의 크기(shape) :',np.shape(encoder_input))
print('프랑스어 입력데이터의 크기(shape) :',np.shape(decoder_input))
print('프랑스어 출력데이터의 크기(shape) :',np.shape(decoder_target))

영어 데이터의 크기(shape) : (33000, 10, 4713)
프랑스어 입력데이터의 크기(shape) : (33000, 20, 9467)
프랑스어 출력데이터의 크기(shape) : (33000, 20, 9467)


In [22]:
n_of_val = 3000

encoder_input_train = encoder_input[:-n_of_val]
decoder_input_train = decoder_input[:-n_of_val]
decoder_target_train = decoder_target[:-n_of_val]

encoder_input_test = encoder_input[-n_of_val:]
decoder_input_test = decoder_input[-n_of_val:]
decoder_target_test = decoder_target[-n_of_val:]

print('영어 학습데이터의 크기(shape) :',np.shape(encoder_input))
print('프랑스어 학습 입력데이터의 크기(shape) :',np.shape(decoder_input))
print('프랑스어 학습 출력데이터의 크기(shape) :',np.shape(decoder_target))
print('enc_inp_tr', np.shape(encoder_input_train))
print('dec_inp_tr', np.shape(decoder_input_train))
print('dec_tgt_tr', np.shape(decoder_target_train))
print('enc_inp_ts', np.shape(encoder_input_test))
print('dec_inp_ts', np.shape(decoder_input_test))
print('dec_tgt_ts', np.shape(decoder_target_test))

영어 학습데이터의 크기(shape) : (33000, 10, 4713)
프랑스어 학습 입력데이터의 크기(shape) : (33000, 20, 9467)
프랑스어 학습 출력데이터의 크기(shape) : (33000, 20, 9467)
enc_inp_tr (30000, 10, 4713)
dec_inp_tr (30000, 20, 9467)
dec_tgt_tr (30000, 20, 9467)
enc_inp_ts (3000, 10, 4713)
dec_inp_ts (3000, 20, 9467)
dec_tgt_ts (3000, 20, 9467)


In [23]:
encoder_inputs = Input(shape=(None,))
enc_emb = Embedding(eng_vocab_size, 100, input_length=max_eng_seq_len)(encoder_inputs)
encoder_lstm = LSTM(16, return_state=True)
encoder_outputs, state_h, state_c = encoder_lstm(enc_emb)
encoder_states = [state_h, state_c]

In [24]:
# 입력 텐서 생성.
decoder_inputs = Input(shape=(None,))
dec_emb = Embedding(fra_vocab_size, 100, input_length=max_fra_seq_len)(decoder_inputs)
# hidden size가 256인 인코더의 LSTM 셀 생성
decoder_lstm = LSTM(16, return_sequences = True, return_state=True)
# decoder_outputs는 모든 time step의 hidden state
decoder_outputs, _, _= decoder_lstm(dec_emb, initial_state = encoder_states)

In [25]:
decoder_softmax_layer = Dense(fra_vocab_size, activation='softmax')
decoder_outputs = decoder_softmax_layer(decoder_outputs)

In [26]:
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer="rmsprop", loss="categorical_crossentropy")
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, None, 100)    471300      input_1[0][0]                    
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, None, 100)    946700      input_2[0][0]                    
______________________________________________________________________________________________

In [None]:
history = model.fit(x=[encoder_input_train, decoder_input_train], y=decoder_target_train, \
          validation_data = ([encoder_input_test, decoder_input_test], decoder_target_test),
          batch_size=128, epochs=50)

# 회고

1회차
- TypeError: Inputs to a layer should be tensors. Got: <keras.layers.embeddings.Embedding object at 0x7f05a2a51d30> 문제가 계속 생겼었다.
    - 타입 에러가 뭔지는 알지만, 고치는 방법을 찾지 못했었다.
    - https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html 여기를 가서 모델 빌딩을 따라해 보자는 마음가짐으로 한번 훑어보다가 고치는 방법을 알아내었다. Shape을 정해주고 난 후에 (encoder_inputs)을 옆에 붙여줌으로써 해결하였다.
- TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType' 라는 문제가 decoding model을 만드는 과정에서 에러가 생겼다.
    - 하도 에러가 계속 나서 천천히 훑어보고 모델링 셀을 다 지우고 다시 차분히 만들어 보니 잘 되었다.
- 모델을 결국 만들고 나서 학습을 시켜보려고 하니 커널이 죽어버렸다... 다음 회차때 해결해봐야 겠다.

2회차