In [1]:
import numpy as np 
import pandas as pd
import tensorflow as tf
from tensorflow.keras import layers , activations , models , preprocessing, utils
import re
import os
import yaml

### Criar uma lista com todos os arquivos

In [2]:
dir_path = '../../../dados/portuguese/'
files_list = os.listdir(dir_path + os.sep)

In [3]:
questions = []
answers = []

for filepath in files_list:
    file = open(dir_path + os.sep + filepath , 'rb')
    docs = yaml.safe_load(file)
    conversations = docs['conversations']
    for con in conversations:
        if len(con) > 1 :
            questions.append(con[0])
            answers.append(con[1])

In [4]:
answers_tags = []
for i in range(len(answers)) :
    answers_tags.append('<START> ' + answers[i] + ' <END>')


In [5]:
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(questions + answers_tags)
VOCAB_SIZE = len(tokenizer.word_index)+1

In [6]:
answers_tags

['<START> eu sei <END>',
 '<START> também <END>',
 '<START> que bom <END>',
 '<START> obrigado <END>',
 '<START> você é que é <END>',
 '<START> que bom <END>',
 '<START> sim, eu sei <END>',
 '<START> nem tanto <END>',
 '<START> é bom para saúde ser animada <END>',
 '<START> ninguém é insubstituível <END>',
 '<START> você é que trouxe luz a minha vida <END>',
 '<START> eu te amo por completo <END>',
 '<START> que bom, obrigada <END>',
 '<START> obrigada <END>',
 '<START> que bom, obrigado <END>',
 '<START> obrigado <END>',
 '<START> você acha? <END>',
 '<START> que bom <END>',
 '<START> que bom <END>',
 '<START> obrigada <END>',
 '<START> você é que está <END>',
 '<START> obrigado <END>',
 '<START> obrigada <END>',
 '<START> estudo para isso <END>',
 '<START> é sim <END>',
 '<START> você também <END>',
 '<START> você também é maravilhosa <END>',
 '<START> obrigada <END>',
 '<START> você também fala bem <END>',
 '<START> tenho sim <END>',
 '<START> obrigado <END>',
 '<START> obrigada <EN

In [7]:
VOCAB_SIZE

1220

In [8]:
tokenized_questions = tokenizer.texts_to_sequences(questions)
maxlen_questions = max([len(x) for x in tokenized_questions])
encoder_input_data = preprocessing.sequence.pad_sequences(tokenized_questions , maxlen=maxlen_questions , padding='post')

In [9]:
print(encoder_input_data.shape)

(280, 28)


In [10]:
tokenized_answers = tokenizer.texts_to_sequences(answers_tags)

In [11]:
maxlen_answers = max([len(x) for x in tokenized_answers])
decoder_input_data = preprocessing.sequence.pad_sequences(tokenized_answers , maxlen=maxlen_answers , padding='post')

In [12]:
print(decoder_input_data.shape)

(280, 47)


In [13]:
for i in range(len(tokenized_answers)) :
    tokenized_answers[i] = tokenized_answers[i][1:]
padded_answers = preprocessing.sequence.pad_sequences(tokenized_answers , maxlen=maxlen_answers , padding='post')
decoder_output_data = utils.to_categorical(padded_answers , VOCAB_SIZE)

In [14]:
tokenized_answers[10]

[7, 4, 6, 282, 133, 9, 45, 68, 2]

In [15]:
print(decoder_output_data.shape)

(280, 47, 1220)


In [16]:
encoder_inputs = tf.keras.layers.Input(shape=(maxlen_questions ,))
encoder_embedding = tf.keras.layers.Embedding(VOCAB_SIZE, 200 , mask_zero=True) (encoder_inputs)
encoder_outputs , state_h , state_c = tf.keras.layers.LSTM(200 , return_state=True)(encoder_embedding)
encoder_states = [ state_h , state_c ]

In [17]:
decoder_inputs = tf.keras.layers.Input(shape=(maxlen_answers , ))
decoder_embedding = tf.keras.layers.Embedding(VOCAB_SIZE, 200 , mask_zero=True) (decoder_inputs)
decoder_lstm = tf.keras.layers.LSTM(200 , return_state=True , return_sequences=True)
decoder_outputs , _ , _ = decoder_lstm (decoder_embedding , initial_state=encoder_states)
decoder_dense = tf.keras.layers.Dense(VOCAB_SIZE , activation=tf.keras.activations.softmax) 
output = decoder_dense (decoder_outputs)

In [18]:
model = tf.keras.models.Model([encoder_inputs, decoder_inputs], output)
model.compile(optimizer=tf.keras.optimizers.RMSprop(), loss='categorical_crossentropy')

In [19]:
model.summary()

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_1 (InputLayer)        [(None, 28)]                 0         []                            
                                                                                                  
 input_2 (InputLayer)        [(None, 47)]                 0         []                            
                                                                                                  
 embedding (Embedding)       (None, 28, 200)              244000    ['input_1[0][0]']             
                                                                                                  
 embedding_1 (Embedding)     (None, 47, 200)              244000    ['input_2[0][0]']             
                                                                                              

In [20]:
model.fit([encoder_input_data , decoder_input_data], decoder_output_data, batch_size=32, epochs=200) 

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200
Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 

<keras.src.callbacks.History at 0x1acb0739450>

In [21]:
encoder_model = tf.keras.models.Model(encoder_inputs, encoder_states)
    
decoder_state_input_h = tf.keras.layers.Input(shape=(200 ,))
decoder_state_input_c = tf.keras.layers.Input(shape=(200 ,))

decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

decoder_outputs, state_h, state_c = decoder_lstm(
    decoder_embedding , initial_state=decoder_states_inputs)
decoder_states = [state_h, state_c]
decoder_outputs = decoder_dense(decoder_outputs)
decoder_model = tf.keras.models.Model(
    [decoder_inputs] + decoder_states_inputs,
    [decoder_outputs] + decoder_states)

In [22]:
def preprocess(input_sentence):
    tokens = input_sentence.lower().split()
    tokens_list = []
    for word in tokens:
        tokens_list.append(tokenizer.word_index[word]) 
    return preprocessing.sequence.pad_sequences([tokens_list] , maxlen=maxlen_questions , padding='post')

In [23]:
tokenizer.word_index['computador']

753

In [24]:
tests = ['oi', 'Você é um computador', 'o que é linguística', 'o que é um opinião', 'até mais']

In [25]:
for i, frase in enumerate(tests):
    frase_processada = preprocess(tests[i])
    states_values = encoder_model.predict(frase_processada)
    empty_target_seq = np.zeros((1 , 1))
    empty_target_seq[0, 0] = tokenizer.word_index['start']
    stop_condition = False
    decoded_translation = ''
    
    while not stop_condition :
        dec_outputs , h , c = decoder_model.predict([empty_target_seq] + states_values)
        sampled_word_index = np.argmax(dec_outputs[0, -1, :])
        sampled_word = None
        
        for word , index in tokenizer.word_index.items() :
            if sampled_word_index == index :
                decoded_translation += f' {word}'
                sampled_word = word
        
        if sampled_word == 'end' or len(decoded_translation.split()) > maxlen_answers:
            stop_condition = True
            
        empty_target_seq = np.zeros((1 , 1))  
        empty_target_seq[0 , 0] = sampled_word_index
        states_values = [h , c] 
    print(f'Human: {tests[i]}')
    print()
    
    decoded_translation = decoded_translation.split(' end')[0]
    print(f'Bot: {decoded_translation}')
    print('-'*25)

Human: oi

Bot:  olá
-------------------------
Human: Você é um computador

Bot:  você também
-------------------------
Human: o que é linguística

Bot:  a ciência que trata da produção distribuição e consumo da universidade e o linguista de linguística da linguística da aviação registrado publicado e sem artifícios externos
-------------------------
Human: o que é um opinião

Bot:  bem é o estudo de moeda nos estados unidos
-------------------------
Human: até mais

Bot:  até
-------------------------
