In [1]:
PATH = "./Modelos/s2q_90K_250/"

<h1>Importar librerías necesarias</h1>

In [2]:
import os
'''
# 0 - 2 no elimina el verbose
# 3 no imprime nada, ni siquiera los print()
#os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
'''

"\n# 0 - 2 no elimina el verbose\n# 3 no imprime nada, ni siquiera los print()\n#os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'\n"

In [3]:
import json
import pandas as pd

import numpy as np
import tensorflow as tf

In [4]:
#from tensorflow import keras
from tensorflow.keras.layers import Input, LSTM, Dense
from tensorflow.keras.models import Model, load_model
from tensorflow.keras.utils import plot_model

<h1>Cargar Modelo</h1>

In [5]:
# model.save(path + "s2s")
model = load_model(PATH + "spanish_to_quechua")

<h1>Modelo de inferencia</h1>

<h3 style="color:crimson">Configuración</h3>

In [6]:
batch_size = 64 # tamño de los lotes para entrenamiento
latent_dim = 256 # dimensión del espacio latente para el encoder

In [7]:
if PATH.endswith("_10K/"):
    # Versión previa con sólo 10K oraciones
    num_encoder_tokens = 69
    num_decoder_tokens = 84
    max_encoder_seq_length = 16
    max_decoder_seq_length = 47
else:
    # Versión actual con 90K oraciones
    num_encoder_tokens = 110
    num_decoder_tokens = 104
    max_encoder_seq_length = 40
    max_decoder_seq_length = 42

<h3 style="color:crimson">Carga diccionarios</h3>

In [8]:
with open(PATH + "input_token_index.txt", "r") as f:
    input_token_index = json.load(f)
    
with open(PATH + "target_token_index.txt", "r") as f:
    target_token_index = json.load(f)

<h1>Construir modelo</h1>

In [9]:
encoder_inputs = model.input[0]  # input_1
encoder_outputs, state_h_enc, state_c_enc = model.layers[2].output  # lstm_1
encoder_states = [state_h_enc, state_c_enc]
encoder_model = Model(encoder_inputs, encoder_states)

decoder_inputs = model.input[1]  # input_2
decoder_state_input_h = Input(shape=(latent_dim,), name="input_3")
decoder_state_input_c = Input(shape=(latent_dim,), name="input_4")
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

decoder_lstm = model.layers[3]
decoder_outputs, state_h_dec, state_c_dec = decoder_lstm(
    decoder_inputs, initial_state=decoder_states_inputs
)
decoder_states = [state_h_dec, state_c_dec]

decoder_dense = model.layers[4]
decoder_outputs = decoder_dense(decoder_outputs)
decoder_model = Model(
    [decoder_inputs] + decoder_states_inputs, [decoder_outputs] + decoder_states
)

# Reverse-lookup taken index to decode sequences back to
# something readable.
reverse_input_char_index = dict((i, char) for char, i in input_token_index.items())
reverse_target_char_index = dict((i, char) for char, i in target_token_index.items())

<h3 style="color:crimson">Longitud Máxima del input_text</h3>

In [10]:
def eliminar_muy_largos(arr_frases):
    pass


print("Max length for the sentences: {}".format(max_encoder_seq_length))
#for oracion in input_texts:
#    if len(oracion) > max_encoder_seq_length:
#        print("{} - Len: {}".format(oracion, len(oracion) ))

Max length for the sentences: 40


<h3 style="color:crimson">Codificar secuencia</h3>

In [11]:
def codificar_secuencia(input_text):
    
    encoder_input_data = np.zeros( (1, max_encoder_seq_length, num_encoder_tokens), dtype="float32")
    
    for t, char in enumerate(input_text):
        encoder_input_data[0, t, input_token_index[char]] = 1.0
    encoder_input_data[0, t + 1 :, input_token_index[" "]] = 1.0
        
    return encoder_input_data

<h3 style="color:crimson">Decodificar secuencia</h3>

In [12]:
def decode_sequence(input_seq):
    # Encode the input as state vectors.
    states_value = encoder_model.predict(input_seq)

    # Generate empty target sequence of length 1.
    target_seq = np.zeros((1, 1, num_decoder_tokens))
    # Populate the first character of target sequence with the start character.
    target_seq[0, 0, target_token_index["\t"]] = 1.0

    # Sampling loop for a batch of sequences
    # (to simplify, here we assume a batch of size 1).
    stop_condition = False
    decoded_sentence = ""
    while not stop_condition:
        output_tokens, h, c = decoder_model.predict([target_seq] + states_value)

        # Sample a token
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_char = reverse_target_char_index[sampled_token_index]
        decoded_sentence += sampled_char

        # Exit condition: either hit max length
        # or find stop character.
        if sampled_char == "\n" or len(decoded_sentence) > max_decoder_seq_length:
            stop_condition = True

        # Update the target sequence (of length 1).
        target_seq = np.zeros((1, 1, num_decoder_tokens))
        target_seq[0, 0, sampled_token_index] = 1.0

        # Update states
        states_value = [h, c]
    return decoded_sentence

<h1>Probar el modelo</h1>

In [13]:
def traductor_s2q(arr_frases):
    for frase in arr_frases:
        input_seq = codificar_secuencia(frase)
        decoded_sentence = decode_sequence(input_seq)
                
        print("Oración de entrada: ", frase)
        print("Oración decodificada: ", decoded_sentence)
        print("-" * 100)

<h3 style="color:crimson">Frases y palabras usadas en el entrenamiento</h3>

In [14]:
input_texts = ["Hola.","¡Corre!", "¿Quién?", "¡Ayuda!", "¡Salta!",
               "Yo lo sé.", "Me preocupo.", "He vuelto."]

traductor_s2q(input_texts)

Oración de entrada:  Hola.
Oración decodificada:  Allinllachu.

----------------------------------------------------------------------------------------------------
Oración de entrada:  ¡Corre!
Oración decodificada:  ¡Runa!

----------------------------------------------------------------------------------------------------
Oración de entrada:  ¿Quién?
Oración decodificada:  Pi?

----------------------------------------------------------------------------------------------------
Oración de entrada:  ¡Ayuda!
Oración decodificada:  Yanapay!

----------------------------------------------------------------------------------------------------
Oración de entrada:  ¡Salta!
Oración decodificada:  paway!

----------------------------------------------------------------------------------------------------
Oración de entrada:  Yo lo sé.
Oración decodificada:  Chaytaqa yachani.

----------------------------------------------------------------------------------------------------
Oración de entrada

<h3 style="color:crimson">Oraciones completamente nuevas</h3>

In [15]:
input_texts = ["Ahora oraciones nuevas", "Mi nombre es Alexander", 
               "Hoy es nuestra presentación", "Hemos aprendido bastante", 
               "Probando el ´codigo", "Este es una prueba mejorada"
               ]

traductor_s2q(input_texts)

Oración de entrada:  Ahora oraciones nuevas
Oración decodificada:  Kunanqa estudiaykipaqmi tusuy kay.

----------------------------------------------------------------------------------------------------
Oración de entrada:  Mi nombre es Alexander
Oración decodificada:  Allquymi kan.

----------------------------------------------------------------------------------------------------
Oración de entrada:  Hoy es nuestra presentación
Oración decodificada:  Kunan punchawqa achkatam llamk'achin.

----------------------------------------------------------------------------------------------------
Oración de entrada:  Hemos aprendido bastante
Oración decodificada:  Allintam sayarirqayku.

----------------------------------------------------------------------------------------------------


KeyError: '´'