# Pruebas Sprint 4
En este notebook se concentran todas las pruebas relativas al código generado durante el sprint 3, para ejecutarlas es necesario colocar el conjunto de datos preprocesado en la carpeta (ticnn_preprocessed.csv) en la carpeta datasets del proyecto y el archivo nlp_functions.py en el directorio raíz.

## Prueba 11: Grid Search con un subset de los hiperparámetros
Esta prueba puede parecer trivial en un principio, pero resulta de vital importancia para este Sprint. Realizar la optimización con todos las combinaciones de hiperparámetros es una tarea que consume muchos recursos temporales y computacionales. Por estas razones, resulta lógico realizar primero la optimización empleando solamente un subconjunto de estas combinaciones, para comprobar si funciona correctamente.

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer as tf_tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
# Importamos el plugin HParams de Tensorboard
from tensorboard.plugins.hparams import api as hp

import sys
sys.path.insert(0, '../')
import nlp_functions as nlp_f

[nltk_data] Downloading package stopwords to C:\Users\Juan
[nltk_data]     Carlos\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
Using TensorFlow backend.


### Funciones necesarias
Esta es una versión modificada de la función train_test_rnn, se diferencia de la original en que solamente tiene en cuenta el ratio de Dropout como hiperparámetro y en que solo se entrena durante una época.

In [2]:
def train_test_rnn(hparams, train_padded, test_padded, y_train, y_test):
    # ----Comenzamos definiendo el modelo
    model = tf.keras.Sequential()
    # Capa de Embedding
    model.add(tf.keras.layers.Embedding(input_dim = 20000, # Tamaño del vocabulario
                                       output_dim = 100, # Número de dimensiones de WE
                                       embeddings_initializer = 'uniform',
                                       mask_zero = True))
    # Capa bidireccional
    model.add(tf.keras.layers.Bidirectional(
        # Capa LSTM
        tf.keras.layers.LSTM(units = 128,   # Hiperparámetro a optimizar
                            activation = 'tanh',
                            recurrent_activation = 'sigmoid',
                            use_bias = True,
                            dropout = hparams['HP_DROPOUT'],   # Hiperparámetro a optimizar
                            recurrent_dropout = 0.05)))
    # Capa densa 1
    model.add(tf.keras.layers.Dense(units = 128, activation = 'relu'))
    
    # Capa Dropout 1
    model.add(tf.keras.layers.Dropout(rate = hparams['HP_DROPOUT']))  # Hiperparámetro a optimizar
    
    # Capa densa 2
    model.add(tf.keras.layers.Dense(units = 64, activation = 'relu'))
    
    # Capa Dropout 2
    model.add(tf.keras.layers.Dropout(rate = hparams['HP_DROPOUT']))  # Hiperparámetro a optimizar
    
    # Capa de salida
    model.add(tf.keras.layers.Dense(units = 1, activation = 'sigmoid'))
    
    # Definimos el optimizador
    rmsprop_optim = tf.keras.optimizers.RMSprop(learning_rate = 0.001)  # Hiperparámetro a optimizar
    
    # ----Compilamos el modelo
    model.compile(optimizer= rmsprop_optim, loss = 'binary_crossentropy',
                 metrics = ['accuracy', 'Precision', 'Recall', nlp_f.f1_score])
    
    # ----Entrenar el modelo (No es necesario llamar a tensorboard)
    model.fit(train_padded, np.array(y_train), epochs = 1,
             batch_size = 100)    # Hiperparámetro a optimizar
    
    # ----Evaluar el conjunto de pruebas
    # loss, acc, pre, rec, f1
    _, _, _, _, f1 = model.evaluate(test_padded, np.array(y_test))
    
    
    return f1

In [3]:
def run(run_dir, hparams, train_padded, test_padded, y_train, y_test):
    with tf.summary.create_file_writer(run_dir).as_default():
        hp.hparams(hparams)   # Almacenar los valores de los parámetros usados
        f1 = train_test_rnn(hparams, train_padded, test_padded, y_train, y_test)  # Entrenamos el modelo con los valores especificados
        
        tf.summary.scalar('f1-score', f1, step = 1)

In [4]:
def convert_to_string(input):
  res = ''
  for word in input:
    res = res + ' ' + word 

  return res

### Inicio de la prueba

In [5]:
def prueba11():
    print('Prueba 11: Grid Search con un subset de los hiperparámetros')
    
    try:
        print('\n--- Lectura del dataset preprocesado')
        df = pd.read_csv('../dataset/ticnn_preprocessed.csv')
    except:
        print('Se ha producido un error al leer el dataset')
        raise
        
    print('Dataset Leído correctamente')
    
    try:
        print('\n--- División de los datos en entrenamiento y pruebas')
        # Alteración del orden
        df = df.sample(frac = 1.)
        # Transformamos la columna text a lista de string
        from ast import literal_eval
        df['text'] = df['text'].apply(literal_eval)
        
        # Aplicamos la función convert_to_string a los textos
        df['text'] = df['text'].apply(convert_to_string)
        
        # Convertimos los textos y las targets variables a listas
        texts = list(df['text'])
        targets = list(df['type'])
        
        # División en conjunto de entrenamiento y test
        x_train, y_train, x_test, y_test = nlp_f.train_test_split(texts, targets)
        
    except:
        print('Error al separar en entrenamiento y pruebas')
        raise
        
    print('Datos separados correctamente')
    
    try:
        print('\n--- Creación del diccionario (Vocabulario)')
        tokenizer = tf_tokenizer(num_words = 20000, oov_token = '<null_token>', 
                                 lower = False, char_level = False)
        tokenizer.fit_on_texts(x_train)
    
    except:
        print('Error al crear el vocabulario')
        raise
        
    print('Vocabulario creado correctamente')
    
    try:
        print('\n--- Transformar los textos en secuencias y padding')
        x_train_sequence = tokenizer.texts_to_sequences(x_train)
        x_test_sequence = tokenizer.texts_to_sequences(x_test)
        
        train_padded = pad_sequences(x_train_sequence, maxlen = 600, 
                                     dtype = 'int32', truncating = 'post', 
                                     padding = 'post')
        test_padded = pad_sequences(x_test_sequence, maxlen = 600, 
                                    dtype = 'int32', truncating = 'post', 
                                    padding = 'post')

    except:
        print('Error al convertir los textos en secuencias')
        raise
        
    print('Secuenciación y padding realizados con éxito')
    
    try:
        print('\n--- Carga de TensorBoard y limpieza de logs previos')
        # Cargamos la extensión de TB para notebooks
        %load_ext tensorboard

        # Limpiar logs de ejecuciones anteriores 
        !rm -rf ./logs/ 
    except:
        print('Error al cargar TensorBoard')
        raise
    print('TensorBoard Cargado correctamente')
    
    try:
        print('\n--- Definición de los hiperparámetros a optimizar')
        HP_DROPOUT = hp.HParam('dropout', hp.RealInterval(0.2, 0.4))
        METRIC_F1 = 'f1-score' 

        with tf.summary.create_file_writer('logs/hparam_tuning').as_default():
            hp.hparams_config(
            hparams = [HP_DROPOUT],
            metrics = [hp.Metric(METRIC_F1, display_name = 'F1-Score')])
    except:
        print('Error al definir los hiperparámetros')
        raise
    print('Hiperparámetros definidos correctamente')
    
    try:
        print('\n--- Ejecución Grid Search')
        session_num = 0

        for dropout_rate in (HP_DROPOUT.domain.min_value, HP_DROPOUT.domain.max_value):
            hparams = {'HP_DROPOUT': dropout_rate}
                
            run_name = 'run-%d' % session_num
            print('--Iniciando ejecución : %s' % run_name)
            print({h: hparams[h] for h in hparams})
            run('logs/hparam_tuning/' + run_name, 
                hparams, train_padded, test_padded, y_train, y_test)
            session_num += 1
    except:
        print('Error al realizar Grid Search')
        raise
    
    print('\n-------------------------------------------------------------------')
    print('Grid Search realizado con éxito')

In [6]:
prueba11()

Prueba 11: Grid Search con un subset de los hiperparámetros

--- Lectura del dataset preprocesado
Dataset Leído correctamente

--- División de los datos en entrenamiento y pruebas
Datos separados correctamente

--- Creación del diccionario (Vocabulario)
Vocabulario creado correctamente

--- Transformar los textos en secuencias y padding
Secuenciación y padding realizados con éxito

--- Carga de TensorBoard y limpieza de logs previos
TensorBoard Cargado correctamente

--- Definición de los hiperparámetros a optimizar
Hiperparámetros definidos correctamente

--- Ejecución Grid Search
--Iniciando ejecución : run-0
{'HP_DROPOUT': 0.2}
Train on 13596 samples
--Iniciando ejecución : run-1
{'HP_DROPOUT': 0.4}
Train on 13596 samples

-------------------------------------------------------------------
Grid Search realizado con éxito
