# Grid Search (Optimización de Hiperparámetros) (versión reducida)
A la hora de crear modelos en el mundo del Machine Learning, es necesario seleccionar varios hiperparámetros, como el ratio de Dropout y el learning rate. La elección de los valores de estos hiperparámetros tienen repercusiones directas en las métricas que evaluan el rendimiento del modelo, como f1-score. Por lo tanto, un paso imprescindible en el proceso de entrenamiento de un modelo consiste en identificar los mejores hiperparámetros para el problema, que deben obtenerse mediante experimentación. Este proceso se conoce como Optimización de Hiperparámetros o, en inglés, "Hyperparameter Tuning". <br><br>

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer as tf_tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences


import sys
sys.path.insert(0, '../../')
import nlp_functions as nlp_f

[nltk_data] Downloading package stopwords to C:\Users\Juan
[nltk_data]     Carlos\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
Using TensorFlow backend.


## Carga y preparación de los datos

In [2]:
# Cargamos el dataset en memoria
df = pd.read_csv('../../dataset/ticnn_preprocessed.csv')

In [3]:
df.head()

Unnamed: 0,text,type
0,"['donald', 'trump', 'property', 'showcase', 'b...",0.0
1,"['trump', 'foundation', 'tell', 'new', 'york',...",0.0
2,"['donald', 'trump', 'prepares', 'white', 'hous...",0.0
3,"['lure', 'chinese', 'investor', 'trump', 'name...",0.0
4,"['melania', 'barron', 'trump', 'wont', 'immedi...",0.0


In [4]:
# Alteración del orden
df = df.sample(frac = 1.)

# Transformamos la columna text a lista de string
from ast import literal_eval
df['text'] = df['text'].apply(literal_eval)

In [5]:
df.head()

Unnamed: 0,text,type
9749,"[egon, von, greyerz, broadcast, interview, ava...",1.0
14612,"[w, well, educate, graduate, two, ivy, league,...",1.0
4869,"[star, general, snag, lie, stuxnet, leak, prob...",0.0
5226,"[election, medias, movie, reality, fail, jon, ...",1.0
16526,"[obama, seek, calm, fear, terrorism, ahead, ho...",0.0


In [6]:
def convert_to_string(input):
  res = ''
  for word in input:
    res = res + ' ' + word 

  return res

In [7]:
# Aplicamos la función convert_to_string a los textos
df['text'] = df['text'].apply(convert_to_string)

In [8]:
df.head(3)

Unnamed: 0,text,type
9749,egon von greyerz broadcast interview availabl...,1.0
14612,w well educate graduate two ivy league school...,1.0
4869,star general snag lie stuxnet leak probe poli...,0.0


In [9]:
# Convertimos los textos y las targets variables a listas
texts = list(df['text'])
targets = list(df['type'])

# División en conjunto de entrenamiento y test
x_train, y_train, x_test, y_test = nlp_f.train_test_split(texts, targets)

In [10]:
# Creamos el diccionario (vocabulario)
tokenizer = tf_tokenizer(num_words = 20000, oov_token = '<null_token>', lower = False, char_level = False)
tokenizer.fit_on_texts(x_train)
word_dict = tokenizer.word_index

In [11]:
# Convertimos los textos en secuencias
x_train_sequence = tokenizer.texts_to_sequences(x_train)
x_test_sequence = tokenizer.texts_to_sequences(x_test)

In [12]:
# Paddeamos las secuencias
train_padded = pad_sequences(x_train_sequence, maxlen = 600, dtype = 'int32', truncating = 'post', padding = 'post')
test_padded = pad_sequences(x_test_sequence, maxlen = 600, dtype = 'int32', truncating = 'post', padding = 'post')

## Configuración de TensorBoard

In [13]:
# Cargamos la extensión de TB para notebooks
%load_ext tensorboard

# Limpiar logs de ejecuciones anteriores 
# (necesario ejecutar conda install posix en Anaconda prompt para poder ejecutarlo en Windows 10)
!rm -rf ./logs/ 

## Configuración de los hiperparámetros 
Listamos los hiperparámetros a optimizar y sus valores

In [14]:
# Importamos el plugin HParams de Tensorboard
from tensorboard.plugins.hparams import api as hp

# Listamos los parámetros a optimizar y sus distintos valores
HP_DROPOUT = hp.HParam('dropout', hp.RealInterval(0.2, 0.4))
# HP_LR = hp.HParam('learning_rate', hp.Discrete([0.001, 0.01, 0.05]))
# HP_BATCH = hp.HParam('batch_size', hp.Discrete([50, 100, 200]))
# HP_LSTM = hp.HParam('lstm_units', hp.Discrete([128, 256]))

METRIC_F1 = 'f1-score'    #############################

In [15]:
with tf.summary.create_file_writer('logs/hparam_tuning').as_default():
    hp.hparams_config(
    hparams = [HP_DROPOUT
#                , HP_LR, HP_BATCH, HP_LSTM
              ],
    metrics = [hp.Metric(METRIC_F1, display_name = 'F1-Score')]
    )

## Creación del modelo
Definimos una función que entrene a la red neuronal recurrente definida durante el sprint 3 con unos parámetros determinados, el modelo devolverá el valor de f1-score en el conjunto de test una vez finalizado el entrenamiento.

In [16]:
def train_test_rnn(hparams):
    # ----Comenzamos definiendo el modelo
    model = tf.keras.Sequential()
    # Capa de Embedding
    model.add(tf.keras.layers.Embedding(input_dim = 20000, # Tamaño del vocabulario
                                       output_dim = 100, # Número de dimensiones de WE
                                       embeddings_initializer = 'uniform',
                                       mask_zero = True))
    # Capa bidireccional
    model.add(tf.keras.layers.Bidirectional(
        # Capa LSTM
        tf.keras.layers.LSTM(units = 128,   # Hiperparámetro a optimizar
                            activation = 'tanh',
                            recurrent_activation = 'sigmoid',
                            use_bias = True,
                            dropout = hparams[HP_DROPOUT],   # Hiperparámetro a optimizar
                            recurrent_dropout = 0.05)))
    # Capa densa 1
    model.add(tf.keras.layers.Dense(units = 128, activation = 'relu'))
    
    # Capa Dropout 1
    model.add(tf.keras.layers.Dropout(rate = hparams[HP_DROPOUT]))  # Hiperparámetro a optimizar
    
    # Capa densa 2
    model.add(tf.keras.layers.Dense(units = 64, activation = 'relu'))
    
    # Capa Dropout 2
    model.add(tf.keras.layers.Dropout(rate = hparams[HP_DROPOUT]))  # Hiperparámetro a optimizar
    
    # Capa de salida
    model.add(tf.keras.layers.Dense(units = 1, activation = 'sigmoid'))
    
    # Definimos el optimizador
    rmsprop_optim = tf.keras.optimizers.RMSprop(learning_rate = 0.001)  # Hiperparámetro a optimizar
    
    # ----Compilamos el modelo
    model.compile(optimizer= rmsprop_optim, loss = 'binary_crossentropy',
                 metrics = ['accuracy', 'Precision', 'Recall', nlp_f.f1_score])
    
    # ----Entrenar el modelo (No es necesario llamar a tensorboard)
    model.fit(train_padded, np.array(y_train), epochs = 1,
             batch_size = 100)    # Hiperparámetro a optimizar
    
    # ----Evaluar el conjunto de pruebas
    # loss, acc, pre, rec, f1
    _, _, _, _, f1 = model.evaluate(test_padded, np.array(y_test))
    
    
    return f1

Definimos las ejecuciones, para cada ejecución guardamos los hiperparámetros utilizados y el resultado obtenido en el log

In [17]:
def run(run_dir, hparams):
    with tf.summary.create_file_writer(run_dir).as_default():
        hp.hparams(hparams)   # Almacenar los valores de los parámetros usados
        f1 = train_test_rnn(hparams)  # Entrenamos el modelo con los valores especificados
        
        tf.summary.scalar(METRIC_F1, f1, step = 1)

# Ejecuciones
Realizamos el entrenamiento con todos los valores de los hiperparámetros y guardamos los logs

In [18]:
%%time
session_num = 0

#     for learning_rate in HP_LR.domain.values:
#         for batch_size in HP_BATCH.domain.values:
#             for lstm_u in HP_LSTM.domain.values:

for dropout_rate in (HP_DROPOUT.domain.min_value, HP_DROPOUT.domain.max_value):
    hparams = {HP_DROPOUT: dropout_rate}
                
    run_name = 'run-%d' % session_num
    print('--Iniciando ejecución : %s' % run_name)
    print({h.name: hparams[h] for h in hparams})
    run('logs/hparam_tuning/' + run_name, hparams)
    session_num += 1

--Iniciando ejecución : run-0
{'dropout': 0.2}
Train on 13596 samples
--Iniciando ejecución : run-1
{'dropout': 0.4}
Train on 13596 samples
Wall time: 21min 9s


## Visualización de los resultados en TensorBoard

In [None]:
%tensorboard --logdir logs/hparam_tuning

Launching TensorBoard...