# Tuneo de hiperparametros

## Definicion de funciones auxiliares generales

In [44]:
#FUENTE: - https://stackoverflow.com/questions/43533610/how-to-use-hyperopt-for-hyperparameter-optimization-of-keras-deep-learning-netwo
#        - https://github.com/keras-team/keras/issues/1591

import pickle
import pandas as pd
import numpy as np
import Utilidades as ut
import Modelos as md
from hyperopt import fmin, tpe, hp, STATUS_OK, Trials
from hyperopt import space_eval
import keras

In [45]:
# El Fold es de tamaño fijo, dividiendo por trimestre.

def get_quarter(month_series):
    quarter_series = ((month_series - 1)//3 + 1)
    return quarter_series

## ATENCION: Aca se esta asumiendo que se hace un split train-validation a partir del 2018.
## Se podria modificar esta funcion como para que chequee que un trimestre tenga al menos X cantidad de filas.
## Ademas esta funcion no tiene en cuenta la cantidad de datos con la que se entrena, prioriza dividir por trimestre.

def fold_split_quarter(df_train):
    folds = list()
    years = [2016, 2017]
    last_year = years[-1]
    
    actual_year = df_train.Opportunity_Created_Date.dt.year
    actual_quarter = get_quarter(df_train.Opportunity_Created_Date.dt.month)
    
    ##Esto de abajo se tiene que hacer si no se desea utilizar 'Opportunity_Created_Date'.
    
    #df_train = df_train.drop(columns = ['Opportunity_Created_Date'])
    
    ########################
    # Se puede hacer un segundo for para los trimestres.
    for split_year in years:
        
        to_Q1 = df_train[(actual_year <= split_year) & (actual_quarter <= 1)]
        to_Q2 = df_train[(actual_year <= split_year) & (actual_quarter <= 2)]
        to_Q3 = df_train[(actual_year <= split_year) & (actual_quarter <= 3)]
        to_Q4 = df_train[(actual_year <= split_year) & (actual_quarter <= 4)]
        
        Q1 = df_train[(actual_year == split_year) & (actual_quarter == 1)]
        Q2 = df_train[(actual_year == split_year) & (actual_quarter == 2)]
        Q3 = df_train[(actual_year == split_year) & (actual_quarter == 3)]
        Q4 = df_train[(actual_year == split_year) & (actual_quarter == 4)]
        Q5 = df_train[(actual_year == (split_year + 1)) & (actual_quarter == 1)]
        
        folds.append((to_Q1.copy(), Q2.copy()))
        folds.append((to_Q2.copy(), Q3.copy()))
        folds.append((to_Q3.copy(), Q4.copy()))
        if (split_year != last_year):
            folds.append((to_Q4.copy(), Q5.copy()))
            
    return folds

def prepare_folds(folds):
    
    new_folds = list()
    
    for (df_train, df_test) in folds:
        
        #Separamos labels del set de entrenamiento y test
        df_train_x, df_train_y = ut.split_labels(df_train)
        df_test_x, df_test_y = ut.split_labels(df_test)
        
        #Encoding, conversion de fechas y normalizacion numerica para set de test y train
        df_train_x, df_test_x = ut.conversion_fechas(df_train_x, df_test_x)
        df_train_x, df_test_x = ut.codificar_categoricas(df_train_x, df_train_y, df_test_x, modo='catboost')
        df_train_x, df_test_x = ut.normalizacion_numericas(df_train_x, df_test_x, modo='normalizacion')
        
        #Conversion de los dataframes a vectores.
        x_train = ut.df_a_vector(df_train_x)
        y_train = ut.df_a_vector(df_train_y)
        x_test = ut.df_a_vector(df_test_x)
        y_test = ut.df_a_vector(df_test_y)
        
        new_folds.append((x_train, y_train, x_test, y_test))
        
    return new_folds


def test_model(params, fit_model, folds, last_k_average=5):
    
    val_loss = list()
    
    print("-"*50)
    print("Comienzo de iteracion con nuevos parametros")
    
    for fold in folds:
        history = fit_model(fold, params)
        val_loss_mean = np.mean(history[-last_k_average:])
        if val_loss_mean >= 3*test_model.last_loss:
            print("Se omite serie de parametos por bajo rendimiento\n")
            return {'loss': val_loss_mean, 'status': STATUS_OK}
        print(f"Resultado parcial: val_loss = {val_loss_mean}")
        val_loss.append(val_loss_mean)
        
    val_loss_mean = np.mean(val_loss)
    test_model.last_loss = val_loss_mean
    print(f"\n\tResultado final: val_loss = {val_loss_mean}\n")
    return {'loss': val_loss_mean, 'status': STATUS_OK}

test_model.last_loss = 100


def load_trials(N, model_name):
    #Idea obtenida de: https://github.com/hyperopt/hyperopt/issues/267
    trials = None
    total_iters = N
    try:
        fd = open('Archivos/' + model_name + "_hyperparams.hopt", "rb")
        trials = pickle.load(fd)
        fd.close()
        print("Se encontró un entrenamiento previo. Cargando...")
        total_iters = len(trials.trials) + N
        print("Comienza el tuneo desde {} hasta {} trials".format(len(trials.trials), total_iters))
    except:  
        trials = Trials()
    
    return trials, total_iters

def save_trials(trials, model_name):
    # save the trials object
    print(f"Guardando el entrenamiento en Archivos/'{model_name}_hyperparams.hopt'")
    with open('Archivos/' + model_name + "_hyperparams.hopt", "wb") as f:
        pickle.dump(trials, f)

# Modelos
## Redes Neuronales

In [53]:
neural_network_params = {
            
            'first_layer' : {
                'neurons' : hp.uniform('first_layer_neurons', 64, 128),
                'activation' : hp.choice('first_layer_activation', ['relu', 'tanh', 'swish']),
                'dropout' : hp.uniform('dropout_0', 0.25, 0.5)
            },
                        
            'hidden_layers' : [
                {
                    'config' : hp.choice('is_on_1', [
                        {'is_on' : False }, 
                        {
                            'is_on' : True, 
                            'neurons' : hp.uniform('neurons_1', 64, 256),
                            'activation' : hp.choice('activation_1', ['relu', 'tanh', 'swish']),
                            'dropout' : hp.uniform('dropout_1', 0.25, 0.5)
                        }
                    ]),
                },
                {
                    'config' : hp.choice('is_on_2', [
                        {'is_on' : False }, 
                        {
                            'is_on' : True, 
                            'neurons' : hp.uniform('neurons_2', 64, 256),
                            'activation' : hp.choice('activation_2', ['relu', 'tanh', 'swish']),
                            'dropout' : hp.uniform('dropout_2', 0.25, 0.5)
                        }
                    ]),
                },
                {
                    'config' : hp.choice('is_on_3', [
                        {'is_on' : False }, 
                        {
                            'is_on' : True, 
                            'neurons' : hp.uniform('neurons_3', 64, 256),
                            'activation' : hp.choice('activation_3', ['relu', 'tanh', 'swish']),
                            'dropout' : hp.uniform('dropout_3', 0.25, 0.5)
                        }
                    ]),
                },
                {
                    'config' : hp.choice('is_on_4', [
                        {'is_on' : False }, 
                        {
                            'is_on' : True, 
                            'neurons' : hp.uniform('neurons_4', 8, 64),
                            'activation' : hp.choice('activation_4', ['relu', 'tanh', 'swish']),
                            'dropout' : hp.uniform('dropout_4', 0.25, 0.5)
                        }
                    ]),
                }
            ],
                         
            'last_layer' : {
                #my_relu es una funcion de activacion definida en Modulo.py que tiene como cota superior 1
                'activation' : hp.choice('last_layer_activation', ['my_relu', 'sigmoid'])
            },

            'optimizer': hp.choice('optimizer',['adadelta','adam','rmsprop']),
            'learning_rate' : hp.uniform('learning_rate', 1e-4, 1e-2),
            'alpha': hp.uniform('alpha', 1e-3, 10)
        }

#Prueba con una red con el top 5 features
#neural_network_params = {
#            
#            'first_layer' : {
#                'neurons' : hp.uniform('first_layer_neurons', 16, 128),
#                'activation' : hp.choice('first_layer_activation', ['relu', 'tanh', 'swish']),
#                'dropout' : hp.uniform('dropout_0', 0.25, 0.5)
#            },
#                        
#            'hidden_layers' : [
#                {
#                    'config' : hp.choice('is_on_1', [
#                        {'is_on' : False }, 
#                        {
#                            'is_on' : True, 
#                            'neurons' : hp.uniform('neurons_1', 8, 256),
#                            'activation' : hp.choice('activation_1', ['relu', 'tanh', 'swish']),
#                            'dropout' : hp.uniform('dropout_1', 0.25, 0.5)
#                        }
#                    ]),
#                },
#                {
#                    'config' : hp.choice('is_on_4', [
#                        {'is_on' : False }, 
#                        {
#                            'is_on' : True, 
#                            'neurons' : hp.uniform('neurons_4', 8, 256),
#                            'activation' : hp.choice('activation_4', ['relu', 'tanh', 'swish']),
#                            'dropout' : hp.uniform('dropout_4', 0.25, 0.5)
#                        }
#                    ]),
#                }
#            ],
#                         
#            'last_layer' : {
#                #my_relu es una funcion de activacion definida en Modulo.py que tiene como cota superior 1
#                'activation' : hp.choice('last_layer_activation', ['my_relu', 'sigmoid'])
#            },
#
#            'optimizer': hp.choice('optimizer',['adadelta','adam','rmsprop']),
#            'learning_rate' : hp.uniform('learning_rate', 1e-4, 1e-2),
#            'alpha': hp.uniform('alpha', 1e-3, 10)
#        }


neural_callbacks = [
    
    keras.callbacks.EarlyStopping(monitor = 'val_loss',
                                  min_delta=0.0001,
                                  mode='min',
                                  patience=10),
    keras.callbacks.ReduceLROnPlateau(monitor='val_loss',
                                      mode='min',
                                      factor=0.5,
                                      min_delta=0.0001,
                                      patience=2,
                                      cooldown=0, 
                                      min_lr=1e-24)
]

def neural_network_fit(fold, params):
    (x_train, y_train, x_test, y_test) = fold
    input_dim = len(x_train[0])
    model = md.get_neural_network_model(params, input_dim)
    
    history = model.fit(x_train, 
                        y_train, 
                        validation_data=(x_test, y_test),
                        callbacks=neural_callbacks,
                        verbose=1,
                        epochs=100,
                        batch_size=256)
    
    return history.history['val_loss']

## XGBoost


In [47]:
#Estos parametros estan sacados de un tuto de internet

xgboost_params = {
    'max_depth' : hp.choice('max_depth', range(5, 30, 1)),
    'learning_rate' : hp.quniform('learning_rate', 0.01, 0.5, 0.01),
    'n_estimators' : hp.choice('n_estimators', range(20, 205, 5)),
    'gamma' : hp.quniform('gamma', 0, 0.50, 0.01),
    'min_child_weight' : hp.quniform('min_child_weight', 1, 10, 1),
    'subsample' : hp.quniform('subsample', 0.1, 1, 0.01),
    'colsample_bytree' : hp.quniform('colsample_bytree', 0.1, 1.0, 0.01)
}

#Estos parametros estan sacados del repo de github

#xgboost_params = {
#        "iterations" : (5, 6),
#        'learning_rate': Real(low=0.01, high=1, prior='log-uniform'),
#        "random_seed" : (1,40000),
#        "l2_leaf_reg" : Real(low=1e-9, high=1000, prior='log-uniform'),
#        'subsample': Real(low=0.01, high=1, prior='uniform'),
#        "random_strength" : Real(low=1e-9, high=1000, prior='log-uniform'),
#        'depth': (1, 5),
#        "early_stopping_rounds" : (1, 20),
#        "border_count" : (1,65535)
#}


def xgboost_fit(fold, params):
    
    (x_train, y_train, x_test, y_test) = fold
    #No se bien como usar las matrices estas...
    #train_matrix = xgb.DMatrix(x_train,y_train)
    #test_matrix = xgb.DMatrix(x_test,y_test)
    model = md.get_xgboost_model(params)
    
    model.fit(x_train, y_train,
              eval_set=[(x_train, y_train), (x_test, y_test)],
              eval_metric='logloss',
              verbose=False)
    
    evals_result = model.evals_result()
    
    
    return evals_result['validation_1']['logloss']


# Codigo principal
### Desde este punto comienza el tuneo de hiperparametros del modelo elegido

In [48]:
#Cargamos el dataframe de training

model_name = 'Neuronales'

df_train = pd.read_pickle('Archivos/' + model_name + "_entrenamiento.pkl")

#Armamos los folds
folds = fold_split_quarter(df_train)
#Aca estamos codificando, transformando fechas y normalizando, quizas no es necesario para XGBoost
folds = prepare_folds(folds)
df_train.shape

  elif pd.api.types.is_categorical(cols):
  elif pd.api.types.is_categorical(cols):
  elif pd.api.types.is_categorical(cols):
  elif pd.api.types.is_categorical(cols):
  elif pd.api.types.is_categorical(cols):
  elif pd.api.types.is_categorical(cols):
  elif pd.api.types.is_categorical(cols):


(12140, 21)

In [None]:
model_name = 'Neuronales' #Triquiñuela para que me permita optimizar XGBoost con el dataframe de redes neuronales.

#Configuracion de funciones para cada modelo

models = {
    'Neuronales' : {
        'model_fit_function' : neural_network_fit,
        'model_hparams' : neural_network_params
    },
    'XGBoost' : {
        'model_fit_function' : xgboost_fit,
        'model_hparams' : xgboost_params
    }
}


#Parametros generales

#epochs = 20               #Numero de iteraciones de entrenamiento para cada modelo
last_k_avg = 3             #Ultimos k valores de val_loss de cada entrenamiento a promediar
N = 5                      #Numero de iteraciones del algoritmo de tuneo.
best = None                #Donde se almacena informacion del mejor resultado del tuneo
save_best_hparams = True   #Sobrescribe el archivo de 'best_hyperparams_<model_name>.json' con el mejor de Trial
error_found = False

trials, total_iters = load_trials(N, model_name)

try:

    callback = lambda params: test_model(params, 
                                         models[model_name]['model_fit_function'], 
                                         folds, 
                                         last_k_average=last_k_avg)
    best = fmin(callback, 
                models[model_name]['model_hparams'], 
                algo=tpe.suggest, 
                max_evals=total_iters, 
                trials=trials)
except:
    print(f"ERROR: Modelo {model_name} no reconocido")
    #No se como finalizar la ejecucion de la celda
    error_found = True

#Guardamos la informacion del tuneo para poder continuar en otro momento
if (not error_found):
    save_trials(trials, model_name)

best_params = space_eval(models[model_name]['model_hparams'], best)

#Guardamos, si corresponde, los mejores hiperparametros obtenidos hasta el momento
if (save_best_hparams and not error_found):
    ut.hyperparams_to_json(best_params, 'Archivos/' + model_name)

print("#"*50)
print("\nEl mejor modelo hasta el momento contiene los siguientes parametros:\n")
best_params

Se encontró un entrenamiento previo. Cargando...
Comienza el tuneo desde 1 hasta 2 trials
--------------------------------------------------   
Comienzo de iteracion con nuevos parametros          
Epoch 1/100                                          
1/5 [=====>........................]                 
 - ETA: 0s - loss: 3916.6072                         
                                                    
 - ETA: 0s - loss: 3448.6223                         
                                                    
 - ETA: 0s - loss: 2790.1094                         
                                                    
 - 0s 86ms/step - loss: 2629.0115 - val_loss: 1262.0050 - lr: 0.0072

Epoch 2/100                                          
1/5 [=====>........................]                 
 - ETA: 0s - loss: 1261.9507                         
                                                    
 - ETA: 0s - loss: 891.2421                          
                                  

## Comentarios utiles
- En caso de haber perdido los parametros del mejor modelo, se los puede recuperar a partir de la variable 'best'.
- Si se perdio el resultado de la variable 'best' sera necesario entonces ejecutar la funcion fmin de hyperopt, se lo puede hacer con N=1 para que termine rapido.
- Por default hyperopt devuelve un diccionario con los mejores hiperparametros encontrados, donde la key es el label del hiperparametro y el value es, para los hiperparametros con 'hp.choice', el indice a la posicion en el vector de hp.choice definido. Para que devuelva directamente el valor del hiperparametro sera necesario utilizar la funcion 'space_eval', que se encuentra en un ejemplo en la siguiente celda.

In [50]:
#Ejemplo de como se obtienen los mejores parametros y de como se obtiene un objecto model a partir de ellos.
#best_parameters = space_eval(neural_network_params, best)
#best_parameters

In [52]:
#Ejemplo de como obtener el modelo ya creado con los mejores hiperparametros
#Dejo comentado esto para que no rompa en caso de utilizar un modelo distinto al de redes neuronales.

#best_model = get_neural_network_model(best_parameters, (df_train.shape[1] - 1))

#A partir de aca ya se puede usar el modelo, pero tener cuidado que el mismo no se encuentra entrenado.