# Selección Automática de Parámetros

### (en un modelo de Machine Learning)

In [4]:
# Importamos Libs

# (En este caso usaremos Redes Neuronales pero este programa es adaptable a multitud de modelos estimadores)

from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
import pandas as pd

In [6]:
# Leemos dataset

data = pd.read_csv("../eggomPY_Datasets/AirlineDelays/DelayedFlights.csv")

In [7]:
# Defino las cols

col_pred = ["AirTime", "Distance", "TaxiIn", "TaxiOut", "DepDelay"]
col_target = "ArrDelay"

# Limpiamos el dataset de NaN

df = data.dropna(subset=col_pred)
df = df.dropna(subset=["ArrDelay"])

# Sampleamos el dataset y lo capamos a un total de 1000 filas.

df = df.sample(frac=1,replace=True, random_state=12).head(1000)

# Defino un conjunto X con los datos de predicción y un conjunto con los datos objetivo

X = df[col_pred]
y = df[col_target]

In [8]:
# Creo conjuntos de train y testing

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=12)

In [9]:
# Creo un transformador escalador

escalador = StandardScaler()

###  IMPORTANTE!!!  ##############################################################
###                                                                             ##
###  Fiteo el escalador con el conjunto de variables predictoras de TRAINING!!! ##

escalador.fit(X_train)

# Aplico el transformador escalador al conjunto de testing y training

X_train = escalador.transform(X_train)
X_test = escalador.transform(X_test)

### La función GridSearchCV

Esta función ayuda para la búsqueda automática de hiperparámetros óptimos de los modelos de estimación

In [10]:
# La importamos

from sklearn.model_selection import GridSearchCV

In [11]:
# Comenzamos a trabajar sobre ella.

# Creamos un diccionario de parámetros que serán los parámetros los cuales queremos encontrar el óptimo.

params = {"alpha" : [0.000001, 0.0001, 0.01, 0.1],
          "hidden_layer_sizes" : [2, 5, 10, 50, 100],
          "solver" : ["lbfgs", "adam"],
          "learning_rate" : ["constant", "adaptive"]
        }

In [12]:
# Creo el objeto de red neuronal

nn = MLPRegressor(warm_start=True, max_iter=80000)

In [13]:
# Ahora sí, llamo al GridSearchCV

clf = GridSearchCV(nn, params, cv=5, n_jobs=-2)

# Y lo fiteo (con todo el dataset)

clf.fit(X,y)

GridSearchCV(cv=5, error_score=nan,
             estimator=MLPRegressor(activation='relu', alpha=0.0001,
                                    batch_size='auto', beta_1=0.9, beta_2=0.999,
                                    early_stopping=False, epsilon=1e-08,
                                    hidden_layer_sizes=(100,),
                                    learning_rate='constant',
                                    learning_rate_init=0.001, max_fun=15000,
                                    max_iter=80000, momentum=0.9,
                                    n_iter_no_change=10,
                                    nesterovs_momentum=True, power_t=0.5,
                                    random_stat...huffle=True,
                                    solver='adam', tol=0.0001,
                                    validation_fraction=0.1, verbose=False,
                                    warm_start=True),
             iid='deprecated', n_jobs=-2,
             param_grid={'alpha': [1e-06, 0.

In [14]:
# Esta información de aquí es bastante ininteligible. Lo que nos interesa es saber cuál es el mejor modelo...

# ¿Cómo podemos hacerlo?

print(clf.best_params_)

{'alpha': 1e-06, 'hidden_layer_sizes': 100, 'learning_rate': 'adaptive', 'solver': 'lbfgs'}


In [26]:
# Otros parámetros que ofrece:

clf.best_score_

0.967841267627119