# Optimiza tus Modelos de Machine Learning ajustando Hiperparámetros.

- Los modelos de ML, se pueden ver como cajas negras ya que, reciben un conjunto de datos y como salida nos dan la predicción de un valor o la clasificación de una instancia de una forma automática.
- Estas cajas, tienen un moton de parámetros(hiperparámetros), los cuales debemos ajustar y encontrar los valores adecuados para lograr la mayor precision en nuestras predicciones o clasificaciones.
- Algúnos de los ejemplos de esto pueden ser la cantidad de neuronas que tiene una red neuronal o cuantas capas.
> Vamos aver dos tecnicas para ajustar los hiperparámetros:
    >> 1. Busqueda en rejilla de hiperparámetros.
>
    >> 2. Busqueda aleatoria de hiperparámetros.
>

# Ajustar (tunear) hiperparámetros

In [1]:
import pandas as pd

personas = pd.read_csv("./ingresos.csv")
personas

Unnamed: 0,edad,estudio,genero,tipo_trabajo,horas,ingreso
0,27,9,0,0,40,0
1,30,9,0,0,40,0
2,34,8,0,0,40,0
3,26,13,0,0,50,0
4,23,4,1,0,25,0
...,...,...,...,...,...,...
95,32,13,1,0,55,1
96,20,10,0,0,25,0
97,46,3,0,0,40,0
98,37,9,1,0,45,0


In [2]:
from sklearn.ensemble import RandomForestClassifier

bosque = RandomForestClassifier()
bosque.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

# Búsqueda de Cuadrícula o Rejilla

In [7]:
from sklearn.model_selection import GridSearchCV

parametros = {
    "criterion": ("gini", "entropy"),
    "n_estimators": (10, 20, 30),
    "max_samples": (1/3, 2/3)
}

# Definimos nuestra rejilla
rejilla = GridSearchCV(bosque,
                       parametros,
                       scoring="accuracy",
                       cv=5)

# Construimos los modelos
rejilla.fit(personas[personas.columns[:-1]].values,
            personas["ingreso"].values)

# Información de la búsqueda el rejilla

In [8]:
sorted(rejilla.cv_results_.keys())

['mean_fit_time',
 'mean_score_time',
 'mean_test_score',
 'param_criterion',
 'param_max_samples',
 'param_n_estimators',
 'params',
 'rank_test_score',
 'split0_test_score',
 'split1_test_score',
 'split2_test_score',
 'split3_test_score',
 'split4_test_score',
 'std_fit_time',
 'std_score_time',
 'std_test_score']

# Rejilla de parámetros explorados

In [9]:
rejilla.cv_results_["params"]

[{'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 10},
 {'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 20},
 {'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 30},
 {'criterion': 'gini', 'max_samples': 0.6666666666666666, 'n_estimators': 10},
 {'criterion': 'gini', 'max_samples': 0.6666666666666666, 'n_estimators': 20},
 {'criterion': 'gini', 'max_samples': 0.6666666666666666, 'n_estimators': 30},
 {'criterion': 'entropy',
  'max_samples': 0.3333333333333333,
  'n_estimators': 10},
 {'criterion': 'entropy',
  'max_samples': 0.3333333333333333,
  'n_estimators': 20},
 {'criterion': 'entropy',
  'max_samples': 0.3333333333333333,
  'n_estimators': 30},
 {'criterion': 'entropy',
  'max_samples': 0.6666666666666666,
  'n_estimators': 10},
 {'criterion': 'entropy',
  'max_samples': 0.6666666666666666,
  'n_estimators': 20},
 {'criterion': 'entropy',
  'max_samples': 0.6666666666666666,
  'n_estimators': 30}]

# Resultado de la búsqueda el rejilla

In [10]:
print(rejilla.cv_results_["rank_test_score"])
print(rejilla.cv_results_["mean_test_score"])
print(rejilla.best_score_)
print(rejilla.best_params_)

[ 4  1  4  8 10 11  2  2  7 12  4  8]
[0.8  0.83 0.8  0.78 0.77 0.77 0.81 0.81 0.79 0.76 0.8  0.78]
0.8300000000000001
{'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 20}


# Usando/Extrayendo el mejor modelo

In [14]:
print(rejilla.predict([[50, 16, 1, 1, 40]]))
mejor_bosque = rejilla.best_estimator_
print(mejor_bosque.predict([[50, 16, 1, 1, 40]]))

[1]
[1]


# Búsqueda Aleatoria de Hiperparámetros

In [15]:
from sklearn.model_selection import RandomizedSearchCV

parametros = {
    "criterion": ("gini", "entropy"),
    "n_estimators": (10, 20, 30),
    "max_samples": (1/3, 2/3)
}

rejilla_aleatoria = RandomizedSearchCV(bosque,
                                       parametros,
                                       scoring = "accuracy",
                                       cv = 5,
                                       n_iter = 3)

rejilla_aleatoria.fit(personas[personas.columns[:-1]].values,
                      personas["ingreso"].values)

# Parámetros explorados aleatoriamente

In [16]:
rejilla_aleatoria.cv_results_["params"]

[{'n_estimators': 10,
  'max_samples': 0.6666666666666666,
  'criterion': 'entropy'},
 {'n_estimators': 20, 'max_samples': 0.6666666666666666, 'criterion': 'gini'},
 {'n_estimators': 30,
  'max_samples': 0.6666666666666666,
  'criterion': 'entropy'}]

# Mejores parámetros seleccionados aleatoriamente

In [19]:
print("Mejor score:", rejilla_aleatoria.best_score_)
print("Mejores parámetros:" ,rejilla_aleatoria.best_params_)

Mejor score: 0.8
Mejores parámetros: {'n_estimators': 30, 'max_samples': 0.6666666666666666, 'criterion': 'entropy'}
