<a href="https://colab.research.google.com/github/vargaswagner/machine-learning/blob/main/Hiperparametros.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd

In [3]:
personas = pd.read_csv('/content/sample_data/ingresos.csv')
personas

Unnamed: 0,edad,estudio,genero,tipo_trabajo,horas,ingreso
0,27,9,0,0,40,0
1,30,9,0,0,40,0
2,34,8,0,0,40,0
3,26,13,0,0,50,0
4,23,4,1,0,25,0
...,...,...,...,...,...,...
95,32,13,1,0,55,1
96,20,10,0,0,25,0
97,46,3,0,0,40,0
98,37,9,1,0,45,0


In [5]:
from sklearn.ensemble import RandomForestClassifier

# Creamos el bosque
bosque = RandomForestClassifier()

In [17]:

# Visualizamos los hiperparámetros que podriamos utilizar
# Para este ejemplo utilizamos 2 o 3 hiperparámetros
bosque.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

In [18]:
# Creación de la rejilla (bosque) con validación cruzada
from sklearn.model_selection import GridSearchCV

# Creamos el diccionario de los hiperparámetros
hiperparametros = {
    "criterion": ("gini", "entropy"),
    "n_estimators": (10, 15, 20),
    "max_samples": (1/3, 2/3)
}

# Creamos la rejilla, le pasamos el bosque, los hiperparámetros y la métrica 'accuracy'
rejilla = GridSearchCV(bosque, hiperparametros, scoring="accuracy")

In [19]:
# Entrenamos el modelo
rejilla.fit(personas[personas.columns[:-1]].values, personas["ingreso"].values)

In [21]:
# Obtenemos información de la rejilla
sorted(rejilla.cv_results_.keys())

['mean_fit_time',
 'mean_score_time',
 'mean_test_score',
 'param_criterion',
 'param_max_samples',
 'param_n_estimators',
 'params',
 'rank_test_score',
 'split0_test_score',
 'split1_test_score',
 'split2_test_score',
 'split3_test_score',
 'split4_test_score',
 'std_fit_time',
 'std_score_time',
 'std_test_score']

In [22]:
# Prametros explorados
rejilla.cv_results_["params"]

[{'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 10},
 {'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 15},
 {'criterion': 'gini', 'max_samples': 0.3333333333333333, 'n_estimators': 20},
 {'criterion': 'gini', 'max_samples': 0.6666666666666666, 'n_estimators': 10},
 {'criterion': 'gini', 'max_samples': 0.6666666666666666, 'n_estimators': 15},
 {'criterion': 'gini', 'max_samples': 0.6666666666666666, 'n_estimators': 20},
 {'criterion': 'entropy',
  'max_samples': 0.3333333333333333,
  'n_estimators': 10},
 {'criterion': 'entropy',
  'max_samples': 0.3333333333333333,
  'n_estimators': 15},
 {'criterion': 'entropy',
  'max_samples': 0.3333333333333333,
  'n_estimators': 20},
 {'criterion': 'entropy',
  'max_samples': 0.6666666666666666,
  'n_estimators': 10},
 {'criterion': 'entropy',
  'max_samples': 0.6666666666666666,
  'n_estimators': 15},
 {'criterion': 'entropy',
  'max_samples': 0.6666666666666666,
  'n_estimators': 20}]

In [23]:
# Resultados de la búsqueda
print(rejilla.cv_results_["rank_test_score"])

[ 9  2  9  3  4  6  6  1  6 11  4 12]


In [24]:
# Visualizamos el rendimiento de cada bosque
print(rejilla.cv_results_["mean_test_score"])

[0.78 0.83 0.78 0.81 0.8  0.79 0.79 0.84 0.79 0.76 0.8  0.75]


In [25]:
# Visualiazamos los mejores scores y los mejores parámetros
print(rejilla.best_score_)
print(rejilla.best_params_)

0.8400000000000001
{'criterion': 'entropy', 'max_samples': 0.3333333333333333, 'n_estimators': 15}


In [26]:
# Seleccionamos el bosque ganador
bosque_ganador = rejilla.best_estimator_
bosque_ganador

In [44]:
# Realizamos un ejemplo de predicción
print(bosque_ganador.predict([[40, 10, 1, 0, 50]]))

[1]
