In [2]:
import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor

In [3]:
dataset = pd.read_csv("../inputs/felicidad.csv")
# La razón de eliminar el rank y el score,
# es porque se quiere que los features no tengan ninguna correlación entre ellos.
# Lo ideal es que exista correlación solo entre las features y la variable objetivo.
X = dataset.drop(['country', 'rank', 'score'], axis=1)
y = dataset['score']
reg = RandomForestRegressor()

In [6]:
parametros = {
        # Número de árboles en el bosque
        'n_estimators': [10, 50, 100],

        # Criterio utilizado para medir la calidad de una división
        'criterion': ['friedman_mse', 'squared_error', 'poisson', 'absolute_error'],  # 'mse': error cuadrático medio, 'mae': error absoluto medio

        # Profundidad máxima de los árboles en el bosque
        'max_depth': [None, 10, 20],

        # Número mínimo de muestras requeridas para dividir un nodo interno
        'min_samples_split': [2, 5, 10],

        # Número mínimo de muestras requeridas para estar en un nodo hoja
        'min_samples_leaf': [1, 2, 4],

        # Método para la selección de características en cada split
        'max_features': ['auto', 'sqrt', 'log2'],  # 'auto': sqrt(num_features), 'sqrt': sqrt(num_features), 'log2': log2(num_features)

        # Bootstrap muestras al construir árboles
        'bootstrap': [True, False],  # True: usar bootstrap samples, False: usar el dataset completo
    }

In [7]:
# Realizar la búsqueda en cuadrícula de hiperparámetros
grid_est = GridSearchCV(reg, parametros, cv=5, scoring='neg_mean_absolute_error').fit(X, y)

3240 fits failed out of a total of 9720.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
3240 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\Cesar\Documents\repositories\cursos\platzi\curso_profesional_machine_learning\.entorno\Lib\site-packages\sklearn\model_selection\_validation.py", line 859, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\Cesar\Documents\repositories\cursos\platzi\curso_profesional_machine_learning\.entorno\Lib\site-packages\sklearn\base.py", line 1358, in wrapper
    estimator._validate_params()
  File "c:\Users\Cesar\Documents\repositories\cursos\platzi\curso_profesional_machine_learning\.entorno\Lib\site-packages\sklearn\base.py", line

In [8]:
# Imprimir el mejor estimador encontrado
print("Mejor estimador:")
print(grid_est.best_estimator_)
print('=' * 64)
# Imprimir los mejores parámetros encontrados
print("Mejores parámetros:")
print(grid_est.best_params_)
print('=' * 64)
# Realizar una predicción utilizando el mejor modelo encontrado
print("Predicción para el primer ejemplo del dataset:")
print('Predict: ', grid_est.predict(X.loc[[0]]))
print(f'Real:    {y.loc[0]}')

Mejor estimador:
RandomForestRegressor(bootstrap=False, criterion='poisson', max_features='log2',
                      min_samples_leaf=2, n_estimators=10)
Mejores parámetros:
{'bootstrap': False, 'criterion': 'poisson', 'max_depth': None, 'max_features': 'log2', 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 10}
Predicción para el primer ejemplo del dataset:
Predict:  [7.52695003]
Real:    7.537000179
