https://www.cienciadedatos.net/documentos/py08_random_forest_python.html

https://github.com/an-rivas/ENDIREH-data-analysis/blob/preprocesamiento4Cat/OE1_Exploracion/Baseline/Baseline.ipynb

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=forest#sklearn.ensemble.RandomForestClassifier

In [1]:
import pandas as pd
from funciones import CargarPandasDatasetCategoricos, BorrarColumnas, InsertarColumnaNueva

In [2]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt

# Preprocesado y modelado
# ==============================================================================
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.model_selection import ParameterGrid

# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

## Cargar datos

In [3]:
endireh = CargarPandasDatasetCategoricos('datasets/endirehCat.csv')

### Random forest no usan datos categóricos (object type), para ello obtengo One Hot Encoding con la instruccion pd.get_dummies de pandas para las columnas categóricas

In [4]:
endireh_cat = endireh.drop(columns = ["P9_8", "P1_2", "P1_2_A", "P9_3"])
endireh_cat = pd.get_dummies(endireh_cat)

endireh_num = pd.read_csv('datasets/endirehCat.csv', usecols=["P1_2", "P1_2_A", "P9_3"])
endireh_ohe = pd.concat([endireh_cat, endireh_num], axis=1)

y = pd.read_csv('datasets/endirehCat.csv', usecols=["P9_8"])

## Obtengo datasets de _Tests_ y _Train_

In [5]:
# División de los datos en train y test
# ==============================================================================
X_train, X_test, y_train, y_test = train_test_split(
                                        endireh_ohe,
                                        y,
                                        random_state = 42
                                    )

### Creación del modelo

In [6]:
modelo = RandomForestClassifier()

### Entrenar el modelo

In [7]:
modelo.fit(X_train, y_train)

RandomForestClassifier()

## Encontrar los mejores parámetros con _Grid Search_

Declaramos los parametros

In [26]:
param_grid = ParameterGrid(
                {
                 'n_estimators'      : range(120, 190, 15), # 150
                 'criterion'         : ['gini', 'entropy'],
                 'min_samples_split' : range(305, 380, 10), # 335
                 'min_samples_leaf'  : range(70, 120, 2),   # 100
                 'random_state'      : [42, 666, 5],
                }
            )

len(param_grid)

6000

Creamos el diccionario que guadará los resultados

In [27]:
resultados = {'params': [], 'oob_accuracy': []}

### Loop para ajustar un modelo con cada combinación de hiperparámetros

In [None]:
%%time
print(f'Creando modelos para {len(param_grid)} combinaciones de parámetros.\n')

for i,params in enumerate(param_grid):
    
    modelo = RandomForestClassifier(
                oob_score    = True,
                n_jobs       = -1,
                ** params
             )
    
    modelo.fit(endireh_ohe, y)
    
    resultados['params'].append(params)
    resultados['oob_accuracy'].append(modelo.oob_score_)
    
    if i%500 == 0 or i==len(param_grid):
        print(f"Modelo {i}: {params} \u2713")

print('\n')

Creando modelos para 6000 combinaciones de parámetros.

Modelo 0: {'criterion': 'gini', 'min_samples_leaf': 70, 'min_samples_split': 305, 'n_estimators': 120, 'random_state': 42} ✓
Modelo 500: {'criterion': 'gini', 'min_samples_leaf': 78, 'min_samples_split': 315, 'n_estimators': 135, 'random_state': 5} ✓
Modelo 1000: {'criterion': 'gini', 'min_samples_leaf': 86, 'min_samples_split': 325, 'n_estimators': 165, 'random_state': 666} ✓


### Visualizamos resultados

### Segunda experimentación cercana a el mejor hasta ahora:


	oob_accuracy 	criterion 	min_samples_leaf 	min_samples_split 	n_estimators 	random_state
 	0.547619 		entropy		 	100	 			335 				150 			5

    param_grid = ParameterGrid(
                {
                 'n_estimators'      : range(120, 190, 15),
                 'criterion'         : ['gini', 'entropy'],
                 'min_samples_split' : range(305, 380, 10),
                 'min_samples_leaf'  : range(100, 150, 2),
                 'random_state'      : [42, 666, 5],
                }
            )
            
4032 en total

Se puso 12:10 hrs del martes 26 de octubre de 2021.

In [None]:
resultados = pd.DataFrame(resultados)
resultados = pd.concat([resultados, resultados['params'].apply(pd.Series)], axis=1)
resultados = resultados.sort_values('oob_accuracy', ascending=False)
resultados = resultados.drop(columns = 'params')
resultados.head(7)

### Experimentación cercana a el mejor hasta ahora:


	oob_accuracy 	criterion 	min_samples_leaf 	min_samples_split 	n_estimators 	random_state
 	0.547619 		entropy		 	100	 			335 				150 			5

    param_grid = ParameterGrid(
                {
                 'n_estimators'      : range(100, 200, 25), 
                 'criterion'         : ['gini', 'entropy'],
                 'min_samples_split' : range(299, 401, 15), 
                 'min_samples_leaf'  : range(80, 150, 3),
                 'random_state'      : [42, 666, 5],
                }
            )
            
4032 en total

Se puso 16:40 hrs del lunes 25 de octubre de 2021. Duró 17 hrs y minutos (no anoté antes de poner la segunda experimentación).

Peor resultado

In [20]:
resultados = pd.DataFrame(resultados)
resultados = pd.concat([resultados, resultados['params'].apply(pd.Series)], axis=1)
resultados = resultados.sort_values('oob_accuracy', ascending=False)
resultados = resultados.drop(columns = 'params')
resultados.head(7)

Unnamed: 0,oob_accuracy,criterion,min_samples_leaf,min_samples_split,n_estimators,random_state
0,0.523129,gini,80,299,100,42
2693,0.523129,entropy,104,299,125,5
2680,0.523129,entropy,101,389,125,666
2681,0.523129,entropy,101,389,125,5
2682,0.523129,entropy,101,389,150,42
2683,0.523129,entropy,101,389,150,666
2684,0.523129,entropy,101,389,150,5


### Se puso minutos antes de las 2pm el martes 19 de octubre

Al rededor de 25 minutos por bloque de 50 experimentos. El cuarto bloque de 200 apareció a la hora aproximada (1 hora y 40 min). Acabaría a las 25.4 hrs. aprox 3:30 pm del miércoles.

con x y y aleatorios

Se completó después de la hora dicha pero quién sabe a qué hora fue.

Revisé a las 9pm.

    param_grid = ParameterGrid(
                {
                 'n_estimators'      : range(90, 220, 30),
                 'criterion'         : ['gini', 'entropy'],
                 'min_samples_split' : range(290, 421, 15),
                 'min_samples_leaf'  : range(80, 150, 5),
                 'random_state'      : [42, 666, 5],
                }
            )

In [108]:
#resultados = pd.DataFrame(resultados)
#resultados = pd.concat([resultados, resultados['params'].apply(pd.Series)], axis=1)
#resultados = resultados.sort_values('oob_accuracy', ascending=False)
#resultados = resultados.drop(columns = 'params')
resultados.head(7)

Unnamed: 0,oob_accuracy,criterion,min_samples_leaf,min_samples_split,n_estimators,random_state
2483,0.547619,entropy,100,335,150,5
3191,0.545887,entropy,125,365,180,5
884,0.545238,gini,110,350,210,5
594,0.544372,gini,100,335,180,42
260,0.543723,gini,85,410,120,5
3242,0.54329,entropy,130,290,90,5
3326,0.54329,entropy,130,365,180,5


In [109]:
resultados.shape

(3780, 6)

### Con mega grid de 6480 parametros: 

param_grid = ParameterGrid(

                {
                 'n_estimators'      : [100, 150, 200],
                 'criterion'         : ['gini', 'entropy'],
                 'max_depth'         : [None, 5],
                 'min_samples_split' : range(300, 401, 20),
                 'min_samples_leaf'  : range(50, 100, 5),
                 'max_features'      : ['sqrt', 'log2', None],
                 'random_state'      : [42, 666, 5],
                }
            )
            
6480 en total

La versión paralelizada:
Se puso a las 21:15 hrs del miércoles 20 de octubre, 22 hras aprox durará... 
22 hrs incompleto, completo serían 30hrs aprox... Mañana del viernes.
no jaló

La versión sencilla (loop) se puso 16:40 hrs del sábado 23 de octubre de 2021. Terminó antes de las 15:30 hrs del unes 25 de octubre 2021.

In [98]:
#resultados = pd.DataFrame(resultados)
#resultados = pd.concat([resultados, resultados['params'].apply(pd.Series)], axis=1)
#resultados = resultados.sort_values('oob_accuracy', ascending=False)
#resultados = resultados.drop(columns = 'params')
resultados.head(10)

Unnamed: 0,oob_accuracy,criterion,max_depth,max_features,min_samples_leaf,min_samples_split,n_estimators,random_state
1723,0.54632,gini,,,90,380,200,5
1574,0.544156,gini,,,80,300,150,42
1499,0.54329,gini,,,70,380,100,42
4565,0.54329,entropy,,,55,340,200,42
1404,0.543074,gini,,,60,400,150,666
4675,0.542641,entropy,,,65,340,200,5
4638,0.542641,entropy,,,60,380,200,666
4581,0.542208,entropy,,,55,380,150,666
4636,0.541991,entropy,,,60,380,150,5
2979,0.541991,gini,5.0,,60,300,150,666


### Con split aleatorio dentro del **for**

In [48]:
resultados = pd.DataFrame(resultados)
resultados = pd.concat([resultados, resultados['params'].apply(pd.Series)], axis=1)
resultados = resultados.sort_values('oob_accuracy', ascending=False)
resultados = resultados.drop(columns = 'params')
resultados.head(7)

Unnamed: 0,oob_accuracy,criterion,max_depth,max_features,min_samples_leaf,min_samples_split,random_state
355,0.54329,entropy,10.0,,100,10,42
344,0.542641,entropy,10.0,,50,5,666
303,0.541775,entropy,5.0,,100,10,5
239,0.541558,entropy,,,50,10,666
242,0.541342,entropy,,,50,100,666
131,0.540693,gini,5.0,,50,10,666
141,0.540043,gini,5.0,,100,10,5


### Con el split fijo desde afuera del **for** con semilla de aleatorio 42. 

In [31]:
resultados = pd.DataFrame(resultados)
resultados = pd.concat([resultados, resultados['params'].apply(pd.Series)], axis=1)
resultados = resultados.sort_values('oob_accuracy', ascending=False)
resultados = resultados.drop(columns = 'params')
resultados.head(7)

Unnamed: 0,oob_accuracy,criterion,max_depth,max_features,min_samples_leaf,min_samples_split
31,0.5329,gini,5.0,,50,10
102,0.5329,entropy,10.0,,50,5
32,0.5329,gini,5.0,,50,100
30,0.5329,gini,5.0,,50,5
86,0.5329,entropy,5.0,,50,100
68,0.5329,entropy,,,50,100
85,0.5329,entropy,5.0,,50,10


### Mejor resultado

In [16]:
%%time
classifier = classifier.fit(X_train, y_train)

Fitting 15 folds for each of 3 candidates, totalling 45 fits
CPU times: user 9.3 s, sys: 203 ms, total: 9.5 s
Wall time: 2min 1s


In [17]:
resultados = pd.DataFrame(classifier.cv_results_)
resultados.filter(regex = '(param*|mean_t|std_t)') \
    .drop(columns = 'params') \
    .sort_values('mean_test_score', ascending = False) \
    .head(4)

Unnamed: 0,param_max_features,param_n_estimators,mean_test_score,std_test_score
0,5,150,0.523954,0.014248
2,9,150,0.523882,0.013357
1,7,150,0.523593,0.014079


In [18]:
classifier.best_params_

{'max_features': 5, 'n_estimators': 150}