In [1]:
import pandas as pd
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor

In [2]:
path = '../datasets/felicidad.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,country,rank,score,high,low,gdp,family,lifexp,freedom,generosity,corruption,dystopia
0,Norway,1,7.537,7.594445,7.479556,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2.277027
1,Denmark,2,7.522,7.581728,7.462272,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2.313707
2,Iceland,3,7.504,7.62203,7.38597,1.480633,1.610574,0.833552,0.627163,0.47554,0.153527,2.322715
3,Switzerland,4,7.494,7.561772,7.426227,1.56498,1.516912,0.858131,0.620071,0.290549,0.367007,2.276716
4,Finland,5,7.469,7.527542,7.410458,1.443572,1.540247,0.809158,0.617951,0.245483,0.382612,2.430182


In [3]:
X = df.drop(['country', 'score', 'rank'], axis=1)
y = df['score']

## Optimización de hiperparametros | Hyperparameter Optimization
Familiarizados con el concepto de Cross Validation vamos a utilizar este mismo principio de fondo para lograr automatizar un poco la selección y optimización de nuestros modelos. \
**Problema:** Parece que encontramos un modelo de aprendizaje que parece funcionar, pero esto puede implicar que ahora tenemos que encontrar la optimización de cada uno de los parámetros de este modelo, encontrar el que mejor se ajuste y el que mejor resultado nos de.
* Es facil perderse entre los conceptos de tantos parámetros. Tenemos flexibilidad para algoritmos básicos de Machine Learning, pero facil perderse.
* Es difícil medir la sensibilidad de los mismos manualmente.
* Es COSTOSO, en tiempo humano y computacionalmente. 

Scikit Learn nos ofrece enfoques para automatizar el proceso de optimización paramétrica. Existen 3 enfoques principales, estos son:\
### **Optimización manual**

1.- Escoger el modelo que queremos ajustar.\
2.- Buscar en la documentación de Scikit-Learn.\
3.- Identificar parámetros y ajustes. Parámetros que vamos a necesitar y cuáles son los posibles ajustes que vamos a requerir para cada uno de estos parámetros.\
4.- Probar combinaciones una por una iterando a través de listas.\

### **Optimizacion por grilla de parámetros | GridSearchCV**

Es una forma organizada, exhaustiva y sistematica de probar todos los parametros que le digamos que tenga que probar, con los respectivos rangos de valores que le aportemos.

1.- Definir una o varias métricas que queremos optimizar.\
2.- Identificar los posibles valores que pueden tener los parámetros.\
3.- Crear un diccionario de parámetros.\
4.- Usar Cross Validation.\
5.- Entrenar el modelo (e ir por un café)

La grilla de parámetros nos define GRUPOS DE PARÁMETROS que serán probados en todas sus combinaciones (Un grupo a la vez)

### **Optimizacion por búsqueda aleatorizada | RandomizedSearchCV**

Si no tenemos tanto tiempo para una prueba tan exhaustiva o queremos combinaciones aleatorias usaremos este metodo. Es lo mismo que el caso anterior, pero busca de forma aleatoria los parametros y Scikit Learn selecciona los mejores de las combinaciones aleatorias que se hicieron.\
En este método, definimos escalas de valores para cada uno de los parámetros seleccionados, el sistema probará varias iteraciones (Configurables según los recursos) y mostrará la mejor combinación encontrada.

In [4]:
model_reg = RandomForestRegressor()

In [5]:
parametros = {
    'n_estimators' : range(4,16),
    'criterion' : ['squared_error', 'absolute_error'],
    'max_depth' : range(2,11)
}

In [6]:
rand_est = RandomizedSearchCV(model_reg, parametros, n_iter=10, cv=3, scoring='neg_mean_absolute_error')
rand_est.fit(X, y)

RandomizedSearchCV(cv=3, estimator=RandomForestRegressor(),
                   param_distributions={'criterion': ['squared_error',
                                                      'absolute_error'],
                                        'max_depth': range(2, 11),
                                        'n_estimators': range(4, 16)},
                   scoring='neg_mean_absolute_error')

In [7]:
print(rand_est.best_estimator_)

RandomForestRegressor(max_depth=9, n_estimators=12)


## GridSearchCV

**estimator:** el modelo que está utilizando.\
**params_grid:** el objeto de diccionario que contiene los hiperparámetros que desea probar.\
**scoring:** métrica de evaluación \
**cv:** número de validaciones cruzadas para cada conjunto de hiperparámetros \
**verbose:** cuanto más alto, más mensajes se imprimirán. \
**n_jobs:** número de trabajos que se ejecutarán en paralelo \
**pre_dispatch:** controla el número de trabajos que se pueden realizar en paralelo (para evitar problemas de memoria)\
**iid:** asume que los datos se distribuyen de forma idéntica e independiente. El valor predeterminado es falso.\
**refit:** una vez que se encuentran los mejores parámetros, reajuste el estimador\
**error_score:** valor para asignar al puntaje si ocurre un error al ajustar el estimador\
**return_train_score:** incluya puntajes de tren en cv_results_\