<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/Machine-Learning/blob/main/ML/classes/class_march_3/class_march_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Selección y entrenamiento de modelos de regresión

## [Video de apoyo a la lectura]()

# Metodología

1. Plantear bien la pregunta.
   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

2. Exploración inicial.
   * Indicar la fuente de dónde se toman los datos.
   * Hacer explícita la función objetivo.
   * Decir cuáles son los atributos (descripción breve de cada uno)
   * Exploración tabular y gráfica de los datos.

In [None]:
import pandas as pd 
import numpy as np 

import matplotlib.pyplot as plt 



In [None]:
v = pd.read_csv('vivienda.csv') 

In [None]:
v.head(2)

In [None]:
v.info() 

In [None]:
v.proximidad.value_counts()

In [None]:
v.describe() 

In [None]:
v.hist(figsize = (20,10))

3. Preparar los datos para los algoritmos de aprendizaje.
   * Hacer separación inicial de datos para entrenar y para testear.
   * Llenar datos faltantes.
   * Estandarizar los datos.
   * Codificar las variables categóricas. 

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
v_train,v_test = train_test_split(v, test_size = 0.2, random_state = 42) 

In [None]:
v = v_train.drop('precio', axis = 1)
v_labels = v_train.precio.values

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
from sklearn.preprocessing import OneHotEncoder 

4. Preprocesamiento usando el concepto de pipeline 

In [None]:
from sklearn.pipeline import Pipeline

In [None]:
from sklearn.compose import ColumnTransformer 

In [None]:
transformador_num = Pipeline([
    ('imputar', SimpleImputer(strategy = 'median')),
    ('estandarizar', StandardScaler() )
])

In [None]:
v_num = v.drop('proximidad', axis = 1) 
v_cat = v[['proximidad']] 

In [None]:
lista_atributos_num = list(v_num.columns)
lista_atributos_cat = list(v_cat.columns)

In [None]:
transformador_total = ColumnTransformer([
    ('num', transformador_num, lista_atributos_num),
    ('cat', OneHotEncoder(), lista_atributos_cat)
])

In [None]:
x_prep = transformador_total.fit_transform(v)

In [None]:
type(x_prep)

In [None]:
x_prep.shape[1]

5. Entrenamiento y selección de modelo.
   * Instanciar varios modelos y entrenarlos sobre datos de entrenamiento preparados.
   * Medir el desempeño de varios modelos (comparativa, con la técnica de la validación cruzada)
  

In [None]:
from sklearn.linear_model import LinearRegression 

In [None]:
from sklearn.tree import DecisionTreeRegressor 

In [None]:
from sklearn.ensemble import RandomForestRegressor 

In [None]:
regresor_lineal = LinearRegression()

In [None]:
regresor_lineal.fit(x_prep, v_labels)

In [None]:
primeros_cinco_distritos = x_prep[:5,:]

In [None]:
regresor_lineal.predict(primeros_cinco_distritos)

In [None]:
v_labels[:5]

In [None]:
precios_predichos_lineal = regresor_lineal.predict(x_prep)

In [None]:
from sklearn.metrics import mean_squared_error 

In [None]:
np.sqrt( mean_squared_error(v_labels,precios_predichos_lineal ) )

6. Afinar el modelo.  

   * Crear cuadrícula (de búsqueda) de hiperparámetros.
   * Seleccionar la combinación de hiperparámetros que consigue el mejor puntaje. (El mejor modelo).  

## Ajuste su modelo

Supongamos que ahora tiene una lista corta de modelos prometedores.

Ahora necesita afinarlos. Veamos algunas formas en las que puedes hacerlo.

### Grid Search

Una opción sería jugar con los hiperparámetros manualmente, hasta que encuentre una gran combinación de valores de hiperparámetro.

This would be very tedious work, and you may not have time to explore many combinations.

Instead, you should get Scikit-Learn’s GridSearchCV to search for you. 

All you need to do is tell it which hyperparameters you want it to experiment with and what values to try out, and it will use cross-validation to evaluate all the possible combinations of hyperparameter values. 

For example, the following code searches for the best combination of hyperparameter values for the RandomForestRegressor:

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
param_grid = [
{'n_estimators': [3, 10, 30,40,50, 60, 70], 'max_features': [2, 4, 6, 8, 10]},
{'bootstrap': [False], 'n_estimators': [3, 10,30,40,50, 60, 70], \
 'max_features': [2, 3, 4, 6, 8, 10]},
]
grid_search = GridSearchCV(regresor_forest, param_grid, cv=5,
scoring='neg_mean_squared_error',
return_train_score=True)
grid_search.fit(x_prep, v_labels)

In [None]:
grid_search.best_estimator_


7. Presentar la solución.  

   * Mostrar el desempeño sobre los datos para testear.
  

In [None]:
v_test.head() 

In [None]:
x_test_prep = transformador_total.transform(v_test.drop('precio', axis = 1)) 

In [None]:
regresor_forest_afinado.fit(x_prep, v_labels)

In [None]:
predicción_test = regresor_forest_afinado.predict(x_test_prep)

In [None]:
np.sqrt(mean_squared_error(v_test.precio.values, predicción_test))