<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/Machine-Learning/blob/main/ML/classes/class_march_3/class_march_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Selección y entrenamiento de modelos de regresión

# Metodología

1. Plantear bien la pregunta.
   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

2. Exploración inicial.
   * Indicar la fuente de dónde se toman los datos.
   * Hacer explícita la función objetivo.
   * Decir cuáles son los atributos (descripción breve de cada uno)
   * Exploración tabular y gráfica de los datos.

3. Preparar los datos para los algoritmos de aprendizaje.
   * Hacer separación inicial de datos para entrenar y para testear.
   * Llenar datos faltantes.
   * Estandarizar los datos.
   * Codificar las variables categóricas. 

4. Preprocesamiento usando el concepto de pipeline 

5. Entrenamiento y selección de modelo.
   * Instanciar varios modelos y entrenarlos sobre datos de entrenamiento preparados.
   * Medir el desempeño de varios modelos (comparativa, con la técnica de la validación cruzada)
  

 
6. Afinar el modelo.  

   * Crear cuadrícula (de búsqueda) de hiperparámetros.
   * Seleccionar la combinación de hiperparámetros que consigue el mejor puntaje. (El mejor modelo).  
 

  
7. Presentar la solución.  

   * Mostrar el desempeño sobre los datos para testear.
  

In [1]:
import numpy as np
import pandas as pd 

from sklearn.model_selection import train_test_split 
from sklearn.impute import SimpleImputer 
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder 

# Librerías para automatizar el preprocesamiento 

from sklearn.pipeline import Pipeline 
from sklearn.compose import ColumnTransformer 

# Librerías para seleccionar y entrenar modelos de regresión

from sklearn.linear_model import LinearRegression 
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor 


# Obtiene los datos

In [2]:
v = pd.read_csv('vivienda.csv') 

# Divide en entrenamiento y testeo

In [3]:
v_train,v_test = train_test_split(v,test_size = 0.2, random_state = 42) 

# Dividimos en predictores X, objetivo y

In [4]:
v = v_train.drop('precio', axis = 1) 

In [5]:
v_labels = v_train.precio.values 

In [6]:
v_labels

array([103000., 382100., 172600., ..., 222100., 283500., 325000.])

In [7]:
v.head() 

Unnamed: 0,longitud,latitud,antiguedad,habitaciones,dormitorios,población,hogares,ingresos,proximidad
14196,-117.03,32.71,33.0,3126.0,627.0,2300.0,623.0,3.2596,NEAR OCEAN
8267,-118.16,33.77,49.0,3382.0,787.0,1314.0,756.0,3.8125,NEAR OCEAN
17445,-120.48,34.66,4.0,1897.0,331.0,915.0,336.0,4.1563,NEAR OCEAN
14265,-117.11,32.69,36.0,1421.0,367.0,1418.0,355.0,1.9425,NEAR OCEAN
2271,-119.8,36.78,43.0,2382.0,431.0,874.0,380.0,3.5542,INLAND


# Divididir los predictores en numéricos y categóricos 

In [8]:
v_num = v.drop('proximidad', axis = 1) 
v_cat = v[['proximidad']] 

In [9]:
procesador_num = Pipeline([
    ('imputar', SimpleImputer(strategy = 'median')),
    ('estandarizar', StandardScaler())
])

# Constituir un operador que procese numéricos y categóricos

In [10]:
lista_atributos_num = list(v_num.columns)
lista_atributos_cat = ['proximidad'] 

In [11]:
Operador_total = ColumnTransformer([
    ('num', procesador_num, lista_atributos_num ),
    ('cat', OneHotEncoder(), lista_atributos_cat )
])

In [14]:
X_prep = Operador_total.fit_transform(v) 

# Selección y entrenamiento del modelo 

In [12]:
regresor_lineal = LinearRegression() 

In [15]:
regresor_lineal.fit(X_prep, v_labels) 

LinearRegression()

In [None]:
regresor_lineal.coef_

# Obtención del vector $w$ que define al modelo de regresión

In [17]:
w_0 = regresor_lineal.intercept_
w_0

238826.3594452512

In [19]:
w = [regresor_lineal.intercept_] + list(regresor_lineal.coef_)
w 

[238826.3594452512,
 -53826.64801649406,
 -54415.69614449856,
 13889.86618856302,
 -13094.25116219456,
 43068.18184187012,
 -43403.432427318854,
 18382.19632373344,
 75167.77476624779,
 -18926.58286195276,
 -58713.239023284594,
 117198.48975346542,
 -24063.225079429423,
 -15495.442788798595]

In [20]:
len(w) 

14

# Predicción del precio en los cinco primeros distritos de entrenamiento

In [None]:
algunos_distritos = v.iloc[:5]
algunos_distritos 

In [None]:
algunos_distritos_prep = Operador_total.transform(algunos_distritos)

In [None]:
algunos_distritos_prep.shape 

In [None]:
algunas_predicciones = regresor_lineal.predict(algunos_distritos_prep)

In [None]:
algunas_predicciones

In [None]:
v_labels[:5]

In [None]:
porcentaje_variacion = np.abs(algunas_predicciones - v_labels[:5])/v_labels[:5]*100
porcentaje_variacion