In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


## Dataset

El dataset tiene información sobre propiedades en Boston. El objetivo es predecir el precio de estas propiedades.

https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

http://jse.amstat.org/v19n3/decock.pdf

Para ver la descripción de los campos que componen este dataset:
<a href="../Data/data_description.txt">data_description</a>

## Problema

Transformando las variables del dataset de propiedades en Boston usando StandardScaler y OneHotEncoding, vamos a estimar los valores del campo `SalePrice` usando modelos de regresión lineal.

Después, vamos a comparar los resultados de las predicciones de estos modelos con los que obtenemos usando como variables explicativas la proyección en las componentes principales del dataset transformado.


## Imports

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn import metrics
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

## Ejercicio 1 - Carga de datos

In [None]:
data = pd.read_csv('../Data/ames_housing.csv')
target = data["SalePrice"]

In [None]:
data.dtypes

In [None]:
target

## Ejercicio 2 - Categorical y Non-categorical 

**2.1** Determinemos qué variables que forman el dataset son categóricas. Consideremos categóricas variables numéricas que tienen como máximo cinco valores distintos.

**2.2** Usemos `pandas.Series.astype` para convertir esas nuevas columnas categóricas en `numpy.object`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html


Imprimimos los valores que tienen las variables numéricas que consideramos categóricas:

Las nuevas columnas categóricas están en la variable `new_categorical_columns`, convirtamos esas columnas en tipo np.object

## Ejercicio 3 - Valores nulos

Calculemos el porcentaje de nulos en cada columna.

Eliminemos aquellas columnas que tengan al menos el 40% de los registros con valores nulos.

Eliminemos aquellos registros que tengan al menos un valor nulo en las columnas que no fueron eliminadas en el paso anterior.

Eliminemos la columna `Id` del dataset

## Ejercicio 4 - Train test sets

Dividamos el dataset de registros completos en 70-30 train test, definiendo como X_train, X_test las matrices de features e Y_train, Y_test los vectores target.


## Ejercicio 5 - Feature engineering

**5.1** Usemos one hot encoding para transformar las variables categóricas de los dataset de train y test

**5.2** Usemos StandardScaler para transformar las variables numéricas de los dataset de train y test

## Ejercicio 6 - Regresión lineal

**6.1** Constuyamos un modelo de regresión lineal múltiple sobre los datasets de train y test transformados.

**6.2** Construyamos otro modelo usando regularización Lasso

**6.2** Construyamos un terecer modelo usando regularización Ridge

Para los tres modelos calculemos:
* mean_absolute_error
* mean_squared_error
* raiz cuadrada de mean_squared_error
* r2

Regularización Lasso

Regularización Ridge

## Ejercicio 7 - PCA

Grafiquemos la varianza explicada por 100, 50 y 30 componentes principales del dataset de train transformado con one hot encoding y StandardScaler


## Ejercicio 8 - Proyección sobre las componentes principales del conjunto de entrenamiento

Construyamos un conjunto de entrenamiento y uno de test para una regresión lineal usando las primeras 30 componentes principales del conjunto de entrenamiento usado en la regresión lineal del ejercicio anterior.

## Ejercicio 9 - Regresión lineal sobre componentes principales

**6.1** Constuyamos un modelo de regresión lineal múltiple sobre los datasets de train y test usando como features la proyección sobre las componentes principales calculadas en el ejercicio anterior. ¿Qué supuesto podemos asegurar que se cumple usando las componentes principales como variables explicativas?

**6.2** Construyamos otro modelo usando regularización Lasso sobre los mismos features que en 6.1

**6.2** Construyamos un terecer modelo usando regularización Ridge sobre los mismos features que en 6.1

Para los tres modelos calculemos:
* mean_absolute_error
* mean_squared_error
* raiz cuadrada de mean_squared_error
* r2

In [None]:
# cada una de las "nuevas" variables después de PCA son independientes entre sí. 
# los supuestos de un modelo lineal requieren que nuestras variables independientes sean independientes entre sí. 
# Si ajustamos un modelo de regresión lineal con estas "nuevas" variables, este supuesto necesariamente se cumplirá.



Vemos que, para la regresión lineal múltiple, todas las métricas que obtenemos con el modelo entrenado con las componentes principales son mejores que las del modelo sin esta transformación.

Con regularización de Lasso o Ridge no son tan evidentes las diferencias entre usar o no la proyección sobre las componenetes principales.

Una ventaja de este segundo modelo es que usa 30 features mientras que el primero usa 280.

Como ejercicio adicional, repitan los tres modelos usando en el ejercicio 5 
`encoder = OneHotEncoder(categories = encoder_categories, sparse=False, drop="first")`

Y comparen estos nuevos resultados.

**¿Qué significa que R2 sea negativo?**

## Referencias

https://www.kaggle.com/miguelangelnieto/pca-and-regression