In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


## Dataset

El dataset tiene información sobre propiedades en Boston. El objetivo es predecir el precio de estas propiedades.

https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

http://jse.amstat.org/v19n3/decock.pdf

Para ver la descripción de los campos que componen este dataset:
<a href="../Data/data_description.txt">data_description</a>

## Problema

Transformando las variables del dataset de propiedades en Boston usando StandardScaler y OneHotEncoding, vamos a estimar los valores del campo `SalePrice` usando modelos de regresión lineal.

Después, vamos a comparar los resultados de las predicciones de estos modelos con los que obtenemos usando como variables explicativas la proyección en las componentes principales del dataset transformado.


## Imports

In [2]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn import metrics
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

## Ejercicio 1 - Carga de datos

In [4]:
df = pd.read_csv('Data/emision-co2-autos_limpio.csv')


In [5]:
df.head()

Unnamed: 0,vehiculo_marca,vehiculo_modelo,vehiculo_tipo,vehiculo_traccion,vehiculo_id_motor,vehiculo_cilindrada,vehiculo_potencia,vehiculo_tipo_transmision,vehiculo_tipo_combustible,vehiculo_standard_emision,lca_numero,fecha_firma,ensayo_gei_numero,ensayo_gei_laboratorio,emision_CO2,consumo_urbano,consumo_extraurbano,consumo_mixto,id_etiqueta
0,TOYOTA,LAND CRUISER 200,SUV,4x4,TOYOTA 1VD-FTV,4461.0,,AUTOMATICA,GAS OIL,EURO V,,04/10/2017,H1860666086/241,VINÇOTTE nv,260.7,11.56,8.94,9.9,000001A
1,RENAULT,FLUENCE 2.0 16V,SEDÁN 4 PUERTAS,4x2,RENAULT M4RK7,1997.0,,CVT,NAFTA,EURO V,,22/06/2016,09/09790,UTAC,175.4,10.5,6.1,7.7,000178A
2,RENAULT,DUSTER 2.0 16v,SEDÁN 5 PUERTAS,4x2,RENAULT F4R E4,1998.0,105.0,MANUAL,NAFTA,EURO V,,,R1-0210/17,DELPHI,198.86,11.13,6.98,8.52,000650C
3,RENAULT,DUSTER 2.0 16v 4X4,SEDÁN 5 PUERTAS,4x4,RENAULT F4R E4,1998.0,105.0,MANUAL,NAFTA,EURO V,,,R1-0209/17,DELPHI,199.74,11.2,7.01,8.55,000659C
4,CITROËN,DS4,COUPÉ 3 + 2 PUERTAS,4x2,CITROËN EP6CDTM (5FM),1598.0,,AUTOMATICA,NAFTA,EURO V,,11/10/2011,11/04511,UTAC,177.6,10.6,6.0,7.7,000106A


In [None]:
data.dtypes

In [6]:
df.drop(['vehiculo_potencia','lca_numero', 'vehiculo_id_motor','vehiculo_id_motor','fecha_firma','ensayo_gei_numero','ensayo_gei_laboratorio','id_etiqueta'], axis=1, inplace=True)

In [9]:
df.head()

Unnamed: 0,vehiculo_marca,vehiculo_modelo,vehiculo_tipo,vehiculo_traccion,vehiculo_cilindrada,vehiculo_tipo_transmision,vehiculo_tipo_combustible,vehiculo_standard_emision,emision_CO2,consumo_urbano,consumo_extraurbano,consumo_mixto
0,TOYOTA,LAND CRUISER 200,SUV,4x4,4461.0,AUTOMATICA,GAS OIL,EURO V,260.7,11.56,8.94,9.9
1,RENAULT,FLUENCE 2.0 16V,SEDÁN 4 PUERTAS,4x2,1997.0,CVT,NAFTA,EURO V,175.4,10.5,6.1,7.7
2,RENAULT,DUSTER 2.0 16v,SEDÁN 5 PUERTAS,4x2,1998.0,MANUAL,NAFTA,EURO V,198.86,11.13,6.98,8.52
3,RENAULT,DUSTER 2.0 16v 4X4,SEDÁN 5 PUERTAS,4x4,1998.0,MANUAL,NAFTA,EURO V,199.74,11.2,7.01,8.55
4,CITROËN,DS4,COUPÉ 3 + 2 PUERTAS,4x2,1598.0,AUTOMATICA,NAFTA,EURO V,177.6,10.6,6.0,7.7


In [None]:
target = data["emisionCo2"]

In [None]:
target

## Ejercicio 2 - Categorical y Non-categorical 

**2.1** Determinemos qué variables que forman el dataset son categóricas. Consideremos categóricas variables numéricas que tienen como máximo cinco valores distintos.

**2.2** Usemos `pandas.Series.astype` para convertir esas nuevas columnas categóricas en `numpy.object`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html


In [None]:
categorical_columns = [col for col in data.columns if data[col].dtypes == 'object']
#categorical_columns

In [None]:
non_categorical_columns = [col for col in data.columns if data[col].dtypes != 'object']

print("non categorical inicial: " + str(len(non_categorical_columns)))
print("categorical inicial: " + str(len(categorical_columns)))

non_categorical_columns_clean = []
new_categorical_columns = []

for col in non_categorical_columns:
    values = data[col].value_counts()
    if len(values) <= 5:
        categorical_columns.append(col)
        new_categorical_columns.append(col)
    else:
        non_categorical_columns_clean.append(col)


print("non categorical final: " + str(len(non_categorical_columns_clean)))
print("categorical final: " + str(len(categorical_columns)))
print(new_categorical_columns)

Imprimimos los valores que tienen las variables numéricas que consideramos categóricas:

In [None]:
for col in new_categorical_columns:
    print(col)
    print(data[col].value_counts())
    print('---')

Las nuevas columnas categóricas están en la variable `new_categorical_columns`

In [None]:
data[new_categorical_columns] = data[new_categorical_columns].astype(np.object)    

## Ejercicio 3 - Valores nulos

Calculemos el porcentaje de nulos en cada columna.

Eliminemos aquellas columnas que tengan al menos el 40% de los registros con valores nulos.

Eliminemos aquellos registros que tengan al menos un valor nulo en las columnas que no fueron eliminadas en el paso anterior.

Eliminemos la columna `Id` del dataset

In [None]:
# tam de los datos originales:
print(data.shape)
nans = pd.isnull(data).sum() / data.shape[0]
columns_to_drop = nans[nans > 0.4]
# columnas a dropear y porcentaje de nulos
print(columns_to_drop)
column_names = columns_to_drop.index
print(column_names)
for column_name in column_names:
    data=data.drop(column_name, 1)
# tam de los datos después de dropear columnas:
print(data.shape)    

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

print(data.shape)
data_complete = data.dropna(axis=0, how='any')
print(data_complete.shape)

In [None]:
data_complete = data_complete.drop('Id', axis = 'columns')
data_complete.shape

## Ejercicio 4 - Train test sets

Dividamos el dataset de registros completos en 70-30 train test, definiendo como X_train, X_test las matrices de features e Y_train, Y_test los vectores target.


In [None]:
X = data_complete.drop('SalePrice', axis = 1)
Y = data_complete[['SalePrice']]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 1237)

## Ejercicio 5 - Feature engineering

**5.1** Usemos one hot encoding para transformar las variables categóricas de los dataset de train y test

**5.2** Usemos StandardScaler para transformar las variables numéricas de los dataset de train y test

In [None]:
# 5.1

# recalculo categorical_columns porque hay algunas columnas que fueron dropeadas por % de nulos:
categorical_columns = [col for col in data_complete.columns if data[col].dtypes == 'object']

encoder_categories = []

for col in categorical_columns:    
    col_categories = data_complete[col].unique()
    encoder_categories.append(col_categories)

#encoder_categories

In [None]:
encoder = OneHotEncoder(categories = encoder_categories, sparse=False)

encoder = encoder.fit(X_train[categorical_columns])
    
X_train_encoded = encoder.transform(X_train[categorical_columns])
X_train_categorical = pd.DataFrame(X_train_encoded, columns = encoder.get_feature_names(categorical_columns))
#X_train_categorical.sample(5)

X_test_encoded = encoder.transform(X_test[categorical_columns])
X_test_categorical = pd.DataFrame(X_test_encoded, columns = encoder.get_feature_names(categorical_columns))
X_test_categorical.head()

In [None]:
# 5.2

non_categorical_columns = [col for col in X_train.columns if col not in categorical_columns]
non_categorical_columns

std_sclr = StandardScaler()
std_sclr_trained = std_sclr.fit(X_train[non_categorical_columns])
X_train_numerical = std_sclr_trained.transform(X_train[non_categorical_columns])
X_train_numerical_scaled = pd.DataFrame(X_train_numerical, columns = non_categorical_columns)
X_train_numerical_scaled.head()

In [None]:
X_test_numerical = std_sclr_trained.transform(X_test[non_categorical_columns])
X_test_numerical_scaled = pd.DataFrame(X_test_numerical, columns = non_categorical_columns)
X_test_numerical_scaled.head()

In [None]:
std_sclr_target = StandardScaler()
std_sclr_target_trained = std_sclr_target.fit(Y_train)
Y_train_numerical = std_sclr_target_trained.transform(Y_train)
#Y_train_numerical

Y_test_numerical = std_sclr_target_trained.transform(Y_test)
#Y_test_numerical

In [None]:
X_train_transf = pd.concat([X_train_categorical, X_train_numerical_scaled], axis = 1)
print(X_train_categorical.shape)
print(X_train_numerical_scaled.shape)
print(X_train_transf.shape)

In [None]:
X_test_transf = pd.concat([X_test_categorical, X_test_numerical_scaled], axis = 1)
print(X_test_categorical.shape)
print(X_test_numerical_scaled.shape)
print(X_test_transf.shape)


## Ejercicio 6 - Regresión lineal

**6.1** Constuyamos un modelo de regresión lineal múltiple sobre los datasets de train y test transformados.

**6.2** Construyamos otro modelo usando regularización Lasso

**6.2** Construyamos un terecer modelo usando regularización Ridge

Para los tres modelos calculemos:
* mean_absolute_error
* mean_squared_error
* raiz cuadrada de mean_squared_error
* r2

In [None]:
linreg = linear_model.LinearRegression()
linreg.fit(X_train_transf, Y_train_numerical)
Y_pred = linreg.predict(X_test_transf)

true_values = Y_test_numerical
predicted_values = Y_pred

In [None]:
reg_metrics = pd.Series([
                metrics.mean_absolute_error(true_values, predicted_values), 
                metrics.mean_squared_error(true_values, predicted_values),
                np.sqrt(metrics.mean_squared_error(true_values, predicted_values)),
                metrics.r2_score(true_values, predicted_values)])


reg_metrics.index = ['Mean Absolute Error:', 'Mean Squared Error:', 'RMSE:', 'R2:']

print(reg_metrics)

Regularización Lasso

In [None]:
lasso = linear_model.Lasso(alpha=0.1)
lasso.fit(X_train_transf, Y_train_numerical)
Y_pred = lasso.predict(X_test_transf)

true_values = Y_test_numerical
predicted_values = Y_pred

lasso_metrics = pd.Series([
                metrics.mean_absolute_error(true_values, predicted_values), 
                metrics.mean_squared_error(true_values, predicted_values),
                np.sqrt(metrics.mean_squared_error(true_values, predicted_values)),
                metrics.r2_score(true_values, predicted_values)])


lasso_metrics.index = ['Mean Absolute Error:', 'Mean Squared Error:', 'RMSE:', 'R2:']

print(lasso_metrics)

Regularización Ridge

In [None]:
ridge = linear_model.Ridge(alpha=0.1)
ridge.fit(X_train_transf, Y_train_numerical)
Y_pred = ridge.predict(X_test_transf)

true_values = Y_test_numerical
predicted_values = Y_pred

ridge_metrics = pd.Series([
                metrics.mean_absolute_error(true_values, predicted_values), 
                metrics.mean_squared_error(true_values, predicted_values),
                np.sqrt(metrics.mean_squared_error(true_values, predicted_values)),
                metrics.r2_score(true_values, predicted_values)])


ridge_metrics.index = ['Mean Absolute Error:', 'Mean Squared Error:', 'RMSE:', 'R2:']

print(ridge_metrics)

## Ejercicio 7 - PCA

Grafiquemos la varianza explicada por 100, 50 y 30 componentes principales del dataset de train transformado con one hot encoding y StandardScaler


In [None]:
def plot_explained_variance(components_count, X):

    model_pca = PCA(components_count).fit(X)

    explained_variance = model_pca.explained_variance_ratio_

    #print(explained_variance)

    cumulative_explained_variance = np.cumsum(explained_variance)

    #print(cumulative_explained_variance)

    plt.plot(cumulative_explained_variance)
    plt.xlabel('número de componentes')
    plt.ylabel('% de varianza explicada');
        

In [None]:
plot_explained_variance(components_count = 100, X = X_train_transf)

In [None]:
plot_explained_variance(components_count = 50, X = X_train_transf)

In [None]:
plot_explained_variance(components_count = 30, X = X_train_transf)

## Ejercicio 8 - Proyección sobre las componentes principales del conjunto de entrenamiento

Construyamos un conjunto de entrenamiento y uno de test para una regresión lineal usando las primeras 30 componentes principales del conjunto de entrenamiento usado en la regresión lineal del ejercicio anterior.

In [None]:
model_pca = PCA(30).fit(X_train_transf)
X_train_PCA = model_pca.transform(X_train_transf)
X_test_PCA = model_pca.transform(X_test_transf)

## Ejercicio 9 - Regresión lineal sobre componentes principales

**6.1** Constuyamos un modelo de regresión lineal múltiple sobre los datasets de train y test usando como features la proyección sobre las componentes principales calculadas en el ejercicio anterior. ¿Qué supuesto podemos asegurar que se cumple usando las componentes principales como variables explicativas?

**6.2** Construyamos otro modelo usando regularización Lasso sobre los mismos features que en 6.1

**6.2** Construyamos un terecer modelo usando regularización Ridge sobre los mismos features que en 6.1

Para los tres modelos calculemos:
* mean_absolute_error
* mean_squared_error
* raiz cuadrada de mean_squared_error
* r2

In [None]:
# cada una de las "nuevas" variables después de PCA son independientes entre sí. 
# los supuestos de un modelo lineal requieren que nuestras variables independientes sean independientes entre sí. 
# Si ajustamos un modelo de regresión lineal con estas "nuevas" variables, este supuesto necesariamente se cumplirá.

linreg_pca = linear_model.LinearRegression()
linreg_pca.fit(X_train_PCA, Y_train_numerical)
# linear_fit
Y_pred = linreg_pca.predict(X_test_PCA)

true_values = Y_test_numerical
predicted_values = Y_pred

In [None]:
reg_pca_metrics = pd.Series([
                metrics.mean_absolute_error(true_values, predicted_values), 
                metrics.mean_squared_error(true_values, predicted_values),
                np.sqrt(metrics.mean_squared_error(true_values, predicted_values)),
                metrics.r2_score(true_values, predicted_values)])


reg_pca_metrics.index = ['Mean Absolute Error:', 'Mean Squared Error:', 'RMSE:', 'R2:']

print(reg_pca_metrics)

In [None]:
lasso = linear_model.Lasso(alpha=0.1)
lasso.fit(X_train_PCA, Y_train_numerical)
Y_pred = lasso.predict(X_test_PCA)

true_values = Y_test_numerical
predicted_values = Y_pred

lasso_pca_metrics = pd.Series([
                metrics.mean_absolute_error(true_values, predicted_values), 
                metrics.mean_squared_error(true_values, predicted_values),
                np.sqrt(metrics.mean_squared_error(true_values, predicted_values)),
                metrics.r2_score(true_values, predicted_values)])


lasso_pca_metrics.index = ['Mean Absolute Error:', 'Mean Squared Error:', 'RMSE:', 'R2:']

print(lasso_pca_metrics)

In [None]:
ridge = linear_model.Ridge(alpha=0.1)
ridge.fit(X_train_PCA, Y_train_numerical)
Y_pred = ridge.predict(X_test_PCA)

true_values = Y_test_numerical
predicted_values = Y_pred

ridge_pca_metrics = pd.Series([
                metrics.mean_absolute_error(true_values, predicted_values), 
                metrics.mean_squared_error(true_values, predicted_values),
                np.sqrt(metrics.mean_squared_error(true_values, predicted_values)),
                metrics.r2_score(true_values, predicted_values)])


ridge_pca_metrics.index = ['Mean Absolute Error:', 'Mean Squared Error:', 'RMSE:', 'R2:']

print(ridge_pca_metrics)

In [None]:
metrics = pd.DataFrame([reg_metrics, lasso_metrics, ridge_metrics, 
                        reg_pca_metrics, lasso_pca_metrics, ridge_pca_metrics ])
metrics.index = ["regresion lineal", "lasso", "ridge", "pca - regresion lineal", "pca - lasso", "pca - ridge"]
metrics

Vemos que, para la regresión lineal múltiple, todas las métricas que obtenemos con el modelo entrenado con las componentes principales son mejores que las del modelo sin esta transformación.

Con regularización de Lasso o Ridge no son tan evidentes las diferencias entre usar o no la proyección sobre las componenetes principales.

Una ventaja de este segundo modelo es que usa 30 features mientras que el primero usa 280.

Como ejercicio adicional, repitan los tres modelos usando en el ejercicio 5 
`encoder = OneHotEncoder(categories = encoder_categories, sparse=False, drop="first")`

Y comparen estos nuevos resultados.

**¿Qué significa que R2 sea negativo?**

## Referencias

https://www.kaggle.com/miguelangelnieto/pca-and-regression