# House prices with Linear, Lasso and Ridge regressions using Pipelines

En este notebook trabajaremos el uso de `Pipelines` para estimar los precios de casas utilizando `Lineal`, `Lasso` y `Ridge` regressions.

Los datos que aquí trabajamos pueden ser bajados de [Kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data).

In [None]:
# Se cargan las librerías que se van a utilizar en ambos ejemplos
import math
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import sklearn

from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer

from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import make_pipeline

# OBSERVACI´ON:
# Otra posible mejora de este modelo podría ser utilizando regresión polinómica en combinación a Linear, Lasso o 
# Ridge. 
from sklearn.preprocessing import PolynomialFeatures  # <------ library to perform Polynomial Regression

from sklearn.linear_model import Ridge
from sklearn.linear_model import LinearRegression

from sklearn import metrics
from sklearn.metrics import mean_squared_error

from sklearn.preprocessing import scale 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OrdinalEncoder, OneHotEncoder

pd.set_option('display.max_rows', 90) # by default is 10, if change to None print ALL
pd.set_option('display.max_columns', 90) # by default is 10, if change to None print ALL

# Cargado de datos

Es importante notar que tenemos dos archivos:

 - `train.csv` contiene los datos que utilizaremos para encontrar el modelo adecuado; en particular, contiene una muestra de `X` con sus respectivas `y`.
 - `test.csv` contiene los datos que utilizaremos para hacer nuetra `submission` la página de Kaggle; en particular, contiene una muestra de `X` PERO NO TIENE LAS RESPECTIVAS `y`.
 
Los datos del archivo `train.csv` los separaremos en `X_train`, `X_test`, `y_train` y `y_test` para ajustar y probar nuestro modelo. No utilizamos los datos del archivo `test.csv` para encontrar nuestro modelo ya que no contiene la variable `y` correspondiente.

In [None]:
## 1) EXTRAER DATOS
# Los datos pueden encontrarse en diferentes formatos, en nuestro caso están en formato csv.

# Se carga la base de datos
train = pd.read_csv('train.csv') #Se encuentra en la misma carpeta que el jupyter notebook
test = pd.read_csv('test.csv') #Se encuentra en la misma carpeta que el jupyter notebook
train

Podemos notar que las nuevas dataframe que hicimos (`train` y `test`) son de diferentes tamaños, ya que `test` no tiene las variable dependiente.

In [None]:
print(train.shape) 
print(test.shape) 

# Eliminate of some columns 

Veamos a eleminar las columnas que tienen más del 50% de sus valores como nulas en train

In [None]:
col_plus_50percent_null = train.isnull().sum()[train.isnull().sum()>train.shape[0]/2]
col_plus_50percent_null

Observemos que también hay casi las mismas columnas en test 

In [None]:
test.isnull().sum()[test.isnull().sum()>test.shape[0]/2]

Entonces nos queda 

In [None]:
features_drop = ['PoolQC','MiscFeature','Alley','Fence']
train = train.drop(features_drop, axis=1)
test  =  test.drop(features_drop, axis=1)  

Comprovemos que ya no tenemos esas variables

In [None]:
col_plus_50percent_null = train.isnull().sum()[train.isnull().sum()>train.shape[0]/2]
col_plus_50percent_null

In [None]:
test.isnull().sum()[test.isnull().sum()>test.shape[0]/2]

# Separación de variables

Separemos las variables en `X_train`, `X_test`, `y_train`, `y_test`, al igual que elijamos que columnas son numericas, ordinales y nominales

In [None]:

numerical = train.select_dtypes(include=np.number).columns.tolist()
numerical.remove('Id')
numerical.remove('SalePrice')

nominal = train.select_dtypes(exclude=np.number).columns.tolist()

# OBSERVACION: 
# Para mejorar el modelo podríamos utilizar agregar variables ordinales a para mejorar el ajuste.
# Un ejemplo de variables ordinales es el siguiente:
# 
# ordinal = ["LandSlope", "OverallQual", "OverallCond", "YearRemodAdd",
#           "ExterQual", "ExterCond", "BsmtQual", "BsmtCond", "BsmtExposure",
#           "KitchenQual", "Functional", "GarageCond", "PavedDrive"]

ordinal = []

X = train[nominal + ordinal + numerical] #LotFrontage y MasVnrType tiene NaNs
y = train['SalePrice']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 

X_REAL_test = test[nominal + ordinal + numerical]

# Pipelines auxiliares

Para separar mejor el procesamiento de nuestros datos, utilizamos tres pipelines auxiliares

In [None]:
# Pipeline datos ordinales
ordinal_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OrdinalEncoder())
])

# Pipeline datos nominales
nominal_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OneHotEncoder(sparse=True, handle_unknown="ignore"))
])

# Pipeline datos numéricos
numerical_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="mean")),
    ("scaler", StandardScaler())
])

# Pegado de los tres pipelines
preprocessing_pipeline = ColumnTransformer([
    ("nominal_preprocessor", nominal_pipeline, nominal),
    ("ordinal_preprocessor", ordinal_pipeline, ordinal),
    ("numerical_preprocessor", numerical_pipeline, numerical)
])


Finalmente agregamos todo en un solo pipeline

In [None]:
# preprocessed_features = preprocessing_pipeline.fit_transform(train_features)

# ML_model = Lasso(alpha=190)
# ML_model = Ridge(alpha=20)
ML_model = LinearRegression()

complete_pipeline = Pipeline([
    ("preprocessor", preprocessing_pipeline),
    ("estimator", ML_model)
])

In [None]:
complete_pipeline

# Predicciones

In [None]:
complete_pipeline.fit(X_train, y_train)
y_pred = complete_pipeline.predict(X_test)

print('ERRORS OF PREDICTIONS')
print('MAE:', metrics.mean_absolute_error(y_test, y_pred)) 
print('MSE:', metrics.mean_squared_error(y_test, y_pred)) 
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred))) 
print('r2_score:', r2_score(y_test, y_pred)) 

p1 = max(max(y_pred), max(y_test))
p2 = min(min(y_pred), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.scatter(y_test,y_pred)

# Generación de archivo para Kaggle

In [None]:
y_REAL_test = complete_pipeline.predict(X_REAL_test)

pred=pd.DataFrame(y_REAL_test)
sub_df=pd.read_csv('sample_submission.csv')
datasets=pd.concat([sub_df['Id'],pred],axis=1)
datasets.columns=['Id','SalePrice']
datasets.to_csv('sample_submission.csv',index=False)

Para subir el archivo es [aquí](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview/evaluation)

# Búsqueda de hiperparámetros
A continuación mostramos como fue que eligimos los parámetros `alpha` para los modelos `Lasso` y `Ridge` utilizando el comando `GridSearchCV`.

# Encontrando alpha de Lasso (alpha = 180)

In [None]:
parameters={'alpha':[100,150,170,180,190,200,220,250,300]}
ML_model=Lasso()
grid = GridSearchCV(ML_model,parameters,scoring='neg_mean_squared_error',cv=5)
grid.fit(preprocessing_pipeline.fit_transform(X_train),y_train)
# Convert the results of CV into a dataframe
results = pd.DataFrame(grid.cv_results_)[['params', 'mean_test_score', 'rank_test_score']]
results.sort_values('rank_test_score')

# Encontrando alpha de Ridge (alpha = 20)

In [None]:
parameters={'alpha':[1e-15,1e-10,1e-8,1e-3,1e-2,1,5,10,20,30,35,40,45,50,55,100,200,300]}
ML_model=Ridge()
grid = GridSearchCV(ML_model,parameters,scoring='neg_mean_squared_error',cv=5)
grid.fit(preprocessing_pipeline.fit_transform(X_train),y_train)
# Convert the results of CV into a dataframe
results = pd.DataFrame(grid.cv_results_)[['params', 'mean_test_score', 'rank_test_score']]
results.sort_values('rank_test_score')