## Unidad 5: Regresión Lineal
### Actividad 10

## Sobre el ejemplo


* En esta sesión trabajaremos una base de datos sobre los precios de las viviendas en Boston, utilizada en el paper _Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of environmental economics and management, 5(1), 81-102._

* Nuestro objetivo es desarrollar un modelo predictivo para el valor mediano de las casas mediante el entrenamiento de un modelo de regresión lineal. 


`crim`: Tasa de criminalidad por sector de Boston

`zn` proporción de terreno residencial asignado para terrenos baldíos.

`indus` proporción de negocios no asociados al comercio por sector.

`chas` Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.

`nox` Concentración de dióxido de carbono

`rm` cantidad promedio de habitaciones por  casa.

`age` proporción de casas construídas antes de 1940

`dis` distancia promedio a cinco centros de empleos.

`rad` índice de accesibilidad a autopistas.

`tax` nivel de impuestos asociados a viviendas.

`ptratio` razón alumno:profesor por sector de Boston.

`black` proporción de afroamericanos por sector de Boston.

`lstat` porcentaje de población de estratos bajos.

`medv` valor mediano de las casas 

## Ejercicio 1: Prepare el ambiente de trabajo

* Importe las librerías básicas para el análisis de datos.
* Importe el módulo `linear_model`, y las funciones `mean_squared_error`, `r2_score` y `train_test_split`.
* Importe la base de datos `boston.csv` y elimine la columna `Unnamed: 0`.
* Obtenga las medidas descriptivas de la base de datos con `.describe()`.

In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn import linear_model

In [2]:
df = pd.read_csv('boston.csv')
df = df.drop(columns="Unnamed: 0")

In [3]:
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


## Ejercicio 2: División de la muestra

* Genere conjuntos de entrenamiento y validación con `train_test_split`.
* Genere segmentaciones del 33% para las muestras de validación.
* Incluya una semilla pseudoaleatoria

In [4]:
y_vec = df.loc[:,'medv']
x_mat = df.loc[:,'crim':'lstat']

x_train, x_test, y_train, y_test = train_test_split(x_mat, y_vec, test_size=.33, random_state=250992)

## Ejercicio 3: Generación de modelos

* Ahora implementaremos dos versiones del modelo lineal:
    1. Con intercepto y atributos normalizados.
    - Sin intercepto y atributos no normalizados.

* Cada versión debe generarse en un nuevo objeto inicializado.
* Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
* Con los modelos entrenados, genere una predicción de matriz de validación.

In [5]:
model_1 = linear_model.LinearRegression(fit_intercept=True, normalize=True)
model_2 = linear_model.LinearRegression(fit_intercept=False, normalize=False)

In [6]:
model_1.fit(x_train,y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=True)

In [7]:
model_2.fit(x_train,y_train)

LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False)

In [8]:
model_1_yhat = model_1.predict(x_test)
model_2_yhat = model_2.predict(x_test)

## Ejercicio 4: Obtención de métricas 

* Ahora generemos una función llamada `report_scores` que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
* La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
* Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [9]:
def report_scores(y_predecido,y_testing):
    print("Error Cuadrático Promedio: {}".format(mean_squared_error(y_testing, y_predecido)))
    print("r2: {}".format(r2_score(y_testing, y_predecido)))

In [10]:
report_scores(model_1_yhat, y_test)

Error Cuadrático Promedio: 24.496692655297462
r2: 0.7283042173224726


In [11]:
report_scores(model_2_yhat, y_test)

Error Cuadrático Promedio: 27.99787014726324
r2: 0.6894722340683221


Dado que el `modelo_1` tiene menor error cuadrático promedio, es el mejor modelo. Importante recordar que es el modelo que tiene intercepto y atributos normalizados.

## Ejercicio 5: Refactorización del modelo

* Genere una función llamada `fetch_features` que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser `medv` por defecto
* La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
* Reporte brevemente cuales los 6 atributos con una mayor correlación con `medv`

In [12]:
def fetch_features(dataframe, y='medv'):
    columns = dataframe.columns
    attr_name = []
    pearson_r = []
    abs_pearson_r = []
    
    for col in columns:
        if col != y:
            attr_name.append(col + '-' + y)
            pearson_r.append(dataframe[col].corr(dataframe[y]))
            abs_pearson_r.append(abs(dataframe[col].corr(dataframe[y])))
    features = pd.DataFrame({
        'attribute' : attr_name,
        'corr' : pearson_r,
        'abs_corr': abs_pearson_r
    })
    
    features = features.set_index('attribute')
    features.sort_values(by=['abs_corr'],ascending = False)
    
    return features

In [13]:
fetch_features(df).sort_values(by='abs_corr', ascending = False).head(6)

Unnamed: 0_level_0,corr,abs_corr
attribute,Unnamed: 1_level_1,Unnamed: 2_level_1
lstat-medv,-0.737663,0.737663
rm-medv,0.69536,0.69536
ptratio-medv,-0.507787,0.507787
indus-medv,-0.483725,0.483725
tax-medv,-0.468536,0.468536
nox-medv,-0.427321,0.427321


## Ejercicio 6: Refactorización del modelo predictivo

* Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.
* Entrene un modelo en base al mejor desempeño.
* Reporte las métricas para el nuevo modelo.


In [33]:
y_vec = df.loc[:,'medv']
x_mat = df.loc[:,['lstat','rm','ptratio','indus','tax','nox']]

x_train, x_test, y_train, y_test = train_test_split(x_mat, y_vec, test_size=.33, random_state=250992)

In [39]:
model_1_alt = linear_model.LinearRegression(fit_intercept=True, normalize=True)
model_2_alt = linear_model.LinearRegression(fit_intercept=False, normalize=False)

In [40]:
model_1_alt.fit(x_train,y_train)
model_2_alt.fit(x_train,y_train)

LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False)

In [42]:
model_1_alt_yhat = model_1_alt.predict(x_test)
model_2_alt_yhat = model_2_alt.predict(x_test)

In [43]:
report_scores(model_1_alt_yhat, y_test)

Error Cuadrático Promedio: 28.387952651798454
r2: 0.6851457818051596


In [44]:
report_scores(model_2_alt_yhat, y_test)

Error Cuadrático Promedio: 30.124354432591176
r2: 0.665887139525827


Dado que el `modelo_1_alt` tiene menor error cuadrático promedio, es mejor modelo que `modelo_2_alt`. Importante recordar que este modelo tiene intercepto y los atributos normalizados.

En comparación con `modelo_1`, se puede observar que el `modelo_1_alt` tiene un menor error cuadrático promedio(24.50 vs 28.39), por lo cual, el modelo funciona mejor con todos los atributos que con los 6 seleccionados.