**NOMBRE ALUMNO:** Jonathan Rodriguez

**FECHA:** 21-11-19

## Desafío - Regresión desde el aprendizaje de máquinas

### Contexto
En esta sesión trabajaremos una base de datos sobre los precios de las viviendas en Boston,
utilizada en el paper *Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the
demand for clean air. Journal of environmental economics and management, 5(1), 81-102.*

Nuestro objetivo es desarrollar un modelo predictivo para el valor medio de las casas mediante el
entrenamiento de un modelo de regresión lineal.

`crim` : Tasa de criminalidad por sector de Boston.

`zn`   : Proporción de terreno residencial asignado para terrenos baldíos.

`indus`: Proporción de negocios no asociados al comercio por sector.

`chas` : Dummy, 1 si el sector colinda con el río Charles, 0 de lo contrario.

`nox`  : Concentración de dióxido de carbono.

`rm`   : Cantidad promedio de habitaciones por casa.

`age`  : Proporción de casas construídas antes de 1940.

`dis`  : Distancia promedio a cinco centros de empleos.

`rad`  : Índice de accesibilidad a autopistas.

`tax`  : Nivel de impuestos asociados a viviendas.

`ptratio` : Razón alumno:profesor por sector de Boston.

`black` : Proporción de afroamericanos por sector de Boston.

`lstat` : Porcentaje de población de estratos bajos.

`medv` : Valor medio de las casas.

### Desafío 1: Prepare el ambiente de trabajo
* Importe las librerías básicas para el análisis de datos.
* Importe el módulo `linear_model` , y las funciones `mean_squared_error` , `r2_score` y `train_test_split`.
* Importe la base de datos `boston.csv`y elimine la columna `Unnamed: 0`.
* Obtenga las medidas descriptivas de la base de datos con `describe()`.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

df = pd.read_csv('boston.csv').drop(columns='Unnamed: 0')
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


### Desafío 2: División de la muestra
* Genere conjuntos de entrenamiento y validación con `train_test_split`.
* Genere segmentaciones del 33% para las muestras de validación.
* Incluya una semilla pseudoaleatoria.

In [2]:
x_mat = df.loc[:,'crim':'lstat']
y_vec = df.loc[:, 'medv']

In [3]:
X_train, X_test, y_train, y_test = train_test_split(x_mat, y_vec, test_size=.33, random_state=12345)

### Desafío 3: Generación de modelos
* Ahora implementaremos 4 versiones del modelo lineal:
    * Con intercepto y atributos normalizados.
    * Con intercepto y atributos no normalizados.
    * Sin intercepto y atributos normalizados.
    * Sin intercepto y atributos no normalizados.
* Cada versión debe generarse en un nuevo objeto inicializado.
* Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
* Con los modelos entrenados, genere una predicción de matriz de validación.

In [4]:
modelo_con_intercepto_normalizado = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo_con_intercepto_normalizado = modelo_con_intercepto_normalizado.fit(X_train, y_train)
modelo_con_intercepto_normalizado_yhat = modelo_con_intercepto_normalizado.predict(X_test)

In [5]:
modelo_con_intercepto_no_normalizado = linear_model.LinearRegression(fit_intercept=True, normalize=False)
modelo_con_intercepto_no_normalizado = modelo_con_intercepto_no_normalizado.fit(X_train, y_train)
modelo_con_intercepto_no_normalizado_yhat = modelo_con_intercepto_no_normalizado.predict(X_test)

In [6]:
modelo_sin_intercepto_normalizado = linear_model.LinearRegression(fit_intercept=False, normalize=True)
modelo_sin_intercepto_normalizado = modelo_sin_intercepto_normalizado.fit(X_train, y_train)
modelo_sin_intercepto_normalizado_yhat = modelo_sin_intercepto_normalizado.predict(X_test)

In [7]:
modelo_sin_intercepto_sin_normalizado = linear_model.LinearRegression(fit_intercept=False, normalize=False)
modelo_sin_intercepto_sin_normalizado = modelo_sin_intercepto_sin_normalizado.fit(X_train, y_train)
modelo_sin_intercepto_sin_normalizado_yhat = modelo_sin_intercepto_sin_normalizado.predict(X_test)

### Desafío 4: Obtención de métricas
* Ahora generemos una función llamada `report_scores` que ingrese como argumentos: el vector de datos predichos y el vector de datos por validar.
* La función debe imprimir las métricas del Error Cuadrático Promedio y $R^2$.
* Reporte las métricas para los 4 modelos del **Desafío 3**, en base a ello, seleccione el mejor modelo.

In [8]:
def report_scores(purge_model_yhat, y_test):
    m2_mse = mean_squared_error(y_test, purge_model_yhat)
    m2_r2 = r2_score(y_test, purge_model_yhat)
    print("Error Cuadrático Promedio: {}".format(m2_mse))
    print("R^2: {}".format(m2_r2));

In [9]:
report_scores(modelo_con_intercepto_normalizado_yhat, y_test)

Error Cuadrático Promedio: 20.9399511098467
R^2: 0.7038942662506773


In [10]:
report_scores(modelo_con_intercepto_no_normalizado_yhat, y_test)

Error Cuadrático Promedio: 20.93995110984691
R^2: 0.7038942662506744


In [11]:
report_scores(modelo_sin_intercepto_normalizado_yhat, y_test)

Error Cuadrático Promedio: 24.59379996775459
R^2: 0.652226256549777


In [12]:
report_scores(modelo_sin_intercepto_sin_normalizado_yhat, y_test)

Error Cuadrático Promedio: 24.59379996775459
R^2: 0.652226256549777


En función a los resultados obtenidos se decide establecer aquel modelo que presente un menor error cuadrático promedio.

En este caso se seleccionaría el primer modelo

### Desafío 5: Refactorización del modelo
* Genere una función llamada `fetch_features` que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser `medv` por defecto
* La función debe retornar una lista con las correlaciones absolutas entre cada atributo y el vector objetivo y su nombre.
* Reporte brevemente cuales los 6 atributos con una mayor correlación con `medv`.

In [13]:
def fetch_features(dataframe,vector='medv'):
    tmp_df = pd.DataFrame(columns=['corr'])
    for column in df.columns.unique():
        if column != vector:
            tmp_df.at[column, 'corr'] = abs(df[column].corr(df[vector]))
    print('Atributos con mayor correlación con medv \n')        
    print(tmp_df.sort_values(by=['corr'], ascending=False)[:6])
    return tmp_df 

In [14]:
fetch_features(df)

Atributos con mayor correlación con medv 

             corr
lstat    0.737663
rm        0.69536
ptratio  0.507787
indus    0.483725
tax      0.468536
nox      0.427321


Unnamed: 0,corr
crim,0.388305
zn,0.360445
indus,0.483725
chas,0.17526
nox,0.427321
rm,0.69536
age,0.376955
dis,0.249929
rad,0.381626
tax,0.468536


### Desafío 6: Refactorización del modelo predictivo
* Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.
* Entrene el modelo.
* Reporte las métricas para el nuevo modelo.

In [15]:
X_mat_six = df.loc[:, ['lstat','rm','ptratio','indus','tax','nox']] 
y_vec_six = df.loc[:, 'medv']

In [16]:
X_train_six, X_test_six, y_train_six, y_test_six = train_test_split(X_mat_six, y_vec_six,test_size=.33, random_state=12345)
modelo_con_intercepto_normalizado_six = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo_con_intercepto_normalizado_six = modelo_con_intercepto_normalizado_six.fit(X_train_six, y_train_six)
modelo_con_intercepto_normalizado_six_yhat = modelo_con_intercepto_normalizado_six.predict(X_test_six)

In [17]:
report_scores(modelo_con_intercepto_normalizado_six_yhat, y_test_six)

Error Cuadrático Promedio: 26.511557273223865
R^2: 0.6251078105175856


In [18]:
X_train_six, X_test_six, y_train_six, y_test_six = train_test_split(X_mat_six, y_vec_six,test_size=.33, random_state=12345)
modelo_con_intercepto_normalizado_six = linear_model.LinearRegression(fit_intercept=True, normalize=False)
modelo_con_intercepto_normalizado_six = modelo_con_intercepto_normalizado_six.fit(X_train_six, y_train_six)
modelo_con_intercepto_normalizado_six_yhat = modelo_con_intercepto_normalizado_six.predict(X_test_six)

In [19]:
report_scores(modelo_con_intercepto_normalizado_six_yhat, y_test_six)

Error Cuadrático Promedio: 26.511557273224
R^2: 0.6251078105175836


In [20]:
X_train_six, X_test_six, y_train_six, y_test_six = train_test_split(X_mat_six, y_vec_six,test_size=.33, random_state=12345)
modelo_con_intercepto_normalizado_six = linear_model.LinearRegression(fit_intercept=False, normalize=True)
modelo_con_intercepto_normalizado_six = modelo_con_intercepto_normalizado_six.fit(X_train_six, y_train_six)
modelo_con_intercepto_normalizado_six_yhat = modelo_con_intercepto_normalizado_six.predict(X_test_six)

In [21]:
report_scores(modelo_con_intercepto_normalizado_six_yhat, y_test_six)

Error Cuadrático Promedio: 27.908073453697906
R^2: 0.6053600830208572


In [22]:
X_train_six, X_test_six, y_train_six, y_test_six = train_test_split(X_mat_six, y_vec_six,test_size=.33, random_state=12345)
modelo_con_intercepto_normalizado_six = linear_model.LinearRegression(fit_intercept=False, normalize=False)
modelo_con_intercepto_normalizado_six = modelo_con_intercepto_normalizado_six.fit(X_train_six, y_train_six)
modelo_con_intercepto_normalizado_six_yhat = modelo_con_intercepto_normalizado_six.predict(X_test_six)

In [23]:
report_scores(modelo_con_intercepto_normalizado_six_yhat, y_test_six)

Error Cuadrático Promedio: 27.908073453697906
R^2: 0.6053600830208572


### En función de los cálculos realizados previamente: el que posee el menor error cuadrático medio es el primer modelo por tanto nuestro modelo seleccionado para este caso será:

In [24]:
X_train_six, X_test_six, y_train_six, y_test_six = train_test_split(X_mat_six, y_vec_six,test_size=.33, random_state=12345)
modelo_con_intercepto_normalizado_six = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo_con_intercepto_normalizado_six = modelo_con_intercepto_normalizado_six.fit(X_train_six, y_train_six)
modelo_con_intercepto_normalizado_six_yhat = modelo_con_intercepto_normalizado_six.predict(X_test_six)

In [25]:
report_scores(modelo_con_intercepto_normalizado_six_yhat, y_test_six)

Error Cuadrático Promedio: 26.511557273223865
R^2: 0.6251078105175856


### Desafío 7: Predicción de casos
A continuación se generaron dos arrays que representan el peor escenario posible:

`worst_neighbor : [37.9, 12.6, 3.5, 27.7, 187, 0.87]`

y el mejor escenario posible

`best_neighbor : [1.73, 22, 8.7, 0.46, 711, 0.38]`

Ingrese los arrays en el modelo entrenado y reporte cuál sería el valor esperado dada las
condiciones. Trate de interpretar

#### A pesar de que el enunciado maneja el orden: best_neighbor [1.73, 22, 8.7, 0.46, 711, 0.38] y worst_neighbor : [37.9, 12.6, 3.5, 27.7, 187, 0.87]
#### el orden correcto es:
#### best_neighbor [1.73, 8.7, 22, 0.46, 711, 0.38]
#### worst_neighbor [37.9, 3.5, 12.6, 27.7, 187, 0.87]

In [27]:
X_mat = df.loc[:, ['lstat','rm','ptratio','indus','tax','nox']] 
worst_neighbor = np.array([37.9, 3.5, 12.6, 27.7, 187, 0.87]).reshape(1, -1)
best_neighbor = np.array([1.73, 8.7, 22, 0.46, 711, 0.38]).reshape(1, -1)

In [28]:
modelo_con_intercepto_normalizado_six.predict(best_neighbor)

array([36.33336475])

In [29]:
modelo_con_intercepto_normalizado_six.predict(worst_neighbor)

array([2.13221312])

Para el mejor de los casos el valor medio de las casas será de 36.33 unidades de medida y para el peor escenario será de 2.13 unidades de medida aproximadamente