## Desafío - Regresión desde el aprendizaje de máquinas
### Cristian Vidal Muñoz

En esta sesión trabajaremos una base de datos sobre los precios de las viviendas en Boston, utilizada en el paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of environmental economics and management, 5(1), 81-102.<br>

Nuestro objetivo es __desarrollar un modelo predictivo para el valor mediano de las casas (medv)__ mediante el entrenamiento de un modelo de regresión lineal.


- __crim :__ Tasa de criminalidad por sector de Boston
- __zn :__ proporción de terreno residencial asignado para terrenos baldíos.
- __indus :__ proporción de negocios no asociados al comercio por sector.
- __chas :__ Dummy 1: Si el sector colinda con el río Charles, 0: de lo contrario.
- __nox :__ Concentración de Dioxido de Carbono.
- __rm :__ cantidad promedio de habitaciones por casa.
- __age :__ proporción de casas construídas antes de 1940 
- __dis :__ distancia promedio a cinco centros de empleos. 
- __rad :__ índice de accesibilidad a autopistas.
- __tax :__ nivel de impuestos asociados a viviendas. 
- __ptratio :__ razón alumno:profesor por sector de Boston.
- __black :__ proporción de afroamericanos por sector de Boston.
- __lstat :__ porcentaje de población de estratos bajos.
- __medv :__ valor mediano de las casas

### Desafío 1: Prepare el ambiente de trabajo

* Importe las librerías básicas para el análisis de datos.
* Importe el módulo linear_model , y las funciones mean_squared_error , r2_score y train_test_split

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

* Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .

In [2]:
df = pd.read_csv('boston.csv')
df_droped = df.drop(['Unnamed: 0'], axis=1)

* Obtenga las medidas descriptivas de la base de datos con .describe()

In [3]:
df_droped.describe().round(2)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.61,11.36,11.14,0.07,0.55,6.28,68.57,3.8,9.55,408.24,18.46,356.67,12.65,22.53
std,8.6,23.32,6.86,0.25,0.12,0.7,28.15,2.11,8.71,168.54,2.16,91.29,7.14,9.2
min,0.01,0.0,0.46,0.0,0.38,3.56,2.9,1.13,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.08,0.0,5.19,0.0,0.45,5.89,45.02,2.1,4.0,279.0,17.4,375.38,6.95,17.02
50%,0.26,0.0,9.69,0.0,0.54,6.21,77.5,3.21,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.68,12.5,18.1,0.0,0.62,6.62,94.07,5.19,24.0,666.0,20.2,396.22,16.96,25.0
max,88.98,100.0,27.74,1.0,0.87,8.78,100.0,12.13,24.0,711.0,22.0,396.9,37.97,50.0


### Desafío 2: División de la muestra

* Genere conjuntos de entrenamiento y validación con __train_test_split__ .
* Genere segmentaciones del 33% para las muestras de validación.
* Incluya una semilla pseudoaleatoria

In [4]:
# separemos los vectores a trabajar
y_vec= df_droped.loc[:, 'medv']
X_mat = df_droped.drop('medv', axis=1)

In [5]:
y_vec.shape

(506,)

In [6]:
y_vec.sample(5)

299    29.0
28     18.4
132    23.0
425     8.3
273    35.2
Name: medv, dtype: float64

In [7]:
X_mat.shape

(506, 13)

In [8]:
X_mat.sample(5)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat
208,0.13587,0.0,10.59,1,0.489,6.064,59.1,4.2392,4,277,18.6,381.32,14.66
505,0.04741,0.0,11.93,0,0.573,6.03,80.8,2.505,1,273,21.0,396.9,7.88
262,0.52014,20.0,3.97,0,0.647,8.398,91.5,2.2885,5,264,13.0,386.86,5.91
196,0.04011,80.0,1.52,0,0.404,7.287,34.1,7.309,2,329,12.6,396.9,4.08
21,0.85204,0.0,8.14,0,0.538,5.965,89.2,4.0123,4,307,21.0,392.53,13.83


In [9]:
X_train, X_test, y_train, y_test = train_test_split(X_mat, y_vec, test_size=.33, random_state=4968)

In [10]:
X_train.shape

(339, 13)

In [11]:
X_train.sample(5)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat
191,0.06911,45.0,3.44,0,0.437,6.739,30.8,6.4798,5,398,15.2,389.71,4.69
400,25.0461,0.0,18.1,0,0.693,5.987,100.0,1.5888,24,666,20.2,396.9,26.77
275,0.09604,40.0,6.41,0,0.447,6.854,42.8,4.2673,4,254,17.6,396.9,2.98
244,0.20608,22.0,5.86,0,0.431,5.593,76.5,7.9549,7,330,19.1,372.49,12.5
455,4.75237,0.0,18.1,0,0.713,6.525,86.5,2.4358,24,666,20.2,50.92,18.13


In [12]:
y_train.shape

(339,)

In [13]:
y_train.sample(5)

16     23.1
122    20.5
151    19.6
376    13.9
496    19.7
Name: medv, dtype: float64

In [14]:
X_test.shape

(167, 13)

In [15]:
X_test.sample(5)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat
377,9.82349,0.0,18.1,0,0.671,6.794,98.8,1.358,24,666,20.2,396.9,21.24
308,0.49298,0.0,9.9,0,0.544,6.635,82.5,3.3175,4,304,18.4,396.9,4.54
493,0.17331,0.0,9.69,0,0.585,5.707,54.0,2.3817,6,391,19.2,396.9,12.01
207,0.25199,0.0,10.59,0,0.489,5.783,72.7,4.3549,4,277,18.6,389.43,18.06
296,0.05372,0.0,13.92,0,0.437,6.549,51.0,5.9604,4,289,16.0,392.85,7.39


In [16]:
y_test.shape

(167,)

In [17]:
y_test.sample(5)

24     15.6
436     9.6
331    17.1
353    30.1
397     8.5
Name: medv, dtype: float64

### Desafío 3: Generación de modelos

* Ahora implementaremos dos versiones del modelo lineal:
    * Con intercepto y atributos normalizados.
    * Sin intercepto y atributos no normalizados.
* Cada versión debe generarse en un nuevo objeto inicializado.
* Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
* Con los modelos entrenados, genere una predicción de matriz de validación.

___Modelo de regresión Con intercepto y atributos normalizados___

In [18]:
modelo_con_intercepto_normalizado = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo_con_intercepto_normalizado

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

In [19]:
modelo_con_intercepto_normalizado.fit(X_train, y_train) # aprendizaje, entrenar
modelo_con_intercepto_normalizado_predict = modelo_con_intercepto_normalizado.predict(X_test)
modelo_con_intercepto_normalizado_predict.shape

(167,)

___Modelo de regresion Sin intercepto y atributos no normalizados___

In [20]:
modelo_sin_intercepto_no_normalizado = linear_model.LinearRegression(fit_intercept=False, normalize=False)
modelo_sin_intercepto_no_normalizado

LinearRegression(copy_X=True, fit_intercept=False, n_jobs=None,
         normalize=False)

In [21]:
modelo_sin_intercepto_no_normalizado.fit(X_train, y_train) # aprendizaje, entrenar
modelo_sin_intercepto_no_normalizado_predict = modelo_sin_intercepto_no_normalizado.predict(X_test)
modelo_sin_intercepto_no_normalizado_predict.shape

(167,)

### Desafío 4: Obtención de métricas

* Ahora generemos una función llamada __report_scores__ que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
* La función debe imprimir las métricas del __Error Cuadrático Promedio__ y __R2__.
* Reporte las métricas para ambos modelos. En base a ello, __seleccione el mejor modelo__.

In [41]:
# Comparar el poder predictivo entre los dos modelos mediante el promedio del error__
def report_scores(y_test, modelo_predict):
    mse_modelo = mean_squared_error(y_test, modelo_predict).round(0)
    r2_modelo = r2_score(y_test, modelo_predict).round(2)
    print("Mean Squared Error: {}".format(mse_modelo))
    print("R-cuadrado: {}".format(r2_modelo))

In [43]:
print("Modelo con Intercepto y Atributos Normalizados")
print("------------------------------------------------")
report_scores(y_test, modelo_con_intercepto_normalizado_predict)

Modelo con Intercepto y Atributos Normalizados
------------------------------------------------
Mean Squared Error: 28.0
R-cuadrado: 0.57


In [44]:
print("Modelo sin Intercepto y Atributos no Normalizados")
print("------------------------------------------------")
report_scores(y_test, modelo_sin_intercepto_no_normalizado_predict)

Modelo sin Intercepto y Atributos no Normalizados
------------------------------------------------
Mean Squared Error: 33.0
R-cuadrado: 0.5


__Existe evidencia para preferir el Modelo con Intercepto y Atributos Normalizados, dado que presenta un mejor nivel de ajuste (Mean Squared Error) y una mejor capacidad explicativa (R-cuadrado) en la variabilidad de nuestro vector objetivo.__

### Desafío 5: Refactorización del modelo

* Genere una función llamada fetch_features que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser medv por defecto
* La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
* Reporte brevemente cuales los 6 atributos con una mayor correlación con medv

In [25]:
def fetch_features(dataframe, vector_objetivo="medv"):
    # extraemos los nombres de las columnas en la base de datos
    columns = dataframe.columns
    # generamos 3 arrays vacíos para guardar los valores
    # nombre de la variable
    attr_name = []
    # correlación de pearson
    pearson_r = []
    # valor absoluto de la correlación
    abs_pearson_r = []
    # para cada columna en el array de columnas
    for col in columns:
        # si la columna no es la dependiente
        if col != vector_objetivo:
            # adjuntar el nombre de la variable en attr_name
            attr_name.append(col)
            # adjuntar la correlación de pearson
            pearson_r.append(dataframe[col].corr(dataframe[vector_objetivo]))
            # adjuntar el absoluto de la correlación de pearson
            abs_pearson_r.append(abs(dataframe[col].corr(dataframe[vector_objetivo])))
    # transformamos los arrays en un DataFrame
    features = pd.DataFrame({
        'attribute': attr_name,
        'corr':pearson_r,
        'abs_corr':abs_pearson_r
    })
    # generamos el index con los nombres de las variables
    features = features.set_index('attribute')
    # ordenamos los valores de forma descendiente
    return features.sort_values(by=['abs_corr'], ascending=False)

In [26]:
fetch_features(df_droped)

Unnamed: 0_level_0,corr,abs_corr
attribute,Unnamed: 1_level_1,Unnamed: 2_level_1
lstat,-0.737663,0.737663
rm,0.69536,0.69536
ptratio,-0.507787,0.507787
indus,-0.483725,0.483725
tax,-0.468536,0.468536
nox,-0.427321,0.427321
crim,-0.388305,0.388305
rad,-0.381626,0.381626
age,-0.376955,0.376955
zn,0.360445,0.360445


__Para reducir el error cuadrático seleccionaremos aquellas correlaciones que sean superior al .40.__

In [27]:
fetch_features(df_droped).head(6)

Unnamed: 0_level_0,corr,abs_corr
attribute,Unnamed: 1_level_1,Unnamed: 2_level_1
lstat,-0.737663,0.737663
rm,0.69536,0.69536
ptratio,-0.507787,0.507787
indus,-0.483725,0.483725
tax,-0.468536,0.468536
nox,-0.427321,0.427321


__Los 6 atributos con una mayor correlación con el valor mediano de las casas (medv) son: porcentaje de población de estratos bajos (lstat), cantidad promedio de habitaciones por casa (rm), cantidad promedio de habitaciones por casa (ptratio), proporción de negocios no asociados al comercio por sector (indus), nivel de impuestos asociados a viviendas (tax) y Concentración de dióxido de carbono (nox).__

### Desafío 6: Refactorización del modelo predictivo

* Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.
* Entrene un modelo en base al mejor desempeño.
* Reporte las métricas para el nuevo modelo

In [28]:
# separemos los vectores a trabajar
y_vec_ref = df.loc[:, 'medv']
X_mat_ref = df.loc[:, ['lstat', 'rm', 'ptratio', 'indus', 'tax', 'nox']]

In [34]:
X_train_ref, X_test_ref, y_train_ref, y_test_ref = train_test_split(X_mat_ref, 
                                                                    y_vec_ref, 
                                                                    test_size=.33, 
                                                                    random_state=4968)

In [35]:
modelo_refactorizado = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo_refactorizado.fit(X_train_ref, y_train_ref)
modelo_refactorizado_predict = modelo_refactorizado.predict(X_test_ref)

In [37]:
modelo_refactorizado_predict.shape

(167,)

In [38]:
report_scores(y_test, modelo_con_intercepto_normalizado_predict)

Modelo con Intercepto y Atributos Normalizados
------------------------------------------------
Mean Squared Error: 28.0
R-cuadrado: 0.57


In [45]:
print("Modelo con Intercepto y Atributos Normalizados (Refactorizado) ")
print("------------------------------------------------")
report_scores(y_test_ref, modelo_refactorizado_predict)

Modelo con Intercepto y Atributos Normalizados (Refactorizado) 
------------------------------------------------
Mean Squared Error: 32.0
R-cuadrado: 0.5


__Podemos observar que el modelo "refactorizado" presenta un "aumento leve" en el valor de Mean Squared Error y una "disminución" del valor R-cuadrado en comparación con el Modelo con Intercepto y Atributos Normalizados elegido__

### Desafío 7: Predicción de casos | (Pendiente)