# Desafío - Regresión desde el aprendizaje de máquinas
## Jose Gomez
## Fecha de la clase: 03-05-2020

# Contexto
En esta sesión trabajaremos una base de datos sobre los precios de las viviendas en Boston, utilizada en el paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of environmental economics and management, 5(1), 81-102.<br>

Nuestro objetivo es desarrollar un modelo predictivo para __el valor mediano de las casas (medv)__ mediante el entrenamiento de un modelo de regresión lineal.


- __crim :__ Tasa de criminalidad por sector de Boston
- __zn :__ proporción de terreno residencial asignado para terrenos baldíos.
- __indus :__ proporción de negocios no asociados al comercio por sector.
- __chas :__ Dummy 1: Si el sector colinda con el río Charles, 0: de lo contrario.
- __nox :__ Concentración de Dioxido de Carbono.
- __rm :__ cantidad promedio de habitaciones por casa.
- __age :__ proporción de casas construídas antes de 1940 
- __dis :__ distancia promedio a cinco centros de empleos. 
- __rad :__ índice de accesibilidad a autopistas.
- __tax :__ nivel de impuestos asociados a viviendas. 
- __ptratio :__ razón alumno:profesor por sector de Boston.
- __black :__ proporción de afroamericanos por sector de Boston.
- __lstat :__ porcentaje de población de estratos bajos.
- __medv :__ valor mediano de las casas

## Desafío 1: Prepare el ambiente de trabajo
- Importe las librerías básicas para el análisis de datos.<br>
- Importe el módulo __linear_model__ , y las funciones __mean_squared_error__ , __r2_score__ y __train_test_split__.<br>
- Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .<br>
- Obtenga las medidas descriptivas de la base de datos con .describe() .

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

df = pd.read_csv('boston.csv')
df_droped = df.drop(['Unnamed: 0'], axis=1)
df_droped.describe().round(2)

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.61,11.36,11.14,0.07,0.55,6.28,68.57,3.8,9.55,408.24,18.46,356.67,12.65,22.53
std,8.6,23.32,6.86,0.25,0.12,0.7,28.15,2.11,8.71,168.54,2.16,91.29,7.14,9.2
min,0.01,0.0,0.46,0.0,0.38,3.56,2.9,1.13,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.08,0.0,5.19,0.0,0.45,5.89,45.02,2.1,4.0,279.0,17.4,375.38,6.95,17.02
50%,0.26,0.0,9.69,0.0,0.54,6.21,77.5,3.21,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.68,12.5,18.1,0.0,0.62,6.62,94.07,5.19,24.0,666.0,20.2,396.22,16.96,25.0
max,88.98,100.0,27.74,1.0,0.87,8.78,100.0,12.13,24.0,711.0,22.0,396.9,37.97,50.0


## Desafío 2: División de la muestra
- Genere conjuntos de entrenamiento y validación con train_test_split.<br>
- Genere segmentaciones del __33%__ para las muestras de validación.<br>
- Incluya una semilla pseudoaleatoria

In [2]:
# Separacion de vectores
y_vec = df_droped.loc[:'medv']
x_mat = df_droped.drop('medv', axis=1)

# División entre entrenamiento y validación
x_train, x_test, y_train, y_test = train_test_split(x_mat, y_vec, test_size = .33, random_state=1111)



## Desafío 3: Generación de modelos
- Ahora implementaremos dos versiones del modelo lineal:
> - Con intercepto y atributos normalizados.<br>
> - Sin intercepto y atributos no normalizados.

- Cada versión debe generarse en un nuevo objeto inicializado.
- Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
- Con los modelos entrenados, genere una predicción de matriz de validación.

<div class="alert alert-block alert-warning">
<b>fit_intercept:</b> Incluimos la estimación del intercepto ($\beta_0$) en el modelo.<br>
<b>normalize:</b> Reescalar cada uno de los atributos en la muestra de prueba mediante la norma euclídea.
</div>


In [3]:
model_con_i = linear_model.LinearRegression(fit_intercept=True, normalize=True)
model_sin_i = linear_model.LinearRegression(fit_intercept=False, normalize=False)

##### Entrenamiento (con ".fit")

In [4]:
model_con_i.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

In [5]:
model_sin_i.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=False, n_jobs=None,
         normalize=False)

##### Generación de los puntajes predichos $\hat{y}$ con ".predict"

In [6]:
model_con_predicted = model_con_i.predict(x_test)

In [7]:
model_sin_predicted = model_sin_i.predict(x_test)

In [8]:
#print(len(model_con_predicted)) #167
#print(len(model_sin_predicted)) #167
#print(len(y_vec)) # 506

#print(model_con_i.intercept_) # Imprime los interceptos de cada columna
#print(y_test.shape) # (167, 14) 167 registros, 14 columnas

## Desafío 4: Obtención de métricas
- Ahora generemos una función llamada report_scores que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.<br>
- La función debe imprimir las métricas del __Error Cuadrático Promedio__ y __$R^2$__.<br>
- Reporte las métricas para ambos modelos. En base a ello, __seleccione el mejor modelo.__



<div class="alert alert-block alert-warning">
- <b>Promedio del Error Cuadrático (Mean Squared Error):</b> Representa la expectativa del error cuadrático. Es un indicador de calidad con valores no negativos, donde <b>menores valores indican mejores niveles de ajuste</b>. Una medida similar que se presenta en algunos trabajos es el Root Mean Squared Error que representa la raíz cuadrada del MSE.<br>
- <b>R-cuadrado:</b> Representa la capacidad explicativa de nuestro conjunto de atributos en la variabilidad de nuestro vector objetivo. Tiene la misma interpretación que la enseñada desde la econometría.
</div>

In [9]:
def report_scores(test,modelo):
    mse = mean_squared_error(test,modelo).round(2)
    r2 = r2_score(test,modelo).round(2)
    print(f"MSE: {mse}\nR2: {r2}")

### <center> Estadísticas Datos Empíricos vs Modelos Predichos


In [10]:

print("\nTest vs Modelo con Intercepto y Atributos Normalizados")
report_scores(y_test,model_con_predicted)
print("\nTest vs Modelo sin Intercepto ni Atributos Normalizados")
report_scores(y_test,model_sin_predicted)


Test vs Modelo con Intercepto y Atributos Normalizados
MSE: 1.21
R2: 0.98

Test vs Modelo sin Intercepto ni Atributos Normalizados
MSE: 1.09
R2: 0.98



<div class="alert alert-block alert-success">
<b> Selección del mejor modelo</b><br>
Dado que $R^2$ entregó valores similares, la discriminación del modelo es a través del <b>MSE</b> (Error Cuadrático Medio, donde valores menores indican mejores niveles de ajustes o cuán cerca están los puntos de los datos observados con los valores predichos del modelo), por lo tanto el modelo <b>sin intercepto ni atributos normalizados</b> sería <font color='blue'><b>El Mejor</b></font>.  
</div>

## Desafío 5: Refactorización del modelo
- Genere una función llamada __fetch_features__ que ingrese como argumentos __la base de datos__ y __el nombre del vector objetivo__. El nombre del vector debe ser __medv por defecto__.<br>
- La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre. <br>
- Reporte brevemente cuales los 6 atributos con una mayor correlación con __medv__

In [11]:
def fetch_features(df,vector_objetivo='medv'):
    # extraemos los nombres de las columnas en la base de datos
    columnas = df.columns
    
    # generamos 3 arrays vacíos para guardar los valores 
    # nombre de la variable
    attr_name = []
    # correlación de pearson
    pearson_r = []
    # valor absoluto de la correlación 
    abs_pearson_r = []
    
    # para cada columna en el array de columnas
    for col in columnas:
        # si la columna no es la dependiente 
        if col != vector_objetivo:
            # adjuntar el nombre de la variable en attr_name
            attr_name.append(col)
            # adjuntar la correlación de pearson 
            pearson_r.append(df[col].corr(df[vector_objetivo]))
            # adjuntar el valor absoluto de la correlación de pearson 
            abs_pearson_r.append(abs(df[col].corr(df[vector_objetivo])))
            
    # transformamos los arrays en un DataFrame
    features = pd.DataFrame({
        f'{vector_objetivo} vs': attr_name, 
        'corr':pearson_r, 
        'abs_corr':abs_pearson_r
    })
    # generamos el index con los nombres de las variables
    features = features.set_index(f'{vector_objetivo} vs')
    # ordenamos los valores de forma descendiente 
    features.sort_values(by=['abs_corr'], ascending=False)
    #print(f"Correlaciones contra {vector_objetivo}\n")
    return(features)
    

In [12]:
fetch_features(df_droped)

Unnamed: 0_level_0,corr,abs_corr
medv vs,Unnamed: 1_level_1,Unnamed: 2_level_1
crim,-0.388305,0.388305
zn,0.360445,0.360445
indus,-0.483725,0.483725
chas,0.17526,0.17526
nox,-0.427321,0.427321
rm,0.69536,0.69536
age,-0.376955,0.376955
dis,0.249929,0.249929
rad,-0.381626,0.381626
tax,-0.468536,0.468536


In [13]:
fetch_features(df_droped,'crim')

Unnamed: 0_level_0,corr,abs_corr
crim vs,Unnamed: 1_level_1,Unnamed: 2_level_1
zn,-0.200469,0.200469
indus,0.406583,0.406583
chas,-0.055892,0.055892
nox,0.420972,0.420972
rm,-0.219247,0.219247
age,0.352734,0.352734
dis,-0.37967,0.37967
rad,0.625505,0.625505
tax,0.582764,0.582764
ptratio,0.289946,0.289946


#### Reporte brevemente cuales los 6 atributos con una mayor correlación con __medv__

In [14]:
dataframe_corr = fetch_features(df_droped)
dataframe_corr.sort_values('abs_corr', ascending=False).head(6)

Unnamed: 0_level_0,corr,abs_corr
medv vs,Unnamed: 1_level_1,Unnamed: 2_level_1
lstat,-0.737663,0.737663
rm,0.69536,0.69536
ptratio,-0.507787,0.507787
indus,-0.483725,0.483725
tax,-0.468536,0.468536
nox,-0.427321,0.427321


<div class="alert alert-block alert-success">
<b> Selección del mejor modelo</b><br>
Los Atributos con mayor correlación con <b>medv</b> (valor mediano de las casas) son:
<br>- <b>lstat :</b> porcentaje de población de estratos bajos.
<br>- <b>rm :</b> cantidad promedio de habitaciones por casa.    
<br>- <b>ptratio :</b> razón alumno:profesor por sector de Boston.
<br>- <b>indus :</b> proporción de negocios no asociados al comercio por sector.
<br>- <b>tax :</b> nivel de impuestos asociados a viviendas.
<br>- <b>nox :</b> Concentración de Dioxido de Carbono.

</div>

## Desafío 6: Refactorización del modelo predictivo
- Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.<br>
- Entrene un modelo en base al mejor desempeño.<br>
- Reporte las métricas para el nuevo modelo.

In [24]:
df_6 = df_droped.loc[:,['medv','lstat','rm','ptratio','indus','tax','nox']]

In [25]:
# Separacion de vectores
y_vec_2 = df_6.loc[:,'medv']
x_mat_2 = df_6.drop('medv', axis=1)

In [26]:
# División entre entrenamiento y validación
x_train_2, x_test_2, y_train_2, y_test_2 = train_test_split(x_mat_2, y_vec_2, test_size = .33, random_state=1111)

In [32]:
x_test_2.shape

(167, 6)

In [27]:
model_sin_i_2 = linear_model.LinearRegression(fit_intercept=False, normalize=False)
model_sin_i_2.fit(x_train_2, y_train_2)

LinearRegression(copy_X=True, fit_intercept=False, n_jobs=None,
         normalize=False)

In [28]:
y_pred = model_sin_i_2.predict(x_test_2)

In [29]:
print("Test vs Modelo nuevo - sin Intercepto ni Atributos Normalizados:")
report_scores(y_test_2, y_pred)

Test vs Modelo nuevo - sin Intercepto ni Atributos Normalizados:
MSE: 18.38
R2: 0.66


## Desafío 7: Predicción de casos
<br>A continuación se generaron dos arrays que representan el peor escenario posible(worst_neighbor) y el mejor escenario posible (best_neighbor).
<br>Ingrese los arrays en el modelo entrenado y reporte cuál sería el valor esperado dada las condiciones.

In [30]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)

#### Peor escenario

In [22]:
worst_pred = model_sin_i_2.predict(worst_neighbor)

print("Valor esperado para el PEOR ESCENARIO: {}".format(round(next(i for i in worst_pred),3)))

Valor esperado para el PEOR ESCENARIO: 65.099


#### Mejor escenario

In [23]:
best_pred = model_sin_i_2.predict(best_neighbor)

print("Valor esperado para el PEOR ESCENARIO: {}".format(round(next(i for i in best_pred),3)))

Valor esperado para el PEOR ESCENARIO: 137.781
