## Desafío - Regresión desde el aprendizaje de máquinas

<br>

Nombre: Julio Valdés

Profesor: Gabriel Tamayo

Generación: G5

* Para poder realizar este desafío debes haber revisado la lectura y videos correspondiente a la unidad.
* Crea una carpeta de trabajo y guarda todos los archivos correspondientes (notebook y csv).
* Una vez terminado el desafío, comprime la carpeta y sube el .zip


#### Contexto
En esta sesión trabajaremos una base de datos sobre los precios de las viviendas en Boston,
utilizada en el paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the
demand for clean air. Journal of environmental economics and management, 5(1), 81-102.
Nuestro objetivo es desarrollar un modelo predictivo para el valor mediano de las casas mediante el
entrenamiento de un modelo de regresión lineal.


* crim : Tasa de criminalidad por sector de Boston
* zn proporción de terreno residencial asignado para terrenos baldíos.
* indus proporción de negocios no asociados al comercio por sector.
* chas Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.
* nox Concentración de dióxido de carbono
* rm cantidad promedio de habitaciones por casa.
* age proporción de casas construídas antes de 1940
* dis distancia promedio a cinco centros de empleos.
* rad índice de accesibilidad a autopistas.
* tax nivel de impuestos asociados a viviendas.
* ptratio razón alumno:profesor por sector de Boston.
* black proporción de afroamericanos por sector de Boston.
* lstat porcentaje de población de estratos bajos.
* medv valor mediano de las casas

### Desafío 1: Prepare el ambiente de trabajo

* Importe las librerías básicas para el análisis de datos.
* Importe el módulo linear_model , y las funciones mean_squared_error , r2_score y train_test_split.
* Importe la base de datos boston.csv y elimine la columna Unnamed: 0.
* Obtenga las medidas descriptivas de la base de datos con .describe().

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
import statsmodels.formula.api as smf
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

plt.style.use('seaborn-whitegrid') # Gráficos estilo seaborn
plt.rcParams["figure.figsize"] = (6, 4) # Tamaño gráficos
plt.rcParams["figure.dpi"] = 300 # resolución gráficos

df = pd.read_csv('boston.csv').drop("Unnamed: 0", axis=1)
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


### Desafío 2: División de la muestra

* Genere conjuntos de entrenamiento y validación con train_test_split.
* Genere una segmentación del 33% para las muestras de validación.
* Incluya una semilla pseudoaleatoria

In [4]:
X_train, X_test, y_train, y_test = train_test_split(df.loc[:, 'crim':'lstat'], df.loc[:, 'medv'], test_size=.33, random_state=11238)

### Desafío 3: Generación de modelos
Ahora implementaremos dos versiones del modelo lineal:
* Con intercepto y atributos normalizados.
* Sin intercepto y atributos no normalizados.


* Cada versión debe generarse en un nuevo objeto inicializado.
* Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
* Con los modelos entrenados, genere una predicción con su matriz de validación.

In [9]:
modelo1 = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo2 = linear_model.LinearRegression(fit_intercept=False, normalize=False)

modelo1.fit(X_train, y_train)
modelo2.fit(X_train, y_train)

yhat1 = modelo1.predict(X_test)
yhat2 = modelo2.predict(X_test)

### Desafío 4: Obtención de métricas
* Ahora generemos una función llamada report_scores que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.

* La función debe imprimir las métricas del Error Cuadrático Promedio y R2. 

* Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [11]:
def report_scores(y_hat, y_test):
    """
    Imprime las metricas del error cuadrático promedio y R2
    @param y_hat: vector de datos predichos
    @param y_test: vector de datos por validar
    """
    m_mse = mean_squared_error(y_test, y_hat).round(1)
    m_r2 = r2_score(y_test, y_hat).round(2)
    print("Mean Squared Error: ", m_mse)
    print("R-cuadrado: ", m_r2)

report_scores(yhat1, y_test)
report_scores(yhat2, y_test)

print("El mejor modelo es el modelo 1: Con intercepto y atributos normalizados, ya que posee un menor MSE y mayor R2")

Mean Squared Error:  30.7
R-cuadrado:  0.6
Mean Squared Error:  34.3
R-cuadrado:  0.55
El mejor modelo es el modelo 1: Con intercepto y atributos normalizados, ya que posee un menor MSE y mayor R2


### Desafío 5: Refactorización del modelo
* Genere una función llamada fetch_features que ingrese como argumentos la base de datos (df) y el nombre del vector objetivo. El nombre del vector debe ser medv por defecto
* La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
* Reporte brevemente cuales los 6 atributos con una mayor correlación con medv

In [25]:
def fetch_features(df, vector = 'medv'):
    """
    Retorna una lista con las correlaciones entre cada atributo
    @param df: base de datos
    @param vector: nombre del vector objetivo. Por defecto medv
    """
    columns = df.columns
    attr_name = []
    pearson_r = []
    abs_pearson_r = []
    
    for col in columns:
        if col != vector:
            attr_name.append(col)
            pearson_r.append(df[col].corr(df[vector]))
            abs_pearson_r.append(abs(df[col].corr(df[vector])))
            
    features = pd.DataFrame({
        'attribute': attr_name,
        'corr':pearson_r,
        'abs_corr':abs_pearson_r
    })
    
    features = features.set_index('attribute')
    features = features.sort_values(by=['abs_corr'], ascending=False)
    return features

correlaciones = fetch_features(df, 'medv')
correlaciones.head(6)

Unnamed: 0_level_0,corr,abs_corr
attribute,Unnamed: 1_level_1,Unnamed: 2_level_1
lstat,-0.737663,0.737663
rm,0.69536,0.69536
ptratio,-0.507787,0.507787
indus,-0.483725,0.483725
tax,-0.468536,0.468536
nox,-0.427321,0.427321


### Desafío 6: Refactorización del modelo predictivo
* Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.
* Entrene un modelo en base al mejor desempeño.
* Reporte las métricas para el nuevo modelo.

In [40]:
X_matrix = df.loc[:, ['lstat', 'ptratio', 'rm', 'indus', 'tax', 'nox']]
y_vector = df.loc[:, 'medv']

X_train3, X_test3, y_train3, y_test3 = train_test_split(X_matrix, y_vector, test_size=.33, random_state=11238)

modelo3 = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo3.fit(X_train3, y_train3)
yhat3 = modelo3.predict(X_test3)
report_scores(yhat3, y_test3)

Mean Squared Error:  37.5
R-cuadrado:  0.51


### Desafío 7: Predicción de casos
A continuación se generaron dos arrays que representan el peor escenario posible
( worst_neighbor ) y el mejor escenario posible ( best_neighbor ).

Ingrese los arrays en el modelo entrenado y reporte cuál sería el valor esperado dada las
condiciones

worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1, -1)


best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1, -1)


Los valores númericos representan los siguientes atributos ['lstat', 'ptratio', 'rm', 'indus', 'tax', 'nox'].


In [41]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1, -1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1, -1)

y_worst = modelo3.predict(worst_neighbor)
y_best = modelo3.predict(best_neighbor)

print("El valor esperado para el peor escenario posibles es: {}".format(y_worst))
print("El valor esperado para el mejor escenario posibles es: {}".format(y_best))

El valor esperado para el peor escenario posibles es: [3.01572229]
El valor esperado para el mejor escenario posibles es: [35.31255605]
