# __Desafío - Regresión desde el aprendizaje de máquinas__

## Contexto
En esta sesión trabajaremos una base de datos sobre los precios de las viviendas en
Boston, utilizada en el paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing
prices and the demand for clean air. Journal of environmental economics and management,
5(1), 81-102.
Nuestro objetivo es desarrollar un modelo predictivo para el valor mediano de las casas
mediante el entrenamiento de un modelo de regresión lineal.
<li><code>crim</code> : Tasa de criminalidad por sector de Boston.</li>
<li><code>zn</code> proporción de terreno residencial asignado para terrenos baldíos.</li>
<li><code>indus</code> proporción de negocios no asociados al comercio por sector.</li>
<li><code>chas</code> Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.</li>
<li><code>nox</code> Concentración de dióxido de carbono.</li>
<li><code>rm</code> cantidad promedio de habitaciones por casa.</li>
<li><code>age</code> proporción de casas construidas antes de 1940.</li>
<li><code>dis</code> distancia promedio a cinco centros de empleos.</li>
<li><code>rad</code> índice de accesibilidad a autopistas.</li>
<li><code>tax</code> nivel de impuestos asociados a viviendas.</li>
<li><code>ptratio</code> razón alumno:profesor por sector de Boston.</li>
<li><code>black</code> proporción de afroamericanos por sector de Boston.</li>
<li><code>lstat</code> porcentaje de población de estratos bajos.</li>
<li><code>medv</code> valor mediano de las casa</li>

## Desafío 1: Prepare el ambiente de trabajo

<li>Importe las librerías básicas para el análisis de datos.</li>
<li>Importe el módulo <code>linear_model</code> , y las funciones <code>mean_squared_error</code> , <code>r2_score</code>
y <code>train_test_split</code> .</li>
<li>Importe la base de datos <code>boston.csv</code> y elimine la columna <code>Unnamed: 0</code> .</li>
<li>Obtenga las medidas descriptivas de la base de datos con <code>.describe()</code> .</li>


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import scipy.stats as stats
import seaborn as sns
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

In [8]:
df = pd.read_csv('boston.csv').drop(columns=['Unnamed: 0']).dropna()
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


## Desafío 2: División de la muestra
<ul>
<li>Genere conjuntos de entrenamiento y pruebas con <code>train_test_split</code> .</li>
<li>Reserve un 33% de la muestra para el conjunto de pruebas.</li>
<li>Incluya una semilla pseudoaleatoria a su elección, esto lo puede hacer con el
argumento <code>random_state</code> dentro del método <code>train_test_plit</code>.</li>
</ul>


In [9]:
# se generan los subconjuntos de entrenamiento con un seed fijo para obtener siempre los mismos resultados
X_train, X_test, y_train, y_test = train_test_split(df.loc[:, 'crim':'lstat'], df['medv'], test_size=.33, random_state=19137)

## Desafío 3: Generación de modelos
<li>Ahora implementaremos dos versiones del modelo lineal:
<ul>
<li>Con intercepto y atributos normalizados.</li>
<li>Sin intercepto y atributos no normalizados.</li>
</ul>
</li>
<li>Cada versión debe generarse en un nuevo objeto inicializado.</li>
<li>Posteriormente se deben entrenar los modelos especificando la matriz y vector de
entrenamiento.</li>
<li>Con los modelos entrenados, genere una predicción de la matriz de pruebas con el
método <code>.predict()</code>.</li>


In [11]:
# Se inicializan los modelos
fullModel = linear_model.LinearRegression(fit_intercept=True, normalize=True)
strippedModel = linear_model.LinearRegression(fit_intercept=False, normalize=False)
# Se entrenan los modelos
fullModel.fit(X_train, y_train)
strippedModel.fit(X_train, y_train)
# se predice en base al conjunto de testing
fullPrediction = fullModel.predict(X_test)
strippedPrediction = strippedModel.predict(X_test)

## Desafío 4: Obtención de métricas
<ul>
<li>Ahora generaremos una función llamada <code>report_scores</code> que ingrese como
argumentos el vector de datos predichos y el vector de datos por validar.</li>
<li>La función debe imprimir las métricas del Error Cuadrático Promedio y R2.</li>
<li>Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor
modelo.</li>
</ul>


In [12]:
def report_scores(y_test, y_predicted):
    print(f'Error cuadrático promedio es: {mean_squared_error(y_test, y_predicted)}')
    print(f'R2 Score: {r2_score(y_test, y_predicted)}')
print('Análisis para el modelo Full')
report_scores(y_test, fullPrediction)
print('Análisis para el modelo desnudo')
report_scores(y_test, strippedPrediction)

Análisis para el modelo Full
Error cuadrático promedio es: 38.691736354497394
R2 Score: 0.5661499903371134
Análisis para el modelo desnudo
Error cuadrático promedio es: 43.448234570349946
R2 Score: 0.5128154287138726


Esto nos dice que el mejor modelo es el con intercepto y normalizado, ya que tiene un mejor R2 y un menor error cuadrático.

## Desafío 5: Refactorización del modelo
<ul>
<li>Genere una función llamada <code>fetch_features</code> que ingrese como argumentos la base
de datos y el nombre del vector objetivo. El nombre del vector debe ser <code>medv</code> por
defecto.</li>
<li>La función debe retornar una lista con las correlaciones entre cada atributo y el
vector objetivo y su nombre.</li>
<li>Reporte brevemente cuales los 6 atributos con una mayor correlación con <code>medv</code></li>
</ul>


In [20]:
# Se define la función
def fetch_features(df, colName = 'medv'):
    return df.corr()[colName]
fetch_features(df).sort_values()

lstat     -0.737663
ptratio   -0.507787
indus     -0.483725
tax       -0.468536
nox       -0.427321
crim      -0.388305
rad       -0.381626
age       -0.376955
chas       0.175260
dis        0.249929
black      0.333461
zn         0.360445
rm         0.695360
medv       1.000000
Name: medv, dtype: float64

Vemos que aparte de consigo misma, las 6 correlaciones mas fuertes de <code>medv</code> son con <code>lstat, ptratio, indus, tax, nox</code> (inversamente proporcionales) y <code>rm</code> (directamente proporcional)

## Desafío 6: Refactorización del modelo predictivo
<ul>
<li>Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6
atributos identificados y el vector objetivo.</li>
<li>Entrene un modelo en base al mejor desempeño.</li>
<li>Reporte las métricas para el nuevo modelo.</li>
</ul>

In [39]:
# se Recrean los conjuntos de entrenamiento y validación
X_train_dep, X_test_dep, y_train_dep, y_test_dep = train_test_split(df.loc[:, ['lstat', 'ptratio', 'rm', 'indus', 'tax', 'nox']], df['medv'], test_size=.33, random_state=19137)
# se entrena el modelo
depuratedModel = linear_model.LinearRegression(fit_intercept=True, normalize=True)
depuratedModel.fit(X_train_dep, y_train_dep)
# se reportan las metricas
report_scores(y_test_dep, depuratedModel.predict(X_test_dep))

Error cuadrático promedio es: 46.578008452618924
R2 Score: 0.47772130896116183


## Desafío 7: Predicción de casos
<ul>
<li>A continuación se generaron dos arrays que representan el peor escenario posible
(<code>worst_neighbor</code>) y el mejor escenario posible (<code>best_neighbor</code>).</li>

```python
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)
```
<li>Ingrese los arrays en el modelo entrenado y reporte la predicción entregada por el
modelo.</li>
</ul>


In [40]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)

print(depuratedModel.predict(worst_neighbor))
print(depuratedModel.predict(best_neighbor))

[1.90118994]
[35.522435]


Vemos que estos resultados tienen sentido pues ambos valores se podrían considerar <code>outliers</code> comparados con los valroes de nuestro espacio muestral para <code>medv</code>. Ambos pertenecen al primer y último cuartil respectivamente.