### **Desafío evaluado: Regresión desde el aprendizaje de máquinas**

### **`Descripción`**

Nuestro objetivo es desarrollar un modelo predictivo para el valor mediano de las casas mediante el entrenamiento de un modelo de regresión lineal.

- `crim` : Tasa de criminalidad por sector de Boston.
- `zn`: proporción de terreno residencial asignado para terrenos baldíos.
- `indus`: proporción de negocios no asociados al comercio por sector.
- `chas`: Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.
- `nox`: Concentración de dióxido de carbono.
- `rm`: cantidad promedio de habitaciones por casa.
- `age`: proporción de casas construidas antes de 1940.
- `dis`: distancia promedio a cinco centros de empleos.
- `rad`: índice de accesibilidad a autopistas.
- `tax`: nivel de impuestos asociados a viviendas.
- `ptratio` razón alumno:profesor por sector de Boston.
- `black`: proporción de afroamericanos por sector de Boston.
- `lstat`: porcentaje de población de estratos bajos.
- `medv`: valor mediano de las casas

### **`Desafío 1: Preparar el ambiente de trabajo`**

-	Importe las librerías básicas para el análisis de datos.
-	Importe el módulo `linear_model` y las funciones `mean_squared_error`, `r2_score` y `train_test_split`.
-	Importe la base de datos `boston.csv` y elimine la columna `Unnamed: 0`.
-	Obtenga las medidas descriptivas de la base de datos con `.describe()`.

In [83]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import warnings 
warnings.filterwarnings(action="ignore")

In [5]:
import os
os.listdir()

['01_Desafío_guiado_-_Regresión_desde_la_econometría.ipynb',
 '01_Desafío_guiado_-_Regresión_desde_la_econometría.pdf',
 '02_Desafío_evaluado_-_Regresión_desde_el_aprendizaje_de_máquinas.ipynb',
 '02_Desafío_evaluado_-_Regresión_desde_el_aprendizaje_de_máquinas.pdf',
 'boston.csv',
 'calidad_datos.py',
 'Credit.csv',
 'FS - Desafío - Regresión desde el aprendizaje de máquinas.ipynb']

Cargamos el dataframe

In [2]:
df = pd.read_csv("boston.csv", index_col = 0)
df.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
1,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
2,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
3,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
4,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
5,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


Revisamos los valores nulos de las columnas

In [4]:
df.isnull().sum()

crim       0
zn         0
indus      0
chas       0
nox        0
rm         0
age        0
dis        0
rad        0
tax        0
ptratio    0
black      0
lstat      0
medv       0
dtype: int64

In [6]:
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [7]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
crim,506.0,3.613524,8.601545,0.00632,0.082045,0.25651,3.677083,88.9762
zn,506.0,11.363636,23.322453,0.0,0.0,0.0,12.5,100.0
indus,506.0,11.136779,6.860353,0.46,5.19,9.69,18.1,27.74
chas,506.0,0.06917,0.253994,0.0,0.0,0.0,0.0,1.0
nox,506.0,0.554695,0.115878,0.385,0.449,0.538,0.624,0.871
rm,506.0,6.284634,0.702617,3.561,5.8855,6.2085,6.6235,8.78
age,506.0,68.574901,28.148861,2.9,45.025,77.5,94.075,100.0
dis,506.0,3.795043,2.10571,1.1296,2.100175,3.20745,5.188425,12.1265
rad,506.0,9.549407,8.707259,1.0,4.0,5.0,24.0,24.0
tax,506.0,408.237154,168.537116,187.0,279.0,330.0,666.0,711.0


### **`Desafío 2: Dividir la muestra`**

-	Genere conjuntos de entrenamiento y pruebas con `train_test_split`.
-	Reserve un 33% de la muestra para el conjunto de pruebas.
-	Incluya una semilla pseudoaleatoria a su elección, esto lo puede hacer con el argumento `random_state` dentro del método `train_test_plit`.

In [60]:
# vector objetivo
var_obj = df.loc[:, 'medv']

# matriz con atributos
mat_attr = df.drop('medv', axis=1)

# separando el conjunto
X_train, X_test, y_train, y_test = train_test_split(mat_attr, var_obj, test_size=.33, random_state=42)

In [61]:
var_obj

1      24.0
2      21.6
3      34.7
4      33.4
5      36.2
       ... 
502    22.4
503    20.6
504    23.9
505    22.0
506    11.9
Name: medv, Length: 506, dtype: float64

In [62]:
mat_attr

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat
1,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98
2,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14
3,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03
4,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94
5,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33
...,...,...,...,...,...,...,...,...,...,...,...,...,...
502,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67
503,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08
504,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64
505,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48


### **`Desafío 3: Generar modelos`**

-	Ahora implementaremos dos versiones del modelo lineal:
    -	Con intercepto.
    -	Sin intercepto.
-	Cada versión debe generarse en un nuevo objeto inicializado.
-	Posteriormente se deben entrenar los modelos especiﬁcando la matriz y vector de entrenamiento.
-	Con los modelos entrenados, genere una predicción de la matriz de pruebas con el método **`.predict()`**.

In [63]:
# Utiliza esta celda para instanciar y entrenar los dos modelos solicitados

#Para modelo con intercepto (ci)
reg_ci = linear_model.LinearRegression()
reg_ci.fit(X_train, y_train)


#Para modelo sin intercepto (si)
reg_si = linear_model.LinearRegression(fit_intercept = False)
reg_si.fit(X_train, y_train)

In [64]:
# Utiliza esta celda para generar predicciones para ambos modelos

y_pred_ci = reg_ci.predict(X_test)
y_pred_si = reg_si.predict(X_test)

#Unimos la data de test y las predicciones de cada modelo
df_test = pd.concat([X_test,y_test], axis = 1)
df_test['predict_ci'] = y_pred_ci
df_test['predict_si'] = y_pred_si

df_test.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv,predict_ci,predict_si
174,0.09178,0.0,4.05,0,0.51,6.416,84.1,2.6463,5,296,16.6,395.5,9.04,23.6,28.534695,26.70167
275,0.05644,40.0,6.41,1,0.447,6.758,32.9,4.0776,4,254,17.6,396.9,3.53,32.4,36.618701,35.536325
492,0.10574,0.0,27.74,0,0.609,5.983,98.8,1.8681,4,711,20.1,390.11,18.07,13.6,15.637511,17.482822
73,0.09164,0.0,10.81,0,0.413,6.065,7.8,5.2873,4,305,19.2,390.91,5.52,22.8,25.50145,24.378691
453,5.09017,0.0,18.1,0,0.713,6.297,91.8,2.3682,24,666,20.2,385.09,17.27,16.1,18.709673,20.194079


### **`Desafío 4: Obtención métrica`**

-	Ahora generaremos una función llamada `report_scores` que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
-	La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
-	Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [65]:
# Utiliza esta celda para definir la función solicitada

def report_scores(target_testeo, predicciones):
    """
        Objetivo:
            - Reportar las metricas MSE y R2 para un conjunto de datos de testeo y las predicciones de dicho conjunto de datos
        Parámetros:
            - target_testeo (serie): serie con los datos de testeo no probados.
            - predicciones (serie): serie con las predicciones de dichos datos 

        Retorno:
           - print con los scores de las metricas MSE y R2
    """

    print(f"  MSE: {mean_squared_error(target_testeo, predicciones):.2f}")
    print(f"  R^2: {r2_score(target_testeo, predicciones):.2f}")

In [66]:
# Utiliza esta celda para hacer el llamado a la función definida previamente para ambos modelos entrenados

print(f'Scores del modelo con Intercepto:')
report_scores(y_test, y_pred_ci)

print(f'Scores del modelo sin Intercepto:')
report_scores(y_test, y_pred_si)

Scores del modelo con Intercepto:
  MSE: 20.72
  R^2: 0.73
Scores del modelo sin Intercepto:
  MSE: 23.60
  R^2: 0.69


**`Elección del mejor modelo y justificación`**

Al evaluar los dos modelos, claramente se ve que el modelo con intercepto es mejor, ya que presenta un menor error cuadratico medio y un R2 mas alto que el modelo sin intercepto. Por lo tanto, decidimos y escogimos que el mejor modelo es el con incercepto

### **`Desafío 5: Refactorización del modelo`**

-	Genere una función llamada `fetch_features` que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser `medv` por defecto.
-	La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
-	Reporte brevemente cuales son los 6 atributos con una mayor correlación absoluta con `medv` (de mayor a menor correlación).

In [67]:
example = df.corr()['medv']
example

crim      -0.388305
zn         0.360445
indus     -0.483725
chas       0.175260
nox       -0.427321
rm         0.695360
age       -0.376955
dis        0.249929
rad       -0.381626
tax       -0.468536
ptratio   -0.507787
black      0.333461
lstat     -0.737663
medv       1.000000
Name: medv, dtype: float64

In [68]:
example = pd.DataFrame(df.corr()['medv'])
example

Unnamed: 0,medv
crim,-0.388305
zn,0.360445
indus,-0.483725
chas,0.17526
nox,-0.427321
rm,0.69536
age,-0.376955
dis,0.249929
rad,-0.381626
tax,-0.468536


In [69]:
example = pd.DataFrame(df.corr()['medv']).drop(['medv']).head(6)
example

Unnamed: 0,medv
crim,-0.388305
zn,0.360445
indus,-0.483725
chas,0.17526
nox,-0.427321
rm,0.69536


In [70]:
def fetch_features(dataframe, variable = 'medv'):
    return abs(pd.DataFrame(dataframe.corr()[variable]) # Ojo que apliqué el método ABS para no tener problemas con la correlaciones negativas
              ).sort_values(by = variable, ascending = False).drop(
        [variable]).head(6)#No lo dejé como lista, porque sino no se nota a qué variable corresponde cada correlación

fetch_features(df)

Unnamed: 0,medv
lstat,0.737663
rm,0.69536
ptratio,0.507787
indus,0.483725
tax,0.468536
nox,0.427321


### **`Desafío 6: Refactorización del modelo predictivo`**

- Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados en el ejercicio anterior, y el vector objetivo.
- Entrene un modelo en base al mejor desempeño.
- Reporte las métricas para el nuevo modelo.

In [71]:
fetch_features(df).index

Index(['lstat', 'rm', 'ptratio', 'indus', 'tax', 'nox'], dtype='object')

In [72]:
columns = fetch_features(df).index.to_list()
columns

['lstat', 'rm', 'ptratio', 'indus', 'tax', 'nox']

In [73]:
df_subset_x = df[columns]
df_subset_x

Unnamed: 0,lstat,rm,ptratio,indus,tax,nox
1,4.98,6.575,15.3,2.31,296,0.538
2,9.14,6.421,17.8,7.07,242,0.469
3,4.03,7.185,17.8,7.07,242,0.469
4,2.94,6.998,18.7,2.18,222,0.458
5,5.33,7.147,18.7,2.18,222,0.458
...,...,...,...,...,...,...
502,9.67,6.593,21.0,11.93,273,0.573
503,9.08,6.120,21.0,11.93,273,0.573
504,5.64,6.976,21.0,11.93,273,0.573
505,6.48,6.794,21.0,11.93,273,0.573


In [77]:
df_y = df.loc[:, 'medv']

X_train, X_test, y_train, y_test = train_test_split(df_subset_x, df_y, test_size=0.33, random_state=42)

In [78]:
# Utiliza esta celda para entrenar el nuevo modelo

reg_6var = linear_model.LinearRegression()

reg_6var.fit(X_train, y_train)

y_pred = reg_6var.predict(X_test)

In [79]:
# Utiliza esta celda para reportar las métricas del nuevo modelo

report_scores(y_test, y_pred)

  MSE: 25.00
  R^2: 0.67


`Comentarios`

Se puede apreciar que considerando solo las 6 primeras variables con mayor correlacion del target, no se logra tener un mejor rendimiento del modelo comparado con los otros dos implementados anteriormente (con y sin intercepto, considerando todas las variables).

Finalmente, se llega a la conclusion que el mejor modelo implementado en este desafio es el que posee todas las variables, considerando el intercepto.

### **`Desafío 7: Predicción de casos`**

- A continuación se generaron dos `np.array` que representan el peor escenario posible (worst_neighbor) y el mejor escenario posible (best_neighbor).
- Las variables representan, para cada caso, los valores de los siguientes atributos (en el mismo orden entregado): `lstat`, `rm`, `ptratio`, `indus`, `tax`, `nox`.
```
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)
```
- Ingrese los `np.array` en el modelo entrenado en el ejercicio anterior, y reporte la predicción entregada por el modelo.

In [82]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)
worst_neighbor

array([[ 37.9 ,  12.6 ,   3.5 ,  27.7 , 187.  ,   0.87]])

In [84]:
# Utiliza esta celda para realizar una predicción para worst_neighbor

worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)

y_pred_worst = reg_6var.predict(worst_neighbor)

print(f'peor escenario: {y_pred_worst}')

peor escenario: [49.78447706]


In [85]:
# Utiliza esta celda para realizar una predicción para best_neighbor

best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)

y_pred_best = reg_6var.predict(best_neighbor)

print(f'mejor escenario: {y_pred_best}')

mejor escenario: [106.28725843]


`Comentarios`

Se puede ver que el modelo si logra entender los escenarios, pronosticando un valor adecuado para cada escenario. Para un escenario malo, se esperaria un valor pequeño tratandose de el valor mediano de casas; y para un escenario positivo se deberia esperar que el resultado fuera mas alto tal y como lo pronostica el modelo.