<h1 align="center" style="background-color:DodgerBlue;">Desafío - Regresión desde el aprendizaje de máquinas</h1> 

>
### Descripción
>Una consultora internacional radicada en EEUU está buscando analistas, por lo que han diseñado una prueba que permita poder seleccionar a quienes cuenten con las habilidades necesarias para crear modelación estadística. Para ello, ponen a disposición de los interesados una base de datos sobre los precios de las viviendas en Boston, utilizada en el
paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of environmental economics and management, 5(1), 81-102.
>
>El objetivo del ejercicio de captación de talento es desarrollar un modelo predictivo para el valor mediano de las casas mediante el entrenamiento de un modelo de regresión lineal.
>
>● crim : Tasa de criminalidad por sector de Boston.
>
>● zn proporción de terreno residencial asignado para terrenos baldíos.
>
>● indus proporción de negocios no asociados al comercio por sector.
>
>● chas Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.
>
>● nox Concentración de dióxido de carbono.
>
>● rm cantidad promedio de habitaciones por casa.
>
>● age proporción de casas construidas antes de 1940.
>
>● dis distancia promedio a cinco centros de empleos.
>
>● rad índice de accesibilidad a autopistas.
>
>● tax nivel de impuestos asociados a viviendas.
>
>● ptratio razón alumno:profesor por sector de Boston.
>
>● black proporción de afroamericanos por sector de Boston.
>
>● lstat porcentaje de población de estratos bajos.
>
>● medv valor mediano de las casas.
>
### Requerimientos
>
>A continuación revisaremos los requerimientos y acciones que la empresa a la cual postulas te pide realizar.
>
>1. Preparar el ambiente de trabajo (1 puntos)
>
>● Importe las librerías básicas para el análisis de datos.
>
>● Importe el módulo linear_model , y las funciones mean_squared_error , r2_score y train_test_split .
>
>● Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .
>
>● Obtenga las medidas descriptivas de la base de datos con .describe() .
>
>2. Dividir la muestra (1 puntos)
>
>● Genere conjuntos de entrenamiento y pruebas con train_test_split .
>
>● Reserve un 33% de la muestra para el conjunto de pruebas.
>
>● Incluya una semilla pseudoaleatoria a su elección, esto lo puede hacer con el argumento random_state dentro del método train_test_plit.
>
>3. Generar modelos (2 puntos)
>
>● Ahora implementaremos dos versiones del modelo lineal:
>
>>○ Con intercepto.
>>
>>○ Sin intercepto.
>
>● Cada versión debe generarse en un nuevo objeto inicializado.
>
>● Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
>
>● Con los modelos entrenados, genere una predicción de la matriz de pruebas con el método .predict().
>
>4. Obtención de métricas (1 puntos)
>
>● Ahora generaremos una función llamada report_scores que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
>
>● La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
>
>● Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.
>
>5. Refactorización del modelo (1 puntos)
>
>● Genere una función llamada fetch_features que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser medv por defecto.
>
>● La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
>
>● Reporte brevemente cuales son los 6 atributos con una mayor correlación absoluta con medv (de mayor a menor correlación).
>
>6. Refactorización del modelo predictivo (2 puntos)
>
>● Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados en el ejercicio anterior, y el vector objetivo.
>
>● Entrene un modelo en base al mejor desempeño.
>
>● Reporte las métricas para el nuevo modelo.
>
>7. Predicción de casos (2 puntos): A continuación se generaron dos arrays que representan el peor escenario posible (worst_neighbor) y el mejor escenario posible (best_neighbor). Las variables representan, para cada caso, los valores de los siguientes atributos (en el mismo orden entregado): 'lstat', 'rm', 'ptratio', 'indus', 'tax', 'nox'.
>
>worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1, -1)
>
>best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1, -1)
>
>● Ingrese los arrays en el modelo entrenado en el ejercicio anterior, y reporte la predicción entregada por el modelo.



In [104]:
# 1. Preparar el ambiente de trabajo (1 puntos)

%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
import missingno as msno
import warnings
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn import linear_model
warnings.filterwarnings('ignore', category=DeprecationWarning)
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()

In [105]:
# ● Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .

df = pd.read_csv('datasets/boston.csv').drop('Unnamed: 0', axis = 1)
df.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [106]:
# ● Obtenga las medidas descriptivas de la base de datos con .describe() .

df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [107]:
# 2. Dividir la muestra (1 puntos)

X_train, X_test, y_train, y_test = train_test_split(df.loc[:, 'crim':'lstat'], df['medv'], test_size=.33, random_state=19137)

In [108]:
# 3. Generar modelos (2 puntos)
# ● Ahora implementaremos dos versiones del modelo lineal:
# ○ Con intercepto.
# ○ Sin intercepto.
# ● Cada versión debe generarse en un nuevo objeto inicializado

# Se inicializan los modelos
modelo_1 = linear_model.LinearRegression(fit_intercept=True, normalize=True)
modelo_2 = linear_model.LinearRegression(fit_intercept=False, normalize=False)

# Se entrenan los modelos
modelo_1.fit(X_train, y_train)
modelo_2.fit(X_train, y_train)
# se predice en base al conjunto de testing
pred_modelo_1 = modelo_1.predict(X_test) # fullPrediction
pred_modelo_2 = modelo_2.predict(X_test)# strippedPrediction

If you wish to scale the data, use Pipeline with a StandardScaler in a preprocessing stage. To reproduce the previous behavior:

from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(with_mean=False), LinearRegression())

If you wish to pass a sample_weight parameter, you need to pass it as a fit parameter to each step of the pipeline as follows:

kwargs = {s[0] + '__sample_weight': sample_weight for s in model.steps}
model.fit(X, y, **kwargs)




In [109]:
# 4. Obtención de métricas (1 puntos)
# ● Ahora generaremos una función llamada report_scores que ingrese como
# argumentos el vector de datos predichos y el vector de datos por validar.

def report_scores(y_test, y_predicted):
    print(f'Error cuadrático promedio es: {mean_squared_error(y_test, y_predicted)}')
    print(f'R2 Score: {r2_score(y_test, y_predicted)}')

print('Análisis para el modelo Full')
report_scores(y_test, pred_modelo_1)

print('Análisis para el modelo desnudo')
report_scores(y_test, pred_modelo_2)

Análisis para el modelo Full
Error cuadrático promedio es: 38.69173635449737
R2 Score: 0.5661499903371137
Análisis para el modelo desnudo
Error cuadrático promedio es: 43.44823457034989
R2 Score: 0.5128154287138732


In [110]:
# 5. Refactorización del modelo (1 puntos)
# ● Genere una función llamada fetch_features que ingrese como argumentos la
# base de datos y el nombre del vector objetivo. El nombre del vector debe ser
# medv por defecto.

def fetch_features(df, colName = 'medv'):
    return df.corr()[colName]
fetch_features(df).sort_values()

lstat     -0.737663
ptratio   -0.507787
indus     -0.483725
tax       -0.468536
nox       -0.427321
crim      -0.388305
rad       -0.381626
age       -0.376955
chas       0.175260
dis        0.249929
black      0.333461
zn         0.360445
rm         0.695360
medv       1.000000
Name: medv, dtype: float64

In [111]:

# fetch_features(df, 'medv').sort_values('abs_cors', ascending=False)

In [112]:
# 6. Refactorización del modelo predictivo (2 puntos)
#● Genere otros conjuntos de entrenamiento y validación en base a una matriz con
# los 6 atributos identificados en el ejercicio anterior, y el vector objetivo.


# se Recrean los conjuntos de entrenamiento y validación
X_train_dep, X_test_dep, y_train_dep, y_test_dep = train_test_split(df.loc[:, ['lstat', 'ptratio', 'rm', 'indus', 'tax', 'nox']], df['medv'], test_size=.33, random_state=15820)
# se entrena el modelo
depuratedModel = linear_model.LinearRegression(fit_intercept=True, normalize=True)
depuratedModel.fit(X_train_dep, y_train_dep)
# se reportan las metricas
report_scores(y_test_dep, depuratedModel.predict(X_test_dep))

Error cuadrático promedio es: 36.996117983127945
R2 Score: 0.5817287367224555


If you wish to scale the data, use Pipeline with a StandardScaler in a preprocessing stage. To reproduce the previous behavior:

from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(with_mean=False), LinearRegression())

If you wish to pass a sample_weight parameter, you need to pass it as a fit parameter to each step of the pipeline as follows:

kwargs = {s[0] + '__sample_weight': sample_weight for s in model.steps}
model.fit(X, y, **kwargs)




In [113]:
# 7. Predicción de casos (2 puntos):

# Peor ecenario
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1, -1)
# Mwjor ecenario
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1, -1)

In [114]:
# predicciones
print(f'Prediccion para el peor ecenario {depuratedModel.predict(worst_neighbor)}')
print(f'Prediccion para el mejor ecenario {depuratedModel.predict(best_neighbor)}')

Prediccion para el peor ecenario [1.40169401]
Prediccion para el mejor ecenario [35.30936634]


