## Desafío - Regresión desde el aprendizaje de máquinas
- Karen Cortes
- Constanza Córdova

### Variables del dataframe
- crim: Tasa de criminalidad por sector de Boston
- zn: proporción de terreno residencial asignado para terrenos baldíos.
- indus: proporción de negocios no asociados al comercio por sector.
- chas: Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.
- nox: Concentración de dióxido de carbono
- rm: cantidad promedio de habitaciones por casa.
- age: proporción de casas construídas antes de 1940
- dis: distancia promedio a cinco centros de empleos.
- rad: índice de accesibilidad a autopistas.
- tax: nivel de impuestos asociados a viviendas.
- ptratio: razón alumno:profesor por sector de Boston.
- black: proporción de afroamericanos por sector de Boston.
- lstat: porcentaje de población de estratos bajos.
- medv: valor mediano de las casas

### Desafío 1: Prepare el ambiente de trabajo
- Importe las librerías básicas para el análisis de datos.
- Importe el módulo linear_model, y las funciones mean_squared_error, r2_score y train_test_split .
- Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .
- Obtenga las medidas descriptivas de la base de datos con .describe() .


In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('boston.csv').drop('Unnamed: 0', axis =1)
df.sample()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
86,0.05188,0.0,4.49,0,0.449,6.015,45.1,4.4272,3,247,18.5,395.99,12.86,22.5


In [3]:
df.describe(include = 'all')

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


### Desafío 2: División de la muestra
- Genere conjuntos de entrenamiento y validación con train_test_split .
- Genere segmentaciones del 33% para las muestras de validación.
- Incluya una semilla pseudoaleatoria


In [4]:
y_vec = df['medv']
x_mat = df.loc[:,:'lstat']

In [5]:
x_train, x_test, y_train, y_test = train_test_split(x_mat, y_vec, test_size = .33, random_state = 11238 )

### Desafío 3: Generación de modelos
- Ahora implementaremos dos versiones del modelo lineal:
    - Con intercepto y atributos normalizados.
    - Sin intercepto y atributos no normalizados.
- Cada versión debe generarse en un nuevo objeto inicializado.
- Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
- Con los modelos entrenados, genere una predicción de matriz de validación.

##### Modelo con intercepto y atributos normalizados:

In [6]:
modelo_con_intercepto = LinearRegression(fit_intercept=True, normalize=True).fit(x_train, y_train)
prediccion_con_intercepto = modelo_con_intercepto.predict(x_test)

##### Modelo sin intercepto y atributos no normalizados:

In [7]:
modelo_sin_intercepto = LinearRegression(fit_intercept=False, normalize= False).fit(x_train, y_train)
prediccion_sin_intercepto = modelo_sin_intercepto.predict(x_test)

### Desafío 4: Obtención de métricas
- Ahora generemos una función llamada report_scores que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
- La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
- Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [8]:
def report_scores(vector_validar, vector_predicho):
    """
    report_scores: entrega las metricas que resumen la diferencia entre 
    los datos empiricos y los datos predichos por el modelo entrenado.
    Las mpetricas que evalúa son Error cuadrático promedio y R-Cuadrado 
                      
    parametros:
        vector_validar: vector que contiene los datos empíricos a validar
        vector_predicho: vector que contiene los datos precichos por el modelo en estudio 
    """
    mse = mean_squared_error(vector_validar, vector_predicho).round(1)
    r2 = r2_score(vector_validar, vector_predicho).round(2)
    print('MSE: ', mse)
    print('R2: ', r2)

In [9]:
report_scores(prediccion_con_intercepto, y_test)

MSE:  30.7
R2:  0.44


In [10]:
report_scores(prediccion_sin_intercepto, y_test)

MSE:  34.3
R2:  0.35


De acuerdo a las metricas de ambos modelos, en base al promedio del error cuadratico se prefiere el "modelo con intercepto" dado que el valor de MSE es menor que el MSE del "modelo sin intercepto"

### Desafío 5: Refactorización del modelo
- Genere una función llamada fetch_features que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser medv por defecto
- La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
- Reporte brevemente cuales los 6 atributos con una mayor correlación con medv

In [11]:
def fetch_features(df, y_vec = 'medv'):
    """
    fetch_features: retorna una lista con las correlaciones parciales entre
    cada atributo y el vector objetivo ordenados de manera descendente por el 
    valor absolutos de la correlación
                      
    parametros:
        df: base de datos que contiene los atributos a estudiar
        y_vec: vector objetivo para la generación de correlaciones. El valor
        por defecto es 'medv'
    """
    
    columns = df.columns
    attr_name, pearson_r, abs_pearson_r = [], [], []

    for col in columns:
        if col != y_vec:
            attr_name.append(col)
            pearson_r.append(df[col].corr(df[y_vec]))
            abs_pearson_r.append(abs(df[col].corr(df[y_vec])))

    features = pd.DataFrame(
        {'attribute': attr_name,
        'corr': pearson_r,
        'abs_corr': abs_pearson_r}
        )

    features = features.set_index('attribute')
    features = features.sort_values(by = ['abs_corr'], ascending = False)
    return features
    
fetch_features(df)

Unnamed: 0_level_0,corr,abs_corr
attribute,Unnamed: 1_level_1,Unnamed: 2_level_1
lstat,-0.737663,0.737663
rm,0.69536,0.69536
ptratio,-0.507787,0.507787
indus,-0.483725,0.483725
tax,-0.468536,0.468536
nox,-0.427321,0.427321
crim,-0.388305,0.388305
rad,-0.381626,0.381626
age,-0.376955,0.376955
zn,0.360445,0.360445


Los 6 atributos con mayor correlación son: lstat, rm, ptratio, indus, tax, nox

### Desafío 6: Refactorización del modelo predictivo
- Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.
- Entrene un modelo en base al mejor desempeño.
- Reporte las métricas para el nuevo modelo.

Generamos nuevo conjunto de entrenamiento considerando los 6 atributos identificados anteriormente

In [12]:
y_vec_ref = df['medv']
x_mat_ref = df.loc[:,['lstat', 'rm', 'ptratio', 'indus', 'tax', 'nox']]

x_train_ref, x_test_ref, y_train_ref, y_test_ref = train_test_split(x_mat_ref, y_vec_ref, test_size = .33, random_state = 11238 )

##### Modelo refactorizado con intercepción y atributos normalizados

In [13]:
modelo_ref = LinearRegression(fit_intercept=True, normalize=True).fit(x_train_ref, y_train_ref)
prediccion_modelo_ref = modelo_ref.predict(x_test_ref)

In [14]:
report_scores(prediccion_modelo_ref, y_test_ref)

MSE:  37.5
R2:  0.27


##### Modelo refactorizado sin intercepción ni atributos normalizados

In [15]:
modelo_ref_2 = LinearRegression(fit_intercept= False, normalize= False).fit(x_train_ref, y_train_ref)
prediccion_modelo_ref_2 = modelo_ref_2.predict(x_test_ref)

In [16]:
report_scores(prediccion_modelo_ref_2, y_test_ref)

MSE:  39.1
R2:  0.22


Se observa que los modelos refactorizados tienen mayor promedio de error cuadrado a diferencia de los modelos originales que consideran todas las variables. Sin embargo, el modelo con intercepción y atributos normalizados sigue siendo el modelo de preferencia

### Desafío 7: Predicción de casos
- A continuación se generaron dos arrays que representan el peor escenario posible ( worst_neighbor ) y el mejor escenario posible ( best_neighbor ).
- Ingrese los arrays en el modelo entrenado y reporte cuál sería el valor esperado dada las condiciones.

In [17]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)

best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)

Predicción para peor escenario posible

In [18]:
modelo_ref.predict(worst_neighbor)

array([59.97435265])

Predicción para mejor escenario posible

In [19]:
modelo_ref.predict(best_neighbor)

array([118.55978502])

De acuerdo a los casos evaluados, en un peor escenario de los atributos: lstat, rm, ptratio, indus, tax, nox, se predice que el valor medio de las casas es menor al valor medio de las casas en el mejor escenario posible 