# Precio de las viviendas en Boston

#### Desafio 1:

- Importe las librerías básicas para el análisis de datos.
- Importe el módulo linear_model , y las funciones mean_squared_error , r2_score y train_test_split .
- Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .
- Obtenga las medidas descriptivas de la base de datos con .describe() .

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

In [2]:
df = pd.read_csv("boston.csv").drop(columns=["Unnamed: 0"])

In [3]:
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


#### Desafio 2:
- Genere conjuntos de entrenamiento y validación con train_test_split .
- Genere segmentaciones del 33% para las muestras de validación.
- Incluya una semilla pseudoaleatoria

In [4]:
df_train, df_test = train_test_split(df, test_size = .33, random_state = 2054)

#### Desafo 3:
- Ahora implementaremos dos versiones del modelo lineal:
* Con intercepto y atributos normalizados.
* Sin intercepto y atributos no normalizados.

In [5]:
y_train = df_train['medv']

In [6]:
df_train = df_train.drop(columns="medv")

In [7]:
model1 = LinearRegression(fit_intercept = True, normalize = True)  # Y = a + bX 
model2 = LinearRegression(fit_intercept = False, normalize = False) # Y = bX

- Cada versión debe generarse en un nuevo objeto inicializado.
- Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.

In [8]:
model1 = model1.fit(df_train, y_train)
model2 = model2.fit(df_train, y_train)

In [9]:
y_test = df_test["medv"]
df_test = df_test.drop(columns="medv")

- Con los modelos entrenados, genere una predicción de matriz de validación.

In [10]:
# Precio de una casa 
y_hat_model1 = model1.predict(df_test)
y_hat_model2 = model2.predict(df_test)

In [11]:
#Ejemplo para pasar un solo dato
#df_test.iloc[0]
#model1.predict([df_test.iloc[0]])

#### Desafio 4
- Ahora generemos una función llamada report_scores que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
- La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
- Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [12]:
def report_score(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    print(f"MSE: {mse}.\nR2: {r2}")  

In [13]:
report_score(y_test, y_hat_model1)

MSE: 26.798263722697577.
R2: 0.6967163657038413


In [14]:
report_score(y_test, y_hat_model2)

MSE: 26.874136908111037.
R2: 0.6958576871097379


El mejor modelo es el modelo 1 que considera el intercepto y normaliza los datos ya que el MSE es menor al del modelo 2 y posee un R cuadrado mayor, es decir, en este caso, el 69,67% de la variabilidad es explicada por el modelo

#### Desafio 5:
- Genere una función llamada fetch_features que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser medv por defecto
- La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
- Reporte brevemente cuales los 6 atributos con una mayor correlación con medv


In [15]:
def fetch_features(df, vector_objetivo = "medv"):
    columns = df.columns

    attr_name = []
    coef_pearson = []
    abs_coef_pearson = []

    for col in columns:
        if col != vector_objetivo:
            attr_name.append(col)
            coef_pearson.append(df[col].corr(df[vector_objetivo]))
            abs_coef_pearson.append(abs(df[col].corr(df[vector_objetivo])))

    features = pd.DataFrame({
            'Atributos': attr_name,
            'Correlación':coef_pearson,
            'abs_corr':abs_coef_pearson
    })

    df_corr = features.sort_values(by=['abs_corr'], ascending=False)
    return df_corr

In [16]:
df_corr = fetch_features(df, "medv").head(6)
df_corr

Unnamed: 0,Atributos,Correlación,abs_corr
12,lstat,-0.737663,0.737663
5,rm,0.69536,0.69536
10,ptratio,-0.507787,0.507787
2,indus,-0.483725,0.483725
9,tax,-0.468536,0.468536
4,nox,-0.427321,0.427321


#### Desafio 6
- Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados y el vector objetivo.
- Entrene un modelo en base al mejor desempeño.
- Reporte las métricas para el nuevo modelo.

In [17]:
df_1 = df[["lstat", "rm", "ptratio", "indus", "tax", "nox", "medv"]]

In [18]:
df_train, df_test = train_test_split(df_1, test_size = .33, random_state = 2054)

In [19]:
y_train = df_train['medv']
df_train = df_train.drop(columns="medv")

In [20]:
model3 = LinearRegression(fit_intercept = True, normalize = True)  # Y = a + bX 
model4 = LinearRegression(fit_intercept = False, normalize = False) # Y = bX

In [21]:
model3 = model3.fit(df_train, y_train)
model4 = model4.fit(df_train, y_train)

In [22]:
y_test = df_test["medv"]
df_test = df_test.drop(columns="medv")

In [23]:
y_hat_model3 = model3.predict(df_test)
y_hat_model4 = model4.predict(df_test)

In [24]:
report_score(y_test, y_hat_model3)

MSE: 29.708910035474993.
R2: 0.6637757468255304


In [25]:
report_score(y_test, y_hat_model4)

MSE: 29.73840694602486.
R2: 0.6634419218313202


El mejor modelo es el modelo 3 que considera el intercepto y normaliza los datos ya que el MSE es menor al del modelo 4 y posee un R cuadrado mayor.

#### Desafío 7
A continuación se generaron dos arrays que representan el peor escenario posible
(worst_neighbor) y el mejor escenario posible (best_neighbor).
Ingrese los arrays en el modelo entrenado y reporte cuál sería el valor esperado dada las
condiciones.

In [26]:
lista_mejor = []
for i in df_corr.sort_values(by="abs_corr",ascending= False)[:6]["Atributos"].values:
    print(i)
    if df_corr[df_corr["Atributos"]==i]["Correlación"].iloc[0]>0:
        lista_mejor.append({"Atributos": i ,"valor": df[i].max() })
    else:
        lista_mejor.append({"Atributos": i ,"valor": df[i].min() })

lstat
rm
ptratio
indus
tax
nox


In [27]:
lista_peor = []
for i in df_corr.sort_values(by="abs_corr",ascending= False)[:6]["Atributos"].values:
    print(i)
    if df_corr[df_corr["Atributos"]==i]["Correlación"].iloc[0]>0:
        lista_peor.append({"Atributos": i ,"valor": df[i].min() })
    else:
        lista_peor.append({"Atributos": i ,"valor": df[i].max() })

lstat
rm
ptratio
indus
tax
nox


In [28]:
model3.predict(pd.DataFrame(data = [x["valor"] for x in lista_peor], index =[x["Atributos"] for x in lista_peor]).T)

array([-6.4726495])

In [29]:
model3.predict(pd.DataFrame(data = [x["valor"] for x in lista_mejor], index =[x["Atributos"] for x in lista_mejor]).T)

array([43.94635396])