In [2]:
# a) Parece que sí que hay relación entre 'median_house_value' y 'median_income', pero ¿es estadísticamente significativa
# con un alpha = 0.05?
# b) Si en nuevo barrio sabemos que los ingresos medianos son 33700 $, ¿qué valor cabría esperar de la mediana del precio de las casas?

In [2]:
# Apartado a)

import pandas as pd
import numpy as np
from sklearn import linear_model # Para el ajuste

# Se comienza cargando el dataset
housing = pd.read_csv('datasets/housing/housing.csv')

# Se extrae la variable dependiente/respuesta
y = housing['median_house_value']
y = y.values.reshape(-1,1) # Vector columna

# Variable independiente/predictora
x = housing['median_income']
x = x.values.reshape(-1,1)

# Objeto para la regresión
lm = linear_model.LinearRegression()

# Ajuste
lm.fit(x,y)

# Valor teórico
y_pred = lm.predict(x)

# Residuos al cuadrado
residuo = (y - y_pred)**2

# Se establece si X es significativa en la predicción de Y hallando el intervalo de confianza de la pendiente; b1+-1.96*s_b1. Se aproxima el valor
# de la distribución de Student con n-2 grados de libertad y alpha = 0.05 por 1.96. s_b1 = s2/den
s2 = sum(residuo)/(len(y)-2) # Estimación de la varianza por OLS (s^2)
den = np.var(x)*len(x)
s_b1 = (s2/den)**0.5
print('El intervalo de confianza de la pendiente es: [', lm.coef_[0][0]-1.96*s_b1[0], ',', lm.coef_[0][0]+1.96*s_b1[0], ']')

El intervalo de confianza de la pendiente es: [ 41192.509924278165 , 42395.18847951436 ]


In [24]:
# El intervalo de confianza no incluye el cero, por lo que la asociación entre 'median_house_value' y 'median_income' es estadísticamente
# significativa.

In [34]:
# Apartado b)

# Se debe construir la ecuación de la recta del ajuste y luego sustituir el nuevo valor de la variable independiente
b1 = lm.coef_[0][0] # Pendiente
b0 = lm.intercept_[0] # Ordenada en el origen
x_nueva = 33.7 # Porque 'median_income' se da en miles de dólares
y_nueva = b0 + b1*x_nueva # Ecuación de la recta
print('El precio mediano de la nueva vivienda es:', y_nueva) 

El precio mediano de la nueva vivienda es: 1453538.2948071724
