# Proyecto: Análisis de Precios de Vivienda en Boston

**Objetivo:** Analizar los datos del censo para proporcionar información a la alta dirección sobre los precios de viviendas en Boston usando estadísticas y visualizaciones.


In [None]:
import piplite
await piplite.install(['numpy', 'pandas', 'seaborn'])

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as pyplot
import scipy.stats
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [None]:
from js import fetch
import io

URL = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ST0151EN-SkillsNetwork/labs/boston_housing.csv'
resp = await fetch(URL)
boston_url = io.BytesIO((await resp.arrayBuffer()).to_py())

In [None]:
boston_df = pd.read_csv(boston_url)

## Tarea 1: Exploración del Dataset

In [None]:
boston_df.head()

In [None]:
boston_df.info()

## Tarea 2: Estadísticas descriptivas y visualizaciones

In [None]:
sns.boxplot(data=boston_df, y='MEDV')
pyplot.title("Boxplot del valor medio de viviendas (MEDV)")
pyplot.ylabel("Valor medio (en miles de dólares)")
pyplot.show()

In [None]:
sns.countplot(data=boston_df, x='CHAS')
pyplot.title("Distribución de viviendas respecto al río Charles")
pyplot.xlabel("0 = No al lado del río, 1 = Al lado del río")
pyplot.ylabel("Cantidad")
pyplot.show()

In [None]:

boston_df['AGE_CAT'] = pd.cut(boston_df['AGE'], bins=[0, 35, 70, 100], labels=['<=35', '35-70', '>=70'])
sns.boxplot(x='AGE_CAT', y='MEDV', data=boston_df)
pyplot.title("Boxplot de MEDV por antigüedad")
pyplot.xlabel("Grupo de Edad")
pyplot.ylabel("MEDV")
pyplot.show()

In [None]:
sns.scatterplot(x='INDUS', y='NOX', data=boston_df)
pyplot.title("Dispersión: NOX vs INDUS")
pyplot.xlabel("INDUS")
pyplot.ylabel("NOX")
pyplot.show()

In [None]:
sns.histplot(boston_df['PTRATIO'], bins=15, kde=True)
pyplot.title("Histograma del ratio alumno/profesor")
pyplot.xlabel("PTRATIO")
pyplot.ylabel("Frecuencia")
pyplot.show()

## Tarea 3: Pruebas estadísticas

In [None]:
group0 = boston_df[boston_df['CHAS'] == 0]['MEDV']
group1 = boston_df[boston_df['CHAS'] == 1]['MEDV']
t_stat, p_val = scipy.stats.ttest_ind(group0, group1, equal_var=False)
print(f"t = {t_stat:.4f}, p = {p_val:.4f}")

In [None]:
model = ols('MEDV ~ C(AGE_CAT)', data=boston_df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
print(anova_table)

In [None]:
r, p = scipy.stats.pearsonr(boston_df['NOX'], boston_df['INDUS'])
print(f"r = {r:.4f}, p = {p:.4f}")

In [None]:
reg_model = ols('MEDV ~ DIS', data=boston_df).fit()
print(reg_model.summary())