# Día 5: Inferencia Estadística

**Introducción a Python para ML** | EAE Business School | 6 febrero 2026

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import plotly.express as px

url = 'https://raw.githubusercontent.com/ber2/eae-python/main/data/Houses_Barcelona_samp.csv'
df = pd.read_csv(url)
print(f'Datos cargados: {df.shape}')

## Parte 1: Intervalos de Confianza

In [None]:
# IC 95% para precio medio
precios = df['price'].dropna()
n = len(precios)
mean = precios.mean()
se = precios.std() / np.sqrt(n)

ic = stats.t.interval(0.95, df=n-1, loc=mean, scale=se)
print(f'Media: {mean:.0f}€')
print(f'IC 95%: [{ic[0]:.0f}, {ic[1]:.0f}]')

## Parte 1: T-test Una Muestra

In [None]:
# ¿Es el precio medio diferente de 300k?
t_stat, p_val = stats.ttest_1samp(precios, 300000)
print(f't-statistic: {t_stat:.3f}')
print(f'p-value: {p_val:.4f}')
if p_val < 0.05:
    print('Rechazamos H₀: precio medio ≠ 300k')
else:
    print('No rechazamos H₀')

## Parte 3: T-test Dos Muestras

In [None]:
# Visualizar
df['Terraza'] = df['terrace'].fillna(0)
fig = px.box(df, x='Terraza', y='price', title='Precio según Terraza')
fig.show()

In [None]:
# Comparar precios con/sin terraza
filtro = df["terrace"] == 1
con = df[filtro]['price'].dropna()
sin = df[~filtro]['price'].dropna()

print(f'Con terraza: n={len(con)}, media={con.mean():.0f}€')
print(f'Sin terraza: n={len(sin)}, media={sin.mean():.0f}€')

t_stat, p_val = stats.ttest_ind(con, sin)
print(f'\nt-statistic: {t_stat:.3f}')
print(f'p-value: {p_val:.4f}')

## Parte 4: Chi-Cuadrado

In [None]:
# ¿Asociación entre barrio y tipo?
tabla = pd.crosstab(df['neighborhood'], df['type'])
tabla

In [None]:
chi2, p_val, dof, expected = stats.chi2_contingency(tabla)
print(f'\nχ²: {chi2:.2f}, p-value: {p_val:.4f}')

## Ejercicio: Hotel Bookings

In [None]:
# Cargar hotel bookings
url_hotel = 'https://raw.githubusercontent.com/ber2/eae-python/main/data/hotel_bookings.csv'
df_hotel = pd.read_csv(url_hotel)
df_hotel.head()

In [None]:
# EJERCICIO: ¿El promedio del ADR (precio diario) es diferente entre el hotel en la ciudad y el hotel resort?
# Vuestra solución aquí


In [None]:
# EJERCICIO: La probabilidad de cancelación es menor cuando el tipo de depósito es "Non Refund"
# Vuestra solución aquí
