# Día 4: Estadística Descriptiva y Probabilidad

**Introducción a Python para ML** | EAE Business School | 5 febrero 2026

En este notebook vamos a:
1. Calcular e interpretar medidas de tendencia central y dispersión
2. Analizar distribuciones de datos
3. Estudiar correlaciones entre variables
4. Aplicar conceptos de probabilidad
5. Trabajar con la distribución normal

In [None]:
# Imports necesarios
import pandas as pd
import numpy as np
import plotly.express as px
from scipy import stats

print("✓ Librerías cargadas")

In [None]:
# Cargar datos limpios de Barcelona
url = "https://raw.githubusercontent.com/ber2/eae-python/main/data/Houses_Barcelona_samp.csv"
df = pd.read_csv(url)

print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
df.head()

## Parte 1: Medidas de Tendencia Central

Vamos a calcular y comparar media, mediana y moda.

### Media, Mediana y Moda para Precios

In [None]:
# Calcular medidas de tendencia central para precios
precio_media = df["price"].mean()
precio_mediana = df["price"].median()
precio_moda = df["price"].mode()[0]  # mode() devuelve una Serie

print("Medidas de Tendencia Central - Precio")
print("=" * 40)
print(f"Media:   {precio_media:>10,.0f} €")
print(f"Mediana: {precio_mediana:>10,.0f} €")
print(f"Moda:    {precio_moda:>10,.0f} €")

**Observad**: La media es mayor que la mediana.

**¿Qué nos dice esto?** La distribución es asimétrica hacia la derecha (pocas propiedades muy caras "tiran" de la media hacia arriba).

In [None]:
# Visualizar la distribución con las medidas
fig = px.histogram(df, x="price", nbins=50,
                   title="Distribución de Precios con Medidas de Tendencia Central")

# Añadir líneas verticales para media y mediana
fig.add_vline(x=precio_media, line_dash="dash", line_color="red",
              annotation_text="Media", annotation_position="top")
fig.add_vline(x=precio_mediana, line_dash="dash", line_color="green",
              annotation_text="Mediana", annotation_position="bottom right")

fig.show()

### Ejercicio 1.1: Análisis de Metros Cuadrados

Calculad media, mediana y moda para la variable `sqrmts` (metros cuadrados).

¿Cuál de estas medidas refleja mejor el tamaño típico?

In [None]:
# EJERCICIO: Vuestra solución aquí

# Media


# Mediana


# Moda


## Parte 2: Medidas de Dispersión

Ahora vamos a medir cuán dispersos están los datos.

### Rango, Varianza y Desviación Estándar

In [None]:
# Medidas de dispersión para precios
precio_min = df["price"].min()
precio_max = df["price"].max()
precio_rango = precio_max - precio_min
precio_var = df["price"].var()
precio_std = df["price"].std()

print("Medidas de Dispersión - Precio")
print("=" * 40)
print(f"Mínimo:     {precio_min:>12,.0f} €")
print(f"Máximo:     {precio_max:>12,.0f} €")
print(f"Rango:      {precio_rango:>12,.0f} €")
print(f"Varianza:   {precio_var:>12,.0f} €²")
print(f"Desv. Est.: {precio_std:>12,.0f} €")

**Interpretación de la desviación estándar**:

Si la desviación estándar es, por ejemplo, 80.000€:
- Los precios típicamente varían ±80k alrededor de la media
- Una propiedad a 2 desviaciones estándar de la media es inusual
- Valores a 3+ desviaciones estándar son muy raros

### Cuartiles y Rango Intercuartílico (IQR)

In [None]:
# Calcular cuartiles
Q1 = df["price"].quantile(0.25)
Q2 = df["price"].quantile(0.50)  # mediana
Q3 = df["price"].quantile(0.75)
IQR = Q3 - Q1

print("Cuartiles y IQR - Precio")
print("=" * 40)
print(f"Q1 (25%):  {Q1:>10,.0f} €")
print(f"Q2 (50%):  {Q2:>10,.0f} €  (mediana)")
print(f"Q3 (75%):  {Q3:>10,.0f} €")
print(f"IQR:       {IQR:>10,.0f} €")

print(f"\nEl 50% central de propiedades cuesta entre {Q1:,.0f}€ y {Q3:,.0f}€")

### Detectar Outliers con IQR

In [None]:
# Calcular límites para outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print(f"Límites para outliers:")
print(f"Inferior: {limite_inferior:,.0f} €")
print(f"Superior: {limite_superior:,.0f} €")

# Identificar outliers
outliers = df[(df["price"] < limite_inferior) | (df["price"] > limite_superior)]
print(f"\nOutliers detectados: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)")

In [None]:
# Visualizar outliers con box plot
fig = px.box(df, y="price", title="Box Plot de Precios (con outliers)",
             labels={"price": "Precio (€)"})
fig.show()

**Interpretación del Box Plot**:
- La caja representa el IQR (Q1 a Q3)
- La línea dentro de la caja es la mediana (Q2)
- Los "whiskers" se extienden hasta 1.5 × IQR
- Los puntos individuales son outliers

### Ejercicio 2.1: Análisis Completo de Habitaciones

Para la variable `rooms`:
1. Calculad todas las medidas de dispersión (rango, var, std)
2. Calculad Q1, Q2, Q3 e IQR
3. Detectad outliers
4. Cread un box plot

In [None]:
# EJERCICIO: Vuestra solución aquí


## Parte 3: Correlación Entre Variables

Analizar relaciones lineales entre variables.

### Correlación Bivariada

In [None]:
# Correlación entre precio y metros cuadrados
corr_price_sqrmts = df["price"].corr(df["sqrmts"])
print(f"Correlación entre precio y metros cuadrados: {corr_price_sqrmts:.3f}")

# Visualizar
fig = px.scatter(df, x="sqrmts", y="price", #color="neighborhood",
                 title=f"Precio vs Metros Cuadrados (r = {corr_price_sqrmts:.3f})",
                 labels={"sqrmts": "Metros Cuadrados", "price": "Precio (€)"},
                 trendline="ols")  # Añadir línea de tendencia
fig.show()

In [None]:
# Correlación entre precio y habitaciones
corr_price_rooms = df["price"].corr(df["rooms"])
print(f"Correlación entre precio y habitaciones: {corr_price_rooms:.3f}")

fig = px.scatter(df, x="rooms", y="price",
                 title=f"Precio vs Habitaciones (r = {corr_price_rooms:.3f})",
                 labels={"rooms": "Habitaciones", "price": "Precio (€)"},
                 trendline="ols")
fig.show()

**Pregunta**: ¿Cuál tiene correlación más fuerte con el precio: metros cuadrados o habitaciones?

### Matriz de Correlación

In [None]:
# Seleccionar variables numéricas de interés
numeric_cols = ["price", "sqrmts", "rooms", "bathrooms", "floor"]
correlation_matrix = df[numeric_cols].corr()

print("Matriz de Correlación:")
print(correlation_matrix.round(3))

In [None]:
# Visualizar con heatmap
fig = px.imshow(correlation_matrix,
                text_auto=".2f",
                title="Matriz de Correlación",
                color_continuous_scale="RdBu_r",
                zmin=-1, zmax=1)
fig.show()

**Observaciones**:
- Diagonal = 1 (variable consigo misma)
- Valores cercanos a +1: correlación positiva fuerte
- Valores cercanos a -1: correlación negativa fuerte
- Valores cercanos a 0: sin correlación lineal

### Ejercicio 4.1: Explorar Correlaciones

1. ¿Qué par de variables tiene la correlación más fuerte?
2. ¿Hay alguna correlación negativa?
3. Cread un scatter plot para el par con correlación más fuerte

In [None]:
# EJERCICIO: Vuestra solución aquí


## Parte 5: Fundamentos de Probabilidad

Aplicar conceptos de probabilidad a nuestros datos.

### Probabilidades Básicas

In [None]:
# Probabilidad de que una propiedad sea un Piso
total = len(df)
num_pisos = len(df[df["type"] == "Piso"])
prob_piso = num_pisos / total

print(f"P(Piso) = {prob_piso:.3f} = {prob_piso*100:.1f}%")
print(f"\nDe cada 100 propiedades, ~{prob_piso*100:.0f} son pisos")

In [None]:
# Distribución de tipos
tipo_counts = df["type"].value_counts()
tipo_probs = tipo_counts / total

print("Probabilidades por tipo:")
print("=" * 40)
for tipo, prob in tipo_probs.items():
    print(f"P({tipo:15s}) = {prob:.3f} = {prob*100:5.1f}%")

### Probabilidad Condicional

In [None]:
# P(precio > 400k)
num_caras = len(df[df["price"] > 400000])
prob_cara = num_caras / total
print(f"P(precio > 400k) = {prob_cara:.3f} = {prob_cara*100:.1f}%")

# P(precio > 400k | Eixample)
eixample = df[df["neighborhood"] == "Eixample"]
num_caras_eixample = len(eixample[eixample["price"] > 400000])
prob_cara_eixample = num_caras_eixample / len(eixample)
print(f"P(precio > 400k | Eixample) = {prob_cara_eixample:.3f} = {prob_cara_eixample*100:.1f}%")

print(f"\nEn Eixample, las propiedades son {prob_cara_eixample/prob_cara:.1f}x más propensas a costar >400k")

### Ejercicio 5.1: Probabilidades de Características

Calculad:
1. P(terraza = 1)
2. P(parking = 1)
3. P(terraza = 1 Y parking = 1) - eventos conjuntos
4. ¿Son independientes? (verificar si P(A y B) = P(A) × P(B))

In [None]:
# EJERCICIO: Vuestra solución aquí


In [None]:
# SOLUCIÓN
if "terrace" in df.columns and "parking" in df.columns:
    # 1. P(terraza)
    prob_terraza = (df["terrace"] == 1).sum() / len(df)
    print(f"P(terraza) = {prob_terraza:.3f}")
    
    # 2. P(parking)
    prob_parking = (df["parking"] == 1).sum() / len(df)
    print(f"P(parking) = {prob_parking:.3f}")
    
    # 3. P(terraza Y parking)
    prob_ambos = ((df["terrace"] == 1) & (df["parking"] == 1)).sum() / len(df)
    print(f"P(terraza Y parking) = {prob_ambos:.3f}")
    
    # 4. ¿Independientes?
    prob_si_independientes = prob_terraza * prob_parking
    print(f"\nSi fueran independientes: P(A) × P(B) = {prob_si_independientes:.3f}")
    print(f"Valor real: {prob_ambos:.3f}")
    
    if abs(prob_ambos - prob_si_independientes) < 0.01:
        print("→ Aproximadamente independientes")
    else:
        print("→ NO son independientes")

## Parte 6: Distribución Normal

Aplicar conceptos de distribución normal.

### Parámetros de la Distribución

In [None]:
# Parámetros para precios
mu_price = df["price"].mean()
sigma_price = df["price"].std()

print(f"Precios ~ N(μ={mu_price:,.0f}, σ={sigma_price:,.0f})")
print(f"\nInterpretación:")
print(f"- Centro (media): {mu_price:,.0f} €")
print(f"- Dispersión (std): {sigma_price:,.0f} €")

### Regla Empírica 68-95-99.7

In [None]:
# Calcular intervalos
intervalo_1sigma = (mu_price - sigma_price, mu_price + sigma_price)
intervalo_2sigma = (mu_price - 2*sigma_price, mu_price + 2*sigma_price)
intervalo_3sigma = (mu_price - 3*sigma_price, mu_price + 3*sigma_price)

print("Regla Empírica (68-95-99.7):")
print("=" * 50)
print(f"μ ± 1σ: [{intervalo_1sigma[0]:,.0f}, {intervalo_1sigma[1]:,.0f}] → ~68% datos")
print(f"μ ± 2σ: [{intervalo_2sigma[0]:,.0f}, {intervalo_2sigma[1]:,.0f}] → ~95% datos")
print(f"μ ± 3σ: [{intervalo_3sigma[0]:,.0f}, {intervalo_3sigma[1]:,.0f}] → ~99.7% datos")

In [None]:
# Verificar con datos reales
en_1sigma = ((df["price"] >= intervalo_1sigma[0]) & 
             (df["price"] <= intervalo_1sigma[1])).sum() / len(df)
en_2sigma = ((df["price"] >= intervalo_2sigma[0]) & 
             (df["price"] <= intervalo_2sigma[1])).sum() / len(df)
en_3sigma = ((df["price"] >= intervalo_3sigma[0]) & 
             (df["price"] <= intervalo_3sigma[1])).sum() / len(df)

print("\nVerificación con datos reales:")
print("=" * 50)
print(f"En μ ± 1σ: {en_1sigma*100:.1f}% (esperado: 68%)")
print(f"En μ ± 2σ: {en_2sigma*100:.1f}% (esperado: 95%)")
print(f"En μ ± 3σ: {en_3sigma*100:.1f}% (esperado: 99.7%)")

**Observación**: Si los porcentajes reales difieren mucho de 68-95-99.7, la distribución NO es normal.

(Recordad: los precios tienen skew positivo, no son perfectamente normales)

### Z-Scores (Estandarización)

In [None]:
# Calcular z-scores para precios
df["price_zscore"] = (df["price"] - mu_price) / sigma_price

# Mostrar ejemplos
print("Ejemplos de Z-scores:")
print(df[["price", "price_zscore"]].head(10))

In [None]:
# Encontrar propiedades extremas (|z| > 3)
extremas = df[df["price_zscore"].abs() > 3]
print(f"Propiedades con |z| > 3: {len(extremas)} ({len(extremas)/len(df)*100:.2f}%)")
print("\nEstas son MUY raras (>3 desviaciones estándar de la media)")

if len(extremas) > 0:
    print("\nEjemplos:")
    print(extremas[["neighborhood", "type", "price", "price_zscore"]].head())

### Ejercicio 6.1: Análisis con Distribución Normal

Para la variable `sqrmts` (metros cuadrados):
1. Calculad μ y σ
2. Aplicad la regla 68-95-99.7
3. ¿Qué % de propiedades tienen entre 70 y 100 m²? (calcular z-scores)
4. Identificad propiedades extremas (|z| > 2.5)

In [None]:
# EJERCICIO: Vuestra solución aquí


In [None]:
# SOLUCIÓN

# 1. Parámetros
mu_sqrmts = df["sqrmts"].mean()
sigma_sqrmts = df["sqrmts"].std()
print(f"μ = {mu_sqrmts:.1f} m², σ = {sigma_sqrmts:.1f} m²")

# 2. Regla 68-95-99.7
int_1s = (mu_sqrmts - sigma_sqrmts, mu_sqrmts + sigma_sqrmts)
int_2s = (mu_sqrmts - 2*sigma_sqrmts, mu_sqrmts + 2*sigma_sqrmts)
print(f"\nμ ± 1σ: [{int_1s[0]:.0f}, {int_1s[1]:.0f}] m²")
print(f"μ ± 2σ: [{int_2s[0]:.0f}, {int_2s[1]:.0f}] m²")

# 3. % entre 70 y 100 m²
en_rango = ((df["sqrmts"] >= 70) & (df["sqrmts"] <= 100)).sum() / len(df)
print(f"\n% entre 70-100 m²: {en_rango*100:.1f}%")

# 4. Extremas
df["sqrmts_zscore"] = (df["sqrmts"] - mu_sqrmts) / sigma_sqrmts
extremas_sqrmts = df[df["sqrmts_zscore"].abs() > 2.5]
print(f"\nPropiedades extremas (|z| > 2.5): {len(extremas_sqrmts)}")

## Parte 7: Muestreo y Aleatoriedad

Conceptos prácticos de muestreo.

### Muestreo Aleatorio Simple

In [None]:
# Tomar muestra aleatoria de 100 propiedades
muestra = df.sample(n=100, random_state=42)

print(f"Población: {len(df)} propiedades")
print(f"Muestra: {len(muestra)} propiedades")
print(f"\n¿La muestra representa bien la población?")

In [None]:
# Comparar estadísticas
comparacion = pd.DataFrame({
    "Población": [
        df["price"].mean(),
        df["price"].median(),
        df["price"].std()
    ],
    "Muestra": [
        muestra["price"].mean(),
        muestra["price"].median(),
        muestra["price"].std()
    ]
}, index=["Media", "Mediana", "Desv. Est."])

comparacion["Diferencia %"] = ((comparacion["Muestra"] - comparacion["Población"]) / 
                                comparacion["Población"] * 100)

print(comparacion.round(0))

**Observación**: Si la muestra es aleatoria y suficientemente grande, las estadísticas deberían ser similares.

### Importancia del Random Seed

In [None]:
# Sin random_state: resultados diferentes cada vez
print("Sin random_state:")
print("Ejecución 1:", df.sample(5)["price"].values)
print("Ejecución 2:", df.sample(5)["price"].values)
print("Ejecución 3:", df.sample(5)["price"].values)

print("\n" + "="*50)

# Con random_state: siempre igual
print("\nCon random_state=42:")
print("Ejecución 1:", df.sample(5, random_state=42)["price"].values)
print("Ejecución 2:", df.sample(5, random_state=42)["price"].values)
print("Ejecución 3:", df.sample(5, random_state=42)["price"].values)

**Buena práctica**: Siempre usar `random_state` para reproducibilidad.

## Resumen del Notebook

**Lo que hemos practicado**:

✅ Medidas de tendencia central (media, mediana, moda)
✅ Medidas de dispersión (rango, std, var, IQR)
✅ Detectar outliers con IQR
✅ Analizar distribuciones (skewness, kurtosis)
✅ Calcular e interpretar correlaciones
✅ Aplicar conceptos de probabilidad a datos reales
✅ Usar distribución normal y regla 68-95-99.7
✅ Calcular z-scores
✅ Muestreo aleatorio y reproducibilidad

**Conceptos clave**:
- La mediana es robusta a outliers
- La desviación estándar mide dispersión
- Correlación ≠ causalidad
- La distribución normal es fundamental en estadística
- Z-scores ayudan a detectar valores extremos

**Mañana**: Inferencia estadística (intervalos de confianza, tests de hipótesis)