# UT6: EDA - Estadística Descriptiva Aplicada

Análisis de datos con Python

# UT6: Análisis Exploratorio de Datos (EDA)

> **Cuaderno de trabajo — UT6: Análisis Exploratorio de Datos (EDA)**
>
> Este notebook contiene los bloques de código y ejercicios de la
> unidad. Para la teoría completa consulta el libro (PDF).
>
> **Requisitos:** ejecuta primero la celda de preparación del entorno y
> la de carga del *dataset*.

## El rol del EDA en el ciclo de vida del proyecto

**EDA inicial vs. EDA profundo:** no son lo mismo.

-   **EDA inicial:** se realiza *antes* de la limpieza, para
    diagnosticar qué problemas tiene el *dataset*.
-   **EDA profundo:** se realiza *después* de la limpieza (es el que
    aborda esta UT), para descubrir relaciones, patrones y supuestos que
    guiarán el modelado.

Confundirlos es uno de los errores más frecuentes en proyectos reales.

## Las 4 preguntas clave del EDA

## Caso de uso: predicción de precios de viviendas

**Dataset House Prices (Ames Housing):** Recopilado por Dean De Cock
para la ciudad de Ames (Iowa, EE. UU.), contiene **1.460 registros** de
ventas de viviendas con **79 variables** que describen prácticamente
cada aspecto de la propiedad: superficie, calidad de materiales, año de
construcción, número de habitaciones, garaje, sótano, etc. La variable
objetivo es `SalePrice` (precio de venta en dólares). Es uno de los
*datasets* de referencia en competiciones de regresión de Kaggle y
volverá a aparecer en UT7, UT9 y UT10.

## Preparación del entorno

In [1]:
# Librerías necesarias para esta unidad
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configuración de visualización
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

print(f"Pandas: {pd.__version__}")
print(f"NumPy: {np.__version__}")
print("Entorno configurado correctamente")

## Preparación del *dataset* House Prices

**Conexión con UT5**

Esta limpieza básica aplica técnicas que viste en la unidad anterior:
imputación de nulos con mediana (variables numéricas) y moda
(categóricas). Aquí lo hacemos de forma compacta para poder centrarnos
en el EDA.

In [2]:
print("=== CARGA Y PREPARACIÓN DEL DATASET ===")

# Dataset Ames Housing: 1.460 viviendas, 79 variables, variable objetivo SalePrice
url = "https://raw.githubusercontent.com/jgarcia314/analisis-datos-python-fp/main/data/raw/house_prices.csv"

try:
    df = pd.read_csv(url)
    print(f"Dataset cargado: {df.shape[0]} filas x {df.shape[1]} columnas")
except Exception as e:
    print(f"Error al cargar desde URL: {e}")
    print("Alternativa local: df = pd.read_csv('data/raw/house_prices.csv')")

In [3]:
# === LIMPIEZA BÁSICA ===
print("\n=== LIMPIEZA BÁSICA ===")

# 1. Inspección inicial de valores nulos
print("\n1. Valores nulos por columna:")
nulos = df.isnull().sum()
print(nulos[nulos > 0])

# 2. Tratamiento de valores nulos
# Para columnas numéricas: imputar con la mediana
columnas_numericas = df.select_dtypes(include=[np.number]).columns
for col in columnas_numericas:
    if df[col].isnull().any():
        mediana = df[col].median()
        df[col] = df[col].fillna(mediana)
        print(f"   - {col}: imputado con mediana = {mediana:.2f}")

# Para columnas categóricas: imputar con la moda
columnas_categoricas = df.select_dtypes(include=['object']).columns
for col in columnas_categoricas:
    if df[col].isnull().any():
        moda = df[col].mode()[0]
        df[col] = df[col].fillna(moda)
        print(f"   - {col}: imputado con moda = {moda}")

# 3. Verificación
print(f"\nValores nulos después de limpieza: {df.isnull().sum().sum()}")
print(f"\nDataset listo para EDA: {df.shape[0]} filas x {df.shape[1]} columnas")
print(f"Variable objetivo: SalePrice")

**Documentación del EDA**

En proyectos profesionales, siempre documenta tu EDA en un Jupyter
Notebook separado. Esto permite que otros (y tú mismo en el futuro)
entiendan las decisiones que tomaste basándote en los datos.

## Análisis univariante: entendiendo variable por variable

### Primera inspección del *dataset*

In [4]:
print("=== INSPECCIÓN DEL DATASET ===")

# El dataset ya está cargado y limpio de la sección anterior
print(f"Forma del *dataset*: {df.shape[0]} filas x {df.shape[1]} columnas")
print("\nPrimeras filas:")
print(df.head())

print("\nInformación general:")
print(df.info())

print("\nTipos de variables:")
print(df.dtypes.value_counts())

### Variables numéricas: más allá de la media

### Medidas de tendencia central revisitadas

In [5]:
print("=== ANÁLISIS DE SALEPRICE (VARIABLE OBJETIVO) ===")

# Las tres medidas de tendencia central
media = df['SalePrice'].mean()
mediana = df['SalePrice'].median()
moda = df['SalePrice'].mode()[0]

print(f"Media: ${media:,.2f}")
print(f"Mediana: ${mediana:,.2f}")
print(f"Moda: ${moda:,.2f}")

print("\n¿Qué nos dicen estas diferencias?")
if media > mediana:
    print("Media > Mediana -> Distribución ASIMÉTRICA A LA DERECHA")
    print("Interpretación: Hay viviendas muy caras que suben la media")
elif media < mediana:
    print("Media < Mediana -> Distribución ASIMÉTRICA A LA IZQUIERDA")
else:
    print("Media = Mediana -> Distribución SIMÉTRICA")

**Recuerda (UT5):** Los *outliers* distorsionan la media de forma
significativa pero apenas afectan a la mediana — por eso la mediana es
la medida de centro recomendada en distribuciones asimétricas o con
valores extremos. Tienes la explicación detallada y el ejemplo numérico
en la **UT5 (Sección 3.2: Detección de outliers)**.

### Medidas de dispersión profundas

| Medida                             | Qué mide                                            | Cuándo usarla                                                 |
|:-----------------|:---------------------|:-------------------------------|
| **Rango**                          | Amplitud total de los datos                         | Visión rápida, muy sensible a *outliers*                      |
| **Varianza**                       | Dispersión promedio al cuadrado respecto a la media | Base para otros cálculos, difícil de interpretar directamente |
| **Desviación estándar**            | Dispersión promedio en unidades originales          | La más usada: mismas unidades que los datos                   |
| **IQR**                            | Amplitud del 50% central de los datos               | Robusta ante *outliers*; ya la usaste en UT5 para detectarlos |
| **Coeficiente de Variación (CV)**  | Dispersión relativa como porcentaje de la media     | Comparar variabilidad entre variables con escalas distintas   |

Medidas de dispersión. Concepto nuevo en esta UT.

In [6]:
print("=== MEDIDAS DE DISPERSIÓN ===")

# Análisis completo de dispersión
precio = df['SalePrice']

print("1. RANGO:")
rango = precio.max() - precio.min()
print(f"   Mínimo: ${precio.min():,.0f}")
print(f"   Máximo: ${precio.max():,.0f}")
print(f"   Rango: ${rango:,.0f}")

print("\n2. VARIANZA Y DESVIACIÓN ESTÁNDAR:")
varianza = precio.var()
std = precio.std()
print(f"   Varianza: {varianza:,.0f}")
print(f"   Desviación estándar: ${std:,.0f}")
print(f"   Interpretación: En promedio, los precios se desvían \${std:,.0f} de la media")

print("\n3. COEFICIENTE DE VARIACIÓN (CV):")
cv = (std / precio.mean()) * 100
print(f"   CV: {cv:.2f}%")
if cv < 15:
    print("   -> Baja variabilidad (datos homogéneos)")
elif cv < 30:
    print("   -> Variabilidad moderada")
else:
    print("   -> Alta variabilidad (datos heterogéneos)")

print("\n4. RANGO INTERCUARTÍLICO (IQR):")
# Como vimos en la UT5, el IQR es una medida de dispersión robusta que no se deja
# distorsionar por valores extremos.
q1 = precio.quantile(0.25)
q3 = precio.quantile(0.75)
iqr = q3 - q1
print(f"   Q1 (25%): ${q1:,.0f}")
print(f"   Q3 (75%): ${q3:,.0f}")
print(f"   IQR: ${iqr:,.0f}")
print(f"   Interpretación: El 50% central de viviendas está en un rango de \${iqr:,.0f}")

El IQR es una medida de dispersión robusta que no se deja distorsionar
por valores extremos. En UT5 lo usamos para *detectar* outliers; aquí lo
usamos para *cuantificar* la variabilidad central del dataset.

In [7]:
print("\n=== EJEMPLO: COMPARANDO VARIABILIDAD ===")

# Calcular CV para diferentes variables
variables_numericas = ['SalePrice', 'GrLivArea', 'YearBuilt', 'OverallQual']

cv_comparacion = {}
for var in variables_numericas:
    if var in df.columns:
        media = df[var].mean()
        std = df[var].std()
        cv = (std / media) * 100
        cv_comparacion[var] = cv
        print(f"{var}: CV = {cv:.2f}%")

# Identificar la más variable
var_mas_variable = max(cv_comparacion, key=cv_comparacion.get)
print(f"\nVariable más heterogénea: {var_mas_variable}")

#### Comparación de medidas de dispersión

**Objetivo:** Entender profundamente cuándo y por qué usar cada medida
de dispersión analizando variables con diferentes escalas y unidades.

**Contexto profesional:** Como analista de riesgos en una consultora
inmobiliaria, debes reportar qué características de las viviendas
presentan mayor volatilidad.

**Instrucciones:**

1.  Analiza estas tres variables: `LotArea` (área del terreno),
    `YearBuilt` (año de construcción) y `GarageArea` (área del garaje).
2.  Para cada una, calcula: Desviación estándar, Rango Intercuartílico
    (IQR) y Coeficiente de Variación (CV).
3.  **Análisis de datos:** Compara el CV de `LotArea` frente al de
    `GarageArea`. ¿Cuál de las dos características es más “impredecible”
    en relación a su magnitud media? Demuestra tu conclusión con los
    números obtenidos.
4.  Explica por qué el CV es la única medida justa para comparar la
    dispersión de `YearBuilt` (escala temporal) con `LotArea` (escala
    espacial).

**Criterio de éxito:** El código debe mostrar una tabla comparativa con
las 3 métricas para las 3 variables. La respuesta a la pregunta 3 debe
estar fundamentada en el cálculo del CV.

**Tiempo estimado:** 15 minutos

**Advertencia:** El CV solo tiene sentido para variables con **cero
absoluto** (donde cero = ausencia total). No lo uses cuando el cero es
arbitrario.

-   **Válido:** peso (0 kg = sin peso), altura, ingresos (0€ = sin
    ingresos)
-   **No válido:** temperatura Celsius (0°C es el punto de congelación,
    no “sin temperatura”), años

### Forma de la distribución: asimetría y curtosis

| Tipo                                | Valor Skewness                 | Forma                     | Interpretación                                                       |
|----------|-------------------------|------------|-------------------------|
| **Simétrica**                       | $\approx$ 0 (entre -0.5 y 0.5) | Media $\approx$ Mediana   | Datos equilibrados a ambos lados                                     |
| **Asimétrica positiva** (derecha)   | \> 0.5                         | Cola larga a la derecha   | Mayoría de valores bajos, algunos muy altos (ej: salarios, precios)  |
| **Asimétrica negativa** (izquierda) | \< -0.5                        | Cola larga a la izquierda | Mayoría de valores altos, algunos muy bajos (ej: edad de jubilación) |

Asimetría/Skewness

| Tipo             | Valor Kurtosis             | Forma                    | Interpretación                                    |
|----------|-------------------------|------------|-------------------------|
| **Mesocúrtica**  | $\approx$ 0 (entre -1 y 1) | Similar a la normal      | Comportamiento «típico»                           |
| **Leptocúrtica** | \> 1                       | Pico alto, colas pesadas | Más concentración en el centro + más outliers     |
| **Platicúrtica** | \< -1                      | Más plana, colas ligeras | Datos más uniformemente dispersos, menos outliers |

Curtosis

En Pandas, `.kurt()` devuelve la curtosis relativa a la normal: valor 0
= comportamiento normal, positivo = colas más pesadas, negativo = colas
más ligeras.

In [8]:
print("=== ANÁLISIS DE FORMA DE LA DISTRIBUCIÓN ===")

precio = df['SalePrice']

# Asimetría (Skewness)
skewness = precio.skew()
print(f"ASIMETRÍA (Skewness): {skewness:.2f}")

if abs(skewness) < 0.5:
    print("-> Distribución APROXIMADAMENTE SIMÉTRICA")
elif skewness > 0.5:
    print("-> Distribución ASIMÉTRICA A LA DERECHA (cola derecha larga)")
    print("   Interpretación: Mayoría de valores bajos, algunos muy altos")
else:
    print("-> Distribución ASIMÉTRICA A LA IZQUIERDA (cola izquierda larga)")
    print("   Interpretación: Mayoría de valores altos, algunos muy bajos")

# Curtosis (Kurtosis)
kurtosis = precio.kurt()
print(f"\nCURTOSIS (Kurtosis): {kurtosis:.2f}")

if abs(kurtosis) < 1:
    print("-> MESOCÚRTICA (similar a normal)")
elif kurtosis > 1:
    print("-> LEPTOCÚRTICA (pico alto, colas pesadas)")
    print("   Interpretación: Más datos concentrados en el centro + más *outliers*")
else:
    print("-> PLATICÚRTICA (distribución más plana)")
    print("   Interpretación: Datos más dispersos uniformemente")

In [9]:
print("\n=== IMPACTO DE LA TRANSFORMACIÓN ===")

# Comparar antes y después de log
precio_original = df['SalePrice']
precio_log = np.log(df['SalePrice'])

print("ANTES de transformación:")
print(f"Skewness: {precio_original.skew():.2f}")

print("\nDESPUÉS de log:")
print(f"Skewness: {precio_log.skew():.2f}")

if abs(precio_log.skew()) < abs(precio_original.skew()):
    print("La transformación logarítmica REDUJO la asimetría")
    print("-> Variable más adecuada para modelos que asumen normalidad")

En proyectos de ML, una regla práctica es aplicar transformación
logarítmica si la asimetría es mayor que 1 o menor que -1.

#### Transformaciones y su impacto

**Objetivo:** comprender cuándo y por qué transformar variables
asimétricas.

**Contexto:** estás preparando datos para un modelo de regresión lineal
que asume normalidad. Debes identificar qué variables requieren
transformación y justificar tu decisión.

Analiza la forma de estas variables: `SalePrice`, `GrLivArea` y
`LotArea`.

1.  Para cada una: calcula *skewness* y *kurtosis*, e identifica si es
    simétrica o asimétrica.
2.  Si es asimétrica (`|skew| > 0.5`), aplica transformación logarítmica
    y compara *skewness* antes/después. Verifica visualmente la mejora.
3.  ¿Por qué la transformación logarítmica reduce la asimetría en
    variables con distribución «lognormal»? Explica el mecanismo
    matemático de forma intuitiva.
4.  Comparaste *SalePrice* antes y después de log. Si el *skewness* pasó
    de 1.8 a 0.3, ¿qué significa esto en términos prácticos para un
    modelo de regresión lineal?
5.  ¿Qué pasaría si aplicas log a una variable que ya es simétrica?
    Demuéstralo calculando *skewness* antes/después en *OverallQual*.
6.  Si una variable tiene valores de 0, no puedes aplicar log
    directamente. ¿Qué estrategias alternativas usarías?
7.  En un proyecto real, transformaste *SalePrice* para entrenar el
    modelo. ¿Cómo interpretarías las predicciones del modelo? ¿Qué
    transformación INVERSA aplicarías?

**Criterio de éxito:**

-   Has identificado correctamente qué variables son asimétricas.
-   Has aplicado la transformación solo donde es necesaria.
-   Puedes explicar el impacto de la transformación en números y
    palabras.

Consulta el **Apéndice C.5** para ver cómo calcular la asimetría y
curtosis en Pandas.

``` python
# Escribe aquí tu código
```

**Tiempo estimado:** 15 minutos

No transformes automáticamente todas las variables asimétricas. Pregunta
primero: ¿mi modelo requiere normalidad? Árboles de decisión y modelos
no paramétricos no necesitan transformaciones.

### Implementación completa: función de análisis univariante

In [11]:
def analizar_variable_numerica(df, variable, percentiles=[25, 50, 75]):
    """
    Análisis univariante completo de una variable numérica.

    Parámetros:
    df: DataFrame de Pandas
    variable: nombre de la columna (str)
    percentiles: lista de percentiles a mostrar (default Q1, Q2, Q3)

    Retorna:
    dict con todas las métricas calculadas
    """
    serie = df[variable]

    print(f"\n{'='*60}")
    print(f"ANÁLISIS DE: {variable}")
    print(f"{'='*60}")

    # TENDENCIA CENTRAL
    print("\n1. TENDENCIA CENTRAL:")
    media = serie.mean()
    mediana = serie.median()
    moda = serie.mode()[0] if len(serie.mode()) > 0 else None

    print(f"   Media: {media:.2f}")
    print(f"   Mediana: {mediana:.2f}")
    print(f"   Moda: {moda:.2f}" if moda else "   Moda: No definida")

    # DISPERSIÓN
    print("\n2. DISPERSIÓN:")
    std = serie.std()
    cv = (std / media) * 100 if media != 0 else None
    iqr = serie.quantile(0.75) - serie.quantile(0.25)

    print(f"   Desv. Estándar: {std:.2f}")
    print(f"   Coef. Variación: {cv:.2f}%" if cv else "   CV: No calculable")
    print(f"   IQR: {iqr:.2f}")

    # FORMA
    print("\n3. FORMA:")
    skew = serie.skew()
    kurt = serie.kurt()

    print(f"   Skewness: {skew:.2f}", end=" ")
    if abs(skew) < 0.5:
        print("(Simétrica)")
    elif skew > 0:
        print("(Asimétrica derecha)")
    else:
        print("(Asimétrica izquierda)")

    print(f"   Kurtosis: {kurt:.2f}", end=" ")
    if abs(kurt) < 1:
        print("(Normal)")
    elif kurt > 1:
        print("(Leptocúrtica - colas pesadas)")
    else:
        print("(Platicúrtica - plana)")

    # VALORES EXTREMOS
    print("\n4. VALORES EXTREMOS:")
    print(f"   Min: {serie.min():.2f}")
    print(f"   Max: {serie.max():.2f}")
    print(f"   Rango: {serie.max() - serie.min():.2f}")

    # PERCENTILES
    print(f"\n5. PERCENTILES:")
    for p in percentiles:
        print(f"   P{p}: {serie.quantile(p/100):.2f}")

    # RECOMENDACIÓN
    print("\n6. RECOMENDACIÓN:")
    if abs(skew) > 1:
        print("   - Variable muy asimétrica -> Considerar transformación log")
    if cv and cv > 50:
        print("   - Alta variabilidad -> Analizar *outliers*")
    if kurt > 3:
        print("   - Colas pesadas -> Revisar valores extremos")

    # Retornar diccionario con métricas
    return {
        'media': media,
        'mediana': mediana,
        'std': std,
        'cv': cv,
        'skew': skew,
        'kurt': kurt,
        'min': serie.min(),
        'max': serie.max()
    }

# EJEMPLO DE USO:
metricas_precio = analizar_variable_numerica(df, 'SalePrice')
metricas_area = analizar_variable_numerica(df, 'GrLivArea')

Crea una biblioteca personal de funciones como esta. ¡Te ahorrarán horas
en futuros proyectos!

### Variables categóricas: frecuencias y proporciones

### Tablas de Frecuencia Enriquecidas

In [12]:
print("=== ANÁLISIS DE VARIABLE CATEGÓRICA: NEIGHBORHOOD ===")

# Tabla de frecuencias completa
frecuencias = df['Neighborhood'].value_counts()
proporciones = df['Neighborhood'].value_counts(normalize=True)

# Combinar en un DataFrame informativo
tabla = pd.DataFrame({
    'Frecuencia': frecuencias,
    'Proporción': proporciones,
    'Porcentaje': proporciones * 100
})

tabla['Acumulado %'] = tabla['Porcentaje'].cumsum()

print(tabla.head(10))

print(f"\nTotal de categorías: {len(frecuencias)}")
print(f"Categoría más frecuente: {frecuencias.index[0]} ({frecuencias.iloc[0]} casos)")
print(f"Categoría menos frecuente: {frecuencias.index[-1]} ({frecuencias.iloc[-1]} casos)")

### Concentración de Categorías

In [13]:
print("\n=== ANÁLISIS DE CONCENTRACIÓN ===")

# ¿Cuántas categorías concentran el 80% de los datos?
acumulado = frecuencias / frecuencias.sum()
acumulado_cum = acumulado.cumsum()

n_categorias_80pct = (acumulado_cum <= 0.80).sum()

print(f"Las top {n_categorias_80pct} categorías concentran el 80% de los datos")
print(f"De un total de {len(frecuencias)} categorías")

pct_concentracion = (n_categorias_80pct / len(frecuencias)) * 100
print(f"Nivel de concentración: {pct_concentracion:.1f}%")

if pct_concentracion < 20:
    print("-> Altamente concentrado en pocas categorías")
elif pct_concentracion < 50:
    print("-> Moderadamente concentrado")
else:
    print("-> Distribuido uniformemente")

**Análisis de los resultados:** Si el porcentaje es bajo (menos del
20%), pocas categorías acaparan casi todos los datos. Es la señal para
agrupar las minoritarias bajo una etiqueta “Otros” antes de modelar:
menos ruido, modelos más estables.

#### Análisis de concentración categórica

**Objetivo:** Identificar categorías significativas y decidir
estrategias de agrupación basadas en la frecuencia y la
representatividad.

**Contexto profesional:** Debes optimizar el pre-procesamiento de
variables categóricas para evitar el “ruido” estadístico que generan las
clases con muy pocos ejemplos.

**Instrucciones (Semi-guiado):**

1.  Analiza las variables `BldgType` (tipo de edificio) y `Condition1`
    (proximidad a vías principales).
2.  Para ambas, calcula la frecuencia absoluta y el porcentaje que
    representa cada categoría sobre el total.
3.  Identifica cuántas categorías concentran el **80% de los datos**
    (análisis de Pareto).
4.  Localiza aquellas categorías que aparezcan en **menos del 1%** del
    dataset.
5.  **Análisis por datos:** Calcula el precio medio (`SalePrice`) para
    las categorías mayoritarias frente a las minoritarias de `BldgType`.
    ¿Existe una diferencia significativa o las clases raras solo añaden
    complejidad?

**Pistas:**

-   Usa `.value_counts(normalize=True)` para obtener proporciones.
-   Usa `.groupby().agg()` para cruzar con el precio de venta.

**Criterio de éxito:** El código debe identificar las categorías que
concentran el 80% de la muestra y listar aquellas que deberían ser
agrupadas como ‘Otros’ por su baja frecuencia.

**Tiempo estimado:** 20 minutos

No agrupes categorías mecánicamente por frecuencia. Primero verifica si
tienen comportamientos similares respecto al target (precio). Agrupa
solo categorías que sean conceptualmente similares Y tengan valores de
target comparables.

### Implementación completa: función de análisis categórico

In [14]:
def analizar_variable_categorica(df, variable, top_n=10):
    """
    Análisis univariante completo de una variable categórica.

    Parámetros:
    df: DataFrame
    variable: nombre de la columna categórica
    top_n: número de categorías principales a mostrar detalladas

    Retorna:
    DataFrame con frecuencias y métricas
    """
    print(f"\n{'='*60}")
    print(f"ANÁLISIS DE: {variable}")
    print(f"{'='*60}")

    # Frecuencias
    frecuencias = df[variable].value_counts()
    n_categorias = len(frecuencias)

    print(f"\n1. INFORMACIÓN GENERAL:")
    print(f"   Total de categorías: {n_categorias}")
    print(f"   Total de valores: {df[variable].notna().sum()}")
    print(f"   Valores nulos: {df[variable].isna().sum()}")

    # Tabla de frecuencias
    tabla = pd.DataFrame({
        'Frecuencia': frecuencias,
        'Porcentaje': (frecuencias / len(df)) * 100
    })
    tabla['Acumulado %'] = tabla['Porcentaje'].cumsum()

    print(f"\n2. TOP {top_n} CATEGORÍAS:")
    print(tabla.head(top_n).to_string())

    # Concentración
    top_80 = (tabla['Acumulado %'] <= 80).sum()
    print(f"\n3. CONCENTRACIÓN:")
    print(f"   Top {top_80} categorías = 80% de datos")
    print(f"   Índice de concentración: {(top_80/n_categorias)*100:.1f}%")

    # Categorías raras
    raras = tabla[tabla['Porcentaje'] < 1.0]
    if len(raras) > 0:
        print(f"\n4. CATEGORÍAS RARAS (< 1%):")
        print(f"   Número de categorías raras: {len(raras)}")
        print(f"   Representan: {raras['Porcentaje'].sum():.2f}% del total")

    # Recomendaciones
    print(f"\n5. RECOMENDACIONES:")
    if n_categorias > 20:
        print(f"   - Muchas categorías ({n_categorias}) -> Considerar agrupación")
    if len(raras) > n_categorias * 0.3:
        print(f"   - {len(raras)} categorías raras -> Agrupar como 'Otros'")
    if top_80 < 5 and n_categorias > 10:
        print(f"   - Alta concentración -> Simplificar variable")

    return tabla

# EJEMPLO DE USO:
tabla_neighborhood = analizar_variable_categorica(df, 'Neighborhood')
tabla_housestyle = analizar_variable_categorica(df, 'HouseStyle')

**Análisis de los resultados:** El reporte impreso resume en segundos lo
que sin la función llevaría varias líneas de código. Fíjate en las
recomendaciones del final: «Considerar agrupación» o «Distribución
equilibrada» son tus próximas tareas concretas en la fase de *feature
engineering*.

Combina esta función con visualizaciones (barplots) para comunicar
efectivamente la distribución de categorías a stakeholders no técnicos.

### Consolidación: análisis univariante

## Análisis bivariante: relaciones entre variables

### Numérica vs. numérica: correlaciones y patrones

### Correlación de Pearson en Profundidad

**Nomenclatura:** Este concepto se conoce por varios nombres
equivalentes:

-   **Coeficiente de correlación** (forma abreviada común)
-   **Coeficiente de correlación de Pearson**
-   **Coeficiente de correlación lineal de Pearson**
-   **r de Pearson** (en notación estadística se representa como *r*)
    $$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$

Todos se refieren a lo mismo: una medida entre -1 y +1 que cuantifica la
relación lineal entre dos variables. Fue desarrollado por Karl Pearson a
finales del siglo XIX.

In [15]:
print("=== CORRELACIÓN: GRLIVAREA VS SALEPRICE ===")

# Calcular correlación
correlacion = df['GrLivArea'].corr(df['SalePrice'])

print(f"Correlación de Pearson: {correlacion:.3f}")

# Interpretación
print("\nINTERPRETACIÓN:")
if abs(correlacion) < 0.3:
    fuerza = "DÉBIL"
elif abs(correlacion) < 0.7:
    fuerza = "MODERADA"
else:
    fuerza = "FUERTE"

direccion = "POSITIVA" if correlacion > 0 else "NEGATIVA"

print(f"Relación {fuerza} y {direccion}")

if correlacion > 0:
    print("-> A mayor área habitable, mayor precio de venta")
else:
    print("-> A mayor X, menor Y")

# Significancia práctica
print(f"\nSIGNIFICANCIA PRÁCTICA:")
r_cuadrado = correlacion ** 2
print(f"R² = {r_cuadrado:.3f}")
print(f"-> GrLivArea explica el {r_cuadrado*100:.1f}% de la varianza del precio")

**ADVERTENCIA CRÍTICA — La correlación NO es causalidad**

Un ejemplo clásico: las ventas de helados y los casos de ahogamiento
tienen una correlación de r = 0.85. ¿Significa que el helado causa
ahogamientos? **¡NO!**

La explicación es que ambas variables aumentan en verano. El calor es
una **variable confundida** (*confounding variable*) que afecta a ambas:
más calor → más helados + más gente en piscinas.

**SIEMPRE pregúntate antes de asumir causalidad:**

1.  ¿Hay una explicación causal plausible?
2.  ¿Puede haber una tercera variable que explique ambas?
3.  ¿La correlación se mantiene en diferentes subgrupos?

### Limitaciones de la Correlación de Pearson

**Concepto Crítico:** La correlación de Pearson SOLO detecta relaciones
**LINEALES**. Si la relación es curva o no lineal, Pearson puede dar
resultados engañosos.

In [16]:
print("=== LIMITACIÓN: PEARSON Y RELACIONES NO LINEALES ===")

# Generar relación cuadrática (no lineal)
x = np.linspace(-10, 10, 100)
y = x**2 + np.random.normal(0, 10, 100)  # Parábola con ruido

# Calcular correlación
correlacion_lineal = np.corrcoef(x, y)[0, 1]
print(f"Correlación de Pearson: {correlacion_lineal:.3f}")
print("-> Correlación cercana a 0 aunque hay relación clara (cuadrática)")

print("\nLECCIÓN:")
print("Pearson = 0 NO significa 'no hay relación'")
print("Significa solo 'no hay relación LINEAL'")
print("\nSOLUCIÓN: SIEMPRE visualiza con scatterplot antes de confiar en r")

### Correlación de Spearman: la alternativa robusta

In [17]:
from scipy.stats import spearmanr

print("=== COMPARACIÓN: PEARSON VS SPEARMAN ===")

# Calcular ambas
pearson_r = df['GrLivArea'].corr(df['SalePrice'])
spearman_r, _ = spearmanr(df['GrLivArea'], df['SalePrice'])

print(f"Pearson:  {pearson_r:.3f}")
print(f"Spearman: {spearman_r:.3f}")
print(f"Diferencia: {abs(pearson_r - spearman_r):.3f}")

if abs(pearson_r - spearman_r) > 0.1:
    print("\nDIFERENCIA SIGNIFICATIVA:")
    print("-> Posible relación no lineal o presencia de *outliers*")
    print("-> INVESTIGAR con scatterplot")
else:
    print("\nAMBAS SIMILARES:")
    print("-> Relación aproximadamente lineal")
    print("-> Pearson es suficiente")

**Análisis de los resultados:** Compara los dos valores. Si Spearman
supera a Pearson en más de 0.1, hay *outliers* o la relación no es
lineal — revísalo con un diagrama de dispersión antes de modelar. Si
ambos son similares, Pearson es suficiente.

**Cuándo usar cada una:**

**Correlaciones y valores nulos:** `.corr()` omite los nulos en silencio
(*pairwise deletion*): calcula cada par de variables usando solo las
filas donde ambas tienen valor. Si el dataset tiene muchos nulos, dos
correlaciones calculadas sobre muestras muy distintas son difícilmente
comparables. En esta UT los datos ya vienen limpios de UT5, así que no
hay problema — pero tenlo en cuenta cuando trabajes con datos crudos.

### Matrices de correlación

In [18]:
print("=== MATRIZ DE CORRELACIÓN ===")

# Seleccionar variables numéricas relevantes
variables_interes = [
    'SalePrice', 'GrLivArea', 'OverallQual',
    'YearBuilt', 'TotalBsmtSF', 'GarageCars'
]

# Calcular matriz de correlación (numeric_only=True: buena práctica explícita)
matriz_corr = df[variables_interes].corr(numeric_only=True)

print(matriz_corr.round(2))

# Identificar correlaciones fuertes con SalePrice
print("\n=== CORRELACIONES CON SALEPRICE ===")
corr_con_precio = matriz_corr['SalePrice'].sort_values(ascending=False)
print(corr_con_precio)

print("\n=== TOP 3 PREDICTORES ===")
top3 = corr_con_precio[1:4]  # Excluir SalePrice consigo mismo
for var, r in top3.items():
    print(f"{var}: r = {r:.3f} (explica {(r**2)*100:.1f}% de varianza)")

# Detectar multicolinealidad
print("\n=== MULTICOLINEALIDAD (Correlaciones entre predictores) ===")
# Buscar pares con |r| > 0.8 (excluyendo diagonal)
umbral = 0.8
for i in range(len(matriz_corr.columns)):
    for j in range(i+1, len(matriz_corr.columns)):
        if abs(matriz_corr.iloc[i, j]) > umbral:
            var1 = matriz_corr.columns[i]
            var2 = matriz_corr.columns[j]
            r = matriz_corr.iloc[i, j]
            print(f"{var1} <-> {var2}: r = {r:.3f}")
            print(f"   -> Variables redundantes, considerar eliminar una")

#### Análisis de correlaciones y multicolinealidad

**Objetivo:** identificar las variables más predictivas y detectar
redundancias.

**Contexto:** necesitas seleccionar las mejores variables para un modelo
de predicción de precios. Tu jefe te pidió reducir de 20 a 10 variables
sin perder poder predictivo.

Trabaja con estas 12 variables numéricas: `SalePrice`, `GrLivArea`,
`TotalBsmtSF`, `1stFlrSF`, `GarageArea`, `GarageCars`, `TotRmsAbvGrd`,
`OverallQual`, `YearBuilt`, `YearRemodAdd`, `MasVnrArea`, `LotArea`.

1.  Calcula matriz de correlación completa (Pearson).
2.  Identifica las 5 variables MÁS correlacionadas con `SalePrice`.
3.  Detecta pares con multicolinealidad (`|r| > 0.75`). Para cada par
    problemático, decide cuál eliminar.
4.  Compara Pearson vs. Spearman en las *top* 3 variables.
5.  Encontraste que *GarageCars* y *GarageArea* tienen *r = 0.88*. ¿Cuál
    eliminarías y por qué?
6.  Si *YearBuilt* y *YearRemodAdd* tienen *r = 0.65* con *SalePrice*
    pero *r = 0.55* entre ellas, ¿las mantendrías ambas?
7.  Supón que *TotalBsmtSF* y *1stFlrSF* tienen *r = 0.82*. ¿Qué
    estrategia alternativa a la eliminación usarías?
8.  Comparaste Pearson vs. Spearman para *OverallQual*. Si Spearman es
    0.80 pero Pearson es 0.75, ¿qué te dice esa diferencia?
9.  En producción real, si una variable tiene *r = 0.85* pero será
    difícil de obtener para casas futuras, ¿la incluirías?

**Criterio de éxito:**

-   Matriz de correlación generada y legible.
-   Has identificado correctamente multicolinealidad.
-   Puedes justificar qué variable conservar de cada par.
-   Has comparado Pearson vs. Spearman en al menos 3 casos.

La matriz de correlación es tu mejor aliada para detectar redundancias.
Tienes los comandos necesarios en el **Apéndice C.5**.

``` python
# Escribe aquí tu código
```

**Tiempo estimado:** 20 minutos

Al detectar multicolinealidad, NO elimines automáticamente la variable
con menor correlación individual con el *target*. Considera también:

-   Facilidad de obtención del dato.
-   Costo de recolección.
-   Estabilidad temporal.
-   Interpretabilidad de negocio.

### Categórica vs. numérica: comparando grupos

### Análisis por grupos con `groupby` avanzado

In [20]:
print("=== PRECIO PROMEDIO POR BARRIO ===")

# Análisis básico
precio_por_barrio = df.groupby('Neighborhood')['SalePrice'].agg([
    ('n', 'count'),
    ('promedio', 'mean'),
    ('mediana', 'median'),
    ('std', 'std'),
    ('min', 'min'),
    ('max', 'max')
])

# Ordenar por promedio descendente
precio_por_barrio = precio_por_barrio.sort_values('promedio', ascending=False)

print(precio_por_barrio.head(10))

# Identificar barrios premium
promedio_global = df['SalePrice'].mean()
precio_por_barrio['vs_promedio'] = \
    ((precio_por_barrio['promedio'] - promedio_global) / promedio_global) * 100

print("\n=== BARRIOS PREMIUM (>25% sobre promedio) ===")
premium = precio_por_barrio[precio_por_barrio['vs_promedio'] > 25]
print(premium[['promedio', 'vs_promedio']])

print("\n=== BARRIOS ECONÓMICOS (<-25% bajo promedio) ===")
economicos = precio_por_barrio[precio_por_barrio['vs_promedio'] < -25]
print(economicos[['promedio', 'vs_promedio']])

No te quedes solo con la media. La desviación estándar te dice si los
precios en ese barrio son homogéneos o muy variables. Alta *std* =
barrio mixto (casas de diferentes calidades).

### Tablas de contingencia simples

In [21]:
print("=== DISTRIBUCIÓN DE CALIDAD POR BARRIO ===")

# Tabla de contingencia
tabla_contingencia = pd.crosstab(
    df['Neighborhood'],
    df['OverallQual'],
    margins=True,
    margins_name='Total'
)

print(tabla_contingencia.head(10))

# Convertir a proporciones
tabla_proporciones = pd.crosstab(
    df['Neighborhood'],
    df['OverallQual'],
    normalize='index'  # Normalizar por fila (dentro de cada barrio)
)

print("\n=== PROPORCIONES (dentro de cada barrio) ===")
print((tabla_proporciones * 100).round(1).head())

# Identificar barrios donde >50% tienen calidad 9-10
barrios_calidad_alta = tabla_proporciones[
    (tabla_proporciones[9] + tabla_proporciones[10]) > 0.5
]
print(f"\nBarrios donde >50% tienen calidad 9-10:")
print(barrios_calidad_alta.index.tolist())

#### Análisis de segmentación por categorías

**Objetivo:** descubrir cómo variables categóricas impactan al *target*
y detectar segmentos de mercado.

**Contexto:** eres analista de una inmobiliaria y necesitas identificar
segmentos de mercado para una campaña de marketing dirigida. El CMO
quiere saber: “¿qué características definen el mercado *premium*
vs. económico?”.

Realiza análisis de grupos para: `Neighborhood` (barrio), `HouseStyle`
(estilo de casa) y `OverallQual` (calidad general).

1.  Para `Neighborhood`: calcula *n*, promedio, mediana, *std*, min,
    max. Identifica *top* 5 barrios *premium* y *bottom* 5 económicos.
    Calcula desviación vs. promedio global.
2.  Para `HouseStyle`: identifica estilos con mayor variabilidad de
    precio.
3.  Para `OverallQual`: analiza si la relación es lineal e identifica el
    umbral donde el precio se dispara.
4.  Crea una tabla de contingencia: `Neighborhood` vs. `OverallQual`.
    Identifica barrios donde predominan casas de baja calidad.
5.  Si el barrio “OldTown” tiene un precio promedio de 120 k\$ con
    $s = 40\text{ k\$}$, mientras “StoneBr” tiene 300 k\$ con
    $s = 80\text{ k\$}$, ¿cuál es MÁS homogéneo? Calcula el CV.
6.  Encontraste que los estilos “1Story” y “2Story” tienen precios
    promedio similares pero diferentes medianas. ¿Qué te dice esa
    discrepancia?
7.  Si la calidad 5 tiene un promedio de 140 k\$ y la calidad 8 tiene
    230 k\$, ¿es la relación lineal? ¿Qué implicaciones tiene para
    *feature engineering*?
8.  En tu tabla de contingencia encontraste que el barrio “MeadowV”
    tiene un 80 % de casas con calidad $\leq 5$. ¿Lo mantendrías como
    categoría separada o lo agruparías?
9.  Imagina que tu modelo predice el precio basándose en el barrio. En
    producción, aparece una casa en un barrio nuevo. ¿Qué estrategia
    implementarías?

**Criterio de éxito:**

-   Has usado `.groupby().agg()` con múltiples funciones.
-   Has calculado la desviación porcentual vs. promedio global.
-   Has identificado segmentos de mercado claramente diferenciados.
-   Has generado al menos una tabla de contingencia interpretable.

El análisis por grupos con `.groupby()` es fundamental para segmentar el
mercado. Tienes las funciones de agregación en el **Apéndice C.5**.

``` python
# Escribe aquí tu código
```

**Tiempo estimado:** 20 minutos

In [23]:
# ESTRUCTURA SUGERIDA (sin código completo):
resultados = df.groupby('Variable_Categorica')['SalePrice'].agg({
    'n': 'count',
    'promedio': 'mean',
    # ... añade más según necesites
})

Al presentar los resultados a *stakeholders*, ordena SIEMPRE por
promedio descendente o ascendente. Una tabla ordenada alfabéticamente no
comunica el *insight* de “qué barrios son *premium*”.

### Categórica vs. categórica: tablas de contingencia

In [24]:
print("=== RELACIÓN: GARAGETYPE VS HOUSESTYLE ===")

# Crear tabla de contingencia
tabla = pd.crosstab(
    df['GarageType'],
    df['HouseStyle'],
    margins=True
)

print(tabla)

# Convertir a proporciones por fila
tabla_prop = pd.crosstab(
    df['GarageType'],
    df['HouseStyle'],
    normalize='index'
)

print("\n=== PROPORCIONES (por tipo de garaje) ===")
print((tabla_prop * 100).round(1))

# Análisis
print("\nINTERPRETACIÓN:")
print("Si hay asociación, las proporciones variarán entre filas")
print("Si son independientes, las proporciones serán similares")

**Análisis de los resultados:** Mira las proporciones por fila. Si
cambian mucho de una fila a otra, las dos variables están asociadas: el
tipo de garaje influye en el estilo de vivienda. Si las proporciones son
parecidas en todas las filas, son independientes y puedes tratarlas por
separado.

### Concepto Intuitivo de Independencia

In [25]:
print("=== DETECTAR INDEPENDENCIA VISUALMENTE ===")

# Si las proporciones son MUY similares entre grupos -> Independencia
# Si varían mucho -> Asociación

tabla_prop = pd.crosstab(
    df['CentralAir'],  # Aire acondicionado (Y/N)
    df['Heating'],     # Tipo de calefacción
    normalize='index'
)

print(tabla_prop * 100)

# Calcular variabilidad de proporciones
for col in tabla_prop.columns:
    std_col = tabla_prop[col].std()
    print(f"\nVariabilidad de '{col}': {std_col:.4f}")
    if std_col < 0.05:
        print("-> Proporciones muy similares (posible independencia)")
    else:
        print("-> Proporciones variables (hay asociación)")

#### Análisis de independencia entre categóricas

**Objetivo:** Determinar mediante análisis de contingencia si existe una
asociación estadística relevante entre diferentes características
cualitativas de las viviendas.

**Contexto profesional:** Como parte de un proceso de selección de
características (*feature selection*), debes identificar variables
categóricas redundantes (altamente asociadas) para simplificar el modelo
final y evitar multicolinealidad cualitativa.

**Tu misión (autónomo):**

1.  Selecciona dos pares de variables categóricas que creas que podrían
    estar relacionadas (ej: `GarageType` vs `GarageFinish`) y otro par
    que creas que debería ser independiente.
2.  Genera las tablas de contingencia normalizadas por filas para ambos
    casos.
3.  **Juicio profesional:** Analiza los resultados y determina,
    basándote exclusivamente en los datos obtenidos, qué par presenta
    una asociación real y cuál parece ser independiente. Demuestra tu
    conclusión señalando cómo varían las proporciones en las celdas de
    la tabla.
4.  Justifica cuál de las variables eliminarías del modelo si
    encontraras una asociación superior al 90%.

**Criterio de éxito:** Presentar dos tablas de contingencia legibles y
una conclusión escrita que identifique correctamente la presencia o
ausencia de asociación basada en la variabilidad de las frecuencias
relativas.

**Tiempo estimado:** 15 minutos

Si trabajas con más de 2 variables categóricas, considera usar análisis
de correspondencias múltiples (MCA) o chi-cuadrado de forma sistemática.
Para 2-3 pares, el análisis visual de tablas es suficiente y más
interpretable.

### Consolidación: análisis bivariante

## Análisis multivariante: explorando interacciones

### Estratificación: Análisis Condicional

In [26]:
print("=== CORRELACIÓN GrLivArea-SalePrice ESTRATIFICADA POR BARRIO ===")

# Seleccionar top 5 barrios por frecuencia
top_barrios = df['Neighborhood'].value_counts().head(5).index

resultados_estratificados = []

for barrio in top_barrios:
    # Filtrar datos del barrio
    df_barrio = df[df['Neighborhood'] == barrio]

    # Calcular correlación en este subgrupo
    correlacion = df_barrio['GrLivArea'].corr(df_barrio['SalePrice'])
    n = len(df_barrio)

    resultados_estratificados.append({
        'Barrio': barrio,
        'n': n,
        'Correlación': correlacion
    })

    print(f"{barrio} (n={n}): r={correlacion:.3f}")

# Convertir a DataFrame para análisis
df_resultados = pd.DataFrame(resultados_estratificados)

print("\n=== ANÁLISIS ===")
print(f"Correlación mínima: {df_resultados['Correlación'].min():.3f}")
print(f"Correlación máxima: {df_resultados['Correlación'].max():.3f}")
print(f"Rango: {df_resultados['Correlación'].max() - df_resultados['Correlación'].min():.3f}")

if df_resultados['Correlación'].std() > 0.15:
    print("\nHAY INTERACCIÓN:")
    print("La relación GrLivArea-SalePrice VARÍA según el barrio")
    print("-> Considera crear features de interacción: GrLivArea * Neighborhood")
else:
    print("\nNO HAY INTERACCIÓN:")
    print("La relación es consistente entre barrios")

### Agregaciones múltiples y *pivoting*

In [27]:
print("=== PRECIO PROMEDIO POR BARRIO Y CALIDAD ===")

# Pivot table: Barrio (filas) x Calidad (columnas)
pivot = df.pivot_table(
    values='SalePrice',
    index='Neighborhood',
    columns='OverallQual',
    aggfunc='mean'
)

# Mostrar solo top barrios y calidades relevantes
barrios_relevantes = df['Neighborhood'].value_counts().head(8).index
calidades_relevantes = [5, 6, 7, 8, 9, 10]

pivot_filtrado = pivot.loc[barrios_relevantes, calidades_relevantes]

print(pivot_filtrado.round(0))

# Análisis de patrones
print("\n=== PATRONES DETECTADOS ===")

for barrio in barrios_relevantes:
    # Verificar si el precio aumenta consistentemente con calidad
    precios = pivot.loc[barrio, :].dropna().sort_index()

    if len(precios) >= 3:
        # Calcular incremento promedio por punto de calidad
        incrementos = precios.diff().dropna()
        incremento_promedio = incrementos.mean()
        std_incremento = incrementos.std()

        print(f"\n{barrio}:")
        print(f"  Incremento por punto de calidad: \${incremento_promedio:,.0f}")
        print(f"  Variabilidad: \${std_incremento:,.0f}")

        if std_incremento / incremento_promedio > 0.5:
            print("  -> Relación NO lineal (grandes saltos en calidades altas)")

**Análisis de los resultados:** Busca los incrementos irregulares: si
subir un punto de calidad dobla el precio en un barrio pero apenas lo
mueve en otro, la relación no es lineal. Esa variabilidad es exactamente
la información que necesitas para crear variables de interacción en la
fase de modelado.

### *Pivot tables* avanzadas: múltiples agregaciones

In [28]:
print("=== PIVOT TABLE CON MÚLTIPLES AGREGACIONES ===")

# Analizar precio por barrio y calidad con varias métricas
pivot_completo = df.pivot_table(
    values='SalePrice',
    index='Neighborhood',
    columns='OverallQual',
    aggfunc=['mean', 'count', 'std']
)

# Acceder a diferentes agregaciones
print("PROMEDIO:")
print(pivot_completo['mean'].head())

print("\nCONTEO (n por celda):")
print(pivot_completo['count'].head())

# Identificar celdas con pocos datos (n < 5)
conteos = pivot_completo['count']
celdas_problematicas = conteos < 5

print(f"\n=== CELDAS CON DATOS INSUFICIENTES (n<5) ===")
print(f"Total de combinaciones: {conteos.size}")
print(f"Combinaciones con n<5: {celdas_problematicas.sum().sum()}")
print(f"Porcentaje problemático: {(celdas_problematicas.sum().sum() / conteos.size) * 100:.1f}%")

**Análisis de los resultados:** Fíjate en el porcentaje de celdas con
n\<5. Si es alto, la tabla tiene demasiadas combinaciones vacías o casi
vacías para ser fiable. En ese caso, considera reducir la granularidad:
agrupar barrios o calidades antes de analizar.

#### Análisis de interacciones multivariante

**Objetivo:** Detectar interacciones entre variables que no son visibles
mediante análisis bivariante simple y cuantificar su impacto en el
precio.

**Contexto profesional:** Tu director comercial te plantea una
hipótesis: *“Creo que los metros cuadrados no se valoran igual en un
barrio humilde que en uno de lujo”*. Tu tarea es demostrar o desmentir
esta hipótesis con evidencias estadísticas.

**Tu misión (autónomo):**

1.  Selecciona los **3 barrios con más registros** del dataset.
2.  Calcula la correlación entre la superficie habitable (`GrLivArea`) y
    el precio (`SalePrice`) de forma independiente para cada uno de esos
    3 barrios.
3.  Crea una tabla dinámica (`pivot_table`) que muestre el precio medio
    cruzando el barrio (`Neighborhood`) con la calidad general
    (`OverallQual`) para los barrios seleccionados.
4.  **Informe de hallazgos:** ¿Es constante la relación entre metros
    cuadrados y precio en los tres barrios? Identifica una combinación
    de Barrio/Calidad donde el precio medio sea inusualmente alto o bajo
    en comparación con la tendencia general.

**Criterio de éxito:** Presentar las 3 correlaciones diferenciadas y la
tabla dinámica. La conclusión debe responder explícitamente a la
hipótesis del director comercial usando los datos obtenidos.

**Tiempo estimado:** 25 minutos

En modelos tree-based (Random Forest, XGBoost), las interacciones se
capturan automáticamente. En regresión lineal, debes crearlas
manualmente. Esto afecta tu estrategia de *feature engineering*.

### Consolidación: análisis multivariante

## Estadística inferencial básica: de la muestra a la población

### Conceptos fundamentales: población vs. muestra

In [31]:
print("=== POBLACIÓN VS MUESTRA ===")

# Simular población completa (todas las casas en la ciudad)
np.random.seed(42)
poblacion_completa = np.random.normal(loc=180000, scale=50000, size=100000)

# Tu dataset es una muestra
muestra = df['SalePrice']

print(f"POBLACIÓN (imaginaria):")
print(f"  Tamaño: {len(poblacion_completa):,} casas")
print(f"  Media verdadera: \${poblacion_completa.mean():,.0f}")

print(f"\nMUESTRA (tu *dataset*):")
print(f"  Tamaño: {len(muestra)} casas")
print(f"  Media de la muestra: \${muestra.mean():,.0f}")

print(f"\nDIFERENCIA:")
print(f"  Error muestral: \${abs(muestra.mean() - poblacion_completa.mean()):,.0f}")
print(f"  Porcentaje: {abs(muestra.mean() - poblacion_completa.mean()) / poblacion_completa.mean() * 100:.2f}%")

### Error estándar: variabilidad de las estimaciones

In [32]:
print("=== ERROR ESTÁNDAR ===")

n = len(muestra)
std_muestra = muestra.std()

# Fórmula del error estándar de la media
se = std_muestra / np.sqrt(n)

print(f"Desviación estándar de la muestra: \${std_muestra:,.0f}")
print(f"Tamaño de la muestra: {n}")
print(f"Error estándar: \${se:,.0f}")

print(f"\nINTERPRETACIÓN:")
print(f"Si repitiéramos el muestreo 100 veces, las medias variarían")
print(f"típicamente en +/- \${se:,.0f} alrededor de la media verdadera")

# Efecto del tamaño muestral
print(f"\n=== EFECTO DEL TAMAÑO MUESTRAL ===")
for n_sim in [10, 50, 100, 500, 1000]:
    se_sim = std_muestra / np.sqrt(n_sim)
    print(f"n={n_sim:4d} -> SE=${se_sim:,.0f}")

print("\nCONCLUSIÓN: a mayor n, menor incertidumbre")

### Intervalos de confianza: rango creíble

In [33]:
from scipy import stats

print("=== INTERVALO DE CONFIANZA 95% PARA LA MEDIA ===")

# Calcular IC usando t-student (apropiado para muestras)
confianza = 0.95
grados_libertad = len(muestra) - 1
t_critico = stats.t.ppf((1 + confianza) / 2, grados_libertad)

media_muestra = muestra.mean()
se = muestra.std() / np.sqrt(len(muestra))

margen_error = t_critico * se
ic_inferior = media_muestra - margen_error
ic_superior = media_muestra + margen_error

print(f"Media de la muestra: \${media_muestra:,.0f}")
print(f"Error estándar: \${se:,.0f}")
print(f"Margen de error (95%): \${margen_error:,.0f}")

print(f"\nINTERVALO DE CONFIANZA 95%:")
print(f"[${ic_inferior:,.0f}, \${ic_superior:,.0f}]")

print(f"\nINTERPRETACIÓN EN LENGUAJE DE NEGOCIO:")
print(f"Estamos 95% confiados de que el precio promedio REAL de")
print(f"todas las casas en esta ciudad está entre:")
print(f"${ic_inferior:,.0f} y \${ic_superior:,.0f}")

### Test de hipótesis: la lógica del contraste

### Ejemplo conceptual: ¿hay diferencia real?

In [34]:
print("=== EJEMPLO: COMPARAR PRECIOS ENTRE DOS BARRIOS ===")

# Seleccionar dos barrios
barrio_A = df[df['Neighborhood'] == 'CollgCr']['SalePrice']
barrio_B = df[df['Neighborhood'] == 'OldTown']['SalePrice']

media_A = barrio_A.mean()
media_B = barrio_B.mean()
diferencia = media_A - media_B

print(f"Barrio A (CollgCr): \${media_A:,.0f} (n={len(barrio_A)})")
print(f"Barrio B (OldTown): \${media_B:,.0f} (n={len(barrio_B)})")
print(f"Diferencia: \${diferencia:,.0f}")

# PREGUNTA: ¿esta diferencia es "real" o "azar"?

print("\n=== RAZONAMIENTO ===")
print("Si la diferencia fuera solo por azar (mala suerte en el muestreo),")
print("esperaríamos que fuera pequeña relativa a la variabilidad de los datos.")

# Calcular "efecto estandarizado"
std_pooled = np.sqrt((barrio_A.std()**2 + barrio_B.std()**2) / 2)
efecto_estandarizado = diferencia / std_pooled

print(f"\nEfecto estandarizado (Cohen's d): {efecto_estandarizado:.2f}")

if abs(efecto_estandarizado) < 0.3:
    print("-> Efecto PEQUEÑO (probablemente azar)")
elif abs(efecto_estandarizado) < 0.8:
    print("-> Efecto MODERADO (hay algo real)")
else:
    print("-> Efecto GRANDE (diferencia muy clara)")

### Interpretación del *p-valor*

**Advertencias críticas sobre el *p-valor*:**

1.  El *p-valor* **NO** es «la probabilidad de que H<sub>0</sub> sea
    verdadera»
2.  p \< 0.05 **NO** es sagrado, es solo una convención histórica
3.  Significancia estadística $\neq$ importancia práctica
4.  Con n suficientemente grande, TODO puede ser “estadísticamente
    significativo”

### Casos de uso en proyectos reales

### Tests formales en Python: solo referencia

**1. Test t de Student para dos muestras independientes:**

In [35]:
from scipy.stats import ttest_ind

# Comparar medias de dos grupos
statistic, pvalue = ttest_ind(grupo1, grupo2)

# SUPUESTOS REQUERIDOS:
# - Normalidad en cada grupo (o n>=30 por TCL)
# - Homocedasticidad (varianzas iguales)
# - Muestras independientes

# SI NO SE CUMPLE homocedasticidad:
statistic, pvalue = ttest_ind(grupo1, grupo2, equal_var=False)  # Test de Welch

**2. Test t de Student para muestras emparejadas:**

In [36]:
from scipy.stats import ttest_rel

# Comparar antes vs después en los mismos sujetos
statistic, pvalue = ttest_rel(antes, despues)

# SUPUESTOS REQUERIDOS:
# - Normalidad de las DIFERENCIAS (no de cada grupo por separado)
# - Observaciones emparejadas (mismo sujeto/unidad medido dos veces)

**3. Test de correlación de Pearson:**

In [37]:
from scipy.stats import pearsonr

# ¿La correlación observada es estadísticamente significativa?
corr, pvalue = pearsonr(x, y)

# SUPUESTOS REQUERIDOS:
# - Relación LINEAL (Pearson no detecta relaciones curvas)
# - Normalidad bivariada (especialmente importante para n<30)
# - Ausencia de *outliers* extremos

**4. Test Chi-cuadrado de independencia:**

In [38]:
from scipy.stats import chi2_contingency

# ¿Dos variables categóricas son independientes?
tabla = pd.crosstab(df['Cat1'], df['Cat2'])
chi2, pvalue, dof, expected = chi2_contingency(tabla)

# SUPUESTOS REQUERIDOS:
# - Frecuencias esperadas >= 5 en al menos 80% de celdas
# - Ninguna frecuencia esperada < 1
# - Observaciones independientes (cada caso cuenta una sola vez)

# Verificar frecuencias esperadas:
print("Frecuencias esperadas:")
print(expected)
if (expected < 5).sum() > 0.2 * expected.size:
    print(" ADVERTENCIA: Muchas celdas con frecuencia esperada < 5")
    print("-> Considera agrupar categorías raras")

**VERIFICACIÓN DE SUPUESTOS - Ejemplos:**

In [39]:
from scipy.stats import shapiro, levene

# Test de normalidad (Shapiro-Wilk)
# H0: Los datos provienen de una distribución normal
statistic, pvalue = shapiro(datos)
if pvalue < 0.05:
    print("Rechazamos normalidad -> Considerar test no paramétrico")

# Test de homocedasticidad (Levene)
# H0: Las varianzas de los grupos son iguales
statistic, pvalue = levene(grupo1, grupo2)
if pvalue < 0.05:
    print("Rechazamos homocedasticidad -> Usar test de Welch")

**ALTERNATIVAS NO PARAMÉTRICAS** (cuando no se cumplen supuestos):

In [40]:
from scipy.stats import mannwhitneyu, wilcoxon, spearmanr

# Mann-Whitney U (alternativa no paramétrica a t-test independiente)
# No requiere normalidad, solo que distribuciones tengan forma similar
statistic, pvalue = mannwhitneyu(grupo1, grupo2)

# Wilcoxon (alternativa no paramétrica a t-test emparejado)
statistic, pvalue = wilcoxon(antes, despues)

# Spearman (alternativa no paramétrica a correlación de Pearson)
# Basada en rangos, robusta a *outliers* y relaciones no lineales
corr, pvalue = spearmanr(x, y)

En proyectos profesionales, si tienes dudas sobre supuestos, consulta a
un estadístico. Un análisis erróneo puede llevar a decisiones de negocio
costosas.

### ¿Cuándo necesitas tests formales?

### Consolidación: estadística inferencial básica

## Metodología de EDA: flujo de trabajo profesional

### *Checklist* del EDA completo

Usa este checklist para asegurar que no omites pasos críticos:

**FASE 1: PRIMERA INSPECCIÓN (15 min)**

-   [ ] Cargar datos y verificar que se cargaron correctamente
-   [ ] Verificar dimensiones con .shape
-   [ ] Inspeccionar primeras y últimas filas con .head() y .tail()
-   [ ] Revisar tipos de datos con .dtypes
-   [ ] Verificar valores nulos con .isnull().sum()
-   [ ] Obtener resumen estadístico con .describe()

**FASE 2: ANÁLISIS UNIVARIANTE (30-60 min)**

Numéricas:

-   [ ] Calcular tendencia central (media, mediana, moda)
-   [ ] Calcular dispersión (std, CV, IQR)
-   [ ] Calcular forma (skewness, kurtosis)
-   [ ] Identificar necesidad de transformaciones
-   [ ] Crear histogramas para variables clave

Categóricas:

-   [ ] Calcular frecuencias y proporciones
-   [ ] Identificar categorías raras (\< 1%)
-   [ ] Analizar concentración (regla 80/20)
-   [ ] Decidir estrategia de agrupación si necesaria

**FASE 3: ANÁLISIS BIVARIANTE (45-90 min)**

Numérica-Numérica:

-   [ ] Calcular matriz de correlación
-   [ ] Identificar top 5 predictores del target
-   [ ] Detectar multicolinealidad (\|r\| \> 0.75)
-   [ ] Comparar Pearson vs Spearman en casos dudosos
-   [ ] Crear scatterplots para relaciones fuertes

Categórica-Numérica:

-   [ ] Análisis por grupos (.groupby)
-   [ ] Identificar categorías con mayor/menor target
-   [ ] Calcular variabilidad dentro de categorías
-   [ ] Detectar segmentos de mercado

Categórica-Categórica:

-   [ ] Tablas de contingencia para pares relevantes
-   [ ] Evaluar independencia visualmente
-   [ ] Identificar asociaciones fuertes

**FASE 4: ANÁLISIS MULTIVARIANTE (60-120 min)**

-   [ ] Estratificar correlaciones por subgrupos
-   [ ] Crear pivot tables multidimensionales
-   [ ] Detectar interacciones clave (efecto diferencial)
-   [ ] Analizar no-linealidades y umbrales

**FASE 5: DOCUMENTACIÓN (30 min)**

-   [ ] Crear sección de hallazgos clave
-   [ ] Documentar decisiones de transformación
-   [ ] Listar variables a eliminar/agrupar
-   [ ] Anotar hipótesis para feature engineering
-   [ ] Preparar 2-3 visualizaciones clave para stakeholders

### Registro de hallazgos clave

### *Template* de *notebook* de EDA

Añade celdas de Markdown entre bloques de código para explicar QUÉ estás
buscando y POR QUÉ es relevante. Un notebook sin narrativa es solo
código difícil de seguir.

### Preparación para modelado: *checklist* final

Antes de pasar a entrenar modelos (UT8), verifica:

**Variables:**

-   [ ] Variables finales seleccionadas documentadas
-   [ ] Multicolinealidad resuelta (\|r\| \< 0.8 entre predictores)
-   [ ] Categorías raras agrupadas o eliminadas

**Transformaciones:**

-   [ ] Variables asimétricas transformadas (log, sqrt, etc.)
-   [ ] Transformaciones documentadas (para invertir predicciones)
-   [ ] Escalado no necesario aún (se hace en UT8)

**Datos limpios:**

-   [ ] Nulos manejados (de UT5)
-   [ ] Outliers revisados y decisión tomada
-   [ ] Duplicados eliminados (de UT5)

**Split Train/Test:**

-   [ ] Train/Test definido (80/20)
-   [ ] Estratificado si hay desbalance
-   [ ] Sin data leakage (split ANTES de imputación/scaling)

**Documentación:**

-   [ ] Decisiones justificadas con EDA
-   [ ] Supuestos documentados
-   [ ] Baseline definido

### Errores comunes y cómo evitarlos

## Ejemplos de referencia: patrones EDA

### Análisis Univariante (Numérico y Categórico)

In [41]:
import pandas as pd
import numpy as np

# 1. Medidas de tendencia y dispersión robustas
stats = df['col'].agg(['mean', 'median', 'std'])
cv = df['col'].std() / df['col'].mean() # Coeficiente de Variación

# 2. Concentración categórica (frecuencias)
freq = df['cat'].value_counts()
rel_freq = df['cat'].value_counts(normalize=True) * 100

### Análisis Bivariante y Correlaciones

In [42]:
# 1. Matriz de correlación de Pearson
corr_matrix = df.corr(numeric_only=True)

# 2. Análisis de contingencia (Categórica vs Categórica)
contingencia = pd.crosstab(df['cat1'], df['cat2'])

# 3. Segmentación (Categórica vs Numérica)
segmentos = df.groupby('cat')['num'].describe()

### Transformaciones y Multivariante

In [43]:
# 1. Transformación Logarítmica (reduce asimetría)
df['log_val'] = np.log1p(df['val'])

# 2. Agregaciones multivariante
multi_stats = df.pivot_table(values='num', index='cat1', columns='cat2', aggfunc='mean')

## Conceptos Clave

-   **Asimetría (Skewness):** Medida que indica si los datos están
    distribuidos de forma equilibrada respecto a la media o si se
    concentran en un extremo.
-   **Curtosis:** Medida que indica el grado de concentración de los
    datos alrededor de la zona central de la distribución
    (“puntiagudez”).
-   **Correlación:** Relación estadística entre dos variables que indica
    cómo varía una al cambiar la otra (no implica causalidad).
-   ***p-valor*:** valor que ayuda a determinar la significancia
    estadística de un hallazgo; si es bajo, es poco probable que el
    resultado sea azaroso.

### Checklist de autoevaluación

Antes de pasar a la práctica, asegúrate de que puedes:

-   [ ] Interpretar qué indica una asimetría (skewness) positiva o
    negativa.
-   [ ] Diferenciar entre una correlación fuerte y una relación de
    causalidad.
-   [ ] Interpretar el *p-valor* para validar o rechazar una hipótesis.
-   [ ] Visualizar la curtosis para entender la frecuencia de valores
    extremos.

## Fuentes y Lecturas Recomendadas

**¿Quieres profundizar más?** Consulta la bibliografía detallada, los
enlaces a la documentación oficial y los recursos de aprendizaje para
esta unidad en el **Apéndice B: Fuentes y Lecturas Recomendadas** al
final de este libro.

### Reflexión final