# 01 · Introducción a la IA en Audiología — Teoría y práctica de estadística

## 🧠 Módulo 0 — Fundamentos de estadística (resumen de teoría)

*Descriptiva vs. inferencial, niveles de medida, media/mediana/varianza/DS/IQR, z-scores, TCL, IC y p-valores, correlación ≠ causalidad, y pitfalls comunes.*

### 1) ¿Qué es la estadística?
- **Descriptiva**: resume lo observado (tablas, medias, gráficos). **No** generaliza.
- **Inferencial**: usa una **muestra** para inferir sobre una **población** (IC, contrastes, predicción).
- En audiología: describir umbrales por frecuencia vs. estimar el efecto de un ajuste en nuevos pacientes.

### 2) Variables y niveles de medida
- **Nominal** (categorías sin orden) p. ej., marca de audífono.
- **Ordinal** (orden sin intervalos fijos) p. ej., satisfacción baja–media–alta.
- **Intervalo** (intervalos fijos, cero no absoluto) p. ej., °C.
- **Razón** (intervalos fijos, cero absoluto) p. ej., edad, horas de uso.
> Elegir mal el nivel → estadísticas/figuras inadecuadas.

### 3) Medidas de tendencia central (centro)
- **Media**: \(\bar{x}=\frac{1}{n}\sum x_i\). Sensible a outliers.
- **Mediana**: punto central. Robusta a outliers.
- **Moda**: valor más frecuente.

### 4) Medidas de dispersión (variabilidad)
- **Rango**: máx − mín.
- **Varianza** muestral: \(s^2=\frac{1}{n-1}\sum (x_i-\bar{x})^2\).
- **Desviación estándar**: \(s=\sqrt{s^2}\).
- **IQR**: Q3 − Q1 (robusta).

### 5) Forma de la distribución
- **Asimetría** y **curtosis**: ayudan a diagnosticar outliers y colas largas.

### 6) Estandarización (z-scores)
- \(z_i=\frac{x_i-\bar{x}}{s}\). Útil para detectar valores atípicos (|z|>3).

### 7) Muestreo, sesgos y tamaño muestral
- Aleatorio vs. conveniencia; tamaños pequeños → IC anchos.

### 8) Teorema Central del Límite (TCL)
- \(\bar{X}\) ≈ normal para \(n\) grande → base de IC/tests sobre medias.

### 9) Intervalos de confianza y p-valores
- **IC 95%**: rango plausible del parámetro.
- **p-valor**: prob. de datos tan/extremos si H0 fuera cierta (no es prob(H0)).
- Reportar **tamaño del efecto** + **IC** > solo p-valor.

### 10) Correlación ≠ causalidad (confusores)
- En audiología: edad puede confundir relación entre sesiones y resultado.

### 11) Pitfalls frecuentes
- Promediar escalas ordinales como si fueran de intervalo.
- Ignorar dependencias (oído/paciente).
- Múltiples comparaciones sin corrección.

## 🛠️ Práctica rápida con audiogramas

In [None]:
import pandas as pd
import numpy as np

# Cargar audiogramas (un oído por paciente). Ajusta la ruta si tu estructura difiere.
df = pd.read_csv('../data/raw/audiograms.csv')

FREQS = [250, 500, 1000, 2000, 4000, 8000]
F_COLS = [f"f{f}" for f in FREQS]

# --- Medidas por paciente ---
df['mean_hl'] = df[F_COLS].mean(axis=1)
df['median_hl'] = df[F_COLS].median(axis=1)
df['sd_hl'] = df[F_COLS].std(axis=1, ddof=1)
df['iqr_hl'] = df[F_COLS].quantile(0.75, axis=1) - df[F_COLS].quantile(0.25, axis=1)

display(df[['id', 'edad', 'sexo', 'mean_hl', 'median_hl', 'sd_hl', 'iqr_hl']].head())

# --- Medidas por frecuencia (todos los pacientes) ---
desc_by_freq = df[F_COLS].agg(['mean','median','std','min','max']).T
desc_by_freq.index = [c[1:] for c in desc_by_freq.index]  # quitar 'f'
display(desc_by_freq)