# 01 ¬∑ Introducci√≥n a la IA en Audiolog√≠a ‚Äî Teor√≠a y pr√°ctica de estad√≠stica

## üß† M√≥dulo 0 ‚Äî Fundamentos de estad√≠stica (resumen de teor√≠a)

*Descriptiva vs. inferencial, niveles de medida, media/mediana/varianza/DS/IQR, z-scores, TCL, IC y p-valores, correlaci√≥n ‚â† causalidad, y pitfalls comunes.*

### 1) ¬øQu√© es la estad√≠stica?
- **Descriptiva**: resume lo observado (tablas, medias, gr√°ficos). **No** generaliza.
- **Inferencial**: usa una **muestra** para inferir sobre una **poblaci√≥n** (IC, contrastes, predicci√≥n).
- En audiolog√≠a: describir umbrales por frecuencia vs. estimar el efecto de un ajuste en nuevos pacientes.

### 2) Variables y niveles de medida
- **Nominal** (categor√≠as sin orden) p. ej., marca de aud√≠fono.
- **Ordinal** (orden sin intervalos fijos) p. ej., satisfacci√≥n baja‚Äìmedia‚Äìalta.
- **Intervalo** (intervalos fijos, cero no absoluto) p. ej., ¬∞C.
- **Raz√≥n** (intervalos fijos, cero absoluto) p. ej., edad, horas de uso.
> Elegir mal el nivel ‚Üí estad√≠sticas/figuras inadecuadas.

### 3) Medidas de tendencia central (centro)
- **Media**: \(\bar{x}=\frac{1}{n}\sum x_i\). Sensible a outliers.
- **Mediana**: punto central. Robusta a outliers.
- **Moda**: valor m√°s frecuente.

### 4) Medidas de dispersi√≥n (variabilidad)
- **Rango**: m√°x ‚àí m√≠n.
- **Varianza** muestral: \(s^2=\frac{1}{n-1}\sum (x_i-\bar{x})^2\).
- **Desviaci√≥n est√°ndar**: \(s=\sqrt{s^2}\).
- **IQR**: Q3 ‚àí Q1 (robusta).

### 5) Forma de la distribuci√≥n
- **Asimetr√≠a** y **curtosis**: ayudan a diagnosticar outliers y colas largas.

### 6) Estandarizaci√≥n (z-scores)
- \(z_i=\frac{x_i-\bar{x}}{s}\). √ötil para detectar valores at√≠picos (|z|>3).

### 7) Muestreo, sesgos y tama√±o muestral
- Aleatorio vs. conveniencia; tama√±os peque√±os ‚Üí IC anchos.

### 8) Teorema Central del L√≠mite (TCL)
- \(\bar{X}\) ‚âà normal para \(n\) grande ‚Üí base de IC/tests sobre medias.

### 9) Intervalos de confianza y p-valores
- **IC 95%**: rango plausible del par√°metro.
- **p-valor**: prob. de datos tan/extremos si H0 fuera cierta (no es prob(H0)).
- Reportar **tama√±o del efecto** + **IC** > solo p-valor.

### 10) Correlaci√≥n ‚â† causalidad (confusores)
- En audiolog√≠a: edad puede confundir relaci√≥n entre sesiones y resultado.

### 11) Pitfalls frecuentes
- Promediar escalas ordinales como si fueran de intervalo.
- Ignorar dependencias (o√≠do/paciente).
- M√∫ltiples comparaciones sin correcci√≥n.

## üõ†Ô∏è Pr√°ctica r√°pida con audiogramas

In [None]:
import pandas as pd
import numpy as np

# Cargar audiogramas (un o√≠do por paciente). Ajusta la ruta si tu estructura difiere.
df = pd.read_csv('../data/raw/audiograms.csv')

FREQS = [250, 500, 1000, 2000, 4000, 8000]
F_COLS = [f"f{f}" for f in FREQS]

# --- Medidas por paciente ---
df['mean_hl'] = df[F_COLS].mean(axis=1)
df['median_hl'] = df[F_COLS].median(axis=1)
df['sd_hl'] = df[F_COLS].std(axis=1, ddof=1)
df['iqr_hl'] = df[F_COLS].quantile(0.75, axis=1) - df[F_COLS].quantile(0.25, axis=1)

display(df[['id', 'edad', 'sexo', 'mean_hl', 'median_hl', 'sd_hl', 'iqr_hl']].head())

# --- Medidas por frecuencia (todos los pacientes) ---
desc_by_freq = df[F_COLS].agg(['mean','median','std','min','max']).T
desc_by_freq.index = [c[1:] for c in desc_by_freq.index]  # quitar 'f'
display(desc_by_freq)