# 💡 Métricas Estadísticas Descriptivas  
### Teoría + Interpretación del Análisis

Este apartado explica el significado de cada métrica estadística calculada durante el análisis exploratorio, cómo interpretarlas y qué acciones pueden derivarse de ellas.

---

## 📌 Medidas de Tendencia Central

### 🔹 Media
- **Definición**: Promedio aritmético de todos los valores.
- **Cálculo**: Suma total / número de observaciones.
- **Indica**: Valor promedio representativo.
- **Consideraciones**: Muy sensible a outliers.
- **Interpretación**: Si es muy distinta de la mediana, puede haber sesgo o valores extremos.

### 🔹 Mediana
- **Definición**: Valor que divide a la muestra ordenada en dos partes iguales.
- **Ventaja**: Robusta frente a outliers.
- **Interpretación**: Más fiable que la media cuando hay asimetría o datos extremos.

### 🔹 Moda
- **Definición**: Valor que más veces se repite.
- **Uso**: Útil en variables categóricas o discretas.
- **Nota**: Puede haber más de una moda o ninguna.

---

## 📌 Medidas de Dispersión

### 🔹 Rango
- **Definición**: Diferencia entre el valor máximo y mínimo.
- **Limitación**: Afectado por outliers.

### 🔹 Rango intercuartílico (IQR)
- **Definición**: Q3 - Q1 (50% central de los datos).
- **Uso**: Detección de outliers y evaluación de dispersión central.

### 🔹 Varianza
- **Definición**: Promedio de las diferencias al cuadrado respecto a la media.
- **Unidad**: Cuadrado de la variable.

### 🔹 Desviación estándar (σ)
- **Definición**: Raíz cuadrada de la varianza.
- **Interpretación**:
  - σ pequeña: datos agrupados.
  - σ grande: alta variabilidad.
- **Uso**: Indicador clave de dispersión.

### 🔹 Coeficiente de variación (CV)
- **Definición**: σ / media.
- **Uso**: Medida de dispersión relativa.
- **Interpretación**: Útil para comparar la variabilidad entre variables con diferentes escalas.

---

## 📌 Forma de la Distribución

### 🔹 Asimetría (Skewness)
- **Definición**: Mide la simetría de la distribución.
- **Valores orientativos**:
  - ≈ 0 → Simétrica
  - > 0 → Sesgo positivo
  - < 0 → Sesgo negativo
- **Umbrales**:
  - |Sk| < 0.5 → Leve
  - 0.5–1 → Moderado
  - > 1 → Fuerte

> 💬 _Ejemplo_: “Sk = 0.78 → distribución asimétrica a la derecha, con valores altos aislados.”

### 🔹 Curtosis
- **Definición**: Evalúa el peso de las colas de la distribución.
- **Valores orientativos**:
  - ≈ 3 → Normal (mesocúrtica)
  - > 3 → Colas pesadas (leptocúrtica)
  - < 3 → Colas ligeras (platicúrtica)

> 💬 _Ejemplo_: “Curtosis = 4.2 → distribución con más valores extremos de lo esperado.”

---

## 📌 Outliers (Valores Atípicos)

- **Definición**: Valores que se alejan significativamente del patrón general.
- **Detección común**: 
  - < Q1 − 1.5×IQR o > Q3 + 1.5×IQR.
- **Impacto**: Distorsionan media, varianza y σ.
- **Acciones**:
  - Verificar si son errores o casos válidos.
  - Evaluar si deben excluirse o tratarse aparte.

> 💬 _Ejemplo_: “Se detectaron 12 outliers que influyen significativamente en la media.”

---

## 📌 Normalidad

### 🔹 Test de Shapiro-Wilk
- **Uso**: Comprobar si los datos siguen una distribución normal.
- **Interpretación**:
  - p > 0.05 → distribución normal.
  - p ≤ 0.05 → distribución no normal.

> 💬 _Ejemplo_: “p = 0.013 → distribución no normal. Se recomienda usar métodos no paramétricos.”

---

## 📌 Cardinalidad y Unicidad

### 🔹 Valores únicos
- **Definición**: Número de categorías o valores distintos.
- **Interpretación**:
  - Baja cardinalidad: útil para codificación o análisis categórico.
  - Alta cardinalidad: puede requerir reducción o agrupación.

---

## ✅ Reglas interpretativas del análisis automatizado

- **Skewness > 1 o < -1** → alerta de fuerte asimetría.
- **Curtosis > 3.5** → alerta de colas pesadas.
- **Outliers > 10%** → posible distorsión de media y varianza.
- **p normalidad ≤ 0.05** → se sugiere test no paramétrico o transformación.
- **CV > 1** → alta variabilidad relativa.

---

💡 **Conclusión General**  
Estas métricas ayudan a entender el comportamiento de una variable: su tendencia, dispersión, forma, valores extremos y adecuación a modelos. Interpretarlas correctamente permite tomar mejores decisiones analíticas y preparar los datos de forma robusta.

---

---

# 📘 Glosario de términos clave

### 🧪 Tipos de test

🔹 **Paramétrico**  
Supone que los datos siguen ciertas distribuciones (normalidad, homogeneidad de varianzas).  
Ejemplos: *t-test*, *ANOVA*, *Pearson*.

🔸 **No paramétrico**  
No asume una forma específica de distribución.  
Se usa con datos no normales, ordinales o con outliers.  
Ejemplos: *Mann-Whitney*, *Kruskal-Wallis*, *Chi²*.

---

### 📊 Conceptos estadísticos

🔹 **Normalidad**  
La variable sigue una distribución normal (campana de Gauss).  
Se evalúa con *Shapiro-Wilk*, *D’Agostino K²*, *Anderson-Darling*, *Jarque-Bera*.  
*p > 0.05* → los datos pueden considerarse normales.

🔸 **Homocedasticidad (varianzas iguales)**  
Todos los grupos tienen varianzas similares.  
Tests: *Levene*, *Bartlett*, *Brown-Forsythe*.  
*p > 0.05* → varianzas iguales.

🔹 **Heterocedasticidad**  
Varianzas significativamente diferentes entre grupos.  
*p < 0.05* en Levene → usar *Welch* o tests robustos.

🔸 **Outlier (valor atípico)**  
Valor que se aleja considerablemente del resto de los datos.  
Detección con *IQR* o *z-score*.  
Pueden afectar fuertemente a la media y a los tests paramétricos.

🔹 **Varianza**  
Medida de dispersión que muestra cuánto varían los datos respecto a la media.  
Varianza alta = dispersión; baja = agrupación.

🔸 **Desviación estándar**  
Raíz cuadrada de la varianza.  
Representa la dispersión en las mismas unidades que la variable.

🔹 **p-valor**  
Probabilidad de obtener un resultado igual o más extremo si *H₀* fuera cierta.  
- *p < 0.05* → evidencia suficiente para rechazar *H₀* (significativo)  
- *p > 0.05* → no se rechaza *H₀*

🔸 **Estadístico de prueba**  
Valor numérico calculado en un test estadístico (por ejemplo, *t*, *F*, *U*).  
Se compara contra una distribución de referencia para obtener el *p-valor*.

---

### 📏 Tamaño del efecto

🔹 **Tamaño del efecto**  
Mide la magnitud de la diferencia o relación, más allá de si es significativa.  
- **Cohen’s d**: diferencia entre medias (2 grupos)  
- **η² (eta al cuadrado)**: proporción de varianza explicada (*ANOVA*)  
- **Cramér’s V**: fuerza de asociación (*Chi²*)  
- **r de Spearman o Kendall**: magnitud de correlaciones ordinales

🔸 **Interpretación de Cohen’s d**  
- 0.2 → pequeño  
- 0.5 → mediano  
- 0.8 → grande

---

### 📈 Análisis de correlación

🔹 **Correlación de Pearson**  
Mide la relación lineal entre dos variables numéricas.  
Supone normalidad.  
*p < 0.05* → correlación significativa.

🔸 **Correlación de Spearman**  
Correlación basada en rangos. No requiere normalidad.  
Útil para relaciones no lineales o variables ordinales.

🔹 **Tau de Kendall**  
Correlación ordinal robusta a empates y muestras pequeñas.  
Alternativa a Spearman.

---

### 🧠 Interpretaciones clave

🔸 **Significativo estadísticamente ≠ relevante clínicamente o en negocio**  
Una diferencia puede ser significativa (*p < 0.05*) pero irrelevante si el tamaño del efecto es pequeño.

🔹 **Significativo vs. no significativo**  
No significativo **no** significa “no hay efecto”, sino que no se pudo **demostrar con los datos disponibles**.

🔸 **Validación cruzada**  
Método para evaluar la estabilidad de resultados, especialmente en modelos predictivos.

---

### 🔍 Tests comunes y su utilidad

🔸 **Test de Shapiro-Wilk**  
Evalúa la normalidad de una variable (recomendado para < 5000 observaciones).

🔹 **Test de Anderson-Darling**  
Evalúa la normalidad con mayor peso en los extremos.

🔸 **Test de Levene / Brown-Forsythe / Bartlett**  
Evalúan homogeneidad de varianzas entre grupos.

🔹 **Test t de Student / Welch**  
Comparan medias de 2 grupos (igual vs. desigual varianza).

🔸 **Mann-Whitney U Test**  
Alternativa no paramétrica al *t-test* para 2 grupos.

🔹 **ANOVA clásico / Welch ANOVA**  
Comparan medias entre ≥3 grupos. Welch se usa con varianzas distintas.

🔸 **Kruskal-Wallis**  
Alternativa no paramétrica a *ANOVA* para ≥3 grupos.

🔹 **Chi-cuadrado (χ²)**  
Test de independencia para variables categóricas.  
Requiere frecuencias esperadas > 5.

🔸 **Fisher exact test**  
Alternativa al χ² para tablas 2x2 con frecuencias pequeñas.

🔹 **McNemar test**  
Comparación de proporciones en muestras pareadas (tablas 2x2).

---

# 🗃️ Tabla resumen de tests estadísticos

| 🧪 Test              | Tipo           | Requiere normalidad | Requiere varianzas iguales | ¿Cuándo usarlo?                                                   | ¿Qué mide?                                           | Interpretación (p)           | Tamaño del efecto                       | Notas adicionales                                                                                   |
| -------------------- | -------------- | ------------------- | -------------------------- | ----------------------------------------------------------------- | ----------------------------------------------------| ---------------------------- | ------------------------------------- | ------------------------------------------------------------------------------------------------- |
| **Shapiro-Wilk**     | No paramétrico | —                   | —                          | Verificar si los datos siguen una distribución normal             | Normalidad                                           | p > 0.05 → normal            | —                                     | Muy sensible para muestras pequeñas                                                               |
| **Kolmogorov-Smirnov** | No paramétrico | —                 | —                          | Verificar ajuste a distribución teórica (normal u otra)           | Ajuste de la distribución                           | p > 0.05 → ajuste aceptable  | —                                     | Test general, menos potente que Shapiro-Wilk                                                      |
| **Anderson-Darling** | No paramétrico | —                   | —                          | Evaluar ajuste a distribución teórica                             | Ajuste de la distribución                           | Estadístico < valor crítico → no rechazar H0 | —           | Proporciona valores críticos específicos para varios niveles de significancia                    |
| **Skewness test**    | No paramétrico | —                   | —                          | Detectar asimetría significativa                                  | Asimetría (simetría)                                | p < 0.05 → asimetría significativa | —                         | Complementario para normalidad                                                                    |
| **Kurtosis test**    | No paramétrico | —                   | —                          | Detectar curtosis significativa                                   | Curtosis                                            | p < 0.05 → curtosis significativa | —                         | Complementario para normalidad                                                                    |
| **D'Agostino K²**    | No paramétrico | —                   | —                          | Test de normalidad basado en asimetría y curtosis                 | Normalidad                                           | p > 0.05 → normal            | —                                     | Similar a Shapiro-Wilk, para muestras moderadas                                                  |
| **Jarque-Bera**      | No paramétrico | —                   | —                          | Test de normalidad basado en asimetría y curtosis                 | Normalidad                                           | p > 0.05 → normal            | —                                     | Usado en econometría                                                                             |
| **Levene**           | No paramétrico | —                   | —                          | Evaluar si los grupos tienen varianzas iguales                    | Homogeneidad de varianzas                            | p > 0.05 → varianzas iguales | —                                     | Alternativa: Brown-Forsythe (mediana)                                                           |
| **Brown-Forsythe**   | No paramétrico | —                   | —                          | Variante del test de Levene usando mediana                        | Homogeneidad de varianzas                            | p > 0.05 → varianzas iguales | —                                     | Más robusto a valores atípicos                                                                   |
| **t-test (Student)** | Paramétrico    | ✅                   | ✅                          | Comparar medias entre 2 grupos con normalidad y varianzas iguales | Diferencia de medias                                 | p < 0.05 → medias distintas  | Cohen's d                             | Uso clásico con homocedasticidad                                                                  |
| **Welch t-test**     | Paramétrico    | ✅                   | ❌                          | Comparar medias entre 2 grupos con normalidad pero varianzas ≠    | Diferencia de medias (sin asumir varianzas iguales) | p < 0.05 → medias distintas  | Cohen's d                             | Más robusto si varianzas son heterogéneas                                                         |
| **Mann-Whitney U**   | No paramétrico | ❌                   | —                          | Comparar distribuciones entre 2 grupos no normales                | Diferencia de distribuciones                         | p < 0.05 → grupos diferentes | —                                     | Alternativa no paramétrica para t-test de dos muestras                                           |
| **Wilcoxon Signed-Rank** | No paramétrico | ❌                | —                          | Comparar muestras relacionadas (pareadas)                        | Diferencia entre muestras relacionadas              | p < 0.05 → diferencias significativas | —                         | Alternativa no paramétrica al t-test pareado                                                    |
| **ANOVA clásico**    | Paramétrico    | ✅                   | ✅                          | Comparar medias entre ≥3 grupos normales con varianzas iguales    | Al menos una media distinta                          | p < 0.05 → hay diferencias   | Eta cuadrado (η²)                    | Requiere homocedasticidad y normalidad en grupos                                                 |
| **Welch ANOVA**      | Paramétrico    | ✅                   | ❌                          | Comparar medias entre ≥3 grupos normales con varianzas distintas  | Al menos una media distinta                          | p < 0.05 → hay diferencias   | No proporciona η² directamente       | Robusto a heterocedasticidad                                                                     |
| **Kruskal-Wallis**   | No paramétrico | ❌                   | —                          | Comparar ≥3 grupos sin normalidad                                 | Diferencias en la distribución                       | p < 0.05 → hay diferencias   | —                                     | Alternativa no paramétrica para ANOVA                                                           |
| **Chi-cuadrado**     | No paramétrico | —                   | —                          | Ver relación entre dos variables categóricas                      | Dependencia / independencia entre categorías         | p < 0.05 → hay relación      | Cramér's V                           | No usar si >20% celdas con frecuencias esperadas <5                                              |
| **Fisher exact**     | No paramétrico | —                   | —                          | Como el chi², pero para muestras pequeñas o tablas 2x2            | Dependencia / independencia exacta                   | p < 0.05 → hay relación      | Cramér's V (similar)                 | Útil para tablas 2x2 pequeñas                                                                    |
| **McNemar**          | No paramétrico | —                   | —                          | Para tablas 2x2 con datos pareados                                | Cambios en proporciones pareadas                      | p < 0.05 → cambio significativo | —                                   | Test para datos relacionados o repetidos                                                        |
| **Durbin-Watson**    | Paramétrico    | —                   | —                          | Detectar autocorrelación en residuos de modelos                   | Autocorrelación de residuos                           | Valor ~2 indica no autocorrelación | —                               | No genera p-valor, estadístico interpretativo                                                  |
| **Kolmogorov-Smirnov 2 muestras** | No paramétrico | —         | —                          | Comparar dos distribuciones (independientes)                      | Diferencias entre distribuciones                      | p < 0.05 → distribuciones diferentes | —                         | Test no paramétrico para dos muestras                                                          |

