# 💡 Métricas Estadísticas Descriptivas: 
### Teoría + Interpretación del Análisis

Este apartado explica qué significa cada métrica estadística que hemos calculado y cómo interpretarlas dentro de un análisis exploratorio de datos. A continuación se detallan las métricas más relevantes con sus fundamentos teóricos y observaciones habituales generadas en el análisis automatizado.

---

## 📌 Medidas de Tendencia Central

### 🔹 Media
- **Definición**: Promedio aritmético de todos los valores.
- **¿Qué es?**: Es el promedio de todos los valores.
- **¿Cómo se calcula?**: Suma de todos los valores dividida entre el número de observaciones.
- **¿Qué indica?**: Una medida general del valor típico de la variable.
- **Consideraciones**: Muy sensible a valores extremos (outliers).
- **Interpretación en el análisis**:
  - Si la media es muy distinta de la mediana, puede haber asimetría o valores atípicos que distorsionan la media.
  - Útil cuando los datos están distribuidos de forma relativamente simétrica y sin outliers graves.

### 🔹 Mediana
- **Definición**: Valor central de la distribución ordenada.
- **¿Qué es?**: Es el valor que se encuentra en el centro de los datos ordenados.
- **¿Qué indica?**: Representa el valor central real, especialmente útil cuando los datos están sesgados o contienen outliers.
- **Ventaja**: No se ve afectada por valores extremos.
- **Interpretación en el análisis**:
  - Si la mediana es muy diferente de la media, es indicativo de una distribución sesgada.
  - En presencia de outliers, la mediana suele ser más representativa que la media.

### 🔹 Moda
- **Definición**: Valor que más se repite en la muestra.
- **¿Qué es?**: Es el valor que más se repite en el conjunto de datos.
- **¿Cuándo se usa?**: Útil en variables discretas o categóricas; puede haber más de una moda o ninguna.
- **Interpretación en el análisis**:
  - Puede revelar acumulaciones específicas o patrones discretos en la variable.
  - En datos continuos suele coincidir o no ser significativa si los valores son muy variados.

---

## 📌 Medidas de Dispersión

### 🔹 Rango
- **Definición**: Diferencia entre el valor máximo y el mínimo.
- **¿Qué indica?**: La extensión total de los datos.
- **Interpretación en el análisis**:
  - Indica la extensión total de los valores observados, pero puede estar muy influido por outliers.
  - Útil para detectar valores extremos potenciales.

### 🔹 IQR (Rango Intercuartílico)
- **Definición**: Diferencia entre Q3 y Q1, es decir, el 50% central de los datos.
- **¿Qué indica?**: Dispersión de la mitad central de los datos (el 50% central).
- **Uso típico**: Identificación de outliers (valores fuera de 1.5 × IQR desde Q1 o Q3).
- **Interpretación en el análisis**:
  - Valores fuera del rango [Q1 - 1.5×IQR, Q3 + 1.5×IQR] se consideran outliers.
  - Un IQR bajo indica poca variabilidad; uno alto sugiere mayor dispersión entre los datos centrales.

### 🔹 Varianza 
- **Definición**: Miden la dispersión respecto a la media (al cuadrado,)
- **¿Qué es?**: Medida promedio del cuadrado de las diferencias respecto a la media.
- **¿Qué indica?**: Cuánto se dispersan los datos en torno a la media.
- **Unidad**: Está en unidades al cuadrado.

### 🔹 Desviación estándar
- **Definición**: Miden la dispersión respecto a la media (en las mismas unidades que la variable).
- **¿Qué es?**: Raíz cuadrada de la varianza.
- **¿Qué indica?**: Promedio de las desviaciones respecto a la media, en las mismas unidades de la variable.
- **Orientación**:
  - σ pequeña: datos agrupados.
  - σ grande: datos dispersos.
- **Interpretación en el análisis**:
  - Una desviación estándar muy alta en relación con la media indica gran variabilidad.
  - Si la desviación estándar es baja, los datos están agrupados cerca de la media.

---

## 📌 Forma de la Distribución

### 🔹 Asimetría (Skewness)
- **Definición**: Mide si los datos se inclinan hacia un lado (asimetría).
- **¿Qué es?**: Mide la simetría de la distribución.
- **Interpretación**:
  - Sk ≈ 0 → Distribución simétrica.
  - Sk > 0 → Sesgo positivo (cola hacia la derecha).
  - Sk < 0 → Sesgo negativo (cola hacia la izquierda).
- **Valores orientativos**:
  - |Sk| < 0.5 → Aproximadamente simétrica.
  - 0.5 ≤ |Sk| < 1 → Moderadamente sesgada.
  - |Sk| ≥ 1 → Fuertemente sesgada

> 💬 _Ejemplo interpretativo generado:_  
> “La variable muestra un sesgo positivo moderado (Sk = 0.78), lo que indica una ligera acumulación de valores bajos con una cola extendida hacia valores altos. La media podría estar inflada respecto a la mediana.”

### 🔹 Curtosis
- **Definición**: Indica si los datos tienen colas más o menos pesadas que una distribución normal.
- **¿Qué es?**: Mide la forma de la cola de la distribución (concentración de los datos).
- **Interpretación**:
  - Curtosis ≈ 3 → Distribución normal (mesocúrtica).
  - > 3 → Curtosis alta (leptocúrtica): colas pesadas. (más valores extremos de lo esperado).
  - < 3 → Curtosis baja (platicúrtica): colas ligeras.

> 💬 _Ejemplo interpretativo generado:_  
> “La curtosis de 4.2 indica que la distribución tiene colas más pesadas que la normal, por lo que hay mayor probabilidad de valores extremos.”

---

## 📌 Outliers (Valores Atípicos)

- **Definición**: Observaciones muy alejadas del patrón general.
- **¿Qué son?**: Observaciones que se alejan significativamente del resto de los datos.
- **Identificación común**:
  - Menor que Q1 - 1.5×IQR o mayor que Q3 + 1.5×IQR.
- **Importancia**:
  - Pueden influir fuertemente en la media, varianza y desviación estándar.
  - Requieren análisis específico: ¿son errores, valores raros pero válidos, o indicios importantes?
- **Método**: Se detectan usando el IQR.
- **Interpretación en el análisis**:
  - Los outliers pueden indicar errores, casos excepcionales o valores válidos que requieren análisis específico.
  - Afectan especialmente a la media y desviación estándar.

> 💬 _Ejemplo interpretativo generado:_  
> “Se han detectado 12 outliers por encima del rango superior. Esto podría estar sesgando la media y aumentando la dispersión general.”

---

## 📌 Normalidad

### 🔹 Test de Shapiro-Wilk (u otro equivalente)
- **Definición**: Evalúa si los datos siguen una distribución normal.
- **Importancia**: Muchos tests estadísticos requieren la normalidad como supuesto.
- **Interpretación en el análisis**:
  - **p > 0.05**: No se rechaza la hipótesis de normalidad → los datos se consideran normales.
  - **p ≤ 0.05**: Se rechaza la normalidad → distribución no normal.

> 💬 _Ejemplo interpretativo generado:_  
> “El test de normalidad (p = 0.013) sugiere que los datos no siguen una distribución normal. Podría considerarse aplicar transformaciones o utilizar pruebas estadísticas no paramétricas.”

---

## ✅ Reglas orientativas aplicadas en el análisis

- Si |Skewness| > 1 → se alerta de fuerte asimetría.
- Si Curtosis > 3.5 → se alerta de presencia de colas pesadas y riesgo de outliers.
- Si el número de outliers supera el 10% de los registros, se advierte del posible impacto sobre la media.
- Si el test de normalidad da p ≤ 0.05 → se sugiere considerar métodos robustos o no paramétricos.

---

💡 **Conclusión general**:  
Estas métricas no sólo resumen las características básicas de una variable, sino que también orientan sobre qué técnicas estadísticas, modelos o transformaciones son más adecuadas. Su correcta interpretación permite detectar problemas, ajustar métodos y comprender mejor los datos antes de modelar.


# 🗃️ Tabla resumen de tests estadísticos

| 🧪 Test              | Tipo           | Requiere normalidad | Requiere varianzas iguales | ¿Cuándo usarlo?                                                   | ¿Qué mide?                                          | Interpretación (p)           |
| -------------------- | -------------- | ------------------- | -------------------------- | ----------------------------------------------------------------- | --------------------------------------------------- | ---------------------------- |
| **Shapiro-Wilk**     | No paramétrico | —                   | —                          | Verificar si los datos siguen una distribución normal             | Normalidad                                          | p > 0.05 → normal            |
| **Levene**           | No paramétrico | —                   | —                          | Evaluar si los grupos tienen varianzas iguales                    | Homogeneidad de varianzas                           | p > 0.05 → varianzas iguales |
| **t-test (Student)** | Paramétrico    | ✅                   | ✅                          | Comparar medias entre 2 grupos con normalidad y varianzas iguales | Diferencia de medias                                | p < 0.05 → medias distintas  |
| **Welch t-test**     | Paramétrico    | ✅                   | ❌                          | Comparar medias entre 2 grupos con normalidad pero varianzas ≠    | Diferencia de medias (sin asumir varianzas iguales) | p < 0.05 → medias distintas  |
| **Mann-Whitney U**   | No paramétrico | ❌                   | —                          | Comparar distribuciones entre 2 grupos no normales                | Diferencia de distribuciones                        | p < 0.05 → grupos diferentes |
| **ANOVA**            | Paramétrico    | ✅                   | ✅                          | Comparar medias entre ≥3 grupos normales con varianzas iguales    | Al menos una media distinta                         | p < 0.05 → hay diferencias   |
| **Welch ANOVA**      | Paramétrico    | ✅                   | ❌                          | Comparar medias entre ≥3 grupos normales con varianzas distintas  | Al menos una media distinta                         | p < 0.05 → hay diferencias   |
| **Kruskal-Wallis**   | No paramétrico | ❌                   | —                          | Comparar ≥3 grupos sin normalidad                                 | Diferencias en la distribución                      | p < 0.05 → hay diferencias   |
| **Chi-cuadrado**     | No paramétrico | —                   | —                          | Ver relación entre dos variables categóricas                      | Dependencia / independencia entre categorías        | p < 0.05 → hay relación      |
| **Fisher exact**     | No paramétrico | —                   | —                          | Como el chi², pero para muestras pequeñas o tablas 2x2            | Dependencia / independencia exacta                  | p < 0.05 → hay relación      |


# 📘 Glosario de términos clave

🔹 Paramétrico
Supone que los datos siguen ciertas distribuciones (normalidad, homogeneidad).

Ejemplos: t-test, ANOVA.

🔸 No paramétrico
No hace supuestos fuertes sobre la distribución.

Se usa cuando no hay normalidad o las muestras son pequeñas o sesgadas.

Ejemplos: Mann-Whitney, Kruskal-Wallis, Chi².

🔹 Normalidad
La variable numérica sigue una distribución normal (campana de Gauss).

Se comprueba con el test de Shapiro-Wilk (p > 0.05 → distribución normal).

🔸 Homocedasticidad (varianzas iguales)
Todos los grupos tienen varianzas similares.

Se comprueba con el test de Levene (p > 0.05 → varianzas iguales).

🔹 Heterocedasticidad
Los grupos no tienen varianzas iguales.

Si Levene p < 0.05, hay heterocedasticidad.

Se debe usar un test robusto (ej. Welch, Welch ANOVA).

🔸 Levene (test)
Evalúa si hay igualdad de varianzas entre los grupos.

Importante antes de aplicar t-test o ANOVA.

🔹 Varianza
Medida de dispersión que indica cómo varían los datos respecto a la media.

Varianza alta: datos muy dispersos.

Varianza baja: datos muy agrupados.

🔸 Homogeneidad de varianzas
Supuesto que exige que todos los grupos tengan varianzas similares.

Fundamental para aplicar tests paramétricos clásicos.

🔹 p-valor
Probabilidad de obtener un resultado igual o más extremo si la hipótesis nula fuera cierta.

p < 0.05: se rechaza la hipótesis nula → diferencia significativa.

p > 0.05: no se puede rechazar la hipótesis → no hay diferencia significativa.