# Análisis de la Forma de los Datos: Distribución, Skewness y Curtosis

Cuando analizamos una variable numérica, no solo nos importa su promedio, sino cómo están repartidos los datos. A esto lo llamamos la **Distribución**.

### 1. ¿Qué es la Distribución de una Variable?
Es una función o gráfico (como un histograma) que muestra todos los valores posibles de los datos y con qué frecuencia ocurren. 
* Si los datos se agrupan perfectamente al centro, hablamos de una **Distribución Normal** (Campana de Gauss).
* En el mundo real, los datos suelen estar "estirados" o "amontonados", y aquí es donde entran el Skewness y la Curtosis.

---

### 2. Skewness (Asimetría)
El Skewness mide qué tan "inclinada" o desplazada está la distribución respecto al centro. Indica hacia dónde se estira la **cola** de los datos.

* **Skewness = 0 (Simétrica):** La cola izquierda es igual a la derecha. La Media, Mediana y Moda coinciden.
* **Skewness Positivo (Derecha):** La cola larga está a la derecha. Hay unos pocos valores muy grandes que "jalan" el promedio hacia arriba. (Ejemplo: Salarios de una empresa).
* **Skewness Negativo (Izquierda):** La cola larga está a la izquierda. Hay unos pocos valores muy pequeños. (Ejemplo: Edad de jubilación).



> **Regla didáctica:** "La cola nos dice el nombre". Si la cola apunta a los números positivos (derecha), el skewness es positivo.

---

### 3. Curtosis (Apuntamiento)
La Curtosis mide qué tan "puntiaguda" es la distribución y, lo más importante en ML, qué tan pesadas son las **colas** (la probabilidad de encontrar valores extremos o *outliers*).

Se interpreta comparándola con la Distribución Normal (que tiene Curtosis = 3 o Curtosis Excedente = 0):

1.  **Mesocúrtica (Normal):** Distribución equilibrada.
2.  **Leptocúrtica (Alta):** Muy puntiaguda. Las colas son "gruesas", lo que significa que hay una alta probabilidad de tener **valores extremos (outliers)**.
3.  **Platicúrtica (Baja):** Distribución plana y dispersa. Las colas son delgadas; los valores están más repartidos y hay menos outliers extremos.


---

### 4. ¿Cómo se interpretan en Machine Learning?

### **Skewness**

Los rangos de interpretación para el Skewness suelen ser:

* **-0.5 a 0.5:** Distribución aproximadamente simétrica.
* **-1 a -0.5 o 0.5 a 1:** Asimetría moderada.
* **< -1 o > 1:** Asimetría altamente sesgada.

### 1. ¿Por qué el Skewness > 0.8 es un problema?
Cuando una variable tiene un sesgo fuerte (Skewness positivo), la **Media** se aleja de la **Mediana**. Muchos modelos de Machine Learning (como la Regresión Lineal o Redes Neuronales) asumen que los errores tienen una distribución normal. Si los datos están muy sesgados:
1. El modelo será muy sensible a los valores extremos de la cola.
2. Las predicciones en los rangos bajos/medios pueden perder precisión.

### **Curtosis**

| Métrica | Valor | Interpretación para tu Modelo |
| :--- | :--- | :--- |
| **Curtosis** | Alta (> 3) | ¡Cuidado! Tu modelo enfrentará muchos Outliers que pueden sesgar las predicciones. |
| **Curtosis** | Baja (< 3) | Los datos son muy estables, pero quizás no hay una señal clara o centralizada. |

### Resumen Visual
* **Skewness:** ¿Hacia dónde se barre la basura (la cola)?
* **Curtosis:** ¿Qué tan alta es la montaña y qué tan peligrosos son los extremos?

### La Transformación Logarítmica: "El compresor de colas"
Cuando aplicas $log(x)$ a una variable con sesgo positivo, sucede algo "mágico" estadísticamente:
* Los valores grandes (en la cola derecha) se "encogen" o comprimen significativamente.
* Los valores pequeños se mantienen relativamente similares o se expanden.
* **Resultado:** La cola se acorta y la distribución se vuelve mucho más parecida a una Campana de Gauss (Normal).



###  Otras transformaciones comunes
Si el logaritmo no es suficiente o tienes valores de cero, existen otras opciones:

| Transformación | Cuándo usarla | Fórmula |
| :--- | :--- | :--- |
| **Logarítmica** | Sesgo positivo fuerte | $\log(x)$ o $\log(x + 1)$ |
| **Raíz Cuadrada** | Sesgo positivo moderado | $\sqrt{x}$ |
| **Box-Cox** | Solo para datos positivos ($>0$) | Busca automáticamente la mejor potencia $\lambda$ |
| **Yeo-Johnson** | Para datos positivos y negativos | Versión moderna y versátil de Box-Cox |

---

### ¿Cuándo NO transformar?
Aunque el Skewness sea > 0.8, no siempre debes transformar:
* **Modelos de Árboles (Random Forest, XGBoost):** Estos modelos son "invariantes a la escala". No les importa el skewness porque dividen los datos basados en umbrales (orden), no en distancias.
* **Interpretabilidad:** Si transformas la variable objetivo ($y$), recuerda que tus predicciones estarán en escala logarítmica y deberás aplicar la función inversa ($exp$) para explicárselas al negocio.

> **Tip Pro:** Antes de decidir, calcula el Skewness, aplica la transformación en una columna temporal y vuelve a calcularlo. Si el nuevo valor está entre -0.5 y 0.5, ¡tu transformación fue un éxito!