# Manejo de Categorías con Baja Representación (Rare Labels)

En el desarrollo de modelos de Machine Learning, es una práctica común agrupar categorías que tienen una frecuencia extremadamente baja (como el < 0.5%). Aquí te explico por qué se hace y por qué a veces se opta por la **moda**.

### 1. El Problema del Overfitting (Sobreajuste)
Si dejas una categoría que solo aparece en 2 o 3 registros de un dataset de miles, el modelo intentará "aprender" de esos pocos casos. Esto causa que el modelo memorice ruidos en lugar de patrones generales, afectando la capacidad de generalización con datos nuevos.

### 2. Reducción de la Cardinalidad
Si utilizas técnicas como **One-Hot Encoding**, cada categoría se convierte en una columna nueva.
* Si tienes muchas categorías con < 0.5%, crearás un dataset "esparcido" (*sparse matrix*) con muchísimas columnas que no aportan información estadística significativa.
* Esto aumenta la complejidad computacional innecesariamente (la "maldición de la dimensionalidad").

### 3. Estabilidad Estadística
Las categorías con muy baja representación no permiten obtener estimaciones robustas de su relación con la variable objetivo ($y$). Al agruparlas, mejoras la varianza del modelo.

---

## ¿Por qué agrupar en la "Moda"?

Aunque la práctica más recomendada suele ser agruparlas en una categoría nueva llamada `'Otros'` o `'Rare'`, integrarlas en la **Moda** (la categoría más frecuente) es una estrategia de imputación que busca:

1.  **No distorsionar la distribución:** Al ser un porcentaje tan pequeño (0.5%), sumarlo a la moda no altera significativamente el peso de esta última.
2.  **Simplicidad:** Evita crear una categoría "artificial" adicional si el negocio o el contexto no lo requiere.
3.  **Compatibilidad:** Asegura que no haya valores nulos o categorías desconocidas cuando el modelo reciba datos de prueba (test set).

> **Nota Importante:** Agrupar en la moda es solo una opción. Si esas categorías pequeñas tienen un comportamiento muy distinto al de la moda, lo ideal es usar una etiqueta común como `'Otros'`.



### Ejemplo matemático visual
Si tenemos una variable $X$ con:
* Categoría A (Moda): 60%
* Categoría B: 39.2%
* Categoría C: 0.3%
* Categoría D: 0.5%

Al agrupar $C$ y $D$ en la moda ($A$), $A$ pasa a ser **60.8%**. El cambio es estadísticamente despreciable, pero eliminamos dos dimensiones débiles del modelo.