# Balanceo por Pesos: Ajustando la Sensibilidad del Algoritmo

A diferencia de SMOTE o Near Miss, las técnicas de **Pesos de Clase** no tocan el dataset. Lo que hacen es modificar la **Función de Pérdida** (la forma en que el modelo calcula cuánto se equivocó).

* **En un modelo normal:** Un error en la clase A cuesta "1 punto" y un error en la clase B cuesta "1 punto".
* **En un modelo con Pesos:** Un error en la clase mayoritaria cuesta "1 punto", pero un error en la clase minoritaria cuesta **"10 o 100 puntos"**. 

El modelo, al querer minimizar su puntaje de error, se esforzará mucho más en no fallar con la clase minoritaria.

---

## 1. Random Forest: `class_weight='balanced'`

En Scikit-Learn, el Random Forest tiene un parámetro mágico llamado `class_weight`.

### ¿Cómo funciona el modo 'balanced'?
El algoritmo calcula automáticamente el peso de cada clase usando la siguiente fórmula:
$$Peso_{clase} = \frac{n_{muestras}}{n_{clases} \times n_{muestras\_de\_esa\_clase}}$$

**En palabras simples:**
Si tienes 100 datos, 90 son "Sanos" y 10 son "Enfermos":
* El peso para "Sanos" será bajo (cerca de 0.55).
* El peso para "Enfermos" será alto (5.0).
* **Resultado:** El modelo tratará a cada uno de esos 10 "Enfermos" como si valieran por 9 personas.

---

## 2. XGBoost: `scale_pos_weight`

XGBoost, al ser un algoritmo de Gradient Boosting, maneja el peso de una forma un poco más directa con el parámetro `scale_pos_weight`.

### ¿Cómo se calcula?
A diferencia de Random Forest, aquí tú sueles pasar el valor manualmente. La recomendación oficial de la documentación de XGBoost es:
$$scale\_pos\_weight = \frac{Total\,de\,ejemplos\,negativos}{Total\,de\,ejemplos\,positivos}$$

**Ejemplo práctico:**
Si tienes 1,000 transacciones legales (negativos) y 10 fraudes (positivos):
* $scale\_pos\_weight = 1000 / 10 = 100$.
* Esto le dice a XGBoost: "Dale 100 veces más importancia a los casos positivos que a los negativos".

## 3. Ventajas de usar Pesos vs. Remuestreo

1. **No hay pérdida de información:** A diferencia del Undersampling, conservas cada uno de tus datos originales.
2. **No hay riesgo de Overfitting por duplicación:** A diferencia del Oversampling, no estás repitiendo filas, por lo que el modelo no memoriza casos exactos.
3. **Simplicidad:** Es solo cambiar un parámetro en una línea de código. No necesitas librerías extra como `imblearn`.

---


## 5. Resumen Didáctico: La Analogía del Árbitro

Imagina un partido de fútbol entre un equipo de **Gigantes (Mayoría)** y un equipo de **Niños (Minoría)**.

* **Sin Pesos:** El árbitro pita igual para todos. Los Gigantes ganan por fuerza bruta y el árbitro ni se fija en los Niños.
* **Con Pesos (`class_weight` / `scale_pos_weight`):** El árbitro decide que cualquier falta cometida contra un Niño vale como un **Penal**, mientras que las faltas contra los Gigantes se cobran normal. 

**Resultado:** Los Gigantes ahora tienen que tener muchísimo cuidado al jugar. El juego se equilibra no porque haya más niños, sino porque **las reglas protegen más al pequeño**.