# Near Miss: Submuestreo Inteligente basado en Proximidad

El **Random Undersampling** (eliminar datos al azar) es peligroso porque puede borrar información crítica. **Near Miss** intenta ser más quirúrgico: utiliza la lógica de los "Vecinos más Cercanos" (KNN) para seleccionar qué ejemplos de la clase mayoritaria conservar.

## 1. La Filosofía de Near Miss

La idea central es que no todos los ejemplos de la clase mayoritaria son igual de útiles para el modelo. Los más importantes son aquellos que están cerca de la "frontera" de decisión, porque son los que ayudan al modelo a distinguir entre una clase y otra.

Existen **tres versiones** de este algoritmo, y cada una tiene una estrategia diferente:

### Versión 1 (NM1): Los más cercanos a los más cercanos
* **Lógica:** Selecciona ejemplos de la clase mayoritaria cuya **distancia promedio a los 3 ejemplos más cercanos** de la clase minoritaria sea la más pequeña.
* **Objetivo:** Mantener los puntos de la clase mayoritaria que están "presionando" la frontera.

### Versión 2 (NM2): Los más cercanos a los más lejanos
* **Lógica:** Selecciona ejemplos de la clase mayoritaria cuya **distancia promedio a los 3 ejemplos más lejanos** de la clase minoritaria sea la más pequeña.
* **Objetivo:** Mantener puntos que están en el "centro" de la zona donde ambas clases podrían encontrarse.

### Versión 3 (NM3): El filtro de seguridad
* **Lógica:** Para cada ejemplo de la clase minoritaria, se queda con un número determinado de sus vecinos más cercanos de la clase mayoritaria.
* **Objetivo:** Garantizar que cada punto de la clase minoritaria tenga puntos de la clase mayoritaria cerca para aprender a diferenciar.

## 2. ¿Por qué usar Near Miss en lugar de borrar al azar?

1. **Eficiencia Informática:** Al reducir el tamaño del dataset, el entrenamiento es mucho más rápido.
2. **Enfoque en la Frontera:** Al quedarte solo con los puntos "difíciles" (los que están cerca de la otra clase), obligas al modelo a volverse un experto en la zona de conflicto.
3. **Preservación de Estructura:** Intenta mantener la forma de la distribución en lugar de dejar huecos aleatorios.

---

## 3. El gran riesgo: Sensibilidad al Ruido

Near Miss tiene un "talón de Aquiles". Al buscar los puntos más cercanos a la clase minoritaria, es extremadamente vulnerable a los **outliers** (valores atípicos).

* Si tienes un punto de la clase minoritaria que es **ruido** (está muy metido en el territorio de la clase mayoritaria), Near Miss Versión 1 seleccionará todos los puntos de la clase mayoritaria que rodean a ese error.
* Esto puede causar que el modelo aprenda una frontera de decisión totalmente distorsionada.

## 4. Resumen Didáctico: La Analogía de los Países

Imagina dos países en guerra: **Mayoritaria** (un país gigante) y **Minoritaria** (un país pequeño).

* **Random Undersampling:** Es como si el país gigante despidiera al 90% de sus soldados al azar, incluso a los que cuidan la frontera. El país queda desprotegido y sin estrategia.
* **Near Miss:** Es como si el país gigante retirara a todos sus soldados que viven en el interior y **dejara solo a los que están en la frontera** cara a cara con el país pequeño. 

**Resultado:** Tienes menos soldados (menos datos), pero tienes exactamente a los que saben dónde está el límite del territorio.