# K-Vecinos Más Cercanos (KNN)

Texto extraído de `ChatGPT`:

El **algoritmo de k vecinos más cercanos (k-NN, por sus siglas en inglés)** es un algoritmo de **aprendizaje supervisado** utilizado tanto para **clasificación** como para **regresión**. Es uno de los algoritmos más simples y fáciles de entender en el campo del aprendizaje automático. La idea básica detrás del algoritmo es que un dato se clasifica o se predice en función de los "k" ejemplos más cercanos en el espacio de características.

## ¿Cómo funciona el algoritmo de k-NN?

1. **Definir el número de vecinos (k)**: Se selecciona el valor de "k", que indica cuántos vecinos más cercanos se considerarán para hacer la predicción. "k" debe ser un número entero positivo.
   
2. **Calcular la distancia entre los puntos**: Se mide la **distancia** entre el nuevo punto de datos y todos los puntos de datos en el conjunto de entrenamiento. Las distancias más comunes son:
   - **Distancia Euclidiana**: La más utilizada, especialmente en problemas de clasificación y regresión.
   - **Distancia de Manhattan**: Suma de las diferencias absolutas entre las coordenadas.
   - **Distancia de Minkowski**: Generalización de la distancia Euclidiana y Manhattan.

3. **Identificar los k vecinos más cercanos**: Una vez que se han calculado las distancias, se seleccionan los "k" puntos de datos más cercanos al nuevo punto que se desea clasificar o predecir.

4. **Clasificación o Predicción**:
   - **Clasificación**: Para un problema de clasificación, se asigna la etiqueta de clase más frecuente entre los k vecinos más cercanos. En caso de empate, se puede usar un criterio adicional, como la clase de menor distancia media.
   - **Regresión**: Para un problema de regresión, la predicción será el valor promedio de las etiquetas de los k vecinos más cercanos.

## Ejemplo de clasificación con k-NN:
Imagina que tienes un conjunto de datos con dos características (por ejemplo, altura y peso) y clases de frutas (manzana y naranja). Si deseas clasificar un nuevo punto (por ejemplo, con altura 160 cm y peso 80 kg), el algoritmo de k-NN calculará la distancia entre este punto y todos los puntos en el conjunto de entrenamiento, seleccionará los k vecinos más cercanos (por ejemplo, k=3) y asignará la clase mayoritaria entre esos tres vecinos (por ejemplo, 2 manzanas y 1 naranja, por lo que clasificaría la fruta como manzana).

## Características principales del algoritmo k-NN:

- **No paramétrico**: No realiza suposiciones sobre la distribución de los datos. Es decir, no requiere un modelo previo.
- **Instancia basada**: Al ser un algoritmo basado en instancias, no construye un modelo explícito, sino que guarda todos los datos de entrenamiento.
- **Curse of Dimensionality (Maleficio de la Dimensionalidad)**: El rendimiento de k-NN puede verse afectado negativamente cuando los datos tienen muchas características (dimensiones). A medida que la cantidad de dimensiones aumenta, las distancias entre los puntos se vuelven más similares, lo que hace que el algoritmo sea menos efectivo.

## Ventajas del algoritmo k-NN:
1. **Simplicidad**: Es fácil de entender e implementar.
2. **Eficiencia en entrenamiento**: No requiere un proceso de entrenamiento real, ya que el modelo simplemente memoriza el conjunto de entrenamiento.
3. **Adaptabilidad**: Se adapta bien a cambios en los datos, ya que no necesita un proceso de ajuste o entrenamiento largo.

## Desventajas del algoritmo k-NN:
1. **Computacionalmente costoso**: Durante la predicción, el algoritmo debe calcular la distancia de cada punto de prueba con todos los puntos de entrenamiento, lo cual puede ser muy lento en conjuntos de datos grandes.
2. **Dependencia de la elección de k**: La precisión del algoritmo depende mucho de la elección del valor de "k". Si "k" es demasiado pequeño, el modelo puede ser sensible a ruido (overfitting), y si es demasiado grande, puede ser demasiado general (underfitting).
3. **Sensibilidad a la escala de las características**: Si las características tienen diferentes escalas (por ejemplo, altura en cm y peso en kg), la distancia entre los puntos puede no ser significativa. En este caso, es recomendable normalizar o estandarizar las características.

## Elección del parámetro "k":

- Si "k" es pequeño (por ejemplo, 1), el modelo será muy sensible a puntos atípicos (overfitting).
- Si "k" es grande, el modelo se vuelve más general y puede ignorar detalles importantes (underfitting).
- En la práctica, se elige "k" mediante validación cruzada, probando varios valores y seleccionando el que ofrezca mejor rendimiento.

## Conclusión:

El algoritmo **k-NN** es una herramienta simple pero poderosa para tareas de clasificación y regresión. Aunque puede no ser el más eficiente para grandes volúmenes de datos o alta dimensionalidad, sigue siendo muy popular debido a su facilidad de implementación y su rendimiento en muchos problemas.


## Ejemplo en Python

### Datos de clientes bancarios: crédito

In [2]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.neighbors import KNeighborsClassifier

In [3]:
clientes = pd.read_csv("../datos/creditos.csv")
clientes.head() # cumplio (con pago del credito) -> 0: no, 1: sí

Unnamed: 0,edad,credito,cumplio
0,18,363112,0
1,19,477965,1
2,20,239072,0
3,22,195265,0
4,22,482174,0


### Pagadores VS Deudores

In [4]:
buenos = clientes[clientes["cumplio"] == 1]
malos = clientes[clientes["cumplio"] == 0]
buenos.shape, malos.shape

((167, 3), (33, 3))

### Gráfica: Pagadores VS Deudores

In [None]:
plt.scatter(buenos["edad"], buenos["credito"], 
            marker="*", 
            s=150, 
            color="skyblue", 
            label="Sí pagó (Clase: 1)")

plt.scatter(malos["edad"], malos["credito"], 
            marker="*", 
            s=150, 
            color="red", 
            label="No pagó (Clase: 0)")

plt.plot([0,1,2,3],[0,1,2,3])

plt.ylabel("Monto del crédito")
plt.xlabel("Edad")
plt.legend(bbox_to_anchor=(1, 0.2))
plt.show()