### Hands-on 2: kNN Notebook (Tutorial) Ramiro Amador Guerra

# 1. Fundamentos de la técnica kNN

La técnica de **k-Nearest Neighbors (kNN)** es un método de clasificación supervisada que asigna una clase a un nuevo patrón basado en las clases de sus **k vecinos más cercanos** en el espacio de características.  

## Características principales:
- No requiere entrenamiento explícito (algoritmo perezoso).
- Basado en medidas de distancia, normalmente Euclidiana.
- Sensible a la escala de las variables.


## 2. Modelo Matemático

Sea un conjunto de datos de entrenamiento:
$$
\{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}
$$

Donde $x_i \in \mathbb{R}^m$ es un vector de características y $y_i$ la clase.

Para un nuevo punto $x$:

1.  Calcular la distancia (usualmente **Euclidiana**) entre $x$ y todos los puntos del conjunto de entrenamiento:
$$
d(x, x_i) = \sqrt{\sum_{j=1}^{m} (x_j - x_{ij})^2}
$$

2.  Seleccionar los $k$ vecinos más cercanos.

3.  Asignar la clase mayoritaria entre esos vecinos (función **Moda**):
$$
y = \text{modo}\{y_i \text{ de los k vecinos más cercanos}\}
$$


# 3. Librerías y Funciones

## Librerías principales:
- **numpy**: manipulación de arrays.
- **pandas**: manejo de datasets.
- **matplotlib / seaborn**: visualización de datos.
- **scikit-learn**: implementación de kNN y métricas de evaluación.

## Clases y funciones de scikit-learn:
- `KNeighborsClassifier`: modelo kNN.
- `train_test_split`: dividir dataset en entrenamiento y prueba.
- `StandardScaler`: estandarización de datos.
- `confusion_matrix`, `accuracy_score`: métricas de evaluación.


In [None]:
# 4.1 Preprocesamiento
# ---------------------

# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

# Cargar dataset de ejemplo (Iris)
from sklearn.datasets import load_iris
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target, name='target')

# Estadísticas básicas
print("Resumen estadístico del dataset:")
display(X.describe())

# Gráfico de dispersión
sns.pairplot(pd.concat([X, y.rename('target')], axis=1), hue='target')
plt.show()


# 4.2 Feature Engineering

Seleccionaremos todas las variables del dataset (`sepal length`, `sepal width`, `petal length`, `petal width`) como características para entrenar el modelo, ya que todas son relevantes para la clasificación de la especie de Iris.  

En casos reales, se puede usar análisis de correlación o selección de características.


In [None]:
# 4.3 Predicción
# ---------------------

# División de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Estandarización de datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenamiento del modelo kNN
k = 5
knn = KNeighborsClassifier(n_neighbors=k)
knn.fit(X_train_scaled, y_train)

# Función para predecir clase de un nuevo patrón
def predecir_nuevo_patron(patron):
    patron_scaled = scaler.transform([patron])
    clase = knn.predict(patron_scaled)
    print(f"El patrón {patron} se clasifica como clase: {iris.target_names[clase][0]}")

# Ejemplo de predicción
predecir_nuevo_patron([5.1, 3.5, 1.4, 0.2])


In [None]:
# 4.4 Evaluación del Modelo
# ---------------------

# Predicciones sobre el conjunto de prueba
y_pred = knn.predict(X_test_scaled)

# Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:\n", cm)

# Accuracy
acc = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {acc*100:.2f}%")


# Interpretación de resultados

- La **matriz de confusión** permite ver cuántas muestras de cada clase fueron clasificadas correctamente o incorrectamente.
- La **precisión (accuracy)** indica el porcentaje de predicciones correctas sobre el total de muestras.


### Bibliografia

- Díaz, R. (2024, 6 julio). Algoritmo KNN – cómo funciona y ejemplos en Python. The Machine Learners. https://www.themachinelearners.com/algoritmo-knn/

- GeeksforGeeks. (2025, 23 agosto). KNeArest Neighbor(KNN) algorithm. GeeksforGeeks. https://www.geeksforgeeks.org/machine-learning/
k-nearest-neighbours/ Korstanje, J. (2022, 1 septiembre).

- The k-Nearest Neighbors (kNN) Algorithm in Python. https://realpython.com/knn-python/