# Ejercicio 5: Preprocesamiento: Escalado de Características

**Objetivo:** Aplicar escalado a los datos y observar su efecto en el rendimiento del modelo KNN.

**Nota:** Este notebook asume que has completado el Ejercicio 4 y tienes las variables `X_train`, `X_test`, `y_train`, `y_test` disponibles, o las generas de nuevo.

**Librerías:** `scikit-learn`, `pandas`

In [None]:
# Importar librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

**Cargar y dividir los datos (si es necesario)**
Repetimos los pasos 1 y 2 del ejercicio anterior para asegurar que tenemos los datos.

In [None]:
# Cargar datos
url_iris = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv'
df_iris = pd.read_csv(url_iris)

# Separar X e y
X = df_iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df_iris['species']

# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

**1. Reutilizar `X_train` y `X_test` del ejercicio anterior.**
(Ya lo hicimos en la celda anterior).

**2. Crea una instancia de `StandardScaler`.**

In [None]:
# Tu código aquí
scaler = # ... instanciar StandardScaler()

**3. Ajusta el escalador *únicamente* con los datos de entrenamiento (`X_train`).**

In [None]:
# Tu código aquí
# ... ajustar el scaler con fit(X_train)
print("Scaler ajustado con los datos de entrenamiento.")

**4. Transforma *ambos* conjuntos (`X_train` y `X_test`) usando el escalador ajustado.**

In [None]:
# Tu código aquí
X_train_scaled = # ... transformar X_train con transform()
X_test_scaled = # ... transformar X_test con transform()

# Mostramos las primeras filas para verificar (opcional)
print("X_train escalado (primeras filas):\n", X_train_scaled[:3])
print("\nX_test escalado (primeras filas):\n", X_test_scaled[:3])

**5. Vuelve a entrenar un clasificador KNN (`n_neighbors=3`) usando los datos escalados.**

In [None]:
# Tu código aquí
knn_scaled = # ... instanciar KNeighborsClassifier(n_neighbors=3)
# ... entrenar knn_scaled con fit(X_train_scaled, y_train)
print("Modelo KNN entrenado con datos escalados.")

**6. Realiza predicciones sobre `X_test_scaled`.**

In [None]:
# Tu código aquí
y_pred_scaled = # ... hacer predicciones con predict(X_test_scaled)
print("Predicciones realizadas con datos escalados.")

**7. Evalúa la precisión del nuevo modelo y compara.**

In [None]:
# Tu código aquí
accuracy_scaled = # ... calcular accuracy_score(y_test, y_pred_scaled)
print(f"Precisión (Accuracy) del modelo KNN con datos escalados: {accuracy_scaled:.4f}")

# (Opcional) Puedes volver a calcular la precisión del modelo sin escalar para comparar directamente aquí
# knn_unscaled = KNeighborsClassifier(n_neighbors=3)
# knn_unscaled.fit(X_train, y_train)
# y_pred_unscaled = knn_unscaled.predict(X_test)
# accuracy_unscaled = accuracy_score(y_test, y_pred_unscaled)
# print(f"Precisión (Accuracy) del modelo KNN sin datos escalados: {accuracy_unscaled:.4f}")

**Pregunta:** ¿Ha mejorado, empeorado o se ha mantenido similar la precisión después de escalar los datos? ¿Por qué crees que ocurre esto en el caso de KNN?