# Lab 3: Clasificación con KNN y Validación Cruzada

En este laboratorio trabajaremos con el dataset de Iris de sklearn.datasets, aplicando un modelo de clasificación usando K-Nearest Neighbors (KNN) y la regresion logistica con regularizacion ridge. Evaluaremos el desempeño del modelo utilizando validación cruzada para diferentes hiperparametros.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score, KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

In [3]:
# Carga del dataset Iris
iris = load_iris()
X = iris.data
y = iris.target
data = pd.DataFrame(X, columns=iris.feature_names)
data['target'] = y
data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
### TO DO: Evaluar valores de K de 1 hasta 50 y decidir el mejor valor de K
# Comparar con diferentes valores de k
k_values = range(1, 51)
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# Almacenar los resultados
results = []
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=cv, scoring='accuracy')
    results.append((k, np.mean(scores), np.std(scores)))

# Convertir resultados a DataFrame para mejor visualización
results_df = pd.DataFrame(results, columns=['k', 'mean_accuracy', 'std_accuracy'])
   
# Encontrar el mejor valor de k
best_k = results_df.loc[results_df['mean_accuracy'].idxmax()]
print(f"Mejor k: {best_k['k']} con precisión media: {best_k['mean_accuracy']:.4f} ± {best_k['std_accuracy']:.4f}")

Mejor k: 13.0 con precisión media: 0.9800 ± 0.0163


In [7]:
### TO DO: Implementar regresion logistica con regularizacion ridge y evaluar su desempeño con validacion cruzada usando kfold
### evaluar valores de C (0.01, 0.1, 1, 10, 100) y decidir el mejor valor de C

### Estandarizar los datos
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Comparar con diferentes valores de C
C_values = [0.01, 0.1, 1, 10, 100]
cv = KFold(n_splits=5, shuffle=True, random_state=42)
# Almacenar los resultados
logistic_results = []
for C in C_values:
    log_reg = LogisticRegression(C=C, penalty='l2', solver='liblinear', multi_class='ovr', max_iter=200)
    scores = cross_val_score(log_reg, X, y, cv=cv, scoring='accuracy')
    logistic_results.append((C, np.mean(scores), np.std(scores)))
# Convertir resultados a DataFrame para mejor visualización
logistic_results_df = pd.DataFrame(logistic_results, columns=['C', 'mean_accuracy', 'std_accuracy'])
# Encontrar el mejor valor de C
best_C = logistic_results_df.loc[logistic_results_df['mean_accuracy'].idxmax()]
print(f"Mejor C: {best_C['C']} con precisión media: {best_C['mean_accuracy']:.4f} ± {best_C['std_accuracy']:.4f}")

Mejor C: 100.0 con precisión media: 0.9733 ± 0.0249


