<a href="https://colab.research.google.com/github/gustavovazquez/ML/blob/main/MCD_Ejemplo_tunning_hiperparametros_para_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Generar un conjunto de datos sintético
np.random.seed(0)
X, y = make_classification(n_samples=200, n_features=2, n_informative=2, n_redundant=0, random_state=42)
X[:, 0] = X[:, 0] * 100  # Escalar la primera característica para que tenga artificialmente una magnitud mayor

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Crear el pipeline con estandarización y KNN
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier())
])

# Definir el espacio de parámetros para el tuning
param_grid = {
    'knn__n_neighbors': [3, 5, 7, 9],
    'knn__weights': ['uniform', 'distance'],
    'knn__metric': ['euclidean', 'manhattan']
}

# Configurar GridSearchCV con el pipeline y el espacio de parámetros
grid_search = GridSearchCV(pipeline, param_grid, cv=5, n_jobs=-1)

# Entrenar el modelo
grid_search.fit(X_train, y_train)

# Imprimir los mejores parámetros y el mejor puntaje
print(f'Mejores parámetros: {grid_search.best_params_}')
print(f'Mejor puntaje (CV): {grid_search.best_score_:.2f}')

# Evaluar el modelo en el conjunto de prueba
accuracy = grid_search.score(X_test, y_test)
print(f'Exactitud en el conjunto de prueba: {accuracy:.2f}')

# Mostrar todas las combinaciones de hiperparámetros y sus puntajes
results = grid_search.cv_results_
for mean_score, params in zip(results['mean_test_score'], results['params']):
    print(f'Exactitud: {mean_score:.3f} con parámetros: {params}')


Mejores parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 7, 'knn__weights': 'uniform'}
Mejor puntaje (CV): 0.86
Exactitud en el conjunto de prueba: 0.88
Exactitud: 0.850 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 3, 'knn__weights': 'uniform'}
Exactitud: 0.838 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 3, 'knn__weights': 'distance'}
Exactitud: 0.825 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 5, 'knn__weights': 'uniform'}
Exactitud: 0.838 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 5, 'knn__weights': 'distance'}
Exactitud: 0.856 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 7, 'knn__weights': 'uniform'}
Exactitud: 0.856 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 7, 'knn__weights': 'distance'}
Exactitud: 0.819 con parámetros: {'knn__metric': 'euclidean', 'knn__n_neighbors': 9, 'knn__weights': 'uniform'}
Exactitud: 0.850 con parámetros: {'knn__metric':