# Optimización de Hiperparámetros en Machine Learning

## GridSearchCV 

Optimización de parámetros para el dataset Iris con k-NN 

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

# 1. Cargar datos
iris = load_iris()
X, y = iris.data, iris.target

# 2. Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. Definir el modelo base
knn = KNeighborsClassifier()

# 4. Definir el espacio de hiperparámetros
param_grid = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'p': [1, 2]  # 1 = Manhattan, 2 = Euclidiana
}

# 5. Instanciar GridSearchCV
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy', n_jobs=-1, verbose=1)

# 6. Ejecutar búsqueda
grid_search.fit(X_train, y_train)

# 7. Resultados
print(f"Mejores hiperparámetros encontrados:\n{grid_search.best_params_}")
print(f"Mejor puntuación en CV: {grid_search.best_score_:.3f}")

# 8. Evaluar sobre datos de prueba
y_pred = grid_search.predict(X_test)
print("\nEvaluación sobre conjunto de prueba:")
print(classification_report(y_test, y_pred))

Fitting 5 folds for each of 16 candidates, totalling 80 fits
Mejores hiperparámetros encontrados:
{'n_neighbors': 7, 'p': 2, 'weights': 'uniform'}
Mejor puntuación en CV: 0.952

Evaluación sobre conjunto de prueba:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



## RandomizedSearchCV 

Optimización de parámetros para el dataset Iris con k-NN 

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from scipy.stats import randint
import numpy as np

# 1. Cargar datos
iris = load_iris()
X, y = iris.data, iris.target

# 2. Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. Definir el modelo
knn = KNeighborsClassifier()

# 4. Definir el espacio de búsqueda con distribuciones estadísticas
param_dist = {
    'n_neighbors': randint(3, 15),
    'weights': ['uniform', 'distance'],
    'p': randint(1, 3)  # 1: Manhattan, 2: Euclidiana
}

# 5. Instanciar RandomizedSearchCV
random_search = RandomizedSearchCV(
    estimator=knn,
    param_distributions=param_dist,
    n_iter=10,                # Número de combinaciones a probar
    cv=5,                  # Número de folds para validación cruzada
    scoring='accuracy',
    random_state=42,
    n_jobs=-1,
    verbose=1
)

# 6. Ejecutar búsqueda
random_search.fit(X_train, y_train)

# 7. Mostrar los mejores hiperparámetros
print(f"Mejores hiperparámetros encontrados:\n{random_search.best_params_}")
print(f"Mejor puntuación en CV: {random_search.best_score_:.3f}")

# 8. Evaluación sobre conjunto de prueba
y_pred = random_search.predict(X_test)
print("\nEvaluación sobre conjunto de prueba:")
print(classification_report(y_test, y_pred)) 


Fitting 5 folds for each of 10 candidates, totalling 50 fits
Mejores hiperparámetros encontrados:
{'n_neighbors': 14, 'p': 1, 'weights': 'uniform'}
Mejor puntuación en CV: 0.962

Evaluación sobre conjunto de prueba:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

