`GridSearchCV` es una herramienta poderosa proporcionada por la biblioteca Scikit-learn en Python, diseñada para automatizar el proceso de ajuste de hiperparámetros de un modelo. Esta herramienta permite a los usuarios especificar un conjunto de valores potenciales para los distintos hiperparámetros de un modelo y evaluar todas las combinaciones posibles para encontrar la configuración que produce los mejores resultados de acuerdo con una métrica de evaluación especificada.

### Funcionamiento de GridSearchCV

**1. Definición de la cuadrícula de parámetros:**
   - Se define un "grid" de hiperparámetros, que es básicamente un diccionario donde las claves son los nombres de los hiperparámetros y los valores son las listas de valores que se desean explorar para cada hiperparámetro.

**2. Configuración del modelo:**
   - Se selecciona el modelo de machine learning que se desea ajustar.

**3. Evaluación cruzada:**
   - `GridSearchCV` implementa una técnica de validación cruzada para evaluar cada combinación de hiperparámetros. Esto significa que para cada conjunto de hiperparámetros, el modelo se entrena varias veces en diferentes subconjuntos del conjunto de datos de entrenamiento.

**4. Selección del mejor modelo:**
   - Después de probar todas las combinaciones posibles, `GridSearchCV` selecciona la combinación de hiperparámetros que resulta en el mejor rendimiento del modelo según una métrica específica (como precisión, recall, F1-score, etc.).

### Beneficios de usar GridSearchCV

- **Automatización y simplificación**: Automatiza un proceso que de otra manera sería tedioso y propenso a errores, simplificando la búsqueda de la mejor configuración de hiperparámetros.
- **Robustez**: Al utilizar la validación cruzada, GridSearchCV asegura que el rendimiento del modelo es evaluado de manera más robusta y menos susceptible a las fluctuaciones del conjunto de datos de entrenamiento.
- **Mejor rendimiento**: Al explorar sistemáticamente múltiples combinaciones, se incrementa la probabilidad de encontrar una configuración de hiperparámetros que resulte en un mejor rendimiento del modelo.

### Ejemplo de uso de GridSearchCV





In [1]:
# Paso 1: Importar las bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler

# Paso 2: Cargar los datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(url, sep=';')

# Paso 3: Preparar los datos
X = data.drop('quality', axis=1)  # características
y = data['quality'] > 6  # objetivo, convertido en problema binario

# Paso 4: Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 5: Escalar las características (opcional, dependiendo del modelo)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Paso 6: Configurar GridSearchCV
param_grid = {'n_estimators': [50, 100, 200], 'max_depth': [10, 20, 30]}
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)

# Paso 7: Entrenar con GridSearchCV
grid_search.fit(X_train_scaled, y_train)  # Asegúrate de usar X_train_scaled si aplicaste escalado

# Paso 8: Imprimir los mejores parámetros y la mejor puntuación
print("Mejores parámetros:", grid_search.best_params_)
print("Mejor puntuación:", grid_search.best_score_)

Mejores parámetros: {'max_depth': 20, 'n_estimators': 200}
Mejor puntuación: 0.9061825980392157


### Lo mismo para: 

# from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier


#  GradientBoostingClassifier

## Paso 1: Importar las bibliotecas necesarias

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.preprocessing import StandardScaler

## Paso 2: Cargar los datos

In [3]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(url, sep=';')

## Paso 3: Preparar los datos

In [4]:
X = data.drop('quality', axis=1)  # características
y = data['quality'] > 6  # objetivo, convertido en problema binario

## Paso 4: Dividir los datos en entrenamiento y prueba

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Paso 5: Escalar las características (dependiendo del modelo)

In [6]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## Paso 6: Configurar GridSearchCV

In [7]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, 30],
    'learning_rate': [0.01, 0.1, 1]
}

# Configurar el GradientBoostingClassifier
gradient_boost = GradientBoostingClassifier()

grid_search = GridSearchCV(gradient_boost, param_grid, cv=5)

## Paso 7: Entrenar con GridSearchCV

In [8]:
grid_search.fit(X_train_scaled, y_train)  # Asegúrate de usar X_train_scaled si aplicaste escalado

## Paso 8: Imprimir los mejores parámetros y la mejor puntuación

In [9]:
print("Mejores parámetros:", grid_search.best_params_)
print("Mejor puntuación:", grid_search.best_score_)

Mejores parámetros: {'learning_rate': 0.1, 'max_depth': 10, 'n_estimators': 100}
Mejor puntuación: 0.8936795343137256


# AdaBoostClassifier

In [10]:
## Paso 1: Importar las bibliotecas necesarias

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler

## Paso 2: Cargar los datos

In [12]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(url, sep=';')

## Paso 3: Preparar los datos

In [13]:
X = data.drop('quality', axis=1)  # características
y = data['quality'] > 6  # objetivo, convertido en problema binario

## Paso 4: Dividir los datos en entrenamiento y prueba

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Paso 5: Escalar las características (opcional, dependiendo del modelo)

In [15]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## Paso 6: Configurar GridSearchCV

In [16]:
param_grid = {
    'base_estimator__max_depth': [10, 20, 30],
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 1]
}

# Configurar el AdaBoostClassifier con DecisionTreeClassifier como estimador base
base_estimator = DecisionTreeClassifier()
ada_boost = AdaBoostClassifier(base_estimator=base_estimator)

grid_search = GridSearchCV(ada_boost, param_grid, cv=5)

## Paso 7: Entrenar con GridSearchCV

In [17]:
grid_search.fit(X_train_scaled, y_train)  # Asegúrate de usar X_train_scaled si aplicaste escalado



## Paso 8: Imprimir los mejores parámetros y la mejor puntuación

In [18]:
print("Mejores parámetros:", grid_search.best_params_)
print("Mejor puntuación:", grid_search.best_score_)

Mejores parámetros: {'base_estimator__max_depth': 10, 'learning_rate': 1, 'n_estimators': 50}
Mejor puntuación: 0.9085324754901961


# Conclusion
* En el proceso de búsqueda de los mejores modelos utilizando diferentes algoritmos de clasificación, se obtuvieron las siguientes puntuaciones:
* - **AdaBoostClassifier**: 0.9085
* - **GradientBoostingClassifier**: 0.8937
* - **RandomForestClassifier**: 0.9062
* De estos resultados, podemos concluir que el modelo de AdaBoostClassifier con DecisionTreeClassifier como estimador base obtuvo el mejor desempeño, con una puntuación de 0.9085. Este resultado sugiere que AdaBoostClassifier es ligeramente más efectivo para este conjunto de datos en comparación con Gradient Boosting y Random Forest.
* La diferencia entre AdaBoost y Random Forest es mínima (0.9085 vs. 0.9062), lo que indica que ambos modelos son bastante competitivos. Sin embargo, AdaBoost tiene una ligera ventaja. En contraste, Gradient Boosting, aunque todavía es un modelo robusto, quedó un poco detrás con una puntuación de 0.8937.
* Estos resutados no indican que Adaboost sea el mejor de todos, sino que es el mejor ligeramente para este conjunto de datos