# Laboratorio Adaboost 
#### Daniel Rojas - Ethan Pimentel - Martín Cortes

En este trabajao se explorara el funcionamiento de la funcion GridSearchCV para el modelo de Adaboost, para ello primero se explorara su funcionamiento con el modelo de RandomForest.

# Uso de GridSearchCV con RandomForestClassifier

## Paso 1: Importar las librerías necesarias

In [7]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

## Paso 2: Cargar y preparar los datos
Para este ejemplo, usaremos el conjunto de datos Iris de sklearn.

In [8]:
# Cargar el dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## Paso 3: Definir el modelo y los parámetros para GridSearchCV

In [9]:
# Definir el modelo
rf = RandomForestClassifier()

# Definir los parámetros para GridSearchCV
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_features': ['sqrt', 'log2'],
    'max_depth': [4, 6, 8, 10],
    'criterion': ['gini', 'entropy']
}

## Paso 4: Configurar y ejecutar GridSearchCV

In [10]:
# Configurar GridSearchCV
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)

# Ejecutar GridSearchCV
grid_search.fit(X_train, y_train)


Fitting 5 folds for each of 48 candidates, totalling 240 fits


## Paso 5: Evaluar el mejor modelo

In [11]:
# Mostrar los mejores parámetros encontrados por GridSearchCV
print(f"Mejores parámetros: {grid_search.best_params_}")

# Predecir en el conjunto de prueba con el mejor modelo
best_rf = grid_search.best_estimator_
y_pred = best_rf.predict(X_test)

# Evaluar la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión en el conjunto de prueba: {accuracy}")


Mejores parámetros: {'criterion': 'gini', 'max_depth': 4, 'max_features': 'sqrt', 'n_estimators': 100}
Precisión en el conjunto de prueba: 1.0


# Uso de GridSearchCV con AdaBoostClassifier

Siguiendo los pasos propuestos por el profesor nos disponemos a utilizar el metodo de AdaboostClassifier para automatizar el proceso de ajuste de hiperparámetros de un modelo.

## Paso 1: Importar las bibliotecas necesarias


In [12]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import AdaBoostClassifier
from sklearn.preprocessing import StandardScaler


## Paso 2: Cargar y preparar los datos

In [13]:
# Carga de datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(url, sep=';')

# Preparación de datos
X = data.drop('quality', axis=1)  # características
y = data['quality'] > 6  # objetivo, convertido en problema binario

## Paso 3: Dividir los datos en entrenamiento y prueba

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Paso 4: Escalar las características (opcional, dependiendo del modelo)

In [15]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## Paso 5: Configurar GridSearchCV

In [19]:
param_grid = {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 1]}
# n_estimators: Número de estimadores (modelos débiles) que se van a entrenar.
# learning_rate: Tasa de aprendizaje que pesa la contribución de cada modelo débil.

grid_search = GridSearchCV(AdaBoostClassifier(), param_grid, cv=5)
# n_estimators: define el número de modelos débiles a entrenar.
# learning_rate: ajusta el peso de cada modelo débil.

## Paso 6: Entrenar con GridSearchCV

In [17]:
grid_search.fit(X_train_scaled, y_train)  # Asegúrate de usar X_train_scaled si aplicaste escalado

## Paso 7: Imprimir los mejores parámetros y la mejor puntuación

In [18]:
print("Mejores parámetros:", grid_search.best_params_)
print("Mejor puntuación:", grid_search.best_score_)

Mejores parámetros: {'learning_rate': 0.1, 'n_estimators': 50}
Mejor puntuación: 0.8874234068627451


# Conclusiones

learning_rate de 0.1 indica el peso asignado a cada modelo débil. <br>
n_estimators de 50 indica que el modelo consta de 50 modelos débiles que son utilizados para clasificar la calidad del vino. <br>
Una puntuación de 0.88 indica que el modelo tiene un rendimiento alto y generaliza bien a los datos.