<h1 align='center'>Uso de XGBoost para problemas de clasificaci√≥n<h1>
    
<h2 align='center'>Laura G Funderburk</h2>
    
    

<h2 align='center'>Sobre m√≠</h2>

ü§ì Complet√© la Licenciatura en Matem√°ticas en Simon Fraser University, Canad√°

üìà ü§ó Cient√≠fica de datos, Developer Advocate @Ploomber

üá≤üáΩ üá¨üáß üá©üá™ üá®üá¶ Nac√≠ en M√©xico, he vivido en Inglaterra, Alemania y ahora en Canad√°

ü•ã Practico Brazilian JiuJitsu 


<h2 align='center'>Conecta conmigo</h2>

üñ•Ô∏è Sitio web: https://lfunderburk.github.io/

üêô GitHub: https://github.com/lfunderburk

üê¶ Twitter: @lgfunderburk

ü¶£ Mastodon: https://fosstodon.org/@lfunderburk

<h2 align='center'>Introducci√≥n</h2>

1. ¬øQu√© es la clasificaci√≥n?
2. Diferencia entre clasificaci√≥n y regresi√≥n
3. Introducci√≥n a XGBoost

<h2 align='center'>Qu√© es la clasificaci√≥n</h2>




<h2 align='center'>Clasificaci√≥n vs Regresi√≥n</h2>

1. Clasificaci√≥n: predecir una etiqueta categ√≥rica (ej. si es spam o no es spam)
2. Regresi√≥n: predecir un valor num√©rico continuo (ej. el precio de bienes raices)

<h2 align='center'>XGBoost</h2>


- Basado en algoritmo de Gradient Boosting
- Escalable y eficiente
- Ampliamente utilizado en competencias de aprendizaje autom√°tico


<h2 align='center'>Instalaci√≥n de XGBoost</h2>


```
pip install xgboost
```

<h2 align='center'>Importando bibliotecas</h2>


In [None]:
import matplotlib.pyplot as plt
import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, \
                            classification_report, \
                            accuracy_score,\
                            balanced_accuracy_score,\
                            ConfusionMatrixDisplay

import pandas as pd

<h2 align='center'>Cargando y dividiendo el conjunto de datos</h2>


- **Conjunto de datos "Calidad del Vino"**: propiedades fisicoqu√≠micas de vinos, como acidez, contenido de az√∫car y alcohol. 

- **Objetivo**: predecir la calidad del vino usando estas caracter√≠sticas. 

- **Problema de clasificaci√≥n binaria (buena o mala calidad)**.

Este conjunto de datos est√° disponible en el Repositorio de Aprendizaje Autom√°tico de UCI.

https://archive.ics.uci.edu/ml/datasets/wine+quality


In [None]:
# Carga el conjunto de datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
df = pd.read_csv(url, sep=';')

# Preprocesamiento: convierta la columna de calidad en un problema de clasificaci√≥n binaria (bueno o malo)
threshold = 6
df['quality'] = (df['quality'] >= threshold).astype(int)

# Dividir el conjunto de datos en caracter√≠sticas (X) y objetivo (y)
X = df.drop('quality', axis=1)
y = df['quality']

X.head()

In [None]:
y.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, 
                                                    random_state=42)

<h2 align='center'>Entrenamiento del modelo</h2>


In [None]:
# Inicializa el modelo
modelo_xgb = xgb.XGBClassifier()

# Ajustar el modelo
modelo_xgb.fit(X_train, y_train)

# Usa el modelo para predecir
y_pred = modelo_xgb.predict(X_test)

<h2 align='center'>Evaluaci√≥n del modelo</h2>


In [None]:
def evalua_modelo(modelo):
    score_train = modelo.score(X_train, y_train)
    score_test = modelo.score(X_test, y_test)
    balanced_accuracy = balanced_accuracy_score(y_test, y_pred)
    accuracy = accuracy_score(y_test, y_pred)
    report = classification_report(y_test, y_pred)
    print('score for training set', score_train, 'score for testing set', score_test)
    print("Balanced accuracy score", balanced_accuracy,"Accuracy",accuracy)
    fig, ax = plt.subplots(figsize=(10, 5))
    ConfusionMatrixDisplay.from_predictions(y_test, y_pred, ax=ax);
    
evalua_modelo(modelo_xgb)

<h2 align='center'>Hiperpar√°metros</h2>

- `learning_rate`
- `max_depth`
- `n_estimators`
- `subsample`
- `colsample_bytree`

In [None]:
# Definiendo hiperpar√°metros personalizados
hiperparametros = {
    'learning_rate': 0.1,
    'max_depth': 3,
    'n_estimators': 100,
    'subsample': 0.8,
    'colsample_bytree': 0.8
}

# Entrenamiento del modelo con hiperpar√°metros personalizados
modelo_xgb_h = xgb.XGBClassifier(**hiperparametros)
modelo_xgb_h.fit(X_train, y_train)

In [None]:
# Observar resultados
evalua_modelo(modelo_xgb_h)

<h2 align='center'>Ajuste de hiperpar√°metros</h2>

- B√∫squeda de cuadr√≠cula
- B√∫squeda aleatoria
- Validaci√≥n cruzada

In [None]:
# Hyperparameters ranges
hyperparameters_ranges = {
    'learning_rate': [0.01, 0.1, 0.2],  
    'max_depth': list(range(3, 15)),  
    'n_estimators': [50, 100, 200, 500, 1000],  
    'subsample': [0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
    'colsample_bytree': [0.5, 0.6, 0.7, 0.8, 0.9, 1.0]
}

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# Create XGBoost classifier
modelo_xgb = xgb.XGBClassifier()

# Perform randomized search
random_search = RandomizedSearchCV(modelo_xgb, 
                                   param_distributions=hyperparameters_ranges, 
                                   n_iter=25, 
                                   cv=5, 
                                   random_state=42)
random_search.fit(X_train, y_train)

# Get the best hyperparameters
best_hyperparameters = random_search.best_params_
print(f"Best hyperparameters: {best_hyperparameters}")

In [None]:
# Train the model with the best hyperparameters
modelo_xgb_h_b = xgb.XGBClassifier(**best_hyperparameters)
modelo_xgb_h_b.fit(X_train, y_train)

# Evaluate the model
y_pred = modelo_xgb_h_b.predict(X_test)

evalua_modelo(modelo_xgb_h_b)

<h2 align='center'>Importancia de las caracter√≠sticas</h2>

- Ganancia
- Frecuencia
- Cobertura

<h2 align='center'>Visualizaci√≥n de la importancia de las caracter√≠sticas</h2>

In [None]:
xgb.plot_importance(modelo_xgb_h_b)
plt.show()

<h2 align='center'>Ventajas de XGBoost</h2>

- Rendimiento superior
- Manejo de valores faltantes
- Paralelizaci√≥n
- Regularizaci√≥n
- Flexibilidad

<h2 align='center'>Conclusi√≥n</h2>

- XGBoost: eficiente y potente para clasificaci√≥n
- Ajuste de hiperpar√°metros y selecci√≥n de caracter√≠sticas
- Ventajas clave de XGBoost

<h2 align='center'>Conecta conmigo</h2>

üñ•Ô∏è Sitio web: https://lfunderburk.github.io/

üêô GitHub: https://github.com/lfunderburk

üê¶ Twitter: @lgfunderburk

ü¶£ Mastodon: https://fosstodon.org/@lfunderburk