# Clasificación usando XGBoost con SMOTE


En este notebook, utilizaremos **XGBoost** para realizar una clasificación de los datos proporcionados,
teniendo en cuenta que las características son en su mayoría categóricas y codificadas. Además, dado que la clase 1 es minoritaria,
aplicaremos **SMOTE** para balancear los datos.

**Estructura del notebook:**
1. Importación de librerías
2. Carga de los datos
3. División de los datos (entrenamiento y prueba)
4. Aplicación de SMOTE para balancear las clases
5. Entrenamiento del modelo XGBoost
6. Evaluación del modelo usando matriz de confusión y métricas de clasificación


In [1]:

# 1. Importación de librerías
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from xgboost import XGBClassifier
from imblearn.over_sampling import SMOTE


In [2]:

# 2. Cargar los datos (ajusta la ruta a tu archivo)
data = pd.read_csv("tus_datos.csv")  # Reemplaza con tu archivo
X = data.drop("etiqueta", axis=1)
y = data["etiqueta"]


FileNotFoundError: [Errno 2] No such file or directory: 'tus_datos.csv'

In [None]:

# 3. División de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42)


In [None]:

# 4. Manejo del desbalance con SMOTE
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)


In [None]:

# 5. Inicialización y entrenamiento del modelo XGBoost
model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
model.fit(X_train_smote, y_train_smote)


In [None]:

# 6. Predicciones y evaluación
y_pred = model.predict(X_test)

# Reporte de métricas
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))
