# üéØ XGBoost: Detecci√≥n de Fraude

**Materia:** Ciencia de Datos  
**Autores:** Mariana P√©rez P√©rez, Yoriel Navier Carvajalino Vidal, Adriana Lucia Castro Carre√±o

---

## üìã Objetivos de esta demostraci√≥n:

1. ‚úÖ Aplicar XGBoost a un problema real de clasificaci√≥n
2. üîç **Demostrar c√≥mo XGBoost selecciona variables** (Gain, Weight, Cover)
3. üìä **Visualizar el proceso iterativo de aprendizaje**
4. ‚öñÔ∏è **Mostrar el efecto de la regularizaci√≥n** (L1 y L2)
5. üé® **Ilustrar splits y thresholds** en la toma de decisiones
6. üìà Evaluar el rendimiento con m√©tricas apropiadas


## üì¶ Paso 1: Configuraci√≥n del Entorno

Instalamos e importamos todas las librer√≠as necesarias.

In [None]:
# Instalaci√≥n de librer√≠as
!pip install -q gdown xgboost

# Importaciones
import pandas as pd
import numpy as np
import gdown
import os
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (
    classification_report, 
    confusion_matrix, 
    roc_auc_score, 
    precision_recall_curve, 
    auc,
    roc_curve
)
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuraciones
warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìå Versi√≥n de XGBoost: {xgb.__version__}")

## üìä Paso 2: Carga y An√°lisis Exploratorio de Datos

Cargamos el dataset de detecci√≥n de fraude en tarjetas de cr√©dito.

In [None]:
# Descarga autom√°tica del dataset
output_filename = "creditcard.csv"

if not os.path.exists(output_filename):
    print(f"üì• Descargando dataset...")
    file_id = "1JXhUJjoGnRBR6tUkvvPv8DFisZZI-Iwc"
    url = f"https://drive.google.com/uc?id={file_id}"
    gdown.download(url, output_filename, quiet=False)
else:
    print(f"‚úÖ Dataset ya existe")

# Cargar datos
df = pd.read_csv(output_filename)
print(f"\nüìê Dimensiones: {df.shape}")
print(f"üìä Columnas: {df.shape[1]}")
print(f"üìù Registros: {df.shape[0]:,}")

# Mostrar primeras filas
display(df.head())

# Informaci√≥n del dataset
print("\nüìã Informaci√≥n del dataset:")
print(df.info())

### üîç An√°lisis del Desbalance de Clases

Este es un dataset **altamente desbalanceado**, caracter√≠stica com√∫n en problemas de detecci√≥n de fraude.

In [None]:
# An√°lisis del desbalance
class_counts = df['Class'].value_counts()
class_percentages = df['Class'].value_counts(normalize=True) * 100

print("üéØ Distribuci√≥n de clases:")
print(f"   No Fraude (0): {class_counts[0]:,} ({class_percentages[0]:.2f}%)")
print(f"   Fraude (1):    {class_counts[1]:,} ({class_percentages[1]:.3f}%)")
print(f"\n‚öñÔ∏è Ratio de desbalance: {class_counts[0]/class_counts[1]:.1f}:1")

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
class_counts.plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribuci√≥n de Clases (Cantidad)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Clase')
axes[0].set_ylabel('Cantidad')
axes[0].set_xticklabels(['No Fraude', 'Fraude'], rotation=0)
axes[0].grid(axis='y', alpha=0.3)

# Gr√°fico de pie
colors = ['#2ecc71', '#e74c3c']
axes[1].pie(class_counts, labels=['No Fraude', 'Fraude'], autopct='%1.3f%%', 
            colors=colors, startangle=90, textprops={'fontsize': 12})
axes[1].set_title('Proporci√≥n de Clases', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí° Implicaci√≥n: Necesitamos usar scale_pos_weight para manejar el desbalance")

## üîß Paso 3: Preprocesamiento de Datos

Preparamos los datos para el modelado.

In [None]:
# Separar caracter√≠sticas y variable objetivo
X = df.drop('Class', axis=1)
y = df['Class']

# Estandarizaci√≥n de Amount y Time
scaler = StandardScaler()
X['Amount'] = scaler.fit_transform(X[['Amount']])
X['Time'] = scaler.fit_transform(X[['Time']])

print("‚úÖ Datos estandarizados")
print(f"üìä Features: {X.shape[1]}")
print(f"üéØ Samples: {X.shape[0]:,}")

# Divisi√≥n train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"\nüìö Train set: {X_train.shape[0]:,} muestras")
print(f"üß™ Test set:  {X_test.shape[0]:,} muestras")

## üöÄ Paso 4: Entrenamiento de Modelos XGBoost

### üéØ 4.1: Modelo Base (Con Regularizaci√≥n)

Entrenamos un modelo con regularizaci√≥n para demostrar los conceptos del PDF.

In [None]:
# Calcular scale_pos_weight para el desbalance
scale_pos_weight = (y_train == 0).sum() / (y_train == 1).sum()
print(f"‚öñÔ∏è scale_pos_weight calculado: {scale_pos_weight:.2f}")

# Modelo con regularizaci√≥n (como explica el PDF)
model_regularized = xgb.XGBClassifier(
    n_estimators=100,
    max_depth=4,
    learning_rate=0.1,
    scale_pos_weight=scale_pos_weight,
    random_state=42,
    eval_metric='logloss',
    # üî• Regularizaci√≥n (L1 y L2 como en el PDF)
    reg_alpha=0.1,   # L1 regularization (Lasso)
    reg_lambda=1.0,  # L2 regularization (Ridge)
    subsample=0.8,
    colsample_bytree=0.8
)

# Entrenamiento con seguimiento del error
print("\nüéØ Entrenando modelo con regularizaci√≥n...")
model_regularized.fit(
    X_train, y_train,
    eval_set=[(X_train, y_train), (X_test, y_test)],
    verbose=False
)

print("‚úÖ Modelo entrenado exitosamente")

### üìä 4.2: Visualizaci√≥n del Proceso Iterativo de Aprendizaje

**Como explica el PDF:** XGBoost aprende iterativamente, reduciendo el error en cada paso.

In [None]:
# Obtener resultados de evaluaci√≥n por iteraci√≥n
results = model_regularized.evals_result()

# Crear visualizaci√≥n
fig, ax = plt.subplots(figsize=(12, 6))

# Plot para train y test
epochs = range(len(results['validation_0']['logloss']))
ax.plot(epochs, results['validation_0']['logloss'], 
        label='Train Error', linewidth=2, color='#3498db')
ax.plot(epochs, results['validation_1']['logloss'], 
        label='Test Error', linewidth=2, color='#e74c3c')

ax.set_xlabel('N√∫mero de √Årboles (Iteraciones)', fontsize=12)
ax.set_ylabel('Log Loss (Error)', fontsize=12)
ax.set_title('üìâ Proceso Iterativo de Aprendizaje de XGBoost\n(Cada √°rbol corrige errores del anterior)', 
             fontsize=14, fontweight='bold')
ax.legend(fontsize=11)
ax.grid(True, alpha=0.3)

# Anotar puntos clave
min_idx = np.argmin(results['validation_1']['logloss'])
ax.annotate(f'Mejor modelo\n(√Årbol {min_idx})', 
            xy=(min_idx, results['validation_1']['logloss'][min_idx]),
            xytext=(min_idx+10, results['validation_1']['logloss'][min_idx]+0.01),
            arrowprops=dict(arrowstyle='->', color='green', lw=2),
            fontsize=10, color='green', fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\nüí° Observaci√≥n: El error disminuye con cada iteraci√≥n")
print(f"   Mejor modelo en el √°rbol #{min_idx}")
print(f"   Error final (test): {results['validation_1']['logloss'][-1]:.6f}")

### üîç 4.3: Comparaci√≥n - Efecto de la Regularizaci√≥n

**Como explica el PDF:** La regularizaci√≥n (L1 y L2) previene el sobreajuste.

In [None]:
# Modelo SIN regularizaci√≥n para comparar
print("üéØ Entrenando modelo SIN regularizaci√≥n (para comparar)...")
model_no_reg = xgb.XGBClassifier(
    n_estimators=100,
    max_depth=4,
    learning_rate=0.1,
    scale_pos_weight=scale_pos_weight,
    random_state=42,
    eval_metric='logloss',
    # ‚ùå SIN regularizaci√≥n
    reg_alpha=0,
    reg_lambda=0,
    subsample=0.8,
    colsample_bytree=0.8
)

model_no_reg.fit(
    X_train, y_train,
    eval_set=[(X_train, y_train), (X_test, y_test)],
    verbose=False
)

print("‚úÖ Ambos modelos listos para comparar")

# Comparaci√≥n visual
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Modelo CON regularizaci√≥n
results_reg = model_regularized.evals_result()
epochs = range(len(results_reg['validation_0']['logloss']))
axes[0].plot(epochs, results_reg['validation_0']['logloss'], 
             label='Train', linewidth=2, color='#3498db')
axes[0].plot(epochs, results_reg['validation_1']['logloss'], 
             label='Test', linewidth=2, color='#e74c3c')
axes[0].set_xlabel('Iteraciones', fontsize=11)
axes[0].set_ylabel('Error (Log Loss)', fontsize=11)
axes[0].set_title('‚úÖ CON Regularizaci√≥n (L1 + L2)\nModelo m√°s robusto', 
                  fontsize=12, fontweight='bold', color='green')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Modelo SIN regularizaci√≥n
results_no_reg = model_no_reg.evals_result()
axes[1].plot(epochs, results_no_reg['validation_0']['logloss'], 
             label='Train', linewidth=2, color='#3498db')
axes[1].plot(epochs, results_no_reg['validation_1']['logloss'], 
             label='Test', linewidth=2, color='#e74c3c')
axes[1].set_xlabel('Iteraciones', fontsize=11)
axes[1].set_ylabel('Error (Log Loss)', fontsize=11)
axes[1].set_title('‚ö†Ô∏è SIN Regularizaci√≥n\nPosible sobreajuste', 
                  fontsize=12, fontweight='bold', color='red')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# An√°lisis de overfitting
train_error_reg = results_reg['validation_0']['logloss'][-1]
test_error_reg = results_reg['validation_1']['logloss'][-1]
gap_reg = abs(train_error_reg - test_error_reg)

train_error_no_reg = results_no_reg['validation_0']['logloss'][-1]
test_error_no_reg = results_no_reg['validation_1']['logloss'][-1]
gap_no_reg = abs(train_error_no_reg - test_error_no_reg)

print("\nüìä An√°lisis de Sobreajuste (Overfitting):")
print("="*60)
print(f"{'Modelo':<25} {'Train Error':<15} {'Test Error':<15} {'Gap':<10}")
print("="*60)
print(f"{'CON Regularizaci√≥n':<25} {train_error_reg:<15.6f} {test_error_reg:<15.6f} {gap_reg:<10.6f}")
print(f"{'SIN Regularizaci√≥n':<25} {train_error_no_reg:<15.6f} {test_error_no_reg:<15.6f} {gap_no_reg:<10.6f}")
print("="*60)
print(f"\nüí° Gap menor = Mejor generalizaci√≥n")
print(f"   ‚úÖ Modelo con regularizaci√≥n: {gap_reg:.6f}")
print(f"   ‚ö†Ô∏è  Modelo sin regularizaci√≥n: {gap_no_reg:.6f}")

## üéØ Paso 5: Selecci√≥n y Evaluaci√≥n de Variables

### üìä 5.1: Feature Importance - Las 3 M√©tricas de XGBoost

**Como explica el PDF**, XGBoost usa 3 m√©tricas para evaluar variables:
- **Gain (Ganancia):** Cu√°nto mejora el modelo al usar esa variable
- **Weight (Peso):** N√∫mero de veces que aparece en las divisiones
- **Cover (Cobertura):** Cantidad de muestras afectadas

In [None]:
# Crear figura con 3 subplots
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# 1. GAIN (Ganancia) - La m√°s importante
xgb.plot_importance(model_regularized, importance_type='gain', 
                   ax=axes[0], max_num_features=10, 
                   title='', color='#3498db')
axes[0].set_title('üìà GAIN (Ganancia)\nCu√°nto mejora el modelo', 
                 fontsize=12, fontweight='bold')
axes[0].set_xlabel('Gain Score', fontsize=10)

# 2. WEIGHT (Peso)
xgb.plot_importance(model_regularized, importance_type='weight', 
                   ax=axes[1], max_num_features=10,
                   title='', color='#e74c3c')
axes[1].set_title('‚öñÔ∏è WEIGHT (Peso)\nFrecuencia de uso', 
                 fontsize=12, fontweight='bold')
axes[1].set_xlabel('Weight Score', fontsize=10)

# 3. COVER (Cobertura)
xgb.plot_importance(model_regularized, importance_type='cover', 
                   ax=axes[2], max_num_features=10,
                   title='', color='#2ecc71')
axes[2].set_title('üìä COVER (Cobertura)\nMuestras afectadas', 
                 fontsize=12, fontweight='bold')
axes[2].set_xlabel('Cover Score', fontsize=10)

plt.suptitle('üîç Importancia de Variables en XGBoost - Las 3 M√©tricas', 
             fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

# Obtener las variables m√°s importantes por GAIN
importance_dict = model_regularized.get_booster().get_score(importance_type='gain')
importance_sorted = sorted(importance_dict.items(), key=lambda x: x[1], reverse=True)

print("\nüèÜ TOP 10 Variables M√°s Importantes (por GAIN):")
print("="*50)
for i, (feature, score) in enumerate(importance_sorted[:10], 1):
    print(f"{i:2d}. {feature:<8} ‚Üí Gain: {score:>10.2f}")
print("="*50)
print("\nüí° Estas variables tienen el mayor impacto en las predicciones")

### üå≥ 5.2: Visualizaci√≥n de un √Årbol - Splits y Thresholds

**Como explica el PDF:** XGBoost decide mediante splits (divisiones) y thresholds (umbrales).

In [None]:
# Visualizar el primer √°rbol del modelo
fig, ax = plt.subplots(figsize=(20, 10))
xgb.plot_tree(model_regularized, num_trees=0, ax=ax)
plt.title('üå≥ Visualizaci√≥n de un √Årbol de Decisi√≥n en XGBoost\nCada nodo muestra: [Variable < Threshold]', 
          fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nüí° En cada nodo del √°rbol:")
print("   - Se selecciona una variable (ej: 'V14')")
print("   - Se define un threshold (ej: < -1.5)")
print("   - Se divide la data seg√∫n esa condici√≥n")
print("   - XGBoost elige el split con mayor GAIN")

## üìà Paso 6: Evaluaci√≥n del Modelo

### üéØ 6.1: Matriz de Confusi√≥n

In [None]:
# Predicciones
y_pred = model_regularized.predict(X_test)
y_pred_proba = model_regularized.predict_proba(X_test)[:, 1]

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)

# Visualizaci√≥n mejorada
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['No Fraude', 'Fraude'],
            yticklabels=['No Fraude', 'Fraude'],
            cbar_kws={'label': 'Cantidad'},
            annot_kws={'size': 16, 'weight': 'bold'})
plt.title('üìä Matriz de Confusi√≥n', fontsize=16, fontweight='bold')
plt.ylabel('Valor Real', fontsize=12)
plt.xlabel('Predicci√≥n', fontsize=12)
plt.tight_layout()
plt.show()

# Interpretaci√≥n
tn, fp, fn, tp = cm.ravel()
print("\nüîç Interpretaci√≥n de la Matriz:")
print("="*50)
print(f"‚úÖ Verdaderos Negativos (TN): {tn:>6,} - Correctamente identificados como NO fraude")
print(f"‚ùå Falsos Positivos (FP):     {fp:>6,} - Incorrectamente marcados como fraude")
print(f"‚ùå Falsos Negativos (FN):     {fn:>6,} - Fraudes no detectados")
print(f"‚úÖ Verdaderos Positivos (TP): {tp:>6,} - Fraudes correctamente detectados")
print("="*50)

### üìä 6.2: Reporte de Clasificaci√≥n

M√©tricas detalladas de rendimiento.

In [None]:
# Reporte de clasificaci√≥n
print("\nüìä REPORTE DE CLASIFICACI√ìN")
print("="*70)
print(classification_report(y_test, y_pred, 
                          target_names=['No Fraude', 'Fraude'],
                          digits=4))

# M√©tricas adicionales
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred_proba)

print("\nüéØ M√âTRICAS GLOBALES:")
print("="*70)
print(f"Accuracy (Exactitud):     {accuracy:.4f} ({accuracy*100:.2f}%)")
print(f"Precision (Precisi√≥n):    {precision:.4f} ({precision*100:.2f}%)")
print(f"Recall (Sensibilidad):    {recall:.4f} ({recall*100:.2f}%)")
print(f"F1-Score:                 {f1:.4f}")
print(f"ROC-AUC Score:            {roc_auc:.4f}")
print("="*70)

print("\nüí° Interpretaci√≥n:")
print(f"   ‚úÖ De cada 100 predicciones de fraude, {precision*100:.1f} son correctas (Precision)")
print(f"   ‚úÖ Detectamos el {recall*100:.1f}% de todos los fraudes reales (Recall)")
print(f"   ‚úÖ Balance entre ambas: {f1:.4f} (F1-Score)")

### üìà 6.3: Curvas ROC y Precision-Recall

In [None]:
# Calcular m√©tricas para las curvas
fpr, tpr, thresholds_roc = roc_curve(y_test, y_pred_proba)
roc_auc = auc(fpr, tpr)

precision_vals, recall_vals, thresholds_pr = precision_recall_curve(y_test, y_pred_proba)
pr_auc = auc(recall_vals, precision_vals)

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Curva ROC
axes[0].plot(fpr, tpr, color='#3498db', linewidth=2, 
            label=f'ROC Curve (AUC = {roc_auc:.4f})')
axes[0].plot([0, 1], [0, 1], color='gray', linestyle='--', linewidth=1, label='Random')
axes[0].set_xlabel('False Positive Rate', fontsize=12)
axes[0].set_ylabel('True Positive Rate', fontsize=12)
axes[0].set_title('üìà Curva ROC (Receiver Operating Characteristic)', 
                 fontsize=13, fontweight='bold')
axes[0].legend(fontsize=11)
axes[0].grid(True, alpha=0.3)

# Curva Precision-Recall
axes[1].plot(recall_vals, precision_vals, color='#e74c3c', linewidth=2,
            label=f'PR Curve (AUC = {pr_auc:.4f})')
axes[1].set_xlabel('Recall (Sensibilidad)', fontsize=12)
axes[1].set_ylabel('Precision (Precisi√≥n)', fontsize=12)
axes[1].set_title('üìä Curva Precision-Recall', fontsize=13, fontweight='bold')
axes[1].legend(fontsize=11)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüéØ Resultados de las Curvas:")
print("="*60)
print(f"ROC-AUC:           {roc_auc:.4f} (Excelente si > 0.90)")
print(f"Precision-Recall:  {pr_auc:.4f} (Excelente si > 0.80)")
print("="*60)
print("\nüí° La curva PR es m√°s informativa para datasets desbalanceados")

## üéì Conclusiones

### ‚úÖ Lo que demostramos en este notebook:

1. **üìä Aprendizaje Iterativo:**
   - Visualizamos c√≥mo el error disminuye con cada √°rbol
   - Cada modelo aprende de los errores del anterior

2. **‚öñÔ∏è Regularizaci√≥n:**
   - Comparamos modelos con y sin regularizaci√≥n
   - Demostramos c√≥mo L1 y L2 previenen el sobreajuste

3. **üîç Selecci√≥n de Variables:**
   - Mostramos las 3 m√©tricas: Gain, Weight, Cover
   - Identificamos las variables m√°s importantes

4. **üå≥ Splits y Thresholds:**
   - Visualizamos c√≥mo el modelo toma decisiones
   - Cada nodo representa una divisi√≥n basada en un umbral

5. **üìà Evaluaci√≥n Completa:**
   - Matriz de confusi√≥n
   - M√©tricas apropiadas para datos desbalanceados
   - Curvas ROC y Precision-Recall

### üéØ Resultados Finales:

XGBoost demostr√≥ ser altamente efectivo para detectar fraude:
- ‚úÖ Alta precisi√≥n en la detecci√≥n de fraudes
- ‚úÖ Manejo efectivo del desbalanceo de clases
- ‚úÖ Selecci√≥n autom√°tica de variables importantes
- ‚úÖ Prevenci√≥n de sobreajuste mediante regularizaci√≥n

---

**üí° XGBoost es uno de los algoritmos m√°s utilizados en la Ciencia de Datos moderna gracias a su:**
- üöÄ Alta precisi√≥n
- ‚ö° Velocidad de entrenamiento
- üõ°Ô∏è Robustez ante sobreajuste
- üîç Capacidad de selecci√≥n de variables

---

## üìö Referencias

- Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System
- Documentaci√≥n oficial de XGBoost: https://xgboost.readthedocs.io/
- Dataset: Credit Card Fraud Detection (Kaggle)

---

**Creado por:** Mariana P√©rez P√©rez, Yoriel Navier Carvajalino Vidal, Adriana Lucia Castro Carre√±o  
**Materia:** Ciencia de Datos  
**Fecha:** 2024