# Cobranza (Recuperaci√≥n de Cartera)

Notebook para predecir la probabilidad de recuperaci√≥n de deudas usando datos sint√©ticos o CSV externo.

## 1. Importar librer√≠as

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, accuracy_score
from sklearn.linear_model import LogisticRegression
import xgboost as xgb
import optuna
from optuna.samplers import TPESampler
import os
import psutil

# Verificar que todas las librer√≠as est√©n importadas correctamente
print("‚úÖ Librer√≠as importadas correctamente:")
print(f"NumPy: {np.__version__}")
print(f"Pandas: {pd.__version__}")
print(f"XGBoost: {xgb.__version__}")
print(f"Optuna: {optuna.__version__}")

# Verificar hardware disponible
print(f"\nüñ•Ô∏è Hardware disponible:")
print(f"CPU Cores: {psutil.cpu_count(logical=False)} f√≠sicos, {psutil.cpu_count(logical=True)} l√≥gicos")
print(f"RAM: {psutil.virtual_memory().total / (1024**3):.1f} GB")
print(f"RAM disponible: {psutil.virtual_memory().available / (1024**3):.1f} GB")

# Verificar soporte GPU para XGBoost
try:
    import subprocess
    result = subprocess.run(['nvidia-smi'], capture_output=True, text=True)
    if result.returncode == 0:
        print("üéÆ GPU NVIDIA detectada - XGBoost puede usar GPU")
        GPU_AVAILABLE = True
    else:
        print("‚ö†Ô∏è GPU NVIDIA no detectada - usando CPU")
        GPU_AVAILABLE = False
except:
    print("‚ö†Ô∏è No se pudo verificar GPU - usando CPU")
    GPU_AVAILABLE = False

print("üöÄ Listo para optimizaci√≥n bayesiana optimizada!")

## 2. Cargar datos
### A) Generar datos sint√©ticos

In [None]:
np.random.seed(42)
# Generar dataset m√°s grande aprovechando la RAM (64GB)
n = 10000  # 10x m√°s datos para mejor entrenamiento
print(f"üìä Generando dataset de cobranza con {n:,} registros...")

data = pd.DataFrame({
    'dias_atraso': np.random.randint(0, 180, n),  # M√°s rango de d√≠as
    'monto_deuda': np.random.lognormal(6, 1, n),  # Distribuci√≥n m√°s realista
    'pagos_previos': np.random.poisson(2, n),     # Distribuci√≥n de Poisson
    'contactos': np.random.poisson(3, n),         # M√°s contactos
    'segmento': np.random.choice(['Retail','Pyme','Corporativo','Empresarial'], n, p=[0.5, 0.3, 0.15, 0.05]),
    'edad_cliente': np.random.randint(18, 80, n),
    'ingresos_mensuales': np.random.lognormal(8, 0.5, n),
    'score_credito': np.random.normal(650, 100, n),
    'productos_activos': np.random.randint(1, 6, n),
})

# Generar variable objetivo (pago) m√°s realista
pago_prob = (
    0.3 * (data['dias_atraso'] < 30) +                    # Pago temprano
    0.2 * (data['pagos_previos'] > 2) +                   # Historial de pagos
    0.15 * (data['contactos'] > 3) +                      # Muchos contactos
    0.1 * (data['monto_deuda'] < data['ingresos_mensuales'] * 0.3) +  # Deuda baja vs ingresos
    0.1 * (data['score_credito'] > 700) +                 # Buen score crediticio
    0.05 * (data['segmento'].isin(['Corporativo', 'Empresarial'])) +  # Segmento premium
    np.random.rand(n) * 0.1                               # Ruido aleatorio
)

data['pago'] = (pago_prob > 0.4).astype(int)
print(f"‚úÖ Dataset generado: {data.shape[0]:,} filas x {data.shape[1]} columnas")
print(f"üìà Tasa de pago: {data['pago'].mean():.2%}")
data.head()

### B) Cargar datos desde CSV
> Descomenta y ajusta la ruta si tienes tu propio archivo.

In [None]:
# data = pd.read_csv('deudas_cobranza.csv')
# data.head()

## 3. An√°lisis exploratorio

In [None]:
print(data['pago'].value_counts())
data.describe()
data.groupby('segmento')['pago'].mean().plot(kind='bar')
plt.title('Tasa de pago por segmento')
plt.ylabel('Pago Rate')
plt.show()

## 4. Preprocesamiento

In [None]:
X = data.drop('pago', axis=1)
y = data['pago']
X['segmento'] = LabelEncoder().fit_transform(X['segmento'])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

## 5. Modelos
### A) Regresi√≥n Log√≠stica

In [None]:
lr = LogisticRegression(max_iter=200)
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)
print(classification_report(y_test, y_pred_lr))

### B) XGBoost

In [None]:
xgb_model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)
print(classification_report(y_test, y_pred_xgb))

## 6. Evaluaci√≥n y visualizaci√≥n

## 6. Optimizaci√≥n Bayesiana con Optuna

Vamos a optimizar los hiperpar√°metros de ambos modelos usando optimizaci√≥n bayesiana para mejorar el rendimiento.


In [None]:
# Funci√≥n objetivo para Regresi√≥n Log√≠stica
def objective_lr(trial):
    # Definir el espacio de b√∫squeda de hiperpar√°metros
    C = trial.suggest_float('C', 0.01, 100.0, log=True)
    penalty = trial.suggest_categorical('penalty', ['l1', 'l2', 'elasticnet'])
    max_iter = trial.suggest_int('max_iter', 100, 1000)
    
    # Seleccionar solver compatible con la penalty
    if penalty == 'elasticnet':
        solver = 'saga'
    elif penalty == 'l1':
        solver = trial.suggest_categorical('solver_l1', ['liblinear', 'saga'])
    else:  # penalty == 'l2'
        solver = trial.suggest_categorical('solver_l2', ['liblinear', 'lbfgs', 'saga'])
    
    # Crear y entrenar el modelo
    model = LogisticRegression(
        C=C, 
        penalty=penalty, 
        solver=solver, 
        max_iter=max_iter,
        random_state=42
    )
    
    # Validaci√≥n cruzada con manejo de errores
    try:
        scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
        return scores.mean()
    except Exception as e:
        return 0.0

# Funci√≥n para crear modelo optimizado con par√°metros mapeados correctamente
def create_optimized_lr_model(best_params):
    """Crea un modelo de regresi√≥n log√≠stica con los par√°metros optimizados"""
    params = {
        'C': best_params['C'],
        'penalty': best_params['penalty'],
        'max_iter': best_params['max_iter'],
        'random_state': 42
    }
    
    if best_params['penalty'] == 'elasticnet':
        params['solver'] = 'saga'
    elif best_params['penalty'] == 'l1':
        params['solver'] = best_params.get('solver_l1', 'liblinear')
    else:  # penalty == 'l2'
        params['solver'] = best_params.get('solver_l2', 'liblinear')
    
    return LogisticRegression(**params)


In [None]:
# Funci√≥n objetivo para XGBoost (optimizada para hardware potente)
def objective_xgb(trial):
    # Definir el espacio de b√∫squeda de hiperpar√°metros (ampliado para mejor hardware)
    params = {
        'n_estimators': trial.suggest_int('n_estimators', 100, 1000),  # M√°s √°rboles
        'max_depth': trial.suggest_int('max_depth', 3, 15),            # Mayor profundidad
        'learning_rate': trial.suggest_float('learning_rate', 0.005, 0.3, log=True),
        'subsample': trial.suggest_float('subsample', 0.6, 1.0),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.6, 1.0),
        'colsample_bylevel': trial.suggest_float('colsample_bylevel', 0.6, 1.0),
        'reg_alpha': trial.suggest_float('reg_alpha', 0, 20),
        'reg_lambda': trial.suggest_float('reg_lambda', 0, 20),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 10),
        'gamma': trial.suggest_float('gamma', 0, 5),
        'random_state': 42,
        'eval_metric': 'logloss'
    }
    
    # Usar GPU si est√° disponible
    if GPU_AVAILABLE:
        params.update({
            'tree_method': 'gpu_hist',
            'gpu_id': 0,
            'predictor': 'gpu_predictor'
        })
    else:
        params['tree_method'] = 'hist'  # CPU optimizado
    
    # Crear y entrenar el modelo
    model = xgb.XGBClassifier(**params)
    
    # Validaci√≥n cruzada con manejo de errores
    try:
        scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy', n_jobs=-1)
        return scores.mean()
    except Exception as e:
        return 0.0

# Funci√≥n para crear modelo XGBoost optimizado
def create_optimized_xgb_model(best_params):
    """Crea un modelo XGBoost con los par√°metros optimizados"""
    params = best_params.copy()
    params['random_state'] = 42
    params['eval_metric'] = 'logloss'
    return xgb.XGBClassifier(**params)


In [None]:
# Optimizaci√≥n para Regresi√≥n Log√≠stica (optimizada para hardware potente)
print("üîç Optimizando Regresi√≥n Log√≠stica...")
study_lr = optuna.create_study(direction='maximize', sampler=TPESampler(seed=42))
study_lr.optimize(objective_lr, n_trials=200, n_jobs=-1)  # M√°s trials + paralelizaci√≥n

print(f"Mejor score: {study_lr.best_value:.4f}")
print(f"Mejores par√°metros: {study_lr.best_params}")

# Optimizaci√≥n para XGBoost (optimizada para hardware potente)
print("\nüîç Optimizando XGBoost...")
study_xgb = optuna.create_study(direction='maximize', sampler=TPESampler(seed=42))
study_xgb.optimize(objective_xgb, n_trials=200, n_jobs=-1)  # M√°s trials + paralelizaci√≥n

print(f"Mejor score: {study_xgb.best_value:.4f}")
print(f"Mejores par√°metros: {study_xgb.best_params}")


## 7. Modelos Optimizados

Ahora entrenamos los modelos con los mejores hiperpar√°metros encontrados.


In [None]:
# Entrenar Regresi√≥n Log√≠stica optimizada
lr_optimized = create_optimized_lr_model(study_lr.best_params)
lr_optimized.fit(X_train, y_train)
y_pred_lr_opt = lr_optimized.predict(X_test)

print("üìä Regresi√≥n Log√≠stica Optimizada:")
print(classification_report(y_test, y_pred_lr_opt))
print(f"Accuracy: {accuracy_score(y_test, y_pred_lr_opt):.4f}")

# Entrenar XGBoost optimizado
xgb_optimized = create_optimized_xgb_model(study_xgb.best_params)
xgb_optimized.fit(X_train, y_train)
y_pred_xgb_opt = xgb_optimized.predict(X_test)

print("\nüìä XGBoost Optimizado:")
print(classification_report(y_test, y_pred_xgb_opt))
print(f"Accuracy: {accuracy_score(y_test, y_pred_xgb_opt):.4f}")


In [None]:
# Comparaci√≥n de accuracy
results_comparison = pd.DataFrame({
    'Modelo': ['Regresi√≥n Log√≠stica Original', 'Regresi√≥n Log√≠stica Optimizada', 
               'XGBoost Original', 'XGBoost Optimizado'],
    'Accuracy': [
        accuracy_score(y_test, y_pred_lr),
        accuracy_score(y_test, y_pred_lr_opt),
        accuracy_score(y_test, y_pred_xgb),
        accuracy_score(y_test, y_pred_xgb_opt)
    ]
})

print("üìà Comparaci√≥n de Resultados:")
print(results_comparison)

# Visualizaci√≥n de la comparaci√≥n
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.bar(results_comparison['Modelo'], results_comparison['Accuracy'])
plt.title('Comparaci√≥n de Accuracy - Cobranza')
plt.ylabel('Accuracy')
plt.xticks(rotation=45, ha='right')
plt.ylim(0.5, 0.9)

# Mejora en accuracy
improvements = [
    results_comparison.iloc[1, 1] - results_comparison.iloc[0, 1],  # LR improvement
    results_comparison.iloc[3, 1] - results_comparison.iloc[2, 1]   # XGB improvement
]

plt.subplot(1, 2, 2)
plt.bar(['Regresi√≥n Log√≠stica', 'XGBoost'], improvements, color=['blue', 'green'])
plt.title('Mejora en Accuracy')
plt.ylabel('Mejora')
plt.axhline(y=0, color='red', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

print(f"\nüéØ Mejoras obtenidas:")
print(f"Regresi√≥n Log√≠stica: +{improvements[0]:.4f} ({improvements[0]*100:.2f}%)")
print(f"XGBoost: +{improvements[1]:.4f} ({improvements[1]*100:.2f}%)")


In [None]:
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plt.title('Confusi√≥n LR')
plt.imshow(confusion_matrix(y_test, y_pred_lr), cmap='Blues')
plt.subplot(1,2,2)
plt.title('Confusi√≥n XGBoost')
plt.imshow(confusion_matrix(y_test, y_pred_xgb), cmap='Greens')
plt.show()
fpr_lr, tpr_lr, _ = roc_curve(y_test, lr.predict_proba(X_test)[:,1])
fpr_xgb, tpr_xgb, _ = roc_curve(y_test, xgb_model.predict_proba(X_test)[:,1])
plt.plot(fpr_lr, tpr_lr, label='LogisticReg')
plt.plot(fpr_xgb, tpr_xgb, label='XGBoost')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.legend()
plt.title('Curvas ROC')
plt.show()

## 7. Importancia de variables
### XGBoost

In [None]:
xgb.plot_importance(xgb_model)
plt.show()

## 8. Comentarios finales
- Puedes modificar los par√°metros, probar con CSV propio y agregar nuevas visualizaciones.