# Import libraries and utils functions

In [1]:
from sqlalchemy import create_engine
from sqlalchemy.orm import Session
from sqlalchemy.sql import text
from datetime import datetime, timedelta
from tqdm import tqdm
import pandas as pd
import numpy as np
from dython.nominal import associations
import matplotlib.pyplot as plt
import random
import warnings
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, 
    classification_report, log_loss, roc_auc_score, roc_curve, 
    precision_recall_curve, balanced_accuracy_score, cohen_kappa_score, 
    matthews_corrcoef, brier_score_loss, average_precision_score
)
from sklearn.compose import ColumnTransformer
from feature_engine.imputation import  MeanMedianImputer, AddMissingIndicator,CategoricalImputer, ArbitraryNumberImputer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from feature_engine.selection import RecursiveFeatureAddition, RecursiveFeatureElimination, DropDuplicateFeatures, DropCorrelatedFeatures, DropFeatures
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from feature_engine.outliers import Winsorizer, ArbitraryOutlierCapper
from feature_engine.encoding import RareLabelEncoder, MeanEncoder, OneHotEncoder, StringSimilarityEncoder
from feature_engine.creation import RelativeFeatures, MathFeatures
from feature_engine.transformation import YeoJohnsonTransformer
from sklearn.compose import ColumnTransformer
from feature_engine.imputation import  MeanMedianImputer, AddMissingIndicator, DropMissingData
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from feature_engine.selection import (
    RecursiveFeatureAddition,
    RecursiveFeatureElimination,
    DropConstantFeatures,
    DropFeatures
)
from sklearn.model_selection import GridSearchCV
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import HistGradientBoostingClassifier


pd.set_option('display.max_columns', 300)
pd.set_option('display.max_rows', 300)

url = 'oracle+cx_oracle://U0642663[IKDERSK1]:Ireneteamo97%40@finconsum-pro-scan.lacaixa.es:1522/?service_name=dfedg2p_online'
engine = create_engine(url)

def __execute_query(query: str):
    with Session(engine) as session:
        return session.execute(text(query))

from sklearn.base import BaseEstimator, TransformerMixin
import pandas as pd
import numpy as np
import seaborn as sns

from tabpfn import TabPFNClassifier, TabPFNRegressor
from catboost import CatBoostClassifier             


In [2]:
## Utils functions
target_var = "target_refined"

def plot_continuos(df, var, target="target_refined", outliers=False):
    df.boxplot(column=var, by=target, showfliers=outliers)
    plt.show()

def plot_categorical(df, var, target="target_refined"):
    porc_1 = df[target].mean()
    df.groupby(var)[target].mean().plot.bar()
    plt.axhline(y=porc_1, color='r', linestyle='--')
    plt.show()

def compute_metrics(y, y_pred, y_prob, print_=True):
    metrics = {
        "accuracy": accuracy_score(y, y_pred),
        "precision": precision_score(y, y_pred),
        "recall": recall_score(y, y_pred),
        "f1_score": f1_score(y, y_pred),
        "log_loss": log_loss(y, y_prob),
        "average_precision_score": average_precision_score(y, y_prob),
        "roc_auc": roc_auc_score(y, y_prob),
    }

    if print_:
        for metric, value in metrics.items():
            print(f"{metric}: {value}")
    
    return metrics

# WARNING Define version of data below

In [3]:
# define la version del dataset
version = "6"

# Loading Data From BBDD (1m)

In [4]:
columns_selected = [
    "cuenta_imp_disponible_tarjeta",
    "cuenta_imp_deuda_vencida",
    "cuenta_hist_media_dias_impago_last_3m",
    "cuenta_hist_max_dias_impago",
    "cuenta_dias_desde_primer_impago",
    "cuenta_dias_desde_regularizacion",
    "cuenta_dias_desde_ultimo_ingreso",
    "cuenta_hist_media_num_ciclo_impago",
    "cuenta_hist_media_dias_impago",
    "cuenta_cod_motivo_dev_ult_recibo",
    "cuenta_dias_desde_primer_vencimiento_cuota",
    "cuenta_num_lgd",
    "accion_numero_no_contesta",
    "accion_numero_no_contesta_3m",
    "cuenta_num_pd",
    "movimiento_suma_total",
    "movimiento_suma_cobro_al_contado_de_un_recibo",
    "cuenta_imp_cap_prin_impagado",
    "cuenta_hist_max_num_ciclo_impago",
    # extras
    "id_cuenta",
    "target_refined",
    "cuenta_fecha_de_entrada_en_bbdd",
    "id_fecha",
    "recuperados",
    "total_historial",
    # intervinientes
    "interviniente_imp_ingresos_anuales_sum",
    "interviniente_antiguedad_max",
    "interviniente_edad_min",
    "interviniente_edad_max",
    "interviniente_num_titulares",
    "interviniente_num_barcelona",
    "interviniente_num_madrid",
    "interviniente_num_valencia",
    "interviniente_num_sevilla",
    "interviniente_num_malaga",
    "interviniente_num_alicante",
    "interviniente_num_laspalmas",
    "interviniente_num_cadiz",
    "interviniente_num_tenerife",
    "interviniente_num_murcia",
    "interviniente_num_cod_pais_espanol",
    "interviniente_num_separado_divorciado",
    "interviniente_num_soltero",
    "interviniente_num_casado",
    "interviniente_num_viudo",
    "interviniente_num_pareja_de_hecho",
    # cuentas
    "cuenta_dias_desde_alta",
    "cuenta_imp_limite_tarjeta",
    "cuenta_imp_deuda_pendiente",
    "cuenta_num_cant_cuotas_liquidadas",
    "cuenta_num_cant_cuotas_prestamos",
    "cuenta_des_clase_con_host",
    "cuenta_cod_procedencia_detail",
    "cuenta_imp_dem_impagada",
    "cuenta_des_zona_comercial",
    "cuenta_cod_stage_ifrs9_detailed",
    "cuenta_hist_max_dias_impago_last_3m",
    "cuenta_cod_pack_seguro",
    "cuenta_cod_sector_detail",
    "cuenta_prescriptor",
    # gestion
    "gestion_numero_cod_agrupacion_01_prerecobro",
    "accion_num_pagos_en_proceso_1m",
    "accion_num_contacto_exitoso_conrespuesta_cliente_1m",
    "accion_num_contacto_exitoso_sin_compromiso_pago_1m",
    "accion_num_contacto_no_exitoso_1m",
    "accion_num_contacto_exitoso_conrespuesta_cliente",
    "accion_num_contacto_exitoso_sin_compromiso_pago",
    "accion_num_contacto_no_exitoso",
    "accion_num_pagos_en_proceso",
    "accion_fecha_ultimo_contacto",
    # dratio
    "population", "other_income_ratio", "invalido", "pensions_ratio", "gini", "podemos", "psoe", "turnout", "otro", "other_benefit_ratio", "centro", "average_gross_income_household", 
]

continuos_vars = [
    "cuenta_imp_disponible_tarjeta",
    "cuenta_hist_max_dias_impago",
    "cuenta_dias_desde_primer_impago",
    "cuenta_dias_desde_regularizacion",
    "cuenta_dias_desde_ultimo_ingreso",
    "cuenta_hist_media_num_ciclo_impago",
    "cuenta_hist_media_dias_impago",
    "cuenta_dias_desde_primer_vencimiento_cuota",
    "cuenta_num_lgd",
    "accion_numero_no_contesta",
    "accion_numero_no_contesta_3m",
    "cuenta_num_pd",
    "movimiento_suma_total",
    "movimiento_suma_cobro_al_contado_de_un_recibo",
    "cuenta_imp_cap_prin_impagado",
    "cuenta_imp_deuda_vencida",
    "cuenta_hist_max_num_ciclo_impago",
    "dias_historico",
    # intervinientes
    "interviniente_imp_ingresos_anuales_sum",
    "interviniente_edad_min",
    "interviniente_antiguedad_max",
    # dratio
    "population", "invalido", "pensions_ratio", "gini", "podemos", "psoe", "turnout", "otro", "other_benefit_ratio", "centro", "average_gross_income_household"
]

categorical_vars = [
    "cuenta_cod_motivo_dev_ult_recibo",
    "cuenta_des_clase_con_host"
]


In [5]:
query = f"""
SELECT *
FROM MENHIR_TRAIN_WITH_TARGET_{version}
"""

res = pd.DataFrame(__execute_query(query).all())
res["target_refined"] = res["target_refined"].apply(lambda x: x if x == 1 else 0)

In [6]:
query = f"""
SELECT *
FROM MENHIR_RECUPERACIONES_PASADAS_TODAS_{version}
"""

impagos_pasados = pd.DataFrame(__execute_query(query).all())
impagos_pasados = impagos_pasados[impagos_pasados["fecha_impago_bbdd"] > pd.to_datetime('20231001', format='%Y%m%d')]
impagos_pasados["id_fecha_date"] = pd.to_datetime(impagos_pasados["id_fecha"], format='%Y%m%d')

In [7]:
data_dratio = pd.read_parquet("../dratio/stats-postal.parquet")
data_dratio = DropCorrelatedFeatures().fit_transform(data_dratio)

res["interviniente_max_codigo_postal"] = res["interviniente_max_codigo_postal"].astype(int)

res = pd.merge(
    res,
    data_dratio,
    left_on=['interviniente_max_codigo_postal'],
    right_on=['postal_id'],
    how='left'
)

res = res.drop(columns=['interviniente_max_codigo_postal', 'postal_id'])

In [8]:
query = f"""
SELECT 
    TO_DATE(TO_CHAR(CUENTAS_BASE.DETALLE_PK_FECHAPART), 'YYYYMMDD') AS FECHA_IMPAGO_BBDD
    ,CUENTAS_BASE.COD_CUENTA
    ,CUENTAS_BASE.DIAS_IMPAGO_POST
FROM MENHIR_CUENTAS_RECUPERACIONES_{version} CUENTAS_BASE
"""

print("Downloading all past debts...")
todos_impagos = pd.DataFrame(__execute_query(query).all())
print("Obtained!")

query = f"""
SELECT *
FROM MENHIR_RECUPERACIONES_PASADAS_88_{version}
"""

print("Executing query to load unpayments 88 dias...")
impagos_pasados_88 = pd.DataFrame(__execute_query(query).all())
print("Query unpayments executed!")


query = f"""
SELECT *
FROM MENHIR_RECUPERACIONES_PASADAS_45_{version}
"""
print("Executing query to load unpayments 45 dias...")
impagos_pasados_45 = pd.DataFrame(__execute_query(query).all())
print("Query unpayments executed!")

Downloading all past debts...
Obtained!
Executing query to load unpayments 88 dias...
Query unpayments executed!
Executing query to load unpayments 45 dias...
Query unpayments executed!


In [9]:
query = f"""
SELECT *
FROM MENHIR_CUENTAS_RELACIONADAS_{version}
"""

cuentas_relacionadas = pd.DataFrame(__execute_query(query).all())
cuentas_relacionadas = cuentas_relacionadas[cuentas_relacionadas["numero_cuentas_relacionadas"] <= 10]
len(cuentas_relacionadas)

39452

# Preprocessing

In [10]:
df = res[columns_selected]

df['id_fecha_str'] = df['id_fecha'].astype(str)
df['id_fecha'] = pd.to_datetime(df['id_fecha'], format='%Y%m%d')
df["flag_entrado_antes_202310"] = ((df['cuenta_fecha_de_entrada_en_bbdd']==20231001) & (df['id_fecha_str'].astype(int) < 20231101)).astype(int)

df['cuenta_fecha_de_entrada_en_bbdd'] = pd.to_datetime(df['cuenta_fecha_de_entrada_en_bbdd'], format='%Y%m%d')

# dias historicos procesados
df['dias_historico'] = (df['id_fecha'] - df['cuenta_fecha_de_entrada_en_bbdd']).dt.days
df['dias_historico'] = df['dias_historico'].replace(0, 1)

df["dias_desde_ultimo_contacto"] = (df["id_fecha"] - df["accion_fecha_ultimo_contacto"]).dt.days

df = df.drop(columns=[
    "id_fecha",
    "cuenta_fecha_de_entrada_en_bbdd",
])

# scores
df["cuenta_num_pd"] = df["cuenta_num_pd"].str.replace(',', '.').astype(float)
df["cuenta_num_lgd"] = df["cuenta_num_lgd"].str.replace(',', '.').astype(float)

for var in continuos_vars:
    df[var] = df[var].astype(float)

df["ratio_recuperacion"] = df["recuperados"]/df["total_historial"]
df["ratio_recuperacion"] = df["ratio_recuperacion"].fillna(-1)
df["total_historial"] = df["total_historial"].fillna(-1)

# intervinientes
df["cuenta_dias_desde_regularizacion"] =  df["cuenta_dias_desde_regularizacion"].fillna(-1)
df["cuenta_dias_desde_primer_impago"] =  df["cuenta_dias_desde_primer_impago"].fillna(-1)
df["interviniente_antiguedad_max"] =  df["interviniente_antiguedad_max"].fillna(100)
    
def determinar_origen(x) -> str:
    ciudades = {
        "barcelona": x["interviniente_num_barcelona"],
        "madrid": x["interviniente_num_madrid"],
        "valencia": x["interviniente_num_valencia"],
        "sevilla": x["interviniente_num_sevilla"],
        "malaga": x["interviniente_num_malaga"],
        "alicante": x["interviniente_num_alicante"],
        "laspalmas": x["interviniente_num_laspalmas"],
        "cadiz": x["interviniente_num_cadiz"],
        "tenerife": x["interviniente_num_tenerife"],
        "murcia": x["interviniente_num_murcia"],
    }
    for ciudad, valor in ciudades.items():
        if valor >= 1:
            return ciudad
    return "missing"

df["interviniente_origen"] = df.apply(determinar_origen, axis=1)

def determinar_estado_civil(x) -> str:
    ciudades = {
        "separado_divorciado": x["interviniente_num_separado_divorciado"],
        "soltero": x["interviniente_num_soltero"],
        "casado": x["interviniente_num_casado"],
        "viudo": x["interviniente_num_viudo"],
        "pareja_de_hecho": x["interviniente_num_pareja_de_hecho"],
    }
    for ciudad, valor in ciudades.items():
        if valor >= 1:
            return ciudad
    return "missing"

df["estado_civil"] = df.apply(determinar_estado_civil, axis=1)


df = df[
    (df["interviniente_num_cod_pais_espanol"] != 573) &
    (df["interviniente_num_cod_pais_espanol"] != 572)
]

# caluculos de nuevos ratios
df["ratio_cuotas"] = df["cuenta_num_cant_cuotas_liquidadas"]/df["cuenta_num_cant_cuotas_prestamos"]
df["ratio_cuotas"] = df["ratio_cuotas"].fillna(-1)

df["ratio_limite"] = df["cuenta_imp_cap_prin_impagado"]/df["cuenta_imp_limite_tarjeta"].astype(float).replace(0, 300)
df["ratio_limite"] = df["ratio_limite"].fillna(-1)

df["movimientos_por_dias"] = df["movimiento_suma_total"]/df["dias_historico"]
df["accion_numero_no_contesta"] = df["accion_numero_no_contesta"]/df["dias_historico"]

df["cuenta_hist_max_dias_impago_last_3m"] = df["cuenta_hist_max_dias_impago_last_3m"].apply(lambda x: 0 if x <= 28 else x)

accion_tot = df[[
    "accion_num_contacto_exitoso_conrespuesta_cliente",
    "accion_num_contacto_exitoso_sin_compromiso_pago",
    "accion_num_contacto_no_exitoso",
    "accion_num_pagos_en_proceso",
]].sum(axis=1)

df["accion_num_contacto_exitoso_conrespuesta_cliente"] = df["accion_num_contacto_exitoso_conrespuesta_cliente"] / accion_tot

# mapeo codigos de procedencia
mapping = {
    "Captación Movilidad": "Captación de Clientes",
    "Captación Web CREDISTAR": "Captación de Clientes",
    "Captación Telefónica HOST": "Captación de Clientes",
    "Captación Telefónica CRM": "Captación de Clientes",
    "Financiación ONLINE": "Financiación",
    "Captación Web PRESCRIPTOR": "Captación de Clientes",
    "Servlet": "Sistemas y Herramientas",
    "Minisites": "Sistemas y Herramientas",
    "Runbrowser IKEA (Ikea Flash)": "Procesos Automatizados",
    "API de financiación": "Financiación",
    "Solics. VIP Procedentes Migración MediaMarkt": "Migración de Solicitudes",
    "Runbrowser FNAC": "Procesos Automatizados",
    "Alta Masiva": "Procesos Automatizados",
    "Web Directo": "Captación de Clientes",
    "Solics. Estándar Procedentes Migración MediaMarkt": "Migración de Solicitudes",
    "Financiación IN STORE PERSONALIZADO": "Financiación",
    "PEX / Nemuru": "Financiación",
    "Solicitudes Procedentes Migración": "Migración de Solicitudes",
    "Financiación IN STORE BÁSICO": "Financiación",
}

df["cuenta_cod_procedencia_detail"] = df["cuenta_cod_procedencia_detail"].map(mapping)

# mapeo de sectores
subcategorias = {
    "Automóviles y Transporte": [
        "AUTOMOVIL SEMINUEVO", "AUTOMOVIL NUEVO", "AUTOMOVIL OCASION",
        "MOTOCICLETAS", "MOTOS VO", "CREDITALLER", "RECAMBIOS", "BICICLETAS"
    ],
    "Tecnología y Electrónica": [
        "INFORMATICA PARTICULAR", "AUDIO VIDEO", "ELECTRODOMESTICOS"
    ],
    "Muebles y Decoración": [
        "MUEBLE ESTANDAR", "MUEBLE DECORACION", "MUEBLE", "REFORMAS", "CELEBRACIONES (TRAJES DE BODA Y FIESTA)"
    ],
    "Energía y Climatización": [
        "SECTOR GAS-CALEFACCION", "INSTALADORES AIRE ACONDICIONADO/CALEFACCIÓN",
        "GAS NATURAL SERVICIOS", "SECTOR FOTOVOLTAICO", "SAUNIER DUVAL", "VAILLANT", 
        "SECTOR ECO DIRECTO"
    ],
    "Salud y Bienestar": ["ODONTOLOGÍA", "MEDICINA", "OPTICAS"],
    "Deportes y Ocio": ["DEPORTES", "INSTRUMENTOS MUSICALES"],
    "Viajes y Turismo": ["VIAJES"],
    "Otros": ["VARIOS", "VENTA DIRECTA", "VR REFINANCIADO", "VO MAS DE 60 MESES", "CURSOS"]
}

# Invertimos el diccionario para facilitar el mapeo
mapeo = {valor: key for key, valores in subcategorias.items() for valor in valores}

# Aplicamos el mapeo al DataFrame
df["cuenta_cod_sector_detail"] = df["cuenta_cod_sector_detail"].map(mapeo)

# tratamiento impagos historicos
todos_impagos = impagos_pasados[impagos_pasados["id_fecha_date"] > impagos_pasados["fecha_impago_bbdd"]]
numero_impagos = todos_impagos.groupby(['cod_cuenta', 'id_fecha']).size().reset_index(name='total_historial_todos_impagos')
#numero_impagos = a

df = pd.merge(
    df,
    numero_impagos,
    left_on=['id_cuenta', 'id_fecha_str'],
    right_on=['cod_cuenta', 'id_fecha'],
    how='left'
)

df = df.drop(columns=['cod_cuenta', 'id_fecha'])
df['total_historial_todos_impagos'] = df['total_historial_todos_impagos'].fillna(0)
df['ratio_impagos'] = df['total_historial_todos_impagos']/np.log((df['dias_historico']/30)+1)

# RESULTADOS IMPAGOS AL DIA 45
df_tmp = pd.merge(
    df,
    impagos_pasados_45,
    left_on=['id_cuenta'],
    right_on=['cod_cuenta'],
    how='left'
)

columns_to_drop = list(df.columns)
columns_to_drop.remove("id_cuenta")
columns_to_drop.remove("id_fecha_str")

df_tmp = df_tmp.drop(columns=columns_to_drop)

df_tmp = df_tmp.dropna()
df_tmp = df_tmp[pd.to_datetime(df_tmp["id_fecha_str"], format='%Y%m%d') > (df_tmp["fecha_impago_bbdd"] - pd.to_timedelta(df_tmp["dias_impago_post"], unit='days') + pd.to_timedelta(45, unit='days'))]

df_tmp["recuperado"] = (df_tmp["futuro_45_dias_impago"] < 45).astype(int)

df_tmp = df_tmp.groupby(["id_cuenta","id_fecha_str"]).agg(
    numero_impagados_40=('recuperado', 'size'),
    numero_recuperados_40=('recuperado', 'sum')
).reset_index()

df = pd.merge(
    df,
    df_tmp,
    left_on=["id_cuenta","id_fecha_str"],
    right_on=["id_cuenta","id_fecha_str"],
    how='left'
)

print(df["numero_recuperados_40"].isna().sum())

df['ratio_impagos_45'] = df['numero_impagados_40']/np.log((df['dias_historico']/30)+1)
df['ratio_impagos_45'] = df['ratio_impagos_45'].fillna(-1)

df['ratio_recuperacion_45'] = df["numero_recuperados_40"] / df["numero_impagados_40"]
df['ratio_recuperacion_45'] = df['ratio_recuperacion_45'].fillna(-1)

df["numero_impagados_40"] = df["numero_impagados_40"].fillna(0)
df["numero_recuperados_40"] = df["numero_recuperados_40"].fillna(0)

# RESULTADOS IMPAGOS AL DIA 88
df_tmp = pd.merge(
    df,
    impagos_pasados_88,
    left_on=['id_cuenta'],
    right_on=['cod_cuenta'],
    how='left'
)

columns_to_drop = list(df.columns)
columns_to_drop.remove("id_cuenta")
columns_to_drop.remove("id_fecha_str")

df_tmp = df_tmp.drop(columns=columns_to_drop)

df_tmp = df_tmp.dropna()
df_tmp = df_tmp[pd.to_datetime(df_tmp["id_fecha_str"], format='%Y%m%d') > (df_tmp["fecha_impago_bbdd"] - pd.to_timedelta(df_tmp["dias_impago_post"], unit='days') + pd.to_timedelta(88, unit='days'))]

df_tmp["recuperado"] = (df_tmp["futuro_88_dias_impago"] < 88).astype(int)

df_tmp = df_tmp.groupby(["id_cuenta","id_fecha_str"]).agg(
    numero_impagados_88=('recuperado', 'size'),
    numero_recuperados_88=('recuperado', 'sum')
).reset_index()

df = pd.merge(
    df,
    df_tmp,
    left_on=["id_cuenta","id_fecha_str"],
    right_on=["id_cuenta","id_fecha_str"],
    how='left'
)

print(df["numero_recuperados_88"].isna().sum())

df["numero_impagados_88"] = df["numero_impagados_88"].fillna(0)
df["numero_recuperados_88"] = df["numero_recuperados_88"].fillna(0)

# NUMERO DE CUENTAS RELACIONADAS
cuentas_relacionadas["fecha"] = cuentas_relacionadas["fecha"].astype(str)
df = pd.merge(
    df,
    cuentas_relacionadas,
    left_on=['id_cuenta', 'id_fecha_str'],
    right_on=['cuenta_padre', 'fecha'],
    how='left'
)
df["suma_deudas_vencidas"] = df["suma_deudas_vencidas"].astype(float)
df["proporcion_deuda_sobre_deuda_relacionadas"] = df["cuenta_imp_deuda_vencida"] / (df["suma_deudas_vencidas"] + df["cuenta_imp_deuda_vencida"])
df["dias_impago_avg"] = df["dias_impago_avg"].astype(float)

#fillnan
df['numero_cuentas_relacionadas'] = df['numero_cuentas_relacionadas'].fillna(0)
df['numero_cuentas_impagadas'] = df['numero_cuentas_impagadas'].fillna(0)
df['dias_impago_avg'] = df['dias_impago_avg'].fillna(-1)
df['suma_deudas_vencidas'] = df['suma_deudas_vencidas'].fillna(0)
df['proporcion_deuda_sobre_deuda_relacionadas'] = df['proporcion_deuda_sobre_deuda_relacionadas'].fillna(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['id_fecha_str'] = df['id_fecha'].astype(str)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['id_fecha'] = pd.to_datetime(df['id_fecha'], format='%Y%m%d')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["flag_entrado_antes_202310"] = ((df['cuenta_fecha_de_entrada_en_bbdd']==20231001) & (df['

78744
87145


In [11]:
print(df.head())

   cuenta_imp_disponible_tarjeta  cuenta_imp_deuda_vencida  \
0                           0.00                    319.86   
1                         -81.78                    116.87   
2                         143.89                    468.19   
3                         171.70                     35.34   
4                           0.00                    385.07   

       cuenta_hist_media_dias_impago_last_3m  cuenta_hist_max_dias_impago  \
0                                        3.9                         28.0   
1   4.34444444444444444444444444444444444444                         28.0   
2                                        4.5                         28.0   
3                                        4.8                         70.0   
4  33.92307692307692307692307692307692307692                         51.0   

   cuenta_dias_desde_primer_impago  cuenta_dias_desde_regularizacion  \
0                            677.0                             670.0   
1                   

# Split train-test

In [12]:
# Convert continuous variables to float
def convert_to_float(data, variables):
    for var in variables:
        data[var] = data[var].astype(float)
    return data

# Split data into training and testing sets
def split_data(data, id_column, split_ratio=0.8, random_seed=42):
    unique_ids = data[id_column].unique().tolist()
    random.seed(random_seed)
    random.shuffle(unique_ids)

    split_point = int(split_ratio * len(unique_ids))
    train_ids = unique_ids[:split_point]
    test_ids = unique_ids[split_point:]

    train_data = data[data[id_column].isin(train_ids)].drop(columns=[id_column])
    test_data = data[data[id_column].isin(test_ids)].drop(columns=[id_column])

    return train_data, test_data

# Main process
df = convert_to_float(df, continuos_vars)

# Split data
train_data, test_data = split_data(df, id_column="id_cuenta")

# Print summary
print("Training set size:", len(train_data))
print("Testing set size:", len(test_data))
print("Training set percentage:", round(len(train_data) / (len(train_data) + len(test_data)) * 100, 2), "%")

target_col = "target_refined"

# Separate features and target
X_train = train_data.drop(columns=[target_col])
X_test = test_data.drop(columns=[target_col])

y_train = train_data[[target_col]]
y_test = test_data[[target_col]]

# Create backups of feature sets
X_train_backup = X_train.copy()
X_test_backup = X_test.copy()

imp_deuda_test = X_test["cuenta_imp_deuda_vencida"]
imp_deuda_train = X_train["cuenta_imp_deuda_vencida"]

X_test = X_test.drop(columns=["cuenta_imp_deuda_vencida"])
X_train = X_train.drop(columns=["cuenta_imp_deuda_vencida"])

X_test = X_test.sample(frac=1, random_state=42)
X_train = X_train.sample(frac=1, random_state=42)

y_train = y_train.loc[X_train.index]
y_test = y_test.loc[X_test.index]

Training set size: 95902
Testing set size: 23920
Training set percentage: 80.04 %


In [13]:
len(res.columns)

361

from xgboost import XGBClassifier
# Train and evaluate

In [14]:
from xgboost import XGBClassifier


In [15]:
X_train=X_train.apply(pd.to_numeric, errors='coerce')
X_test=X_test.apply(pd.to_numeric, errors='coerce')


In [16]:
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

continuos_vars_ = continuos_vars + [
    "ratio_recuperacion",
    "interviniente_num_cod_pais_espanol",
    "cuenta_dias_desde_alta",
    "ratio_cuotas",
    "ratio_limite",
    "cuenta_imp_dem_impagada",
    "gestion_numero_cod_agrupacion_01_prerecobro",
    "cuenta_hist_max_dias_impago_last_3m",
    "movimientos_por_dias",
    "cuenta_hist_media_dias_impago_last_3m",
    "accion_num_pagos_en_proceso_1m",
    "accion_num_contacto_exitoso_conrespuesta_cliente_1m",
    "accion_num_contacto_exitoso_sin_compromiso_pago_1m",
    "accion_num_contacto_no_exitoso_1m",
    "accion_num_contacto_exitoso_conrespuesta_cliente",
    "ratio_impagos",
    "total_historial_todos_impagos",
    "numero_impagados_40",
    "numero_recuperados_40",
    "ratio_recuperacion_45",
    "numero_impagados_88",
    "numero_recuperados_88",
    "dias_desde_ultimo_contacto",
    "suma_deudas_vencidas",
    "proporcion_deuda_sobre_deuda_relacionadas",
    "dias_impago_avg",
    "numero_cuentas_impagadas"
]

continuos_vars_.remove('cuenta_imp_deuda_vencida')

categorical_vars_ = categorical_vars + [
    "interviniente_origen",
    "cuenta_cod_procedencia_detail",
    "cuenta_cod_stage_ifrs9_detailed",
    "cuenta_cod_sector_detail",
    "cuenta_prescriptor",
    "estado_civil"
]

categorical_pipeline = Pipeline(steps=[
    ('imputer', CategoricalImputer()),
    ('rare', RareLabelEncoder(tol=0.02)),
    ('mean_encoder', MeanEncoder(variables=["cuenta_cod_procedencia_detail", "estado_civil"])),
    ('ohe', OneHotEncoder(variables=categorical_vars + ["interviniente_origen", "cuenta_cod_stage_ifrs9_detailed", "cuenta_cod_sector_detail", "cuenta_prescriptor"])),
    ("remove constants", DropConstantFeatures(tol=0.95)),
    ('drop correlated_features', DropCorrelatedFeatures(threshold= 0.85)),
])

numerical_pipeline = Pipeline(steps=[
    ('misisng_indicator_num', AddMissingIndicator()),
    ('imputer_num', MeanMedianImputer()),
    #('yeho', YeoJohnsonTransformer()),
    #('outliers', Winsorizer(missing_values='ignore')),
    ("remove constants", DropConstantFeatures(tol=0.95)),
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_pipeline, continuos_vars_),
        #('cat', categorical_pipeline, categorical_vars_)
    ],
    verbose_feature_names_out=False
)
preprocessor.set_output(transform='pandas')

standard_scaler = StandardScaler()
standard_scaler = standard_scaler.set_output(transform='pandas')


pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    #('yeho', YeoJohnsonTransformer()),
    #('outliers', Winsorizer(missing_values='ignore')),
    #('standard', StandardScaler().set_output(transform='pandas')),
    #('model', MLPClassifier(hidden_layer_sizes=(16, 8), max_iter=1000, random_state=42, verbose=True, learning_rate='adaptive', learning_rate_init=0.001, early_stopping=True))
    #('model', GradientBoostingClassifier(random_state=42, **{'max_depth': 3, 'max_features': 'sqrt', 'min_samples_leaf': 3, 'n_estimators': 1000}))
    #('model', HistGradientBoostingClassifier(random_state=42))
    #('model', HistGradientBoostingClassifier(random_state=0, max_iter=2000, learning_rate=0.08, verbose=0, early_stopping=True))
    ('model', CatBoostClassifier(iterations=1000, learning_rate=0.05, depth=6, verbose=200, random_seed=42))


])

print("empezo entrenamiento")
pipeline.fit(X_train, y_train.squeeze())

empezo entrenamiento
0:	learn: 0.6888897	total: 195ms	remaining: 3m 14s
200:	learn: 0.6067987	total: 10.6s	remaining: 42.1s
400:	learn: 0.5910237	total: 20.6s	remaining: 30.7s
600:	learn: 0.5787754	total: 29.8s	remaining: 19.8s
800:	learn: 0.5683280	total: 38.8s	remaining: 9.63s
999:	learn: 0.5587652	total: 47.6s	remaining: 0us


In [17]:
print("computo metricas")
y_train_prob = pipeline.predict_proba(X_train)[:, 1]
y_train_pred = (y_train_prob > np.median(y_train_prob)).astype(int)

y_test_prob = pipeline.predict_proba(X_test)[:, 1]
y_test_pred = (y_test_prob > np.median(y_test_prob)).astype(int)

print("------ train -------")
compute_metrics(y_train, y_train_pred, y_train_prob)

print("\n----- test ------")
compute_metrics(y_test, y_test_pred, y_test_prob)

computo metricas
------ train -------
accuracy: 0.6941461074847239
precision: 0.7933932556151071
recall: 0.6619916824722895
f1_score: 0.7217605767406564
log_loss: 0.5587851466069378
average_precision_score: 0.8330135455416258
roc_auc: 0.7794773632073453

----- test ------
accuracy: 0.6456521739130435
precision: 0.734866220735786
recall: 0.6235986944799206
f1_score: 0.6746756736009826
log_loss: 0.60273079607233
average_precision_score: 0.7769785976189936
roc_auc: 0.7157807883568299


{'accuracy': 0.6456521739130435,
 'precision': 0.734866220735786,
 'recall': 0.6235986944799206,
 'f1_score': 0.6746756736009826,
 'log_loss': 0.60273079607233,
 'average_precision_score': 0.7769785976189936,
 'roc_auc': 0.7157807883568299}

# Agrupación por umbrales (muy buenos y muy malos)

## Agrupación por umbrales (muy buenos y muy malos) y deudas

In [32]:
import numpy as np
import matplotlib.pyplot as plt

def encontrar_grupos_optimos(y_prob, y_true, min_pago_buenos=0.75, max_pago_malos=0.20):
    """
    Encuentra los umbrales óptimos para segmentar usuarios donde:
    - Grupo muy_buenos: Al menos min_pago_buenos (ej: 75%) de usuarios pagan
    - Grupo muy_malos: Como máximo max_pago_malos (ej: 20%) de usuarios pagan
    
    Args:
        y_prob: Array de probabilidades predichas
        y_true: Array de valores reales (1 para pago, 0 para impago)
        min_pago_buenos: Mínimo porcentaje de pagadores en grupo muy_buenos (default 0.75)
        max_pago_malos: Máximo porcentaje de pagadores en grupo muy_malos (default 0.20)
    """
    resultados = {}
    
    # Buscar umbral para usuarios muy buenos (comenzando desde arriba)
    umbrales_buenos = np.linspace(0.99, 0.5, 100)
    mejor_umbral_buenos = None
    mejor_tasa_pago_buenos = 0
    mejor_tamano_buenos = 0
    
    for umbral in umbrales_buenos:
        mascara = y_prob >= umbral
        if sum(mascara) < 100:  # Asegurar un tamaño mínimo de grupo
            continue
            
        tasa_pago = np.mean(y_true[mascara])
        if tasa_pago >= min_pago_buenos and sum(mascara) > mejor_tamano_buenos:
            mejor_umbral_buenos = umbral
            mejor_tasa_pago_buenos = tasa_pago
            mejor_tamano_buenos = sum(mascara)
    
    # Buscar umbral para usuarios muy malos (comenzando desde abajo)
    umbrales_malos = np.linspace(0.01, 0.5, 100)
    mejor_umbral_malos = None
    mejor_tasa_pago_malos = 1
    mejor_tamano_malos = 0
    
    for umbral in umbrales_malos:
        mascara = y_prob <= umbral
        if sum(mascara) < 100:  # Asegurar un tamaño mínimo de grupo
            continue
            
        tasa_pago = np.mean(y_true[mascara])
        if tasa_pago <= max_pago_malos and sum(mascara) > mejor_tamano_malos:
            mejor_umbral_malos = umbral
            mejor_tasa_pago_malos = tasa_pago
            mejor_tamano_malos = sum(mascara)
    
    umbrales_intermedios = np.linspace(mejor_umbral_malos, mejor_umbral_buenos, 50)
    mejor_umbral_medio_alto = None
    mejor_umbral_medio_bajo = None

    for umbral in umbrales_intermedios:
        mascara_medio_alto = (y_prob >= umbral) & (y_prob < mejor_umbral_buenos)
        mascara_medio_bajo = (y_prob > mejor_umbral_malos) & (y_prob < umbral)

        if sum(mascara_medio_alto) > 100 and np.mean(y_true[mascara_medio_alto]) >= 0.65:
            mejor_umbral_medio_alto = umbral
            break

    for umbral in reversed(umbrales_intermedios):
        mascara_medio_bajo = (y_prob > mejor_umbral_malos) & (y_prob < umbral)
        if sum(mascara_medio_bajo) > 100 and np.mean(y_true[mascara_medio_bajo]) <= 0.35:
            mejor_umbral_medio_bajo = umbral
            break

    # Si no se encontraron valores óptimos, usar una división de fallback
    if mejor_umbral_medio_alto is None:
        mejor_umbral_medio_alto = (mejor_umbral_buenos + mejor_umbral_malos) * 0.7
    if mejor_umbral_medio_bajo is None:
        mejor_umbral_medio_bajo = (mejor_umbral_buenos + mejor_umbral_malos) * 0.3


    # Asignar grupos y calcular métricas finales
    grupos = np.full(len(y_prob), 'intermedio', dtype=object)
    grupos[y_prob >= mejor_umbral_buenos] = 'muy_bueno'
    grupos[y_prob <= mejor_umbral_malos] = 'muy_malo'
    grupos[(y_prob >= mejor_umbral_medio_alto) & (y_prob < mejor_umbral_buenos)] = 'medio-alto'
    grupos[(y_prob > mejor_umbral_malos) & (y_prob < mejor_umbral_medio_bajo)] = 'medio-bajo'

    metricas = {
        'muy_buenos': {
            'umbral': mejor_umbral_buenos,
            'tamaño_grupo': 0,
            'num_pagadores': 0,
            'num_impagos': 0,
            'tasa_pago': 0,
            'tasa_impago': 0
        },
        'muy_malos': {
            'umbral': mejor_umbral_malos,
            'tamaño_grupo': 0,
            'num_pagadores': 0,
            'num_impagos': 0,
            'tasa_pago': 0,
            'tasa_impago': 0
        },
        'medio-alto': {
            'umbral': mejor_umbral_medio_alto, 
            'tamaño_grupo': 0, 
            'num_pagadores': 0, 
            'num_impagos': 0, 
            'tasa_pago': 0, 
            'tasa_impago': 0
        },
        'intermedio': {
            'umbral': 0, 
            'tamaño_grupo': 0, 
            'num_pagadores': 0, 
            'num_impagos': 0, 
            'tasa_pago': 0, 
            'tasa_impago': 0
        },
        'medio-bajo': {
            'umbral': mejor_umbral_medio_bajo, 
            'tamaño_grupo': 0, 
            'num_pagadores': 0, 
            'num_impagos': 0, 
            'tasa_pago': 0, 
            'tasa_impago': 0
        },

        'total_usuarios': len(y_prob)
    }
    

    # Clasificar usuarios en cada grupo
    # **Actualizar métricas de cada grupo**
    for grupo, mascara in zip(['muy_buenos', 'muy_malos', 'medio-alto', 'medio-bajo','intermedio'],
                              [y_prob >= mejor_umbral_buenos, 
                               y_prob <= mejor_umbral_malos, 
                               (y_prob >= mejor_umbral_medio_alto) & (y_prob < mejor_umbral_buenos), 
                               (y_prob > mejor_umbral_malos) & (y_prob < mejor_umbral_medio_bajo),
                               grupos == 'intermedio']  # Los restantes
                             ):
        
        metricas[grupo]['tamaño_grupo'] = sum(mascara)
        metricas[grupo]['num_pagadores'] = sum(y_true[mascara])
        metricas[grupo]['num_impagos'] = sum(mascara) - sum(y_true[mascara])
        metricas[grupo]['tasa_pago'] = np.mean(y_true[mascara]) if sum(mascara) > 0 else 0
        metricas[grupo]['tasa_impago'] = 1 - metricas[grupo]['tasa_pago']

    return grupos, metricas



def analizar_productos_por_grupo(df, grupos):
    """
    Analiza la distribución de tipos de productos (cuenta_des_clase_con_host) en cada grupo.
    """
    df['grupo'] = grupos
    
    resultados = []
    
    for grupo in ['muy_bueno', 'medio-alto','intermedio', 'medio-bajo', 'muy_malo']:
        subset = df[df['grupo'] == grupo]
        total_usuarios = len(subset)
        
        if total_usuarios == 0:
            continue
        
        # Contar la frecuencia de cada tipo de producto
        productos_contados = subset['cuenta_des_clase_con_host'].value_counts()
        productos_porcentaje = productos_contados / total_usuarios * 100
        
        for producto, cantidad in productos_contados.items():
            resultados.append({
                'grupo': grupo,
                'producto': producto,
                'cantidad': cantidad,
                'porcentaje': productos_porcentaje[producto]
            })
    
    return pd.DataFrame(resultados)

def imprimir_resultados(metricas, productos_df):
    """
    Imprime la segmentación de usuarios y la distribución de productos por grupo.
    """
    print("\n=== RESULTADOS DE LA SEGMENTACIÓN ===")
    print(f"Total de usuarios: {metricas['total_usuarios']}")

    for grupo in ['muy_buenos', 'medio-alto',  'intermedio','medio-bajo','muy_malos']:
        if metricas[grupo]['tamaño_grupo'] > 0:
            print(f"\n--- GRUPO {grupo.upper()} ---")
            print(f"Tamaño del grupo: {metricas[grupo]['tamaño_grupo']} usuarios " +
                  f"({metricas[grupo]['tamaño_grupo']/metricas['total_usuarios']*100:.1f}% del total)")
            print(f"Usuarios que pagan: {metricas[grupo]['num_pagadores']} " +
                  f"({metricas[grupo]['tasa_pago']*100:.1f}%)")
            print(f"Usuarios que no pagan: {metricas[grupo]['num_impagos']} " +
                  f"({metricas[grupo]['tasa_impago']*100:.1f}%)")
            print(f"Umbral de probabilidad: {metricas[grupo]['umbral']:.3f}")

    print("\n=== DISTRIBUCIÓN DE PRODUCTOS POR GRUPO ===")
    for grupo in productos_df['grupo'].unique():
        print(f"\n--- {grupo.upper()} ---")
        subset = productos_df[productos_df['grupo'] == grupo]
        for _, row in subset.iterrows():
            print(f"{row['producto']}: {row['cantidad']} usuarios ({row['porcentaje']:.1f}%)")


# Ejemplo de uso
grupos, metricas = encontrar_grupos_optimos(
    y_train_prob, 
    y_train[target_col].values,
    min_pago_buenos=0.85,  # Al menos 75% de usuarios pagan en grupo muy_buenos
    max_pago_malos=0.15    # Máximo 20% de usuarios pagan en grupo muy_malos
)

# Analizar productos en cada grupo
productos_por_grupo = analizar_productos_por_grupo(train_data, grupos)

# Imprimir resultados de productos
imprimir_resultados(metricas, productos_por_grupo)


=== RESULTADOS DE LA SEGMENTACIÓN ===
Total de usuarios: 95902

--- GRUPO MUY_BUENOS ---
Tamaño del grupo: 31419 usuarios (32.8% del total)
Usuarios que pagan: 26740 (85.1%)
Usuarios que no pagan: 4679 (14.9%)
Umbral de probabilidad: 0.688

--- GRUPO MEDIO-ALTO ---
Tamaño del grupo: 26329 usuarios (27.5% del total)
Usuarios que pagan: 17185 (65.3%)
Usuarios que no pagan: 9144 (34.7%)
Umbral de probabilidad: 0.568

--- GRUPO INTERMEDIO ---
Tamaño del grupo: 16066 usuarios (16.8% del total)
Usuarios que pagan: 7817 (48.7%)
Usuarios que no pagan: 8249 (51.3%)
Umbral de probabilidad: 0.000

--- GRUPO MEDIO-BAJO ---
Tamaño del grupo: 12405 usuarios (12.9% del total)
Usuarios que pagan: 4284 (34.5%)
Usuarios que no pagan: 8121 (65.5%)
Umbral de probabilidad: 0.475

--- GRUPO MUY_MALOS ---
Tamaño del grupo: 9683 usuarios (10.1% del total)
Usuarios que pagan: 1443 (14.9%)
Usuarios que no pagan: 8240 (85.1%)
Umbral de probabilidad: 0.361

=== DISTRIBUCIÓN DE PRODUCTOS POR GRUPO ===

--- MUY_BU

In [33]:
def calcular_metricas_deuda(df, grupos):
    """
    Calcula métricas de deuda y recuperación para cada grupo después de la segmentación,
    asegurando que los usuarios sin grupo definido no se incluyan en los cálculos.
    """
    df['grupo'] = grupos

    # Identificar usuarios sin grupo asignado y excluirlos de los cálculos
    df_filtrado = df[df['grupo'].isin(['muy_bueno', 'medio-alto', 'intermedio','medio-bajo', 'muy_malo'])]

    resultados = []

    for grupo in ['muy_bueno', 'medio-alto', 'intermedio', 'medio-bajo', 'muy_malo']:
        subset = df_filtrado[df_filtrado['grupo'] == grupo]
        total_usuarios = len(subset)

        if total_usuarios == 0:
            continue

        # Cálculo de deuda
        deuda_total = subset['cuenta_imp_deuda_vencida'].sum()
        deuda_media = subset['cuenta_imp_deuda_vencida'].mean()
        deuda_relativa = deuda_total / df_filtrado['cuenta_imp_deuda_vencida'].sum()

        # Cálculo de recuperación
        monto_recuperado_total = subset["numero_recuperados_40"].sum() + subset["numero_recuperados_88"].sum()
        monto_impagado_total = subset["numero_impagados_40"].sum() + subset["numero_impagados_88"].sum()

        tasa_recuperacion = monto_recuperado_total / monto_impagado_total if monto_impagado_total > 0 else 0
        porcentaje_deuda_recuperada = monto_recuperado_total / deuda_total if deuda_total > 0 else 0

        resultados.append({
            'grupo': grupo,
            'total_usuarios': total_usuarios,
            'porcentaje_total_usuarios': total_usuarios / len(df_filtrado),
            'deuda_total': deuda_total,
            'deuda_media': deuda_media,
            'deuda_relativa': deuda_relativa,
            'monto_recuperado_total': monto_recuperado_total,
            'tasa_recuperacion': tasa_recuperacion,
            'porcentaje_deuda_recuperada': porcentaje_deuda_recuperada
        })

    return pd.DataFrame(resultados)


# Ejecutar la función de métricas de deuda con la corrección
metricas_deuda = calcular_metricas_deuda(train_data, grupos)

# Mostrar resultados de forma clara
print("\n=== MÉTRICAS DE DEUDA POR GRUPO ===")
for _, row in metricas_deuda.iterrows():
    print(f"\n--- {row['grupo'].upper()} ---")
    print(f"Total de usuarios: {row['total_usuarios']} ({row['porcentaje_total_usuarios']*100:.1f}%)")
    print(f"Deuda total: {row['deuda_total']:.2f}")
    print(f"Deuda media por usuario: {row['deuda_media']:.2f}")
    print(f"Deuda relativa: {row['deuda_relativa']*100:.1f}%")



=== MÉTRICAS DE DEUDA POR GRUPO ===

--- MUY_BUENO ---
Total de usuarios: 31419 (32.8%)
Deuda total: 3923377.32
Deuda media por usuario: 124.87
Deuda relativa: 32.8%

--- MEDIO-ALTO ---
Total de usuarios: 26329 (27.5%)
Deuda total: 3252267.90
Deuda media por usuario: 123.52
Deuda relativa: 27.2%

--- INTERMEDIO ---
Total de usuarios: 16066 (16.8%)
Deuda total: 2050464.39
Deuda media por usuario: 127.63
Deuda relativa: 17.1%

--- MEDIO-BAJO ---
Total de usuarios: 12405 (12.9%)
Deuda total: 1533576.63
Deuda media por usuario: 123.63
Deuda relativa: 12.8%

--- MUY_MALO ---
Total de usuarios: 9683 (10.1%)
Deuda total: 1215646.87
Deuda media por usuario: 125.54
Deuda relativa: 10.2%


## Analisis historico- no historico

In [None]:
X_test_historico =  X_test[X_test["total_historial_todos_impagos"]>0]
X_test_sin_historico =  X_test[X_test["total_historial_todos_impagos"]==0]

X_train_historico =  X_train[X_train["total_historial_todos_impagos"]>0]
X_train_sin_historico =  X_train[X_train["total_historial_todos_impagos"]==0]

y_test_historico = y_test.loc[X_test_historico.index]
y_test_sin_historico = y_test.loc[X_test_sin_historico.index]
y_train_historico = y_train.loc[X_train_historico.index]
y_train_sin_historico = y_train.loc[X_train_sin_historico.index]

#pipeline.fit(X_train_historico, y_train_historico)
print("Metricas con historico")
y_train_pred = pipeline.predict(X_train_historico)
y_train_prob = pipeline.predict_proba(X_train_historico)[:, 1]

y_test_pred = pipeline.predict(X_test_historico)
y_test_prob = pipeline.predict_proba(X_test_historico)[:, 1]

print("------ train -------")
compute_metrics(y_train_historico, y_train_pred, y_train_prob)

print("\n----- test ------")
compute_metrics(y_test_historico, y_test_pred, y_test_prob)

print("\nMetricas con sin_historico")
y_train_pred = pipeline.predict(X_train_sin_historico)
y_train_prob = pipeline.predict_proba(X_train_sin_historico)[:, 1]

y_test_pred = pipeline.predict(X_test_sin_historico)
y_test_prob = pipeline.predict_proba(X_test_sin_historico)[:, 1]

print("------ train -------")
compute_metrics(y_train_sin_historico, y_train_pred, y_train_prob)

print("\n----- test ------")
compute_metrics(y_test_sin_historico, y_test_pred, y_test_prob)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Crear el DataFrame y preparar los datos
test = y_test.copy()
test["res"] = y_test_prob

# Separar los datos según el valor de "target_refined"
group_0 = test[test["target_refined"] == 0]["res"]
group_1 = test[test["target_refined"] == 1]["res"]

# Crear el histograma acumulativo para cada grupo
bins = np.linspace(0, 1, 50)  # Ajusta el rango de bins según lo necesites

plt.hist(group_0, bins=bins, cumulative=True, density=True, histtype='step', label="target_refined = 0", alpha=0.7)
plt.hist(group_1, bins=bins, cumulative=True, density=True, histtype='step', label="target_refined = 1", alpha=0.7)

# Personalizar el gráfico
plt.xlabel("res")
plt.ylabel("Percent")
plt.legend(title="Target Refined", loc='upper left')
plt.grid()
plt.show()


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Crear el DataFrame y preparar los datos
test = y_test.copy()
test["res"] = y_test_prob

# Separar los datos según el valor de "target_refined"
group_0 = test[test["target_refined"] == 0]["res"]
group_1 = test[test["target_refined"] == 1]["res"]

# Crear el histograma acumulativo para cada grupo
bins = np.linspace(0, 1, 100)  # Ajusta el rango de bins según lo necesites

plt.hist(group_0, bins=bins, cumulative=False, density=True, histtype='step', label="target_refined = 0")
plt.hist(group_1, bins=bins, cumulative=False, density=True, histtype='step', label="target_refined = 1")

# Personalizar el gráfico
plt.xlabel("res")
plt.ylabel("Percent")
plt.legend(title="Target Refined", loc='upper left')
plt.grid()
plt.show()


In [None]:
import pandas as pd

# Crear los datos de ejemplo
test = y_test.copy()
test["res"] = y_test_prob
test = test.join(imp_deuda_test)

# Definir los thresholds
threshold_low = 0.4
threshold_high = 0.75

# Crear los tres conjuntos
low_set = test[test["res"] <= threshold_low]
middle_set = test[(test["res"] > threshold_low) & (test["res"] <= threshold_high)]
high_set = test[test["res"] > threshold_high]

# Función para calcular las estadísticas
def calculate_stats(data, total_records, total_money):
    data1 = data[data["target_refined"] == 1]
    data0 = data[data["target_refined"] == 0]

    total_money_data = data["cuenta_imp_deuda_vencida"].sum()
    recover_money = data1["cuenta_imp_deuda_vencida"].sum()

    count_1 = len(data1)  # Registros con target_refined == 1
    count_0 = len(data0)  # Registros con target_refined == 0
    percentage_total = len(data) / total_records * 100  # Porcentaje sobre el total
    return {
        "%1": round(count_1 / len(data) * 100, 2) if len(data) > 0 else 0,
        "%0": round(count_0 / len(data) * 100, 2) if len(data) > 0 else 0,
        "%total": round(percentage_total, 2),
        "#snapshot": len(data),
        "%money_recover": round(recover_money/total_money_data, 2)
    }

# Calcular las estadísticas para cada conjunto
total_records = len(test)
total_money = test["cuenta_imp_deuda_vencida"].sum()
low_stats = calculate_stats(low_set, total_records, total_money)
middle_stats = calculate_stats(middle_set, total_records, total_money)
high_stats = calculate_stats(high_set, total_records, total_money)

# Mostrar resultados
print("Low Set (res <= 0.4):", low_stats)
print("Middle Set (0.4 < res <= 0.75):", middle_stats)
print("High Set (res > 0.75):", high_stats)


In [None]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
import seaborn as sns
import matplotlib.pyplot as plt

# Simular datos X_train y y_train para el ejemplo
np.random.seed(42)

# Aplicar PCA para reducir las dimensiones a 2 componentes
pca = PCA(n_components=3)
X_pca= preprocessor.fit_transform(X_train, y_train.squeeze())

X_pca= StandardScaler().fit_transform(X_pca)
X_pca = pca.fit_transform(X_pca)

# Crear un DataFrame para facilitar el manejo de los datos
data = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2', 'PCA3'])
data['Target'] = y_train.squeeze()
data = data.sample(n=100)
# Mapear colores según el target
palette = {0: 'blue', 1: 'orange'}

# Graficar con seaborn
sns.set(style='whitegrid')
plt.figure(figsize=(8, 6))
sns.scatterplot(data=data, x='PCA1', y='PCA2', hue='Target', style='Target', palette=palette, s=20)
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.legend(title='Target')
plt.show()


# Analisis clustering

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

#X_train_ = pipeline[:-1].transform(X_train)
X_test_ = pipeline[:-1].transform(X_test)



for col in X_test_.columns:
    X_test_[col] = X_test_[col].astype(float)


# Create a pipeline with StandardScaler and KMeans
cluster = Pipeline([
    ('scaler', StandardScaler()),  # Scaling the data
    ('kmeans', KMeans(n_clusters=3, random_state=42))  # KMeans clustering
])

# Fit the pipeline
cluster.fit(X_test_)

# Predict cluster labels
cluster_labels = cluster.predict(X_test_)

X_test_["cluster"] = cluster_labels



In [None]:
clusters = {}

for label in set(cluster_labels):
    tmp = X_test_[X_test_["cluster"]==label]
    segment = tmp.drop(columns=["cluster"])
    clusters[label] = segment

    print(f"# {len(segment)} for segment {label}")
    y_test_pred = pipeline[-1].predict(segment)
    y_test_prob = pipeline[-1].predict_proba(segment)[:, 1]
    y_test_segment = y_test.loc[segment.index]

    compute_metrics(y_test_segment, y_test_pred, y_test_prob)
    print("----------------\n")
    
    


In [None]:
tmp = pd.DataFrame(cluster[1].cluster_centers_, columns=X_train_.columns).T

tmp["diff01"] = np.abs(tmp[0] - tmp[1])
tmp["diff02"] = np.abs(tmp[0] - tmp[2])
tmp["diff12"] = np.abs(tmp[2] - tmp[1])


clusters_0 = clusters[0].mean()
clusters_1 = clusters[1].mean()
clusters_2 = clusters[2].mean()

clusters_0.name = "clusters_0"
clusters_1.name = "clusters_1"
clusters_2.name = "clusters_2"

tmp = tmp.join(clusters_0)
tmp = tmp.join(clusters_1)
tmp = tmp.join(clusters_2)


tmp.sort_values(by='diff12', ascending=False)

# remove one column

In [None]:
X_train_ = pipeline[:-1].transform(X_train)
X_test_ = pipeline[:-1].transform(X_test)

trains_metrics = dict()
tests_metrics = dict()


for col in tqdm(list(X_train_.columns)):
    X_train_tmp = X_train_.drop(columns=[col])
    X_test_tmp = X_test_.drop(columns=[col])

    model = HistGradientBoostingClassifier(random_state=0, max_iter=2000, learning_rate=0.08, verbose=0, early_stopping=True)

    model.fit(X_train_tmp, y_train.squeeze())

    y_train_pred = model.predict(X_train_tmp)
    y_train_prob = model.predict_proba(X_train_tmp)[:, 1]

    y_test_pred = model.predict(X_test_tmp)
    y_test_prob = model.predict_proba(X_test_tmp)[:, 1]

    train_metrics = compute_metrics(y_train, y_train_pred, y_train_prob, print_=False)
    test_metrics = compute_metrics(y_test, y_test_pred, y_test_prob, print_=False)

    trains_metrics[col] = train_metrics
    tests_metrics[col] = test_metrics
    
    
tests_metrics = pd.DataFrame(tests_metrics).T
trains_metrics = pd.DataFrame(trains_metrics).T

metrics = tests_metrics.join(trains_metrics, lsuffix="_test", rsuffix="_train")

metrics = metrics[[
    "log_loss_test",
    "average_precision_score_test",
    "roc_auc_test",
    "log_loss_train",
    "average_precision_score_train",
    "roc_auc_train"
]]

metrics

In [None]:
list(metrics.rank().sort_values(by="roc_auc_test", ascending=False).head(10).index)


model

In [None]:
X_train_tmp = X_train_.drop(columns=list(metrics.rank().sort_values(by="roc_auc_test", ascending=False).head(3).index))
X_test_tmp = X_test_.drop(columns=list(metrics.rank().sort_values(by="roc_auc_test", ascending=False).head(3).index))

model = HistGradientBoostingClassifier(random_state=0, max_iter=2000, learning_rate=0.08, verbose=0, early_stopping=True)

model.fit(X_train_tmp, y_train.squeeze())

y_train_pred = model.predict(X_train_tmp)
y_train_prob = model.predict_proba(X_train_tmp)[:, 1]

y_test_pred = model.predict(X_test_tmp)
y_test_prob = model.predict_proba(X_test_tmp)[:, 1]


compute_metrics(y_train, y_train_pred, y_train_prob)
compute_metrics(y_test, y_test_pred, y_test_prob)

pass

In [None]:
res.isna().sum().tail(50)

In [None]:
X_train_ = pipeline[:-1].transform(X_train)
X_test_ = pipeline[:-1].transform(X_test)
print(len(X_train_.columns))

from sklearn.feature_selection import SequentialFeatureSelector

model = HistGradientBoostingClassifier(random_state=0, max_iter=2000, learning_rate=0.08, verbose=0, early_stopping=True)

from mlxtend.feature_selection import SequentialFeatureSelector as SFS

tr = SFS(
    model,
    k_features=90,
    forward=False,
    floating=False,
    verbose=2,
    n_jobs=-1,
    scoring='roc_auc',
    cv=0
)
X_train_ = tr.fit_transform(X_train_, y_train.squeeze())

print(len(X_train_.columns))


print("empezo entrenamiento")
model.fit(X_train_, y_train.squeeze())

print("computo metricas")
y_train_prob = model.predict_proba(X_train_)[:, 1]
y_train_pred = (y_train_prob > np.median(y_train_prob)).astype(int)

y_test_prob = model.predict_proba(X_test_)[:, 1]
y_test_pred = (y_test_prob > np.median(y_test_prob)).astype(int)

print("------ train -------")
compute_metrics(y_train, y_train_pred, y_train_prob)

print("\n----- test ------")
a = compute_metrics(y_test, y_test_pred, y_test_prob)