# Coderhouse - Data Science II: Proyecto Final
- Docente: Julio Paredes
- Tutor: Victor A. Reale
- Entrega: 24/09/2024

# 📝 Abstract

## 📈 Contexto empresarial y objetivos generales

La gerencia general de una entidad financiera en Argentina ha identificado preocupaciones significativas en el área comercial relacionadas con el otorgamiento de préstamos personales de consumo. Estos desvíos han generado la necesidad de un análisis detallado para comprender mejor la dinámica de su cartera crediticia y la de sus asociados. El objetivo principal es evaluar las características más destacadas de los préstamos otorgados, las características de los clientes y las sucursales para poder tomar decisiones informadas sobre los pasos a seguir.

El análisis solicitado implica una revisión de la información disponible en la base de datos de préstamos, que incluye detalles sobre los atributos de los clientes y los productos crediticios. Este examen permitirá identificar patrones y posibles irregularidades en el comportamiento de la cartera. A través de este estudio, se busca no solo detectar las causas subyacentes de los desvíos actuales, sino también establecer una comprensión clara de las características que contribuyen a estos desvíos.

Entre los aspectos a evaluar se encuentran las variables relacionadas con el tipo de préstamos, la demografía de los clientes, y las características socioeconómicas. El análisis, a través de la exploración gráfica y estadística de las variables y sus conjugaciones, permitirá determinar la eficacia de las estrategias actuales de otorgamiento de créditos y la adecuación de los criterios utilizados para la aprobación de préstamos. Además, se propondrán recomendaciones basadas en los hallazgos para optimizar la gestión de la cartera crediticia y mejorar la precisión en la toma de decisiones comerciales.

Este enfoque sistemático ayudará a la entidad a mitigar riesgos, ajustar sus políticas de crédito y mejorar el rendimiento general en el otorgamiento de préstamos. La información obtenida será crucial para redefinir estrategias y asegurar una gestión más eficaz de los recursos financieros en el futuro.


## 🧠 Contexto Analítico

La gerencia comercial brinda el dataset **"DS_Dataset_2024.xlsx"** que contiene detalles anonimizados sobre 24.692 préstamos otorgados entre los períodos de enero 2021 hasta marzo 2024.
En los atributos de esta tabla se provee de información cuantitativa y cualitativa de los clientes (socios) y sus préstamos, entre las variables más destacables se pueden mencionar:

1. **SUCURSAL**: Código de identificación de la sucursal.
2. **LAT_SUCURSAL**: Latitud de la ubicación de la sucursal.
3. **LONG_SUCURSAL**: Longitud de la ubicación de la sucursal.
4. **ID_CLIENTE**: Identificación única del cliente.
5. **FECHA_ALTA_CLIENTE**: Fecha de alta del cliente en el sistema.
6. **CATEGORIA_CLIENTE**: Clasificación del cliente según su perfil.
7. **PROVINCIA_CLIENTE**: Provincia de residencia del cliente.
8. **EDAD**: Edad del cliente.
9. **BANCO_CLIENTE**: Banco con el que el cliente opera.
10. **INGRESOS**: Ingresos mensuales del cliente.
11. **TOTAL_DEBITOS_DIRECTOS**: Suma total de débitos directos del cliente.
12. **COMPROMISOS_MENSUALES**: Obligaciones financieras mensuales del cliente.
13. **SCORE_INTERNO**: Puntaje crediticio interno del cliente.
14. **MAX_SITUACION_BCRA**: Máxima situación registrada en BCRA.
15. **SCORE_EXTERNO**: Puntaje crediticio externo del cliente.
16. **R_SCORE_EXT**: Calificación externa del cliente.
17. **NSE_EXTERNO**: Nivel Socioeconómico externo estimado del cliente.
18. **CANT_PREST_CLIENTE**: Cantidad de préstamos tomados por el cliente.
19. **SERVICIO**: Tipo de servicio prestado.
20. **TIPO_ENTIDAD_PRESTAMO**: Tipo de entidad que otorga el préstamo.
21. **FECHA_OTORGAMIENTO**: Fecha en que se otorgó el préstamo.
22. **PERIODO_INICIO_DESCUENTO**: Fecha de inicio del descuento del préstamo.
23. **PERIODO_FIN_DESCUENTO**: Fecha de fin del descuento del préstamo.
24. **MONTO**: Monto del préstamo otorgado.
25. **CUOTAS**: Número de cuotas del préstamo.
26. **VALOR_CUOTA**: Valor de cada cuota del préstamo.
27. **VALOR_PAGARE**: Valor del pagaré asociado al préstamo.
28. **ESTADO_PRESTAMO**: Estado actual del préstamo (Ej: Finalizado, Activo).
29. **DIAS_MORA**: Número de días de mora en el pago del préstamo.
30. **SALDO_DEUDOR_AE**: Saldo deudor acumulado en el ejercicio.
31. **DEVENGADO**: Monto devengado del préstamo.
32. **MESES_ATRASO_FIN_DESC**: Meses de atraso al finalizar el descuento.
33. **MORA_HISTORICA**: Indicador de si ha existido mora histórica.
34. **FORMA_PAGO_ULT_INGRESO**: Forma de pago del último ingreso realizado.

* Columnas totales: 35
* Filas totales: 24.692



# **💡** Interrogantes e hipótesis



## Hipótesis 1: Existe una variación de la morosidad según el tipo de entidad de por la que se otorgó el préstamo?

## Hipótesis 2: Existen sucursales que posean bajos niveles de otorgamiento con altos indices de morosidad?

## Hipotesis 3: Se visualiza geográficamente algún concentración de la mora histórica?

## Hipotesis 4: Se puede evidenciar alguna relación entre el tipo de entidad de otorgamiento y las variables cuantitativas principales?

#**⚙️**  Librerías, configuraciones y lectura de dataframe

In [1]:
# Instalaciones, importaciones de librerías y montaje GDrive
!pip install --upgrade pandas
!pip install ydata-profiling
!pip install --upgrade Pillow
!pip install ipywidgets
#!pip install dataprep
#from dataprep.eda import create_report

from ydata_profiling import ProfileReport

import pandas as pd
#import sweetviz as sv
import numpy as np
import seaborn as sns
import datetime
import matplotlib as mpl
from matplotlib.colors import ListedColormap
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
import warnings
warnings.filterwarnings("ignore", category=FutureWarning, module="plotly")
import altair as alt

from bokeh.io import output_notebook
output_notebook()
from bokeh.io import save, show
from bokeh.plotting import figure, show, output_file, save
from bokeh.tile_providers import get_provider, Vendors
from bokeh.models import ColumnDataSource, Slider, HoverTool, CategoricalColorMapper, ColumnDataSource, Tabs, NumberFormatter, DataTable, TableColumn, Div, Select, Button, CustomJS, FactorRange
from bokeh.models.callbacks import CustomJS
from bokeh.layouts import layout, column, row
from bokeh.transform import factor_cmap, dodge
from bokeh.palettes import Spectral6, Dark2, Category10, Spectral10

import geopandas as gpd
import folium
from folium.plugins import MarkerCluster, HeatMap
from IPython.display import display, IFrame

import missingno as msno
import statsmodels.api as sm

from sklearn.decomposition import PCA
from sklearn import datasets, linear_model, tree
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, mean_squared_error, r2_score, mean_absolute_error, roc_curve, auc, precision_recall_curve
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, RandomizedSearchCV
from imblearn.over_sampling import SMOTE
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler, scale, MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.cluster import AgglomerativeClustering
import scipy.cluster.hierarchy as sch
from scipy.stats import randint, uniform
import xgboost as xgb
from xgboost import XGBClassifier

import ipywidgets as widgets
from ipywidgets import interact

import sys
import joblib
sys.modules['sklearn.externals.joblib'] = joblib
from mlxtend.feature_selection import SequentialFeatureSelector as SFS


from google.colab import drive
import os
drive.mount('/content/gdrive')

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

Collecting pandas
  Downloading pandas-2.2.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Downloading pandas-2.2.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.1/13.1 MB[0m [31m44.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 2.1.4
    Uninstalling pandas-2.1.4:
      Successfully uninstalled pandas-2.1.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
cudf-cu12 24.4.1 requires pandas<2.2.2dev0,>=2.0, but you have pandas 2.2.3 which is incompatible.
google-colab 1.0.0 requires pandas==2.1.4, but you have pandas 2.2.3 wh



Mounted at /content/gdrive


In [2]:
%cd '/content/gdrive/MyDrive/CH_DS_2024/Dataset'
df = pd.read_excel('DS_Dataset_2024.xlsx')
print(df[['SUCURSAL','CATEGORIA_CLIENTE','TIPO_ENTIDAD_PRESTAMO']].head(5))

/content/gdrive/MyDrive/CH_DS_2024/Dataset
  SUCURSAL CATEGORIA_CLIENTE TIPO_ENTIDAD_PRESTAMO
0  S012000      P. GRACIABLE        DEBITO DIRECTO
1  S012000          JUBILADO        DEBITO DIRECTO
2  S012000            ACTIVO         P. VOLUNTARIO
3  S012000      P. GRACIABLE        DEBITO DIRECTO
4  S012000            ACTIVO         P. VOLUNTARIO


# **🔍**  Exploración de datos

In [3]:
# Función para analizar registros
def analiza_df(df):
    cant_filas = df.shape[0]
    cant_colms = df.shape[1]
    duplicados = df.duplicated().sum()
    s_cant_nulos = df.isnull().sum()
    total_nulos = df.isnull().sum().sum()
# Preparar df de reporte
    df_eda = pd.DataFrame(
        {
            'tp_dato': [df[col].dtype.name for col in df.columns],
            '#_unico': [df[col].nunique() for col in df.columns],
            '#_duplicados': duplicados,
            '#_!nulo': cant_filas - s_cant_nulos,
            '#_nulos': s_cant_nulos,
            '%_nulos': 100 * df.isnull().mean().round(4),
        }
    )

    print(df_eda, '\n')
    print('Resumen:\n')
    print(f'El total de nulos es: {total_nulos}')
    print(f'El total de duplicados es: {duplicados}')
    print(f'Y el DataFrame tiene {cant_filas} filas y {cant_colms} columnas.')

# Aplicar función
analiza_df(df)

                                 tp_dato  #_unico  #_duplicados  #_!nulo  #_nulos  %_nulos
SUCURSAL                          object       62             0    24692        0     0.00
LAT_SUCURSAL                     float64       62             0    24692        0     0.00
LONG_SUCURSAL                    float64       62             0    24692        0     0.00
ID_CLIENTE                        object    11108             0    24692        0     0.00
FECHA_ALTA_CLIENTE        datetime64[ns]     2983             0    24692        0     0.00
CATEGORIA_CLIENTE                 object        4             0    24692        0     0.00
PROVINCIA_CLIENTE                 object       24             0    24692        0     0.00
EDAD                               int64       78             0    24692        0     0.00
BANCO_CLIENTE                     object       31             0    24692        0     0.00
INGRESOS                         float64     9870             0    24692        0     0.00

In [4]:
df.head(4)

Unnamed: 0,SUCURSAL,LAT_SUCURSAL,LONG_SUCURSAL,ID_CLIENTE,FECHA_ALTA_CLIENTE,CATEGORIA_CLIENTE,PROVINCIA_CLIENTE,EDAD,BANCO_CLIENTE,INGRESOS,TOTAL_DEBITOS_DIRECTOS,COMPROMISOS_MENSUALES,SCORE_INTERNO,MAX_SITUACION_BCRA,SCORE_EXTERNO,R_SCORE_EXT,NSE_EXTERNO,CANT_PREST_CLIENTE,SERVICIO,TIPO_ENTIDAD_PRESTAMO,FECHA_OTORGAMIENTO,PERIODO_INICIO_DESCUENTO,PERIODO_FIN_DESCUENTO,MONTO,CUOTAS,VALOR_CUOTA,VALOR_PAGARE,DIA_VENCIMIENTO,ESTADO_PRESTAMO,DIAS_MORA,SALDO_DEUDOR_AE,DEVENGADO,MESES_ATRASO_FIN_DESC,MORA_HISTORICA,FORMA_PAGO_ULT_INGRESO
0,S012000,-34.652895,-59.429072,ACF27217226969,2017-09-27,P. GRACIABLE,BUENOS AIRES,53,PAMPA,20343.14,414.0,758.0,2-AMARILLO,4,1,1-299,D1,3,P012000A00007410,DEBITO DIRECTO,2022-01-12,2022-02-01,2022-10-30,23390.7,9,3728.82,33559.38,,FINALIZADO,0,0.0,33559.38,0,NO,DEBITO
1,S012000,-34.652895,-59.429072,ACF20081165755,2018-01-16,JUBILADO,BUENOS AIRES,73,NACIÓN ARGENTINA,29061.63,763.0,29.0,2-AMARILLO,5,1,1-299,D2,1,P012000A00007412,DEBITO DIRECTO,2022-01-19,2022-02-01,2022-03-30,5000.0,2,2857.77,5715.54,,FINALIZADO,0,0.0,5715.54,0,NO,DEBITO
2,S012000,-34.652895,-59.429072,ACF27318752634,2015-03-26,ACTIVO,BUENOS AIRES,38,PCIA. BS. AS.,55000.0,0.0,0.0,2-AMARILLO,2,210,1-299,C3,1,P012000A00007408,P. VOLUNTARIO,2022-01-19,2022-02-01,2022-05-30,28000.0,4,7000.0,28000.0,12.0,FINALIZADO,0,0.0,28000.0,0,NO,VENTANILLA
3,S012000,-34.652895,-59.429072,ACF20358729111,2021-01-06,P. GRACIABLE,BUENOS AIRES,32,NACIÓN ARGENTINA,20343.14,4200.0,700.0,2-AMARILLO,2,1,1-299,D2,2,P012000A00007409,DEBITO DIRECTO,2022-01-12,2022-02-01,2022-03-30,10000.0,2,5715.55,11431.1,,FINALIZADO,0,0.0,11431.1,1,SI,DEBITO


In [5]:
df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
SUCURSAL,24692.0,62.0,S089000,2827.0,,,,,,,
LAT_SUCURSAL,24692.0,,,,-33.59415,-53.790104,-34.710944,-31.408693,-27.367784,-23.137404,8.525925
LONG_SUCURSAL,24692.0,,,,-62.201273,-71.296307,-67.489062,-62.07868,-58.021652,-54.60631,4.959649
ID_CLIENTE,24692.0,11108.0,ACF20320037298,33.0,,,,,,,
FECHA_ALTA_CLIENTE,24692.0,,,,2018-12-12 02:36:28.109509376,1994-03-24 00:00:00,2016-07-07 00:00:00,2020-01-15 00:00:00,2022-06-21 00:00:00,2024-04-12 00:00:00,
CATEGORIA_CLIENTE,24692.0,4.0,P. GRACIABLE,10602.0,,,,,,,
PROVINCIA_CLIENTE,24692.0,24.0,MISIONES,4812.0,,,,,,,
EDAD,24692.0,,,,54.346549,18.0,44.0,54.0,64.0,95.0,14.251238
BANCO_CLIENTE,24692.0,31.0,NACIÓN ARGENTINA,13338.0,,,,,,,
INGRESOS,24692.0,,,,125242.856061,0.0,43352.59,73998.83,136687.25,17144365.0,208698.01773


In [6]:
# Nulos: De acuerdo a la información brindada, la columna que contiene valores nulos no posee relevancia, por lo que se realizará una copia del df con un drop para evitar cualquier potencial error en los análisis.
df2=df.copy()
df2.drop(columns='DIA_VENCIMIENTO', inplace=True)
df2.head(4)

Unnamed: 0,SUCURSAL,LAT_SUCURSAL,LONG_SUCURSAL,ID_CLIENTE,FECHA_ALTA_CLIENTE,CATEGORIA_CLIENTE,PROVINCIA_CLIENTE,EDAD,BANCO_CLIENTE,INGRESOS,TOTAL_DEBITOS_DIRECTOS,COMPROMISOS_MENSUALES,SCORE_INTERNO,MAX_SITUACION_BCRA,SCORE_EXTERNO,R_SCORE_EXT,NSE_EXTERNO,CANT_PREST_CLIENTE,SERVICIO,TIPO_ENTIDAD_PRESTAMO,FECHA_OTORGAMIENTO,PERIODO_INICIO_DESCUENTO,PERIODO_FIN_DESCUENTO,MONTO,CUOTAS,VALOR_CUOTA,VALOR_PAGARE,ESTADO_PRESTAMO,DIAS_MORA,SALDO_DEUDOR_AE,DEVENGADO,MESES_ATRASO_FIN_DESC,MORA_HISTORICA,FORMA_PAGO_ULT_INGRESO
0,S012000,-34.652895,-59.429072,ACF27217226969,2017-09-27,P. GRACIABLE,BUENOS AIRES,53,PAMPA,20343.14,414.0,758.0,2-AMARILLO,4,1,1-299,D1,3,P012000A00007410,DEBITO DIRECTO,2022-01-12,2022-02-01,2022-10-30,23390.7,9,3728.82,33559.38,FINALIZADO,0,0.0,33559.38,0,NO,DEBITO
1,S012000,-34.652895,-59.429072,ACF20081165755,2018-01-16,JUBILADO,BUENOS AIRES,73,NACIÓN ARGENTINA,29061.63,763.0,29.0,2-AMARILLO,5,1,1-299,D2,1,P012000A00007412,DEBITO DIRECTO,2022-01-19,2022-02-01,2022-03-30,5000.0,2,2857.77,5715.54,FINALIZADO,0,0.0,5715.54,0,NO,DEBITO
2,S012000,-34.652895,-59.429072,ACF27318752634,2015-03-26,ACTIVO,BUENOS AIRES,38,PCIA. BS. AS.,55000.0,0.0,0.0,2-AMARILLO,2,210,1-299,C3,1,P012000A00007408,P. VOLUNTARIO,2022-01-19,2022-02-01,2022-05-30,28000.0,4,7000.0,28000.0,FINALIZADO,0,0.0,28000.0,0,NO,VENTANILLA
3,S012000,-34.652895,-59.429072,ACF20358729111,2021-01-06,P. GRACIABLE,BUENOS AIRES,32,NACIÓN ARGENTINA,20343.14,4200.0,700.0,2-AMARILLO,2,1,1-299,D2,2,P012000A00007409,DEBITO DIRECTO,2022-01-12,2022-02-01,2022-03-30,10000.0,2,5715.55,11431.1,FINALIZADO,0,0.0,11431.1,1,SI,DEBITO


In [None]:
# Perfil de datos
profile = ProfileReport(df2, title = 'Exploración del dataset "Otorgamiento de Préstamos Personales"', explorative = True)
# Reporte HTML
profile_file = 'reporte_profiling.html'
profile.to_file(profile_file)
# Visualización
profile

In [None]:
# Conversión de la columna 'R_SCORE_EXT' a string para evitar errores de codificación
df2['R_SCORE_EXT'] = df2['R_SCORE_EXT'].astype(str)

In [None]:
# Calcular nueva variable para medir la proporción entre compromisos mensuales e ingresos, considerando excesivo cualquier endeudamiento superior al 35% de los ingresos
df2['CAPACIDAD_ENDEUDAMIENTO'] = df2.apply(
    lambda row: 'Excesiva' if row['INGRESOS'] == 0 else
                ('Saludable' if (row['COMPROMISOS_MENSUALES'] / row['INGRESOS']) <= 0.35 else 'Excesiva'), axis=1
)

# **📊** Visualizaciones y comprobaciones

In [None]:
# Analizar distribución de otorgamiento de préstamos por tipo de entidad en linea de tiempo

# Crear columna 'Año' y tabla con prestamos otorgados
df2['Año'] = df2['FECHA_OTORGAMIENTO'].dt.year

tabla_prestamos = pd.pivot_table(
    df2,
    values='SERVICIO',
    index='TIPO_ENTIDAD_PRESTAMO',
    columns='Año',
    aggfunc='count',
    margins=True,
    margins_name='Total Gral')

tabla_prestamos = tabla_prestamos.astype(int).apply(lambda x: x.map('{:,.0f}'.format))
print(tabla_prestamos)
print()

# Gráfico de líneas
df2['AñoMes'] = df2['FECHA_OTORGAMIENTO'].dt.to_period('M')
Prest_por_Mes = df2.groupby(['AñoMes', 'TIPO_ENTIDAD_PRESTAMO']).size().reset_index(name='Cuenta')
Prest_por_Mes['AñoMes'] = Prest_por_Mes['AñoMes'].dt.to_timestamp()

# Graficar Qty préstamos otorgados por tipo de entidad
fig = px.line(Prest_por_Mes, x='AñoMes', y='Cuenta', color='TIPO_ENTIDAD_PRESTAMO',
              title='Cantidad de Préstamos Otorgados por Mes y Tipo de Entidad',
              labels={'AñoMes': 'Slider por Rango de Períodos', 'Cuenta': 'Cantidad de Préstamos', 'TIPO_ENTIDAD_PRESTAMO': 'Tipo de Entidad'})

fig.update_layout(
    legend_title_text='Tipo de Entidad',
    font=dict(family="Arial", size=12),
    plot_bgcolor='rgba(240,240,240,0.8)',
    xaxis=dict(
        title_font=dict(size=14),
        tickfont=dict(size=12),
        gridcolor='white',
        linecolor='grey'),
    yaxis=dict(
        title_font=dict(size=14),
        tickfont=dict(size=12),
        gridcolor='white',
        linecolor='grey'),
    legend=dict(
        bgcolor='rgba(255,255,255,0.8)',
        bordercolor='grey',
        borderwidth=1),
    hovermode='x unified')

fig.update_traces(
    hovertemplate="<b>%{x|%B %Y}</b><br>Número de Préstamos: %{y}<extra></extra>")

# Slider
fig.update_xaxes(
    rangeslider_visible=True,
    rangeselector=dict(
        buttons=list([
            dict(count=3, label="3m", step="month", stepmode="backward"),
            dict(count=6, label="6m", step="month", stepmode="backward"),
            dict(count=1, label="1a", step="year", stepmode="backward"),
            dict(step="all")])))

fig.show()

# Ver "DatetimeProperties.to_pydatetime is deprecated"

Año                     2022    2023   2024 Total Gral
TIPO_ENTIDAD_PRESTAMO                                 
COD. DESCUENTO         3,090   3,117    905      7,112
DEBITO AUTOMATICO      3,054   4,566  1,009      8,629
DEBITO DIRECTO         3,349   3,377  1,224      7,950
P. VOLUNTARIO            488     466     47      1,001
Total Gral             9,981  11,526  3,185     24,692



In [None]:
# Hipótesis 1: Existe una variación de la morosidad según el tipo de entidad de por la que se otorgó el préstamo?

# Calcular tasas de morosidad actual e historica totales por tipo de entidad
df2['MOROSO_ACTUAL'] = df2['DIAS_MORA'].apply(lambda x: 1 if x > 0 else 0)
df2['MOROSO_HISTORICO'] = df2['MORA_HISTORICA'].apply(lambda x: 1 if x == 'SI' else 0)

tasa_morosidad_actual = round(df2['MOROSO_ACTUAL'].mean() * 100, 2)
tasa_morosidad_historica = round(df2['MOROSO_HISTORICO'].mean() * 100, 2)

morosidad_actual = df2.groupby('TIPO_ENTIDAD_PRESTAMO')['DIAS_MORA'].apply(lambda x: round((x > 0).mean() * 100, 2))
morosidad_historica = df2.groupby('TIPO_ENTIDAD_PRESTAMO')['MORA_HISTORICA'].apply(lambda x: round((x == 'SI').mean() * 100, 2))

# Mostrar tasas
print("Tasa de Morosidad Actual Total: " + str(tasa_morosidad_actual) + "%")
print("\nTasas de Morosidad Actual por entidad:")
print(morosidad_actual)
print()
print("\nTasa de Morosidad Historica Total: " + str(tasa_morosidad_historica) + "%")
print("\nTasas de Morosidad Historica por entidad:")
print(morosidad_historica)
print()

# Datos para grafo
entidades = morosidad_actual.index.tolist()
morosidad_actual_values = morosidad_actual.values.tolist()
morosidad_historica_values = morosidad_historica.values.tolist()

source = ColumnDataSource(data=dict(
    entidades=entidades,
    morosidad_actual=morosidad_actual_values,
    morosidad_historica=morosidad_historica_values))

# Gráfico
p = figure(x_range=entidades, height=550, width=1300, title="Tasas de Morosidad por Tipo de Entidad",
           toolbar_location=None, tools="")

p.vbar(x=dodge('entidades', -0.25, range=p.x_range), top='morosidad_actual', width=0.4, source=source,
       color="#bf71bb", legend_label="Morosidad Actual")

p.vbar(x=dodge('entidades', 0.25, range=p.x_range), top='morosidad_historica', width=0.4, source=source,
       color="#718dbf", legend_label="Morosidad Historica")

p.x_range.range_padding = 0.1
p.xgrid.grid_line_color = None
p.legend.location = "top_left"
p.legend.orientation = "horizontal"
p.xaxis.axis_label = 'Tipo de Entidad'
p.yaxis.axis_label = 'Tasa de Morosidad (%)'

hover = HoverTool(tooltips=[
    ("Entidad", "@entidades"),
    ("Morosidad Actual", "@morosidad_actual{0.2f}%"),
    ("Morosidad Historica", "@morosidad_historica{0.2f}%")])
p.add_tools(hover)

show(p)

Tasa de Morosidad Actual Total: 16.34%

Tasas de Morosidad Actual por entidad:
TIPO_ENTIDAD_PRESTAMO
COD. DESCUENTO       11.80
DEBITO AUTOMATICO    20.07
DEBITO DIRECTO       14.31
P. VOLUNTARIO        32.47
Name: DIAS_MORA, dtype: float64


Tasa de Morosidad Historica Total: 31.8%

Tasas de Morosidad Historica por entidad:
TIPO_ENTIDAD_PRESTAMO
COD. DESCUENTO       18.46
DEBITO AUTOMATICO    42.48
DEBITO DIRECTO       29.75
P. VOLUNTARIO        50.85
Name: MORA_HISTORICA, dtype: float64



In [None]:
# Hipótesis 2: Existen sucursales que posean bajos niveles de otorgamiento con altos indices de morosidad?

# Detalle de otorgamiento por sucursal con mora histórica

# Agrupamientos
agrupamiento = df2.groupby('SUCURSAL').agg({
    'SERVICIO': 'count',
    'MONTO': 'sum',
    'MORA_HISTORICA': lambda x: (x == 'SI').sum(),
    'SALDO_DEUDOR_AE': 'sum'}).reset_index()

agrupamiento.columns = ['SUCURSAL', 'PRESTAMOS_OTORGADOS', 'MONTO_OTORGADO', 'PRESTAMOS_EN_MORA', 'SALDO_DEUDOR_TOTAL']
agrupamiento['SIN_MORA'] = agrupamiento['PRESTAMOS_OTORGADOS'] - agrupamiento['PRESTAMOS_EN_MORA']
agrupamiento['PORCENTAJE_MORA'] = (agrupamiento['PRESTAMOS_EN_MORA'] / agrupamiento['PRESTAMOS_OTORGADOS']) * 100

agrupamiento = agrupamiento.sort_values(by='PORCENTAJE_MORA', ascending=False)

# Tabla
title = Div(text="<h2>Detalle de préstamos otorgados por Sucursal con porcentaje de mora histórica</h2>", width=1000, height=30)
columns = [
    TableColumn(field="SUCURSAL", title="Sucursal"),
    TableColumn(field="PRESTAMOS_OTORGADOS", title="Préstamos Otorgados"),
    TableColumn(field="PRESTAMOS_EN_MORA", title="Préstamos en Mora"),
    TableColumn(field="PORCENTAJE_MORA", title="% en Mora", formatter=NumberFormatter(format="0.00")),
    TableColumn(field="MONTO_OTORGADO", title="Monto Otorgado", formatter=NumberFormatter(format="0,0")),
    TableColumn(field="SALDO_DEUDOR_TOTAL", title="Saldo Deudor Total", formatter=NumberFormatter(format="0,0")),]
data_table = DataTable(source=source, columns=columns, width=800, selectable=True)
#data_table.styles = {'color': 'black'}

# Datos y figura
source = ColumnDataSource(agrupamiento)

p = figure(x_range=agrupamiento['SUCURSAL'], height=500, width=1300, title="Resumen de Préstamos por Sucursal",
           toolbar_location=None, tools="")

p.vbar_stack(['SIN_MORA', 'PRESTAMOS_EN_MORA'], x='SUCURSAL', width=0.9, color=["#93bf71", "#bf71bb"],
             source=source, legend_label=["Préstamos Sin Mora", "Préstamos en Mora"])

p.xgrid.grid_line_color = None
p.y_range.start = 0
p.xaxis.axis_label = 'Sucursal'
p.yaxis.axis_label = 'Cantidad de Préstamos'
p.xaxis.major_label_orientation = 0.7
p.legend.location = "top_left"
p.legend.click_policy = "hide"

hover = HoverTool(tooltips=[
    ("Sucursal", "@SUCURSAL"),
    ("Préstamos Otorgados", "@PRESTAMOS_OTORGADOS"),
    ("Préstamos en Mora", "@PRESTAMOS_EN_MORA"),
    ("Porcentaje en Mora", "@PORCENTAJE_MORA{0.00}%"),
    ("Monto Otorgado", "@MONTO_OTORGADO{0,0}"),
    ("Saldo Deudor Total", "@SALDO_DEUDOR_TOTAL{0,0}")])
p.add_tools(hover)

layout = column(title, data_table, p)
show(layout)

In [None]:
# Hipótesis 3: Se visualiza geográficamente algún concentración de la mora histórica?

# Agrupamiento por sucursal
agrupamiento = df2.groupby('SUCURSAL').agg({
    'LAT_SUCURSAL': 'first',
    'LONG_SUCURSAL': 'first',
    'MONTO': 'sum',
    'SERVICIO': 'count',
    'MORA_HISTORICA': lambda x: (x == 'SI').sum(),
    'SALDO_DEUDOR_AE': 'sum'
}).reset_index()

# Nombres de cols
agrupamiento.columns = ['SUCURSAL', 'LAT_SUCURSAL', 'LONG_SUCURSAL', 'MONTO_OTORGADO', 'PRESTAMOS_OTORGADOS', 'PRESTAMOS_CON_MORA', 'SALDO_DEUDOR_TOTAL']
agrupamiento['SIN_MORA'] = agrupamiento['PRESTAMOS_OTORGADOS'] - agrupamiento['PRESTAMOS_CON_MORA']
agrupamiento['PORCENTAJE_MORA'] = (agrupamiento['PRESTAMOS_CON_MORA'] / agrupamiento['PRESTAMOS_OTORGADOS']) * 100

# GeoDataFrame
geometry = gpd.points_from_xy(agrupamiento['LONG_SUCURSAL'], agrupamiento['LAT_SUCURSAL'])
gdf = gpd.GeoDataFrame(agrupamiento, geometry=geometry)

# Centrar mapa
#center_lat = gdf['LAT_SUCURSAL'].mean()
#center_lon = gdf['LONG_SUCURSAL'].mean()

# Folium
m = folium.Map(location=[-35.0, -60.0], zoom_start=4.5)

#Heatmap
heat_data = [[row['LAT_SUCURSAL'], row['LONG_SUCURSAL'], row['PRESTAMOS_CON_MORA']] for index, row in agrupamiento.iterrows()]
HeatMap(heat_data, max_zoom=20, radius=20, gradient={0.2: 'orange', 0.4: 'red', 0.6: 'darkred', 1: 'maroon'}).add_to(m)

# Marcadores
marker_cluster = MarkerCluster().add_to(m)
for idx, row in gdf.iterrows():
    popup_text = (
        f"<b>Sucursal:</b> {row['SUCURSAL']}<br>"
        f"<b>Préstamos Otorgados:</b> {row['PRESTAMOS_OTORGADOS']:,}<br>"
        f"<b>Préstamos con Mora:</b> {row['PRESTAMOS_CON_MORA']:,}<br>"
        f"<b>Porcentaje en Mora:</b> {row['PORCENTAJE_MORA']:.2f}%<br>"
        f"<b>Monto Otorgado:</b> ${row['MONTO_OTORGADO']:,.0f}<br>"
        f"<b>Saldo Deudor:</b> ${row['SALDO_DEUDOR_TOTAL']:,.0f}")
    folium.Marker(
        location=[row['LAT_SUCURSAL'], row['LONG_SUCURSAL']],
        popup=folium.Popup(popup_text, max_width=250),
        icon=folium.Icon(color='red' if row['PRESTAMOS_CON_MORA'] > 0 else 'green')).add_to(marker_cluster)
m

In [None]:
# Hipotesis 4: Se puede evidenciar alguna relación entre el tipo de entidad de otorgamiento y las variables cuantitativas principales?

df2['MORA_HIST'] = df2['MORA_HISTORICA'].apply(lambda x: 1 if x == 'SI' else 0)
df_alt = df2[['TIPO_ENTIDAD_PRESTAMO','EDAD','MAX_SITUACION_BCRA','SCORE_EXTERNO','CANT_PREST_CLIENTE','MONTO','CUOTAS','DIAS_MORA','MORA_HIST']]
df_alt.info()

alt.data_transformers.disable_max_rows()

df_altair = pd.melt(df_alt, id_vars=['TIPO_ENTIDAD_PRESTAMO'], var_name='Variables', value_name='Valor')

# Crea un gráfico de boxplot con Altair
boxplot = alt.Chart(df_altair).mark_boxplot().encode(
    x=alt.X('TIPO_ENTIDAD_PRESTAMO:O', title='Tipo de entidad'),
    y=alt.Y('Valor:Q', title='Valor de variable'),
    color=alt.Color('TIPO_ENTIDAD_PRESTAMO:N', title='')).properties(title="")

boxplot_faceted = boxplot.facet(column='Variables:N',spacing=5).resolve_scale(y='independent')
boxplot_faceted

# **🔍**  Insights sobre hipótesis

## Hipótesis 1:
Se evidencia una marcada morosidad histórica en los productos financieros  mediante las entidades de Débito Directo, Débito Automático y especialmente en el producto de Pago Voluntario pese a su bajo volumen de otorgamiento.

## Hipotesis 2:
Se detectan seis sucursales que poseen indices de morosidad históricos por sobre el 50% de la cantidad de préstamos otorgados, lo que genera un llamado de atención de cara a los costos operativos para el matenimiento de su funcionamiento.

## Hipótesis 3:
No se visualiza un patrón claro que evidencie una distribución de la morosidad desde un punto de vista geográfico, mas allá de los centros de concentración de mayor otorgamiento.

## Hipótesis 4:
En los graficos facetados de las variables cuantitativas pareciera existir una relación entre la cantidad de cuotas de los préstamos y las edades de los solicitantes.


## Estas apreciaciones iniciales requerirán de mayor profundidad de análisis para determinar variables concretas que permitan una evaluación de los factores que influyen en la institución y su sostenibilidad.

# **📊** MODELADOS DE CLASIFICACION
En base a lo analizado se cree conveniente desarrollar diferentes modelos de clasificación que permitan detectar tempranamente si un futuro cliente será o no moroso, utilizando para esto los features del dataframe y estableciendo como variable objetivo el campo "MORA_HISTORICA".

## Preparacion de datos

In [None]:
# Nueva copia del df
df3 = df2.copy()

In [None]:
# Definir las columnas categóricas que se desean transformar con One-Hot Encoding
cat_cols = ["SUCURSAL","CATEGORIA_CLIENTE", "SCORE_INTERNO", "NSE_EXTERNO", "TIPO_ENTIDAD_PRESTAMO", "ESTADO_PRESTAMO", "CAPACIDAD_ENDEUDAMIENTO"]

# Aplicar One-Hot Encoding a las columnas categóricas
df3 = pd.get_dummies(df3, columns=cat_cols, drop_first=True)
#df3 = pd.get_dummies(df2, columns=cat_cols) #Viable si optara únicamente por modelos no afectados por multicolinealidad (KNN, random forest, XGBoost) aunque ineficiencia probable por dimensiones innecesarias, sino "drop_first=True" es necesario para modelos lineales (Regresión logística, SVN)

# Selección de variables predictoras
features = ["EDAD", "MAX_SITUACION_BCRA", "SCORE_EXTERNO", "CUOTAS", "DIAS_MORA"]

# Añadir las columnas generadas por get_dummies al conjunto de características
dummy_columns = [col for col in df3.columns if any(sub in col for sub in cat_cols)]
features.extend(dummy_columns)

# Seleccionar las variables predictoras (features) y la variable objetivo (target)
X = df3[features]  # Variables predictoras
y = df3["MORA_HISTORICA"]  # Variable objetivo

# Convertir las etiquetas de 'NO' y 'SI' a 0 y 1
y = y.map({'NO': 0, 'SI': 1})

# Dividir los datos en conjunto de entrenamiento y prueba (70/30)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

# Estandarizar las variables numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# Diccionario de modelos
modelos = {
    'KNN': KNeighborsClassifier(n_neighbors=5),
    'RandomForest': RandomForestClassifier(n_estimators=100, random_state=42),
    'SVM': SVC(kernel='linear', C=1),
    'LogisticRegression': LogisticRegression(max_iter=200, random_state=42),
    'XGBoost': xgb.XGBClassifier(eval_metric='logloss', random_state=42)  # Eliminar use_label_encoder
}

# Diccionario para almacenar las métricas por modelo
metricas_dict = {
    'Accuracy': [],
    'Precision': [],
    'Recall': [],
    'F1-Score': [],
    'Cross-Val Accuracy (Mean)': [],
    'Cross-Val Std': []
}

# Lista de nombres de los modelos
modelos_nombres = []

# Evaluación de modelos
for nombre, modelo in modelos.items():
    # Solo escalar si el modelo lo necesita
    if nombre in ['KNN', 'SVM', 'LogisticRegression']:
        modelo.fit(X_train_scaled, y_train)
        y_pred = modelo.predict(X_test_scaled)
    else:
        modelo.fit(X_train, y_train)
        y_pred = modelo.predict(X_test)

    # Métricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)

    # Cross-validation
    cv_scores = cross_val_score(modelo, X_train_scaled if nombre in ['KNN', 'SVM', 'LogisticRegression'] else X_train,
                                y_train, cv=5, scoring='accuracy')
    cv_mean = cv_scores.mean()
    cv_std = cv_scores.std()

    # Guardar las métricas en el diccionario
    metricas_dict['Accuracy'].append(accuracy)
    metricas_dict['Precision'].append(precision)
    metricas_dict['Recall'].append(recall)
    metricas_dict['F1-Score'].append(f1)
    metricas_dict['Cross-Val Accuracy (Mean)'].append(cv_mean)
    metricas_dict['Cross-Val Std'].append(cv_std)

    # Guardar el nombre del modelo
    modelos_nombres.append(nombre)

# Convertir el diccionario de métricas en un DataFrame
df_metricas = pd.DataFrame(metricas_dict, index=modelos_nombres).T

# Mostrar la tabla con pandas
print(df_metricas)
print("------------------------------")

# Excluir la métrica "Cross-Val Std"
df_metricas_filtered = df_metricas.drop(index='Cross-Val Std')

# Ordenar los modelos de acuerdo con la métrica de 'Accuracy' en orden descendente
df_metricas_filtered = df_metricas_filtered.T.sort_values(by='Accuracy', ascending=False).T

# Convertir el DataFrame en formato largo para Plotly Express (melt)
df_long = df_metricas_filtered.T.reset_index().melt(id_vars='index', var_name='Métrica', value_name='Valor')

# Renombrar 'index' a 'Modelo'
df_long.rename(columns={'index': 'Modelo'}, inplace=True)

# Crear el gráfico interactivo con Plotly Express
fig = px.bar(df_long,
             x='Modelo',
             y='Valor',
             color='Métrica',
             barmode='group',  # Barras no apiladas
             title='Comparación de Métricas de Modelos',
             labels={'Valor': 'Valor de la Métrica', 'Modelo': 'Modelos'})

# Personalizar el gráfico
fig.update_layout(
    width=1300,
    height=550,
    plot_bgcolor='rgba(240,240,240,0.8)',
    xaxis_title="Modelos",
    yaxis_title="Valores de Métricas",
    legend_title="Métricas",
    font=dict(
        family="Arial",
        size=12,
    ),
    bargap=0.10,
    bargroupgap=0.05
)

# Mostrar el gráfico
fig.show()

## OBSERVACIONES SOBRE MODELADOS
###Basados en los resultados obtenidos, los dos modelos más prometedores para explorar con potenciales mejoras son RandomForest y XGBoost.

### *Random Forest:*
#### Presenta un buen balance entre las métricas Precisión y Recall, con un F1 relativamente bajo que indica un buen equilibro de falsos positivos y falsos negativos, siendo su accuracy de 0.8498.

###*XGBoost:*
#### Poseee el accuracy más alto (0.8561) de todos los modelos , por lo que predice correctamente la mayoría de los casos. Debido a la alta configurabilidad de hiperparámetros posee gran potencial para mejorar el recall y el F1.

-----

# **📊:** Random Forest con Optimización de Hiperparámetros y Ajuste de Umbral

In [None]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, precision_recall_curve, classification_report, roc_curve, auc
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_classif
from imblearn.over_sampling import SMOTE
import matplotlib.pyplot as plt
from scipy.stats import randint

# Paso 1: Aplicar SMOTE para balancear las clases
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

# Paso 2: Escalar las variables numéricas
scaler = StandardScaler()
X_train_res_scaled = scaler.fit_transform(X_train_res)
X_test_scaled = scaler.transform(X_test)

# Paso 3: Selección de características con SelectKBest basado en f_classif
selector = SelectKBest(score_func=f_classif, k=10)  # Selecciona las 10 mejores características
X_train_res_scaled_selected = selector.fit_transform(X_train_res_scaled, y_train_res)
X_test_scaled_selected = selector.transform(X_test_scaled)

# Paso 4: Optimización de Hiperparámetros con RandomizedSearchCV
param_dist_rf = {
    'n_estimators': randint(100, 500),  # Número de árboles
    'max_depth': randint(3, 15),        # Profundidad máxima
    'min_samples_split': randint(2, 10),  # Muestras mínimas para dividir un nodo
    'min_samples_leaf': randint(1, 4),    # Muestras mínimas en una hoja
    'bootstrap': [True, False]  # Si usar muestreo con reemplazo
}

random_forest = RandomForestClassifier(random_state=42)

random_search_rf = RandomizedSearchCV(
    random_forest,
    param_distributions=param_dist_rf,
    n_iter=20,  # Número de combinaciones a probar
    scoring='f1',
    cv=5,  # Validación cruzada de 5 folds
    random_state=42,
    n_jobs=-1,  # Usar todos los núcleos disponibles
    verbose=2
)

# Entrenar el modelo Random Forest utilizando RandomizedSearchCV
random_search_rf.fit(X_train_res_scaled_selected, y_train_res)

# Mejor modelo encontrado
best_rf = random_search_rf.best_estimator_
print("Mejores hiperparámetros para Random Forest:", random_search_rf.best_params_)

# Paso 5: Ajuste del Umbral para Mejorar F1-Score
y_pred_proba_rf = best_rf.predict_proba(X_test_scaled_selected)[:, 1]  # Probabilidad de la clase positiva

# Calcular la curva precision-recall
precisions_rf, recalls_rf, thresholds_rf = precision_recall_curve(y_test, y_pred_proba_rf)

# Encontrar el umbral que maximiza el F1-Score
f1_scores_rf = 2 * (precisions_rf * recalls_rf) / (precisions_rf + recalls_rf)
best_threshold_rf = thresholds_rf[np.argmax(f1_scores_rf)]
print(f"Mejor umbral para maximizar F1-Score: {best_threshold_rf}")

# Ajustar el umbral de clasificación
y_pred_adjusted_rf = (y_pred_proba_rf >= best_threshold_rf).astype(int)

# Paso 6: Evaluar el Modelo Ajustado
accuracy_rf = accuracy_score(y_test, y_pred_adjusted_rf)
precision_rf = precision_score(y_test, y_pred_adjusted_rf)
recall_rf = recall_score(y_test, y_pred_adjusted_rf)
f1_rf = f1_score(y_test, y_pred_adjusted_rf)

print(f"\nMétricas con Umbral Ajustado para Random Forest:")
print(f"Accuracy: {accuracy_rf:.4f}")
print(f"Precision: {precision_rf:.4f}")
print(f"Recall: {recall_rf:.4f}")
print(f"F1-Score: {f1_rf:.4f}")

# Reporte de clasificación
print("\nReporte de Clasificación con Umbral Ajustado para Random Forest:\n", classification_report(y_test, y_pred_adjusted_rf))

# Paso 7: Graficar la Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_pred_proba_rf)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='blue', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='grey', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC - Random Forest con Umbral Ajustado')
plt.legend(loc="lower right")
plt.show()

# Validación cruzada en el mejor modelo
cv_scores_rf = cross_val_score(best_rf, X_train_res_scaled_selected, y_train_res, cv=5, scoring='f1')
print(f"Cross-Validation F1-Score (Mean): {cv_scores_rf.mean():.4f}")
print(f"Cross-Validation F1-Score (Std): {cv_scores_rf.std():.4f}")

# Almacenar resultados de Random Forest
rf_results = {
    'Modelo': 'Random Forest',
    'Accuracy': accuracy_rf,
    'Precision': precision_rf,
    'Recall': recall_rf,
    'F1-Score': f1_rf,
    'Cross-Validation F1-Score (Mean)': cv_scores_rf.mean(),
    'Cross-Validation F1-Score (Std)': cv_scores_rf.std()
}

# **📊:** XGBoost con Optimización de Hiperparámetros y Ajuste de Umbral



In [None]:
import xgboost as xgb
from sklearn.model_selection import RandomizedSearchCV, cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, precision_recall_curve, roc_curve, auc
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_classif
from scipy.stats import randint, uniform
import matplotlib.pyplot as plt
import numpy as np

# Paso 1: Aplicar SMOTE para balancear las clases
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# Paso 2: Escalar las variables numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_resampled)
X_test_scaled = scaler.transform(X_test)

# Paso 3: Selección de características con SelectKBest basado en f_classif
selector = SelectKBest(score_func=f_classif, k=10)  # Selecciona las 10 mejores características
X_train_selected = selector.fit_transform(X_train_scaled, y_train_resampled)
X_test_selected = selector.transform(X_test_scaled)

# Paso 4: Definir los hiperparámetros para RandomizedSearchCV (con rangos corregidos)
param_dist_xgb = {
    'n_estimators': randint(100, 500),        # Número de árboles
    'max_depth': randint(3, 10),              # Profundidad máxima
    'learning_rate': uniform(0.01, 0.1),      # Tasa de aprendizaje
    'subsample': uniform(0.5, 0.5),           # Proporción de muestras para cada árbol (dentro del rango [0.5, 1.0])
    'colsample_bytree': uniform(0.5, 0.5),    # Proporción de características para cada árbol (dentro del rango [0.5, 1.0])
    'gamma': uniform(0, 0.5),                 # Regularización de complejidad de árbol
    'reg_lambda': uniform(0.01, 2),           # Regularización L2
    'reg_alpha': uniform(0.01, 2),            # Regularización L1
    'scale_pos_weight': [1, (y_train_resampled.value_counts()[0] / y_train_resampled.value_counts()[1])]  # Balance de clases
}

# Configurar RandomizedSearchCV con XGBoost
random_search_xgb = RandomizedSearchCV(
    estimator=xgb.XGBClassifier(eval_metric='logloss', random_state=42),  # Sin 'use_label_encoder'
    param_distributions=param_dist_xgb,
    n_iter=20,  # Número de combinaciones a probar
    scoring='f1',
    cv=5,  # Validación cruzada de 5 folds
    random_state=42,
    n_jobs=-1,
    verbose=2
)

# Entrenar el modelo con RandomizedSearchCV
random_search_xgb.fit(X_train_selected, y_train_resampled)

# Mejor modelo encontrado
best_xgb = random_search_xgb.best_estimator_
print("Mejores hiperparámetros para XGBoost:", random_search_xgb.best_params_)

# Paso 6: Ajuste del umbral para maximizar el F1-Score
y_pred_proba = best_xgb.predict_proba(X_test_selected)[:, 1]  # Probabilidad de la clase positiva (mora)

# Calcular la curva precision-recall
precisions, recalls, thresholds = precision_recall_curve(y_test, y_pred_proba)

# Encontrar el umbral que maximiza el F1-Score
f1_scores = 2 * (precisions * recalls) / (precisions + recalls)
best_threshold = thresholds[np.argmax(f1_scores)]
print(f"Mejor umbral para maximizar F1-Score: {best_threshold}")

# Ajustar las predicciones con el mejor umbral encontrado
y_pred_adjusted = (y_pred_proba >= best_threshold).astype(int)

# Paso 7: Evaluar el rendimiento con el umbral ajustado
accuracy = accuracy_score(y_test, y_pred_adjusted)
precision = precision_score(y_test, y_pred_adjusted)
recall = recall_score(y_test, y_pred_adjusted)
f1 = f1_score(y_test, y_pred_adjusted)

print(f"\nMétricas con Umbral Ajustado para XGBoost:")
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1-Score: {f1:.4f}")

# Reporte de clasificación con el umbral ajustado
print("\nReporte de Clasificación con Umbral Ajustado para XGBoost:\n", classification_report(y_test, y_pred_adjusted))

# Paso 8: Graficar la Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='blue', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='grey', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC - XGBoost con Umbral Ajustado')
plt.legend(loc="lower right")
plt.show()

# Validación cruzada en el mejor modelo
cv_scores = cross_val_score(best_xgb, X_train_selected, y_train_resampled, cv=5, scoring='f1')
print(f"Cross-Validation F1-Score (Mean): {cv_scores.mean():.4f}")
print(f"Cross-Validation F1-Score (Std): {cv_scores.std():.4f}")

# Almacenar resultados de XGBoost
xgb_results = {
    'Modelo': 'XGBoost',
    'Accuracy': accuracy,
    'Precision': precision,
    'Recall': recall,
    'F1-Score': f1,
    'Cross-Validation F1-Score (Mean)': cv_scores.mean(),
    'Cross-Validation F1-Score (Std)': cv_scores.std()
}

# **📊:** Random Forest VS XGBoost

In [None]:
import pandas as pd

# Crear un DataFrame con los resultados de ambos modelos
df_results = pd.DataFrame([rf_results, xgb_results])

# Mostrar el DataFrame
print(df_results)

import plotly.express as px

# Transformar el DataFrame para hacer un gráfico comparativo
df_melted = df_results.melt(id_vars='Modelo', var_name='Métrica', value_name='Valor')

# Crear el gráfico interactivo
fig = px.bar(df_melted, x='Métrica', y='Valor', color='Modelo', barmode='group',
             title='Comparación de Métricas entre Random Forest y XGBoost',
             labels={'Valor': 'Valor de la Métrica', 'Métrica': 'Métricas'})

# Mejorar la visualización
fig.update_layout(
    xaxis_tickangle=-45,  # Girar etiquetas de las métricas para mejor legibilidad
    plot_bgcolor='rgba(240,240,240,0.8)',
    font=dict(family="Arial", size=12),
    hovermode='x'
)

# Mostrar el gráfico
fig.show()

# Ajustar el Umbral y Balancear Mejor el Recall y la Precision:



In [None]:
def ajustar_umbral_mejor_f1(modelo, X_test, y_test):
    # Obtener las probabilidades predichas
    y_pred_proba = modelo.predict_proba(X_test)[:, 1]  # Probabilidad de la clase positiva

    # Calcular la curva precision-recall
    precisions, recalls, thresholds = precision_recall_curve(y_test, y_pred_proba)

    # Encontrar el umbral que maximiza el F1-Score
    f1_scores = 2 * (precisions * recalls) / (precisions + recalls)
    best_threshold = thresholds[np.argmax(f1_scores)]
    print(f"Mejor umbral para maximizar F1-Score: {best_threshold}")

    # Ajustar el umbral de clasificación
    y_pred_adjusted = (y_pred_proba >= best_threshold).astype(int)

    # Retornar las predicciones ajustadas y el umbral
    return y_pred_adjusted, best_threshold

# Aplicar el ajuste para Random Forest y XGBoost
y_pred_adjusted_rf, best_threshold_rf = ajustar_umbral_mejor_f1(best_rf, X_test_selected, y_test)
y_pred_adjusted_xgb, best_threshold_xgb = ajustar_umbral_mejor_f1(best_xgb, X_test_selected, y_test)

# Evaluar el modelo con el umbral ajustado (Random Forest)
print("\nEvaluación de Random Forest con Umbral Ajustado (Balance entre Recall y Precision):")
evaluar_modelo("Random Forest (Umbral Ajustado)", y_test, y_pred_adjusted_rf)

# Evaluar el modelo con el umbral ajustado (XGBoost)
print("\nEvaluación de XGBoost con Umbral Ajustado (Balance entre Recall y Precision):")
evaluar_modelo("XGBoost (Umbral Ajustado)", y_test, y_pred_adjusted_xgb)


Siguiendo con el modelo XGBoost te pido el codigo que permita clasificar de manera interactiva, mediante widgets, utilizando los valores unicos iniciales de las columnas del df3 que se utilizaron en las variables features y target cuando correspondan o campos rellenables por el usuario segun el tipo de campo. Adicionalmente, becesito que los widgets interactivos sean de los tipos (sliders, listas desplegables, campos a completar con valores numericos, etcetera) que, según tu criterio, mejor se ajusten al tipo de dato contenido en cada variable.


#Versión Mejorada del Stacking:

	1.	Modelos Base: Usaremos Random Forest y XGBoost como los modelos base ya entrenados con los mejores hiperparámetros.
	2.	Meta-Modelo: Utilizaremos una regresión logística como meta-modelo para aprender a combinar las predicciones de ambos modelos.
	3.	Ajuste del Umbral: Ajustaremos el umbral de decisión para maximizar el F1-Score en el modelo final.

Código Completo para el Stacking:

In [None]:
from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, precision_recall_curve, roc_curve, auc
from sklearn.model_selection import cross_val_score

# Meta-modelo: Regresión logística
meta_model = LogisticRegression(max_iter=1000, random_state=42)

# Modelos base (Random Forest y XGBoost ya optimizados)
estimators = [
    ('rf', best_rf),    # Random Forest entrenado con los mejores hiperparámetros
    ('xgb', best_xgb)   # XGBoost entrenado con los mejores hiperparámetros
]

# Crear el StackingClassifier
stacking_clf = StackingClassifier(
    estimators=estimators,
    final_estimator=meta_model,
    cv=5,  # Validación cruzada de 5 folds
    n_jobs=-1  # Utilizar todos los núcleos de la CPU para acelerar el proceso
)

# Entrenar el modelo Stacking
stacking_clf.fit(X_train_selected, y_train_resampled)

# Predicciones con el modelo de Stacking
y_pred_proba_stack = stacking_clf.predict_proba(X_test_selected)[:, 1]

# Ajustar el umbral de clasificación para maximizar el F1-Score
precisions_stack, recalls_stack, thresholds_stack = precision_recall_curve(y_test, y_pred_proba_stack)
f1_scores_stack = 2 * (precisions_stack * recalls_stack) / (precisions_stack + recalls_stack)
best_threshold_stack = thresholds_stack[np.argmax(f1_scores_stack)]
print(f"Mejor umbral para maximizar F1-Score en Stacking: {best_threshold_stack}")

# Predicciones ajustadas con el umbral óptimo
y_pred_adjusted_stack = (y_pred_proba_stack >= best_threshold_stack).astype(int)

# Evaluar el rendimiento del modelo Stacking con el umbral ajustado
accuracy_stack = accuracy_score(y_test, y_pred_adjusted_stack)
precision_stack = precision_score(y_test, y_pred_adjusted_stack)
recall_stack = recall_score(y_test, y_pred_adjusted_stack)
f1_stack = f1_score(y_test, y_pred_adjusted_stack)

# Mostrar los resultados
print("\nResultados para el Modelo Stacking con Umbral Ajustado:")
print(f"Accuracy: {accuracy_stack:.4f}")
print(f"Precision: {precision_stack:.4f}")
print(f"Recall: {recall_stack:.4f}")
print(f"F1-Score: {f1_stack:.4f}")

# Reporte de Clasificación con el umbral ajustado
print("\nReporte de Clasificación para el Modelo Stacking con Umbral Ajustado:\n", classification_report(y_test, y_pred_adjusted_stack))

# Graficar la Curva ROC para el modelo Stacking
fpr_stack, tpr_stack, _ = roc_curve(y_test, y_pred_proba_stack)
roc_auc_stack = auc(fpr_stack, tpr_stack)

plt.figure(figsize=(8, 6))
plt.plot(fpr_stack, tpr_stack, color='purple', lw=2, label=f'Stacking ROC curve (AUC = {roc_auc_stack:.2f})')
plt.plot([0, 1], [0, 1], color='grey', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC - Stacking con Random Forest y XGBoost')
plt.legend(loc="lower right")
plt.show()

# Validación cruzada en el modelo de Stacking
cv_scores_stack = cross_val_score(stacking_clf, X_train_selected, y_train_resampled, cv=5, scoring='f1')
print(f"Cross-Validation F1-Score (Mean): {cv_scores_stack.mean():.4f}")
print(f"Cross-Validation F1-Score (Std): {cv_scores_stack.std():.4f}")

In [35]:
import ipywidgets as widgets
from ipywidgets import interact
import pandas as pd

# Supongamos que df3 es el DataFrame que contiene las variables predictoras (features) y la variable target

# Variables predictoras (asegúrate de que coincidan con las usadas durante el entrenamiento)
features = ["EDAD", "MAX_SITUACION_BCRA", "SCORE_EXTERNO", "CUOTAS", "DIAS_MORA"] + dummy_columns

# Extraer valores únicos de las variables categóricas del DataFrame original (df2 en tu caso)
unique_sucursales = df2["SUCURSAL"].unique()
unique_categoria_cliente = df2["CATEGORIA_CLIENTE"].unique()
unique_score_interno = df2["SCORE_INTERNO"].unique()
unique_nse_externo = df2["NSE_EXTERNO"].unique()
unique_tipo_entidad = df2["TIPO_ENTIDAD_PRESTAMO"].unique()

# Definir widgets según el tipo de columna
def create_widget(col):
    if col == "SUCURSAL":
        # Lista desplegable para Sucursales
        return widgets.Dropdown(
            options=unique_sucursales,
            description="Sucursal",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='300px')
        )
    elif col == "CATEGORIA_CLIENTE":
        # Lista desplegable para Categoría Cliente
        return widgets.Dropdown(
            options=unique_categoria_cliente,
            description="Categoría Cliente",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='300px')
        )
    elif col == "SCORE_INTERNO":
        # Lista desplegable para Score Interno
        return widgets.Dropdown(
            options=unique_score_interno,
            description="Score Interno",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='300px')
        )
    elif col == "NSE_EXTERNO":
        # Lista desplegable para NSE Externo
        return widgets.Dropdown(
            options=unique_nse_externo,
            description="NSE Externo",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='300px')
        )
    elif col == "TIPO_ENTIDAD_PRESTAMO":
        # Lista desplegable para Tipo de Entidad de Préstamo
        return widgets.Dropdown(
            options=unique_tipo_entidad,
            description="Tipo de Entidad",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='300px')
        )
    elif col == "EDAD":
        # Slider para la edad (18 a 99 años)
        return widgets.IntSlider(
            value=int(df3[col].mean()),
            min=18,
            max=99,
            step=1,
            description="Edad",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='400px')
        )
    elif col == "SCORE_EXTERNO":
        # Slider para el Score Externo (0 a 999)
        return widgets.IntSlider(
            value=int(df3[col].mean()),
            min=0,
            max=999,
            step=1,
            description="Score Externo",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='400px')
        )
    elif col == "DIAS_MORA":
        # Slider para los Días de Mora (0 a 999)
        return widgets.IntSlider(
            value=int(df3[col].mean()),
            min=0,
            max=999,
            step=1,
            description="Días de Mora",
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='400px')
        )
    else:
        # Campos numéricos rellenables para otras variables
        return widgets.FloatText(
            value=df3[col].mean(),
            description=col,
            style={'description_width': 'initial'},
            layout=widgets.Layout(width='300px')
        )

# Crear un diccionario de widgets para las columnas
widgets_dict = {
    "SUCURSAL": create_widget("SUCURSAL"),
    "CATEGORIA_CLIENTE": create_widget("CATEGORIA_CLIENTE"),
    "SCORE_INTERNO": create_widget("SCORE_INTERNO"),
    "NSE_EXTERNO": create_widget("NSE_EXTERNO"),
    "TIPO_ENTIDAD_PRESTAMO": create_widget("TIPO_ENTIDAD_PRESTAMO"),
    "EDAD": create_widget("EDAD"),
    "SCORE_EXTERNO": create_widget("SCORE_EXTERNO"),
    "DIAS_MORA": create_widget("DIAS_MORA"),
}

# Definir la función de clasificación que se utilizará con los widgets
def classify_model(**kwargs):
    # Extraer valores ingresados por el usuario
    input_data = pd.DataFrame([kwargs])

    # Asegurar que las columnas de entrada coincidan con las características utilizadas en el modelo
    input_data = input_data.reindex(columns=features, fill_value=0)

    # Escalar los datos de entrada usando el mismo scaler que se usó para entrenar el modelo
    input_data_scaled = scaler.transform(input_data)

    # Predecir usando el modelo Stacking (stacking_clf) o el modelo base
    prediction_proba = stacking_clf.predict_proba(input_data_scaled)[:, 1]

    # Aplicar el umbral ajustado para Stacking
    prediction_adjusted = (prediction_proba >= best_threshold_stack).astype(int)

    # Mostrar resultados
    print(f"Probabilidad de Mora: {prediction_proba[0]:.2f}")
    print(f"Predicción Final: {'Mora' if prediction_adjusted[0] == 1 else 'No Mora'}")

# Crear el interactivo con widgets
interact(classify_model, **widgets_dict);

interactive(children=(Dropdown(description='Sucursal', layout=Layout(width='300px'), options=('S012000', 'S014…

# Widgets nuevos

In [31]:
import ipywidgets as widgets
from ipywidgets import interact, interactive, fixed
import numpy as np
import pandas as pd

# Supongamos que df3 es el DataFrame que contiene las variables predictoras (features) y la variable target

# Variables predictoras
features = ["EDAD", "MAX_SITUACION_BCRA", "SCORE_EXTERNO", "CUOTAS", "DIAS_MORA"] + dummy_columns

# Extraer valores únicos para widgets desplegables (donde corresponda)
unique_values = {}
for feature in features:
    unique_values[feature] = df3[feature].unique()

# Definir widgets según el tipo de columna
def create_widget(col):
    if col in dummy_columns:
        # Lista desplegable para variables categóricas
        return widgets.Dropdown(
            options=unique_values[col],
            description=col,
            disabled=False,
        )
    elif col == "EDAD" or col == "MAX_SITUACION_BCRA" or col == "SCORE_EXTERNO" or col == "CUOTAS":
        # Sliders para valores numéricos continuos
        return widgets.IntSlider(
            value=int(df3[col].mean()),  # Valor inicial: la media de la columna
            min=int(df3[col].min()),     # Valor mínimo
            max=int(df3[col].max()),     # Valor máximo
            step=1,
            description=col,
            continuous_update=False,
        )
    elif col == "DIAS_MORA":
        # Sliders para valores numéricos de días de mora (podría tener un rango diferente)
        return widgets.IntSlider(
            value=int(df3[col].mean()),  # Valor inicial: la media
            min=int(df3[col].min()),     # Valor mínimo
            max=int(df3[col].max()),     # Valor máximo
            step=1,
            description=col,
            continuous_update=False,
        )
    else:
        # Campos numéricos rellenables
        return widgets.FloatText(
            value=df3[col].mean(),
            description=col,
            disabled=False,
        )

# Crear un diccionario de widgets para las columnas
widgets_dict = {col: create_widget(col) for col in features}

# Definir la función de clasificación que se utilizará con los widgets
def classify_model(**kwargs):
    # Extraer valores ingresados por el usuario
    input_data = pd.DataFrame([kwargs])

    # Seleccionar las mismas columnas de dummy variables utilizadas en el modelo
    input_data = input_data.reindex(columns=features, fill_value=0)

    # Escalar los datos de entrada usando el mismo scaler que usaste en el modelo
    input_data_scaled = scaler.transform(input_data)

    # Predecir usando el modelo XGBoost entrenado (best_xgb)
    prediction_proba = best_xgb.predict_proba(input_data_scaled)[:, 1]
    prediction = best_xgb.predict(input_data_scaled)

    # Mostrar resultados
    print(f"Probabilidad de Mora: {prediction_proba[0]:.2f}")
    print(f"Predicción Final: {'Mora' if prediction[0] == 1 else 'No Mora'}")

# Crear el interactivo con widgets
interact(classify_model, **widgets_dict);

interactive(children=(IntSlider(value=54, continuous_update=False, description='EDAD', max=95, min=18), IntSli…

Explicación del Código:

	1.	Crear Widgets:
	•	El código genera diferentes tipos de widgets dependiendo del tipo de variable:
	•	IntSlider para variables numéricas discretas como EDAD, MAX_SITUACION_BCRA, CUOTAS y DIAS_MORA.
	•	Dropdown para las variables categóricas que fueron transformadas con One-Hot Encoding (las dummy variables).
	•	FloatText para variables numéricas continuas cuando corresponda.
	2.	Función classify_model:
	•	Esta función recoge los valores de los widgets ingresados por el usuario, escala los datos según el mismo scaler que usaste en el modelo entrenado y luego realiza una predicción utilizando el modelo XGBoost entrenado.
	•	La función muestra tanto la probabilidad de mora como la predicción final (si es “Mora” o “No Mora”).
	3.	Función interact:
	•	interact de ipywidgets crea una interfaz interactiva que muestra los widgets y ejecuta la función classify_model en tiempo real conforme el usuario ajusta los valores de los widgets.

Personalización de Widgets:

	•	Sliders: Se usan para valores numéricos continuos o discretos. En el código, los sliders toman el valor promedio como valor inicial y usan los valores mínimos y máximos de la columna como límites.
	•	Dropdowns: Se usan para las variables categóricas, donde el usuario puede seleccionar uno de los valores únicos en el dataset.
	•	FloatText: Es un campo que permite ingresar valores continuos de manera manual.

Cómo Usar:

	•	Este código debe ejecutarse en un entorno como Jupyter Notebook o Google Colab que soporte ipywidgets.
	•	Ajusta las variables con los widgets y observa en tiempo real la predicción de mora.


------- corte old-----