## Libraries

In [2]:
from sqlalchemy import create_engine
from sqlalchemy import select
from sqlalchemy import text
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sys
sys.path.append('..')
from scripts.function import *

## Silver Schema

### Credenciales

In [None]:
credenciales_felipe = "mysql+pymysql://root:Enero182005%@127.0.0.1:3306/bronze"
engine = create_engine(credenciales_felipe, echo=True)

In [2]:
try:
    engine_pablo = create_engine("mysql+pymysql://root:juanMySQL0513.@localhost/bronze")
    print("Database connection successful!")
except Exception as e:
    print(f"Database connection failed: {str(e)}")
    raise

Database connection successful!


In [None]:
credenciales_alexis = "mysql+pymysql://root:3136892780a@localhost:3306/bronze"
engine_alexis = create_engine(credenciales_alexis, echo=True)

### EDA tabla `application_train`

#### Descripción de las tablas

La `tabla application_train`.csv contienen información detallada sobre las solicitudes de crédito de los clientes en el marco del problema de riesgo crediticio de Home Credit. Cada fila representa una solicitud de préstamo hecha por un cliente, e incluye una variedad de variables que permiten caracterizar tanto su situación personal como financiera, con el objetivo de evaluar la probabilidad de incumplimiento en el pago del crédito.

Las variables de esta tabla abarcan múltiples aspectos del cliente. Entre ellas se encuentran datos demográficos como la edad, el género, el estado civil, el número de hijos y el nivel educativo. También incluye información relacionada con el empleo y los ingresos del cliente, como el tipo de ocupación, el ingreso total declarado y la antigüedad laboral. En cuanto al préstamo solicitado, se incluyen detalles como el tipo de contrato, el monto del crédito, el valor del bien a financiar y el monto de la anualidad que debe pagar el cliente.

Además, la tabla registra condiciones de vivienda (como si el cliente posee casa o automóvil, el tipo de vivienda, y características físicas del inmueble), información sobre medios de contacto y localización geográfica, y puntuaciones externas proporcionadas por fuentes anónimas que estiman el nivel de riesgo crediticio del cliente. También se incluyen indicadores binarios que señalan incongruencias entre el lugar de residencia y el lugar de trabajo, o si el cliente cambió recientemente su documento de identidad.

#### Descripcion de las columnas

Dado que la `tabla application_train.csv` contiene una gran cantidad de variables, muchas de las cuales resultan redundantes o poco relevantes para el análisis del riesgo crediticio —ya sea porque aportan información que se encuentra explícita en otras columnas, porque presentan una baja utilidad predictiva o porque ya están presentes en otras tablas de la base de datos—, se ha decidido omitir la descripción detallada de estas en este documento. Esta decisión responde a una futura depuración del conjunto de datos, en la que estas variables serán eliminadas para simplificar el análisis y optimizar el rendimiento de los modelos.

Sin embargo, si en algún momento un analista o investigador desea profundizar en el estudio de estas variables excluidas, puede consultar la descripción completa en el archivo `HomeCredit_columns_description.csv`, el cual contiene una explicación detallada de todas las columnas disponibles en el conjunto de datos original

In [None]:
df_train= pd.read_sql("select * from application_train", engine)


In [None]:
df_train

In [None]:
df_train.info(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48744 entries, 0 to 48743
Data columns (total 122 columns):
 #    Column                        Dtype  
---   ------                        -----  
 0    SK_ID_CURR                    int64  
 1    TARGET                        int64  
 2    NAME_CONTRACT_TYPE            object 
 3    CODE_GENDER                   object 
 4    FLAG_OWN_CAR                  object 
 5    FLAG_OWN_REALTY               object 
 6    CNT_CHILDREN                  int64  
 7    AMT_INCOME_TOTAL              float64
 8    AMT_CREDIT                    float64
 9    AMT_ANNUITY                   float64
 10   AMT_GOODS_PRICE               float64
 11   NAME_TYPE_SUITE               object 
 12   NAME_INCOME_TYPE              object 
 13   NAME_EDUCATION_TYPE           object 
 14   NAME_FAMILY_STATUS            object 
 15   NAME_HOUSING_TYPE             object 
 16   REGION_POPULATION_RELATIVE    float64
 17   DAYS_BIRTH                    int64  
 18   DAYS

#### Limpieza de datos

In [None]:
##valores nulos
valores_nulos = df_train.isnull().sum().to_frame()
valores_nulos= valores_nulos[valores_nulos[0]>0]
valores_nulos

In [None]:
conteo=((df_train=="")).sum().to_frame()
conteo=conteo[conteo[0]>0]
conteo

Una vez identificadas las columnas que presentaban valores vacios se procedio a cambiar este valor por not specified or others dependiendo del concepto del significado de la columna y sus valores.

In [None]:
df_train["NAME_TYPE_SUITE"].value_counts()  

In [None]:
df_train["NAME_TYPE_SUITE"].replace("", "Unaccompanied", inplace=True)

In [None]:
df_train.OCCUPATION_TYPE.value_counts()

In [None]:
df_train["OCCUPATION_TYPE"].replace("", "Others", inplace=True)

In [None]:
df_train.FONDKAPREMONT_MODE.value_counts()

In [None]:
df_train.HOUSETYPE_MODE.value_counts()

In [None]:
df_train["WALLSMATERIAL_MODE"].value_counts()

In [None]:
df_train["EMERGENCYSTATE_MODE"].value_counts()

In [None]:
variables=["FONDKAPREMONT_MODE","HOUSETYPE_MODE","WALLSMATERIAL_MODE","EMERGENCYSTATE_MODE"]
for variable in variables:
    df_train[variable].replace("", "not specified", inplace=True)

Durante el análisis, se identificó que las columnas con el prefijo "days" presentaban valores negativos, lo cual generaba una considerable confusión al interpretar la cronología de los datos. Para resolver esta inconsistencia y preparar adecuadamente el conjunto de datos, el analista procedió a realizar una limpieza. En primer lugar, se convirtieron todos esos valores negativos a su equivalente positivo para eliminar la ambigüedad. la columna `DAYS_BIRTH` se normaliza a años para mejorar la interpretacion de este dato

In [None]:
# Filtrar columnas que contienen 'DAYS' 
df_days = df_train[[col for col in df_train.columns if 'DAYS' in col.upper()]]
df_days

### EDA tablas `credit_card_balance` y `installments_payments`

In [None]:
df_credit_data = pd.read_sql("select * from credit_card_balance", engine_pablo)
df_installments = pd.read_sql("select * from installments_payments", engine_pablo)

#### Descripción de las tablas

`installments_payments`

Esta tabla contiene información detallada sobre los pagos realizados por los clientes en relación con las cuotas de créditos anteriores. Cada fila representa una cuota específica, incluyendo tanto la fecha programada como la fecha real del pago, así como los montos relacionados. Los datos permiten analizar el comportamiento de pago de los clientes, identificar atrasos, pagos incompletos o adelantados, y evaluar su responsabilidad financiera en créditos pasados.

`credit_card_balance`

Esta tabla representa el historial mensual del comportamiento de los clientes con sus tarjetas de crédito. Incluye información como el saldo de la tarjeta, el límite de crédito, los montos retirados, los pagos realizados y el estado del contrato mes a mes. Es útil para analizar patrones de gasto, nivel de endeudamiento, frecuencia de uso del crédito, cumplimiento de pagos y posibles señales de riesgo financiero.

#### Analisis y limpieza credit_card_balance


In [None]:
df_credit_data.dtypes

SK_ID_PREV                      int64
SK_ID_CURR                      int64
MONTHS_BALANCE                  int64
AMT_BALANCE                   float64
AMT_CREDIT_LIMIT_ACTUAL         int64
AMT_DRAWINGS_ATM_CURRENT      float64
AMT_DRAWINGS_CURRENT          float64
AMT_DRAWINGS_OTHER_CURRENT    float64
AMT_DRAWINGS_POS_CURRENT      float64
AMT_INST_MIN_REGULARITY       float64
AMT_PAYMENT_CURRENT           float64
AMT_PAYMENT_TOTAL_CURRENT     float64
AMT_RECEIVABLE_PRINCIPAL      float64
AMT_RECIVABLE                 float64
AMT_TOTAL_RECEIVABLE          float64
CNT_DRAWINGS_ATM_CURRENT      float64
CNT_DRAWINGS_CURRENT            int64
CNT_DRAWINGS_OTHER_CURRENT    float64
CNT_DRAWINGS_POS_CURRENT      float64
CNT_INSTALMENT_MATURE_CUM     float64
NAME_CONTRACT_STATUS           object
SK_DPD                          int64
SK_DPD_DEF                      int64
dtype: object

- `SK_ID_PREV`: ID de crédito (anterior), sirve como clave para unir datos anteriores de la misma solicitud.

- `SK_ID_CURR`: ID del cliente que permite unir los datos con el cliente principal en application.csv.

- `MONTHS_BALANCE`: Mes relativo del saldo del crédito con respecto a la fecha de aplicación (0 es el mes más reciente).

- `AMT_BALANCE`: Monto del saldo restante en la tarjeta de crédito.

- `AMT_CREDIT_LIMIT_ACTUAL`: Límite de crédito actual de la tarjeta.

- `AMT_DRAWINGS_ATM_CURRENT`: Monto total retirado en cajeros automáticos ese mes.

- `AMT_DRAWINGS_CURRENT`: Monto total retirado en el mes (incluye cajero, POS, otros).

- `AMT_DRAWINGS_OTHER_CURRENT`: Monto retirado por otros medios que no sean cajero o POS
.
- `AMT_DRAWINGS_POS_CURRENT`: Monto retirado en puntos de venta (POS).

- `AMT_INST_MIN_REGULARITY`: Pago mínimo mensual requerido.

- `AMT_PAYMENT_CURRENT`: Monto pagado en el mes.

- `AMT_PAYMENT_TOTAL_CURRENT`: Total de pagos en el mes (puede incluir pagos atrasados).

- `AMT_RECEIVABLE_PRINCIPAL`: Monto del principal que aún debe pagarse.

- `AMT_RECIVABLE`: Monto total que el cliente debe (principal + intereses).

- `AMT_TOTAL_RECEIVABLE`: Monto total por cobrar, incluyendo posibles cargos adicionales.

- `CNT_DRAWINGS_ATM_CURRENT`: Número de veces que el cliente retiró dinero en cajero automático ese mes.

- `CNT_DRAWINGS_CURRENT`: Número total de transacciones de retiro del mes.

- `CNT_DRAWINGS_OTHER_CURRENT`: Número de transacciones de retiro en canales diferentes a cajero y POS.

- `CNT_DRAWINGS_POS_CURRENT`: Número de transacciones en POS ese mes.

- `CNT_INSTALMENT_MATURE_CUM`: Número de cuotas del crédito que se han vencido hasta ese momento.

- `NAME_CONTRACT_STATUS`: Estado del contrato en ese mes (Activo, Cerrado, etc.).

- `SK_DPD`: Días de atraso del pago (sin considerar los pagos atrasados anteriores).

- `SK_DPD_DEF`: Días de atraso considerados como morosidad con penalidad.


In [None]:
df_credit_data.isnull().sum()

SK_ID_PREV                    0
SK_ID_CURR                    0
MONTHS_BALANCE                0
AMT_BALANCE                   0
AMT_CREDIT_LIMIT_ACTUAL       0
AMT_DRAWINGS_ATM_CURRENT      0
AMT_DRAWINGS_CURRENT          0
AMT_DRAWINGS_OTHER_CURRENT    0
AMT_DRAWINGS_POS_CURRENT      0
AMT_INST_MIN_REGULARITY       0
AMT_PAYMENT_CURRENT           0
AMT_PAYMENT_TOTAL_CURRENT     0
AMT_RECEIVABLE_PRINCIPAL      0
AMT_RECIVABLE                 0
AMT_TOTAL_RECEIVABLE          0
CNT_DRAWINGS_ATM_CURRENT      0
CNT_DRAWINGS_CURRENT          0
CNT_DRAWINGS_OTHER_CURRENT    0
CNT_DRAWINGS_POS_CURRENT      0
CNT_INSTALMENT_MATURE_CUM     0
NAME_CONTRACT_STATUS          0
SK_DPD                        0
SK_DPD_DEF                    0
dtype: int64

`Observación sobre precisión decimal`

Se identificó una inconsistencia en la precisión decimal de las columnas `AMT`, con valores mostrados con 1, 2 o 3 decimales según la herramienta (Pandas o SQL). Para estandarizar el tratamiento de montos monetarios, se actualizará el dataset redondeando todos los valores flotantes de columnas `AMT` a 2 decimales, conforme al estándar financiero internacional.


In [None]:
# observar la columna de AMT_BALANCE como ejemplo opara ver si debemos de manipular las decimas
df_credit_data['AMT_BALANCE'].head(5)

0        56.970
1     63975.555
2     31815.225
3    236572.110
4    453919.455
Name: AMT_BALANCE, dtype: float64

In [None]:
# Estandarizar todas las columnas de tipo float64 a 2 decimales
# Identificar columnas de tipo float64
columnas_float = df_credit_data.select_dtypes(include=['float64']).columns

# Redondear todas las columnas float64 a 2 decimales
df_credit_data[columnas_float] = df_credit_data[columnas_float].round(2)

print(f"Columnas redondeadas a 2 decimales: {list(columnas_float)}")
print(f"Total de columnas procesadas: {len(columnas_float)}")

Columnas redondeadas a 2 decimales: ['AMT_BALANCE', 'AMT_DRAWINGS_ATM_CURRENT', 'AMT_DRAWINGS_CURRENT', 'AMT_DRAWINGS_OTHER_CURRENT', 'AMT_DRAWINGS_POS_CURRENT', 'AMT_INST_MIN_REGULARITY', 'AMT_PAYMENT_CURRENT', 'AMT_PAYMENT_TOTAL_CURRENT', 'AMT_RECEIVABLE_PRINCIPAL', 'AMT_RECIVABLE', 'AMT_TOTAL_RECEIVABLE', 'CNT_DRAWINGS_ATM_CURRENT', 'CNT_DRAWINGS_OTHER_CURRENT', 'CNT_DRAWINGS_POS_CURRENT', 'CNT_INSTALMENT_MATURE_CUM']
Total de columnas procesadas: 15


La columna `AMT_DRAWINGS_CURRENT` y `CNT_DRAWINGS_CURRENT` son redundantes, ya que se pueden obtenerse directamente como la suma de `AMT_DRAWINGS_ATM_CURRENT`, `AMT_DRAWINGS_POS_CURRENT` y `AMT_DRAWINGS_OTHER_CURRENT` y su equivakente para la otra columna. Mantenerla genera riesgo de inconsistencias si los componentes cambian y contribuye a un mayor consumo de espacio. Por tanto, se eliminará y calcularla solo cuando sea necesario.

In [None]:
#Eliminar la columna AMT_DRAWINGS_CURRENT y CNT_DRAWINGS_CURRENT
df_credit_data.drop(columns=['AMT_DRAWINGS_CURRENT', 'CNT_DRAWINGS_CURRENT'], inplace=True)

In [None]:
df_credit_data['AMT_CREDIT_LIMIT_ACTUAL'].head(5)

0    135000
1     45000
2    450000
3    225000
4    450000
Name: AMT_CREDIT_LIMIT_ACTUAL, dtype: int64

La columna `AMT_DRAWINGS_OTHER_CURRENT` presenta valores distintos de cero en solo 3 registros de casi 3 millones, lo que indica una variabilidad extremadamente baja. Debido a su baja frecuencia y escasa relevancia analítica, se considera irrelevante para el análisis o modelado predictivo. Se recomienda eliminarla para optimizar el tamaño y la eficiencia del dataset.


In [None]:
df_credit_data.drop(columns=['AMT_DRAWINGS_OTHER_CURRENT'], inplace=True)

La columna `SK_DPD_DEF` será eliminada del dataset, ya que contiene información redundante respecto a `SK_DPD` y está vacía en casi la totalidad de los registros. No aporta valor al análisis y representa una fuente potencial de ruido.


In [None]:
df_credit_data.drop(columns=['SK_DPD_DEF'], inplace=True)

In [None]:
# cambiar nombre de la columna para eviar inconsistencias en la base de datos 
df_credit_data = df_credit_data.rename(columns={'AMT_RECIVABLE': 'AMT_RECEIVABLE'})

`Conteo de Clientes Únicos`

`Objetivo`
Determinar el número total de clientes únicos en el dataset para entender la escala del análisis y la distribución de datos por cliente.

In [None]:
# Conteo de clientes únicos
obtener_conteo_clientes_unicos(engine_pablo)

=== CONTEO DE CLIENTES ÚNICOS ===
Total de clientes únicos: 103,558
Total de registros: 3,840,312
Promedio de registros por cliente: 37.1


Unnamed: 0,total_clientes_unicos,total_registros,promedio_registros_por_cliente
0,103558,3840312,37.0837


`Análisis Exploratorio con Consultas SQL`

`Objetivo`
Realizar análisis exploratorio del dataset `credit_card_balance` utilizando consultas SQL directas para identificar patrones de comportamiento crediticio y señales de riesgo, sin crear variables redundantes en el DataFrame.

`Metodología`
- `Consultas SQL directas`: Análisis eficiente sin duplicar datos
- `Indicadores de riesgo`: Identificación de comportamientos financieros problemáticos
- `Patrones temporales`: Análisis por estado de contrato y condiciones específicas

`Variables de Análisis`
- `Saldos a favor vs deudas`: Comportamiento de pago responsable
- `Pagos atrasados`: Indicadores de dificultades financieras
- `Cargos adicionales`: Señales de problemas de cumplimiento
- `Estados de contrato`: Patrones por condición crediticia

In [None]:
# Clientes con saldo a favor
clientes_saldo_a_favor(engine_pablo)

# Clientes con deuda pendiente
clientes_con_deuda(engine_pablo)

# Casos con pagos atrasados
casos_pagos_atrasados(engine_pablo)

# Casos con cargos adicionales
casos_cargos_adicionales(engine_pablo)

Clientes con saldo a favor: 109,338 (2.85%)
Clientes con deuda pendiente: 1,617,158 (42.11%)
Casos con pagos atrasados: 0 (0.00%)
Casos con cargos adicionales: 11,244 (0.29%)


Unnamed: 0,total_cargos_adicionales,porcentaje
0,11244,0.29279


In [None]:
# Análisis por estado de contrato
analizar_estado_contrato(engine_pablo)


=== ANÁLISIS POR ESTADO DE CONTRATO ===
  NAME_CONTRACT_STATUS  total_registros  con_credito  con_deuda  \
0               Active          3698436     109098.0  1611310.0   
1            Completed           128918          0.0      132.0   
2               Signed            11058        220.0     4845.0   
3               Demand             1365         20.0      870.0   
4        Sent proposal              513          0.0        1.0   
5              Refused               17          0.0        0.0   
6             Approved                5          0.0        0.0   

   promedio_receivable  
0         60145.125866  
1             5.719435  
2         45298.992176  
3         98607.783132  
4            13.026316  
5             0.000000  
6             0.000000  


Unnamed: 0,NAME_CONTRACT_STATUS,total_registros,con_credito,con_deuda,promedio_receivable
0,Active,3698436,109098.0,1611310.0,60145.125866
1,Completed,128918,0.0,132.0,5.719435
2,Signed,11058,220.0,4845.0,45298.992176
3,Demand,1365,20.0,870.0,98607.783132
4,Sent proposal,513,0.0,1.0,13.026316
5,Refused,17,0.0,0.0,0.0
6,Approved,5,0.0,0.0,0.0


`Análisis de Comportamiento por Cliente`

`Objetivo`
Identificar patrones de comportamiento crediticio individual, analizando métricas agregadas por cliente para detectar perfiles de riesgo y responsabilidad financiera.

`Métricas Clave`
- `Total de registros`: Frecuencia de uso de la tarjeta
- `Promedio de receivable`: Nivel de endeudamiento típico
- `Meses con crédito/deuda`: Patrones de comportamiento financiero
- `Pagos atrasados`: Indicadores de riesgo crediticio
- `Utilización del límite`: Eficiencia en el uso del crédito

In [None]:
# Análisis de perfil de clientes - TODOS los clientes
analizar_perfil_clientes(engine_pablo)

=== ANÁLISIS DE PERFIL DE CLIENTES - DATASET COMPLETO ===
Total de clientes analizados: 102,551
Promedio de límite de crédito: $230,925.22
Promedio de días de atraso: 4.0
Clientes sin atrasos: 81,872
Clientes con atrasos: 20,679

=== TOP 5 CLIENTES CON MAYOR RECEIVABLE ===
 SK_ID_CURR  promedio_receivable  promedio_limite_credito  promedio_dias_atraso  ratio_utilizacion
     396144        913096.639286                 900000.0                   0.0           1.014552
     367801        902288.225000                 900000.0                   0.0           1.002542
     436340        890237.198077                 900000.0                   0.0           0.989152
     275409        886660.464600                 900000.0                   0.0           0.985178
     423582        883052.737500                 900000.0                   0.0           0.981170

=== TOP 5 CLIENTES CON MAYOR ATRASO ===
 SK_ID_CURR  promedio_receivable  promedio_limite_credito  promedio_dias_atraso  max_dias_a

Unnamed: 0,SK_ID_CURR,total_registros,promedio_receivable,promedio_limite_credito,promedio_dias_atraso,max_dias_atraso,meses_sin_atraso,meses_con_atraso,promedio_pagos,ratio_utilizacion,NAME_CONTRACT_STATUS
0,396144,7,913096.639286,900000.0000,0.0,0,7.0,0.0,38912.130000,1.014552,Active
1,367801,9,902288.225000,900000.0000,0.0,0,9.0,0.0,39252.335000,1.002542,Active
2,436340,13,890237.198077,900000.0000,0.0,0,13.0,0.0,44463.831923,0.989152,Active
3,275409,25,886660.464600,900000.0000,0.0,0,25.0,0.0,43386.305400,0.985178,Active
4,423582,6,883052.737500,900000.0000,0.0,0,6.0,0.0,38937.705000,0.981170,Active
...,...,...,...,...,...,...,...,...,...,...,...
102546,284816,33,-1735.352727,222954.5455,0.0,0,33.0,0.0,2603.029091,-0.007012,Active
102547,179113,33,-1735.352727,222954.5455,0.0,0,33.0,0.0,2603.029091,-0.007012,Active
102548,203520,4,-2430.000000,225000.0000,0.0,0,4.0,0.0,6075.000000,-0.010800,Active
102549,337680,33,-3818.181818,45000.0000,0.0,0,33.0,0.0,3818.181818,-0.084848,Active


`Análisis Comparativo: ATM vs POS`

`Objetivo`
Comparar el comportamiento de los clientes entre retiros por cajeros automáticos (ATM) y puntos de venta (POS) para identificar preferencias y patrones de uso.

In [None]:
# Análisis canal de retiros
analizar_canal_retiros(engine_pablo)


RESULTADOS DEL ANÁLISIS COMPARATIVO:
--------------------------------------------------------------------------------
canal  total_transacciones  total_monto_retirado  promedio_monto  clientes_unicos  porcentaje_transacciones
  ATM               424777          1.842346e+10    43372.068979            60032                  70.68943
  POS               264901          9.175080e+09    34635.880976            40824                  44.08360

ANÁLISIS DETALLADO:

CANAL ATM:
   Total de transacciones: 424,777
   Monto total retirado: $18,423,457,344.59
   Promedio por transacción: $43,372.07
   Clientes únicos: 60,032
   Porcentaje del total de transacciones: 70.7%

CANAL POS:
   Total de transacciones: 264,901
   Monto total retirado: $9,175,079,506.55
   Promedio por transacción: $34,635.88
   Clientes únicos: 40,824
   Porcentaje del total de transacciones: 44.1%

COMPARACIONES:
   Diferencia en transacciones: 159,876
   Diferencia en monto total: $9,248,377,838.04
   Diferencia en prom

Unnamed: 0,canal,total_transacciones,total_monto_retirado,promedio_monto,clientes_unicos,porcentaje_transacciones
0,ATM,424777,18423460000.0,43372.068979,60032,70.68943
1,POS,264901,9175080000.0,34635.880976,40824,44.0836


#### Analisis y limpieza installments_payments

In [None]:
df_installments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13605401 entries, 0 to 13605400
Data columns (total 8 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   SK_ID_PREV              int64  
 1   SK_ID_CURR              int64  
 2   NUM_INSTALMENT_VERSION  int64  
 3   NUM_INSTALMENT_NUMBER   int64  
 4   DAYS_INSTALMENT         int64  
 5   DAYS_ENTRY_PAYMENT      int64  
 6   AMT_INSTALMENT          float64
 7   AMT_PAYMENT             float64
dtypes: float64(2), int64(6)
memory usage: 830.4 MB


- `SK_ID_PREV`: ID del crédito anterior asociado al cliente. Permite enlazar este pago con un préstamo previo.

- `SK_ID_CURR`: ID del cliente, usado para unir esta información con la solicitud principal en application.csv.

- `NUM_INSTALMENT_VERSION`: Número de versión del calendario de pagos del crédito anterior. Indica cambios en las condiciones del préstamo (ej. refinanciaciones).

- `NUM_INSTALMENT_NUMBER``: Número secuencial de la cuota a la que corresponde el pago registrado.

- `DAYS_INSTALMENT`: Día programado para el pago de esa cuota, contado de forma relativa a la fecha de solicitud del crédito actual (negativo).

- `DAYS_ENTRY_PAYMENT`: Día en que efectivamente se realizó el pago, relativo a la fecha de solicitud (puede ser antes o después del esperado).

- `AMT_INSTALMENT`: Valor monetario que se esperaba pagar en esa cuota.

- `AMT_PAYMENT`: Valor monetario que realmente se pagó en esa cuota (puede ser menor, igual o mayor que el esperado).

In [None]:
df_installments.isnull().sum()

SK_ID_PREV                0
SK_ID_CURR                0
NUM_INSTALMENT_VERSION    0
NUM_INSTALMENT_NUMBER     0
DAYS_INSTALMENT           0
DAYS_ENTRY_PAYMENT        0
AMT_INSTALMENT            0
AMT_PAYMENT               0
dtype: int64

`Pasar a datos correctos y estandarizados`, las columnas que deberian de estar en entero como los dias, lo mismo la versión, también al igual que para el dataframe anterior, se estandarizaran los valores monetarios a dos cifras decimales

In [None]:
df_installments[['AMT_INSTALMENT', 'AMT_PAYMENT']].head()

Unnamed: 0,AMT_INSTALMENT,AMT_PAYMENT
0,6948.36,6948.36
1,1716.525,1716.525
2,25425.0,25425.0
3,24350.13,24350.13
4,2165.04,2160.585


In [None]:
# Pasar las columnas monetarias a cifras decimales de dos cifras

df_installments[['AMT_INSTALMENT', 'AMT_PAYMENT']] = df_installments[['AMT_INSTALMENT', 'AMT_PAYMENT']].round(2)
df_installments[['AMT_INSTALMENT', 'AMT_PAYMENT']].head()

Unnamed: 0,AMT_INSTALMENT,AMT_PAYMENT
0,6948.36,6948.36
1,1716.52,1716.52
2,25425.0,25425.0
3,24350.13,24350.13
4,2165.04,2160.58


In [None]:
# Convertir las columnas float64 a int
cols_to_convert = ['NUM_INSTALMENT_VERSION', 'DAYS_INSTALMENT', 'DAYS_ENTRY_PAYMENT']

# Asegúrate de que no hay valores nulos
df_installments[cols_to_convert] = df_installments[cols_to_convert].fillna(0).astype(int)
df_installments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13605401 entries, 0 to 13605400
Data columns (total 8 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   SK_ID_PREV              int64  
 1   SK_ID_CURR              int64  
 2   NUM_INSTALMENT_VERSION  int64  
 3   NUM_INSTALMENT_NUMBER   int64  
 4   DAYS_INSTALMENT         int64  
 5   DAYS_ENTRY_PAYMENT      int64  
 6   AMT_INSTALMENT          float64
 7   AMT_PAYMENT             float64
dtypes: float64(2), int64(6)
memory usage: 830.4 MB


`Análisis Exploratorio con Consultas SQL: installments_payments`

`Objetivo`
Realizar análisis exploratorio del dataset `installments_payments` utilizando consultas SQL directas para identificar patrones de comportamiento de pago, atrasos, cumplimiento y señales de riesgo, sin crear variables redundantes en el DataFrame.

`Metodología`
- `Consultas SQL directas:` Análisis eficiente sobre la base de datos, evitando duplicidad de datos en memoria.
- `Indicadores de riesgo:` Identificación de pagos atrasados, incompletos o adelantados.
- `Patrones temporales:` Análisis por número de cuota, versión de calendario y diferencias entre fechas programadas y reales de pago.

`Variables de Análisis`
- `Pagos completos vs incompletos:` Proporción de cuotas pagadas en su totalidad, parcialmente o en exceso.
- `Pagos atrasados vs adelantados:` Diferencia entre `DAYS_ENTRY_PAYMENT` y `DAYS_INSTALMENT` para identificar atrasos o adelantos en el pago.
- `Montos esperados vs montos pagados` Comparación entre `AMT_INSTALMENT` y `AMT_PAYMENT` para detectar incumplimientos o pagos extraordinarios.
- `Versiones de calendario de pagos:` Análisis de refinanciaciones o cambios en las condiciones del préstamo (`NUM_INSTALMENT_VERSION`).
- `Patrones por cliente:` Agrupación por `SK_ID_CURR` para identificar perfiles de riesgo y responsabilidad financiera.


In [None]:
# Total de pagos realizados y promedio por cliente
obtener_pagos_por_cliente(engine_pablo)

# Pagos atrasados: diferencia entre DAYS_ENTRY_PAYMENT y DAYS_INSTALMENT
obtener_resumen_atrasos(engine_pablo)

# Distribución de pagos incompletos
obtener_distribucion_incompletos(engine_pablo)


=== TOP 10 CLIENTES CON MÁS PAGOS ===
 SK_ID_CURR  total_pagos  promedio_instalment  promedio_payment  pagos_incompletos  pagos_excedidos
     145728          372          8038.891694       6494.796653              113.0              2.0
     296205          350         10790.425543       9908.791329               38.0              0.0
     453103          347         18115.880836      17856.514841               31.0              0.0
     189699          344          7922.772863       7444.101453               37.0             10.0
     186851          337         23404.337893      22914.171454               10.0              0.0
     172690          336         12160.873661      12160.873661                0.0              0.0
     418081          332         12322.223946      11897.055542               10.0              0.0
     192083          324          8904.947639       9038.517778               19.0              4.0
     434807          323         14041.406006       9680.87563

Unnamed: 0,total_incompletos,promedio_diferencia
0,1298353,7590.486283


#### Subir base de datos limpia a silver

In [None]:
# Guardar los DataFrames procesados en la base de datos 'bronze' en el esquema 'silver'
try:
    df_credit_data.to_sql("credit_card_balance", engine_pablo, if_exists='replace', index=False, schema='silver')
    df_installments.to_sql("installments_payments", engine_pablo, if_exists='replace', index=False, schema='silver')
    print("DataFrames guardados exitosamente en la base de datos silver")
except Exception as e:
    print(f"Error al guardar los DataFrames: {e}")

DataFrames guardados exitosamente en la base de datos silver


### EDA tablas `previous_application` y `POS_CASH_balance`

In [None]:
df_POS = pd.read_sql_table("pos_cash_balance", credenciales_alexis)
df_previous = pd.read_sql_table("previous_application", credenciales_alexis)

#### Configuración para visualización adecuada

In [None]:
pd.set_option('display.max_columns', None)

#### Visualización preliminar



##### Descripción de tablas
`pos_cash_balance.csv`
###### Descripción general:
Esta tabla contiene snapshots mensuales (registros instantáneos) del estado de los créditos anteriores tipo "POS" (Point of Sale) o "cash loans" otorgados por Home Credit a los solicitantes.
Cada fila representa el estado de un crédito en un mes determinado.
Muestra la evolución mensual de cada crédito anterior del cliente.
Relacionada con la tabla `previous_application.csv` mediante `SK_ID_PREV`.
###### Relaciones:
Llave foránea con `SK_ID_PREV` que viene de `previous_application.csv`.
Llave foránea con `SK_ID_CURR`, el ID del cliente (también en `application_train/test.csv`)
###### Análisis:
Evolución mensual del cumplimiento de pagos.
Detectar morosidades acumuladas (con `SK_DPD` y `SK_DPD_DEF`).
Comparar estado de pagos vs. número de cuotas pendientes (CNT_INSTALMENT_FUTURE).
Determinar si alguien terminó o canceló anticipadamente un crédito.

`previous_application.csv`
###### Descripción general:
Esta tabla contiene todas las solicitudes anteriores de crédito que hizo el cliente en Home Credit, ya sea aprobadas, rechazadas o canceladas.
Cada fila representa una solicitud previa de préstamo del cliente.
Contiene información sobre el préstamo solicitado, montos, propósito, tipo de contrato, estado, etc.
Puede tener múltiples filas por cliente (una por cada solicitud previa).
###### Relaciones:
Llave primaria: `SK_ID_PREV` (también usada en `POS_CASH_balance`, `installments_payments`, etc.)
Llave foránea: `SK_ID_CURR` para unir con la aplicación actual del cliente.
###### Análisis:
Historial de aprobación/rechazo del cliente.
Comparar monto solicitado vs. aprobado.
Determinar preferencias de pago o propósito del préstamo.
Segmentación de clientes según tipo, canal, propósito.
Relacionar tasa de interés con tipo de cliente y resultado.


##### Descripción de Columnas
`pos_cash_balance.csv`
- `SK_ID_PREV` -> ID del crédito anterior en Home Credit que está relacionado con el préstamo actual del cliente (en `application_train` o `application_test`). Un cliente puede tener 0 o más créditos anteriores, y cada uno tendrá múltiples registros en esta tabla (uno por mes de seguimiento).
- `SK_ID_CURR` -> ID del cliente actual (préstamo actual en muestra). Permite identificar a qué solicitud actual pertenece el historial de pagos pasados. Se encuentra también en `application_{train/test}`
- `MONTHS_BALANCE` -> Mes relativo respecto a la fecha de solicitud actual. Valores negativos indican meses en el pasado. 0 suele coincidir con el más reciente (-1) porque muchos bancos no actualizan mensualmente la información. Ejemplo: -3 indica 3 meses antes de la solicitud actual.
- `CNT_INSTALMENT` -> Número total de cuotas (plazo) del crédito anterior en ese momento del tiempo. Puede cambiar con el tiempo si hay reestructuración del crédito o modificaciones del contrato.
- `CNT_INSTALMENT_FUTURE` -> Número de cuotas restantes por pagar en ese mes. Permite saber cuánto faltaba por saldar. Es útil para calcular el nivel de endeudamiento aún vigente en el momento de la solicitud actual.
- `NAME_CONTRACT_STATUS` ->	Estado del contrato del crédito anterior en ese mes. Posibles valores incluyen: `Active`, `Completed`, `Signed`, `Demand`, `Returned to the store`, `Approved`, `Canceled`, `Amortized debt`, etc. Este campo indica si el crédito seguía vigente, había sido saldado, estaba en mora, etc.
- `SK_DPD` -> Días de mora sin tolerancia en ese mes para ese crédito anterior. Es decir, cuántos días se retrasó en el pago con respecto a lo pactado. 0 indica cumplimiento puntual.
- `SK_DPD_DEF` -> Días de mora contable (con tolerancia). Algunas pequeñas deudas pueden ser ignoradas por política. Este valor refleja la mora considerada relevante. Usado a menudo para análisis de riesgo más realistas.

`previous_application.csv`
- `SK_ID_PREV` -> ID del crédito anterior en Home Credit relacionado con un préstamo actual del cliente. Un cliente puede tener 0 o más créditos anteriores y cada uno tendrá múltiples registros en esta tabla.
- `SK_ID_CURR` -> ID del cliente actual (préstamo en muestra). Permite vincular la solicitud actual con créditos anteriores.
- `NAME_CONTRACT_TYPE` -> Tipo de producto del contrato (por ejemplo, préstamo en efectivo, préstamo de consumo [POS], etc.).
- `AMT_ANNUITY` -> Anualidad de la aplicación anterior.
- `AMT_APPLICATION` -> Monto solicitado por el cliente en la aplicación anterior.
- `AMT_CREDIT` -> Monto final de crédito aprobado. Puede diferir del monto solicitado (`AMT_APPLICATION`).
- `AMT_DOWN_PAYMENT` -> Pago inicial en la aplicación anterior.
- `AMT_GOODS_PRICE` -> Precio de los bienes que el cliente pidió (si aplica) en la aplicación anterior.
- `WEEKDAY_APPR_PROCESS_START` -> Día de la semana en que se realizó la solicitud anterior.
- `HOUR_APPR_PROCESS_START` -> Hora aproximada del día en que se realizó la solicitud anterior (redondeado).
- `FLAG_LAST_APPL_PER_CONTRACT` -> Indica si fue la última solicitud para el contrato anterior.
- `NFLAG_LAST_APPL_IN_DAY` -> Indica si fue la última aplicación del día del cliente.
- `NFLAG_MICRO_CASH` -> Indica si fue un préstamo de microfinanzas.
- `RATE_DOWN_PAYMENT` -> Tasa del pago inicial normalizada con respecto al crédito anterior.
- `RATE_INTEREST_PRIMARY` -> Tasa de interés normalizada principal.
- `RATE_INTEREST_PRIVILEGED` -> Tasa de interés privilegiada normalizada.
- `NAME_CASH_LOAN_PURPOSE` -> Propósito del préstamo en efectivo.
- `NAME_CONTRACT_STATUS` -> Estado del contrato anterior. Ejemplos: `Approved`, `Cancelled`, `Refused`, `Unused offer`, `Signed`, `Completed`.
- `DAYS_DECISION` -> Días relativos a la solicitud actual en que se tomó la decisión sobre la solicitud anterior.
- `NAME_PAYMENT_TYPE` -> Método de pago elegido para la solicitud anterior.
- `CODE_REJECT_REASON` -> Razón del rechazo de la aplicación anterior (si aplica).
- `NAME_TYPE_SUITE` -> Compañía del cliente en la aplicación (solo, con pareja, familia, etc.).
- `NAME_CLIENT_TYPE` -> Si era cliente nuevo o recurrente al momento de la solicitud.
- `NAME_GOODS_CATEGORY` -> Tipo de bien solicitado.
- `NAME_PORTFOLIO` -> Portafolio de la aplicación: CASH, POS, CAR, etc.
- `NAME_PRODUCT_TYPE` -> Si la aplicación fue cross-sell o walk-in.
- `CHANNEL_TYPE` -> Canal de adquisición del cliente.
- `SELLERPLACE_AREA` -> Área de venta del lugar de vendedor.
- `NAME_SELLER_INDUSTRY` -> Industria del vendedor.
- `CNT_PAYMENT` -> Plazo del crédito en número de pagos.
- `NAME_YIELD_GROUP` -> Grupo de tasa de interés: bajo, medio, alto.
- `PRODUCT_COMBINATION` -> Combinación detallada del producto solicitado.
- `DAYS_FIRST_DRAWING` -> Días relativos a la solicitud actual cuando se hizo el primer desembolso.
- `DAYS_FIRST_DUE` -> Días relativos a la solicitud actual cuando fue el primer vencimiento.
- `DAYS_LAST_DUE_1ST_VERSION` -> Días relativos a la solicitud actual cuando fue el primer vencimiento (versión inicial).
- `DAYS_LAST_DUE` -> Días relativos a la solicitud actual cuando fue el último vencimiento.
- `DAYS_TERMINATION` -> Días relativos a la solicitud actual cuando terminó el crédito anterior.
- `NFLAG_INSURED_ON_APPROVAL` -> Indica si el cliente solicitó seguro durante la aprobación.



#### Visualización previa, sondeo preliminar e identificación de columnas


In [None]:
df_POS.head(10)

Unnamed: 0,SK_ID_PREV,SK_ID_CURR,MONTHS_BALANCE,CNT_INSTALMENT,CNT_INSTALMENT_FUTURE,NAME_CONTRACT_STATUS,SK_DPD,SK_DPD_DEF
0,1803195,182943,-31,48.0,45.0,Active,0,0
1,1715348,367990,-33,36.0,35.0,Active,0,0
2,1784872,397406,-32,12.0,9.0,Active,0,0
3,1903291,269225,-35,48.0,42.0,Active,0,0
4,2341044,334279,-35,36.0,35.0,Active,0,0
5,2207092,342166,-32,12.0,12.0,Active,0,0
6,1110516,204376,-38,48.0,43.0,Active,0,0
7,1387235,153211,-35,36.0,36.0,Active,0,0
8,1220500,112740,-31,12.0,12.0,Active,0,0
9,2371489,274851,-32,24.0,16.0,Active,0,0


In [None]:
df_POS.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10001358 entries, 0 to 10001357
Data columns (total 8 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   SK_ID_PREV             int64  
 1   SK_ID_CURR             int64  
 2   MONTHS_BALANCE         int64  
 3   CNT_INSTALMENT         float64
 4   CNT_INSTALMENT_FUTURE  float64
 5   NAME_CONTRACT_STATUS   object 
 6   SK_DPD                 int64  
 7   SK_DPD_DEF             int64  
dtypes: float64(2), int64(5), object(1)
memory usage: 610.4+ MB


In [None]:
df_previous.head(10)

Unnamed: 0,SK_ID_PREV,SK_ID_CURR,NAME_CONTRACT_TYPE,AMT_ANNUITY,AMT_APPLICATION,AMT_CREDIT,AMT_DOWN_PAYMENT,AMT_GOODS_PRICE,WEEKDAY_APPR_PROCESS_START,HOUR_APPR_PROCESS_START,FLAG_LAST_APPL_PER_CONTRACT,NFLAG_LAST_APPL_IN_DAY,RATE_DOWN_PAYMENT,RATE_INTEREST_PRIMARY,RATE_INTEREST_PRIVILEGED,NAME_CASH_LOAN_PURPOSE,NAME_CONTRACT_STATUS,DAYS_DECISION,NAME_PAYMENT_TYPE,CODE_REJECT_REASON,NAME_TYPE_SUITE,NAME_CLIENT_TYPE,NAME_GOODS_CATEGORY,NAME_PORTFOLIO,NAME_PRODUCT_TYPE,CHANNEL_TYPE,SELLERPLACE_AREA,NAME_SELLER_INDUSTRY,CNT_PAYMENT,NAME_YIELD_GROUP,PRODUCT_COMBINATION,DAYS_FIRST_DRAWING,DAYS_FIRST_DUE,DAYS_LAST_DUE_1ST_VERSION,DAYS_LAST_DUE,DAYS_TERMINATION,NFLAG_INSURED_ON_APPROVAL
0,2030495,271877,Consumer loans,1730.43,17145.0,17145.0,0.0,17145,SATURDAY,15,Y,1,0.0,0.1828318032415278,0.8673361522198731,XAP,Approved,-73,Cash through the bank,XAP,,Repeater,Mobile,POS,XNA,Country-wide,35,Connectivity,12.0,middle,POS mobile with interest,365243.0,-42.0,300.0,-42.0,-37.0,0.0
1,2802425,108129,Cash loans,25188.615,607500.0,679671.0,,607500,THURSDAY,11,Y,1,,,,XNA,Approved,-164,XNA,XAP,Unaccompanied,Repeater,XNA,Cash,x-sell,Contact center,-1,XNA,36.0,low_action,Cash X-Sell: low,365243.0,-134.0,916.0,365243.0,365243.0,1.0
2,2523466,122040,Cash loans,15060.735,112500.0,136444.5,,112500,TUESDAY,11,Y,1,,,,XNA,Approved,-301,Cash through the bank,XAP,"Spouse, partner",Repeater,XNA,Cash,x-sell,Credit and cash offices,-1,XNA,12.0,high,Cash X-Sell: high,365243.0,-271.0,59.0,365243.0,365243.0,1.0
3,2819243,176158,Cash loans,47041.335,450000.0,470790.0,,450000,MONDAY,7,Y,1,,,,XNA,Approved,-512,Cash through the bank,XAP,,Repeater,XNA,Cash,x-sell,Credit and cash offices,-1,XNA,12.0,middle,Cash X-Sell: middle,365243.0,-482.0,-152.0,-182.0,-177.0,1.0
4,1784265,202054,Cash loans,31924.395,337500.0,404055.0,,337500,THURSDAY,9,Y,1,,,,Repairs,Refused,-781,Cash through the bank,HC,,Repeater,XNA,Cash,walk-in,Credit and cash offices,-1,XNA,24.0,high,Cash Street: high,,,,,,
5,1383531,199383,Cash loans,23703.93,315000.0,340573.5,,315000,SATURDAY,8,Y,1,,,,Everyday expenses,Approved,-684,Cash through the bank,XAP,Family,Repeater,XNA,Cash,x-sell,Credit and cash offices,-1,XNA,18.0,low_normal,Cash X-Sell: low,365243.0,-654.0,-144.0,-144.0,-137.0,1.0
6,2315218,175704,Cash loans,0.0,0.0,0.0,,0,TUESDAY,11,Y,1,,,,XNA,Canceled,-14,XNA,XAP,,Repeater,XNA,XNA,XNA,Credit and cash offices,-1,XNA,0.0,XNA,Cash,,,,,,
7,1656711,296299,Cash loans,0.0,0.0,0.0,,0,MONDAY,7,Y,1,,,,XNA,Canceled,-21,XNA,XAP,,Repeater,XNA,XNA,XNA,Credit and cash offices,-1,XNA,0.0,XNA,Cash,,,,,,
8,2367563,342292,Cash loans,0.0,0.0,0.0,,0,MONDAY,15,Y,1,,,,XNA,Canceled,-386,XNA,XAP,,Repeater,XNA,XNA,XNA,Credit and cash offices,-1,XNA,0.0,XNA,Cash,,,,,,
9,2579447,334349,Cash loans,0.0,0.0,0.0,,0,SATURDAY,15,Y,1,,,,XNA,Canceled,-57,XNA,XAP,,Repeater,XNA,XNA,XNA,Credit and cash offices,-1,XNA,0.0,XNA,Cash,,,,,,


In [None]:
df_previous.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1670214 entries, 0 to 1670213
Data columns (total 37 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   SK_ID_PREV                   1670214 non-null  int64  
 1   SK_ID_CURR                   1670214 non-null  int64  
 2   NAME_CONTRACT_TYPE           1670214 non-null  object 
 3   AMT_ANNUITY                  1670214 non-null  float64
 4   AMT_APPLICATION              1670214 non-null  float64
 5   AMT_CREDIT                   1670214 non-null  float64
 6   AMT_DOWN_PAYMENT             1670214 non-null  object 
 7   AMT_GOODS_PRICE              1670214 non-null  int64  
 8   WEEKDAY_APPR_PROCESS_START   1670214 non-null  object 
 9   HOUR_APPR_PROCESS_START      1670214 non-null  object 
 10  FLAG_LAST_APPL_PER_CONTRACT  1670214 non-null  object 
 11  NFLAG_LAST_APPL_IN_DAY       1670214 non-null  int64  
 12  RATE_DOWN_PAYMENT            1670214 non-n

In [None]:
df_POS.isnull().sum()

SK_ID_PREV               0
SK_ID_CURR               0
MONTHS_BALANCE           0
CNT_INSTALMENT           0
CNT_INSTALMENT_FUTURE    0
NAME_CONTRACT_STATUS     0
SK_DPD                   0
SK_DPD_DEF               0
dtype: int64

In [None]:
df_previous.isnull().sum()

SK_ID_PREV                     0
SK_ID_CURR                     0
NAME_CONTRACT_TYPE             0
AMT_ANNUITY                    0
AMT_APPLICATION                0
AMT_CREDIT                     0
AMT_DOWN_PAYMENT               0
AMT_GOODS_PRICE                0
WEEKDAY_APPR_PROCESS_START     0
HOUR_APPR_PROCESS_START        0
FLAG_LAST_APPL_PER_CONTRACT    0
NFLAG_LAST_APPL_IN_DAY         0
RATE_DOWN_PAYMENT              0
RATE_INTEREST_PRIMARY          0
RATE_INTEREST_PRIVILEGED       0
NAME_CASH_LOAN_PURPOSE         0
NAME_CONTRACT_STATUS           0
DAYS_DECISION                  0
NAME_PAYMENT_TYPE              0
CODE_REJECT_REASON             0
NAME_TYPE_SUITE                0
NAME_CLIENT_TYPE               0
NAME_GOODS_CATEGORY            0
NAME_PORTFOLIO                 0
NAME_PRODUCT_TYPE              0
CHANNEL_TYPE                   0
SELLERPLACE_AREA               0
NAME_SELLER_INDUSTRY           0
CNT_PAYMENT                    0
NAME_YIELD_GROUP               0
PRODUCT_CO

In [None]:
#Lista de columnas categóricas
cols = [
    'NAME_CONTRACT_TYPE',
    'WEEKDAY_APPR_PROCESS_START',
    'FLAG_LAST_APPL_PER_CONTRACT',
    'NAME_CASH_LOAN_PURPOSE',
    'NAME_CONTRACT_STATUS',
    'NAME_PAYMENT_TYPE',
    'CODE_REJECT_REASON',
    'NAME_TYPE_SUITE',
    'NAME_CLIENT_TYPE',
    'NAME_GOODS_CATEGORY',
    'NAME_PORTFOLIO',
    'NAME_PRODUCT_TYPE',
    'CHANNEL_TYPE',
    'NAME_SELLER_INDUSTRY',
    'NAME_YIELD_GROUP',
    'PRODUCT_COMBINATION'
]

#Obtener los valores únicos como listas por columna
unique_vals = {col: df_previous[col].dropna().unique().tolist() for col in cols}

#Obtener la longitud máxima (cantidad de filas necesarias)
max_len = max(len(vals) for vals in unique_vals.values())

#Rellenar con NaN para igualar longitud
for col in unique_vals:
    vals = unique_vals[col]
    unique_vals[col] = vals + [None] * (max_len - len(vals))  # o np.nan

#Crear el DataFrame
unique_df_previous = pd.DataFrame(unique_vals)

unique_df_previous

Unnamed: 0,NAME_CONTRACT_TYPE,WEEKDAY_APPR_PROCESS_START,FLAG_LAST_APPL_PER_CONTRACT,NAME_CASH_LOAN_PURPOSE,NAME_CONTRACT_STATUS,NAME_PAYMENT_TYPE,CODE_REJECT_REASON,NAME_TYPE_SUITE,NAME_CLIENT_TYPE,NAME_GOODS_CATEGORY,NAME_PORTFOLIO,NAME_PRODUCT_TYPE,CHANNEL_TYPE,NAME_SELLER_INDUSTRY,NAME_YIELD_GROUP,PRODUCT_COMBINATION
0,Consumer loans,SATURDAY,Y,XAP,Approved,Cash through the bank,XAP,,Repeater,Mobile,POS,XNA,Country-wide,Connectivity,middle,POS mobile with interest
1,Cash loans,THURSDAY,N,XNA,Refused,XNA,HC,Unaccompanied,New,XNA,Cash,x-sell,Contact center,XNA,low_action,Cash X-Sell: low
2,Revolving loans,TUESDAY,,Repairs,Canceled,Non-cash from your account,LIMIT,"Spouse, partner",Refreshed,Consumer Electronics,XNA,walk-in,Credit and cash offices,Consumer electronics,high,Cash X-Sell: high
3,XNA,MONDAY,,Everyday expenses,Unused offer,Cashless from the account of the employer,CLIENT,Family,XNA,Construction Materials,Cards,,Stone,Industry,low_normal,Cash X-Sell: middle
4,,FRIDAY,,Car repairs,,,SCOFR,Children,,Auto Accessories,Cars,,Regional / Local,Clothing,XNA,Cash Street: high
5,,SUNDAY,,Building a house or an annex,,,SCO,Other_B,,Photo / Cinema Equipment,,,AP+ (Cash loan),Furniture,,Cash
6,,WEDNESDAY,,Other,,,XNA,Other_A,,Computers,,,Channel of corporate sales,Construction,,POS household without interest
7,,,,Journey,,,VERIF,Group of people,,Audio/Video,,,Car dealer,Jewelry,,POS household with interest
8,,,,Purchase of electronic equipment,,,SYSTEM,,,Medicine,,,,Auto technology,,POS other with interest
9,,,,Medicine,,,,,,Clothing and Accessories,,,,MLM partners,,Card X-Sell


##### Análisis previo
Se puede notar que las casillas que están sin datos no tienen asignado el valor de `NULL`, en cambio es una cadena de caractéres vacía para todos los casos. Se transformará estos datos vacíos dependiendo del caso.

#### Limpieza y transformación

##### Transformación de celdas vacías y formatos incorrectos `df_previous`



Se buscan las filas de interés


In [None]:
df_previous


Unnamed: 0,SK_ID_PREV,SK_ID_CURR,NAME_CONTRACT_TYPE,AMT_ANNUITY,AMT_APPLICATION,AMT_CREDIT,AMT_DOWN_PAYMENT,AMT_GOODS_PRICE,WEEKDAY_APPR_PROCESS_START,HOUR_APPR_PROCESS_START,FLAG_LAST_APPL_PER_CONTRACT,NFLAG_LAST_APPL_IN_DAY,RATE_DOWN_PAYMENT,RATE_INTEREST_PRIMARY,RATE_INTEREST_PRIVILEGED,NAME_CASH_LOAN_PURPOSE,NAME_CONTRACT_STATUS,DAYS_DECISION,NAME_PAYMENT_TYPE,CODE_REJECT_REASON,NAME_TYPE_SUITE,NAME_CLIENT_TYPE,NAME_GOODS_CATEGORY,NAME_PORTFOLIO,NAME_PRODUCT_TYPE,CHANNEL_TYPE,SELLERPLACE_AREA,NAME_SELLER_INDUSTRY,CNT_PAYMENT,NAME_YIELD_GROUP,PRODUCT_COMBINATION,DAYS_FIRST_DRAWING,DAYS_FIRST_DUE,DAYS_LAST_DUE_1ST_VERSION,DAYS_LAST_DUE,DAYS_TERMINATION,NFLAG_INSURED_ON_APPROVAL
0,2030495,271877,Consumer loans,1730.430,17145.0,17145.0,0.0,17145,SATURDAY,15,Y,1,0.000000,0.182832,0.867336,XAP,Approved,-73,Cash through the bank,XAP,Unnancompanied,Repeater,Mobile,POS,XNA,Country-wide,35,Connectivity,12.0,middle,POS mobile with interest,0.0,0.0,0.0,0.0,0.0,0.0
1,2802425,108129,Cash loans,25188.615,607500.0,679671.0,0.0,607500,THURSDAY,11,Y,1,0.000000,0.000000,0.000000,XNA,Approved,-164,XNA,XAP,Unaccompanied,Repeater,XNA,Cash,x-sell,Contact center,-1,XNA,36.0,low_action,Cash X-Sell: low,0.0,0.0,0.0,0.0,0.0,0.0
2,2523466,122040,Cash loans,15060.735,112500.0,136444.5,0.0,112500,TUESDAY,11,Y,1,0.000000,0.000000,0.000000,XNA,Approved,-301,Cash through the bank,XAP,"Spouse, partner",Repeater,XNA,Cash,x-sell,Credit and cash offices,-1,XNA,12.0,high,Cash X-Sell: high,0.0,0.0,0.0,0.0,0.0,0.0
3,2819243,176158,Cash loans,47041.335,450000.0,470790.0,0.0,450000,MONDAY,7,Y,1,0.000000,0.000000,0.000000,XNA,Approved,-512,Cash through the bank,XAP,Unnancompanied,Repeater,XNA,Cash,x-sell,Credit and cash offices,-1,XNA,12.0,middle,Cash X-Sell: middle,0.0,0.0,0.0,0.0,0.0,0.0
4,1784265,202054,Cash loans,31924.395,337500.0,404055.0,0.0,337500,THURSDAY,9,Y,1,0.000000,0.000000,0.000000,Repairs,Refused,-781,Cash through the bank,HC,Unnancompanied,Repeater,XNA,Cash,walk-in,Credit and cash offices,-1,XNA,24.0,high,Cash Street: high,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1670209,2300464,352015,Consumer loans,14704.290,267295.5,311400.0,0.0,267296,WEDNESDAY,12,Y,1,0.000000,0.000000,0.000000,XAP,Approved,-544,Cash through the bank,XAP,Unnancompanied,Refreshed,Furniture,POS,XNA,Stone,43,Furniture,30.0,low_normal,POS industry with interest,0.0,0.0,0.0,0.0,0.0,0.0
1670210,2357031,334635,Consumer loans,6622.020,87750.0,64291.5,29250.0,87750,TUESDAY,15,Y,1,0.340554,0.000000,0.000000,XAP,Approved,-1694,Cash through the bank,XAP,Unaccompanied,New,Furniture,POS,XNA,Stone,43,Furniture,12.0,middle,POS industry with interest,0.0,0.0,0.0,0.0,0.0,0.0
1670211,2659632,249544,Consumer loans,11520.855,105237.0,102523.5,10525.5,105237,MONDAY,12,Y,1,0.101401,0.000000,0.000000,XAP,Approved,-1488,Cash through the bank,XAP,"Spouse, partner",Repeater,Consumer Electronics,POS,XNA,Country-wide,1370,Consumer electronics,10.0,low_normal,POS household with interest,0.0,0.0,0.0,0.0,0.0,0.0
1670212,2785582,400317,Cash loans,18821.520,180000.0,191880.0,0.0,180000,WEDNESDAY,9,Y,1,0.000000,0.000000,0.000000,XNA,Approved,-1185,Cash through the bank,XAP,Family,Repeater,XNA,Cash,x-sell,AP+ (Cash loan),-1,XNA,12.0,low_normal,Cash X-Sell: low,0.0,0.0,0.0,0.0,0.0,0.0


In [None]:
df_previous.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1670214 entries, 0 to 1670213
Data columns (total 37 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   SK_ID_PREV                   1670214 non-null  int64  
 1   SK_ID_CURR                   1670214 non-null  int64  
 2   NAME_CONTRACT_TYPE           1670214 non-null  object 
 3   AMT_ANNUITY                  1670214 non-null  float64
 4   AMT_APPLICATION              1670214 non-null  float64
 5   AMT_CREDIT                   1670214 non-null  float64
 6   AMT_DOWN_PAYMENT             1670214 non-null  object 
 7   AMT_GOODS_PRICE              1670214 non-null  int64  
 8   WEEKDAY_APPR_PROCESS_START   1670214 non-null  object 
 9   HOUR_APPR_PROCESS_START      1670214 non-null  object 
 10  FLAG_LAST_APPL_PER_CONTRACT  1670214 non-null  object 
 11  NFLAG_LAST_APPL_IN_DAY       1670214 non-null  int64  
 12  RATE_DOWN_PAYMENT            1670214 non-n

La tabla `previous_application` muestra columnas numéricas en tipo texto, lo que se debe arreglar, al mismo tiempo, como no muestra los datos nulos en formato `NULL`, se deben buscar de manera específica y darse un trato especial para cada columna.

In [None]:
conteo_vacíos = (df_previous == '').sum().to_frame()
conteo_vacíos = conteo_vacíos[conteo_vacíos[0]>0]
conteo_vacíos


Unnamed: 0,0
AMT_DOWN_PAYMENT,895844
RATE_DOWN_PAYMENT,895844
RATE_INTEREST_PRIMARY,1664263
RATE_INTEREST_PRIVILEGED,1664263
NAME_TYPE_SUITE,820405
PRODUCT_COMBINATION,346
DAYS_FIRST_DRAWING,673065
DAYS_FIRST_DUE,673065
DAYS_LAST_DUE_1ST_VERSION,673065
DAYS_LAST_DUE,673065


Se evidencia la existencia de datos nulos o vacíos en 12 de las columnas en `previous_application`, se tretará y tomará decisiones en cada uno de los casos.

###### `AMT_DOWN_PAYMENT`

In [None]:
df_previous.AMT_DOWN_PAYMENT.value_counts()

AMT_DOWN_PAYMENT
             895844
0.0          369854
4500.0        21241
9000.0        14747
13500.0        9655
              ...  
4363.2            1
2307.825          1
69489.0           1
61457.085         1
37188.63          1
Name: count, Length: 29279, dtype: int64

La columna `AMT_DOWN_PAYMENT` ofrece información acerca del anticipo de la solicitud anterior en un tipo de dato numérico. Se entiende que, a falta de datos, no se dió un anticipo, por lo que serán reemplazados por el valor 0.0 y luego transformados a tipo float.

In [None]:
#Revisamos las filas con valores vacíos en la columna AMT_DOWN_PAYMENT  
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE AMT_DOWN_PAYMENT = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    while i <11:
        print(rows[1])
        i += 1

2025-08-04 16:36:36,942 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:36:36,944 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE AMT_DOWN_PAYMENT = ''
2025-08-04 16:36:36,946 INFO sqlalchemy.engine.Engine [cached since 93.36s ago] {}
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, '', 112500, 'TUESDAY', '11', 'Y', 1, '', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0', '1.0')
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, '', 112500, 'TUESDAY', '11', 'Y', 1, '', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0', '1.0')
(25

In [None]:
#Reemplazamos los valores vacíos en AMT_DOWN_PAYMENT por 0.0
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET AMT_DOWN_PAYMENT = 0.0
            WHERE AMT_DOWN_PAYMENT = '';
        """)
    )

2025-08-04 16:37:56,317 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:37:56,318 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET AMT_DOWN_PAYMENT = 0.0
            WHERE AMT_DOWN_PAYMENT = '';
        
2025-08-04 16:37:56,320 INFO sqlalchemy.engine.Engine [generated in 0.00218s] {}
2025-08-04 16:38:46,593 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna AMT_DOWN_PAYMENT nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE AMT_DOWN_PAYMENT = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en AMT_DOWN_PAYMENT")

2025-08-04 16:40:26,733 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:40:26,736 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE AMT_DOWN_PAYMENT = ''
2025-08-04 16:40:26,738 INFO sqlalchemy.engine.Engine [cached since 323.1s ago] {}
No hay filas con valores vacíos en AMT_DOWN_PAYMENT
2025-08-04 16:40:32,953 INFO sqlalchemy.engine.Engine ROLLBACK


Se convierten los datos de tipo object a float


In [None]:
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN AMT_DOWN_PAYMENT FLOAT;'))

2025-08-04 16:44:11,156 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:44:11,156 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN AMT_DOWN_PAYMENT FLOAT;
2025-08-04 16:44:11,158 INFO sqlalchemy.engine.Engine [generated in 0.00224s] {}
2025-08-04 16:44:37,143 INFO sqlalchemy.engine.Engine ROLLBACK


###### `RATE_DOWN_PAYMENT`

Con la columna `RATE_DOWN_PAYMENT` ocurre un problema idéntico al de la columna `AMT_DOWN_PAYMENT`, por lo que se seguirá un procedimiento similar.


In [None]:
df_previous.RATE_DOWN_PAYMENT.value_counts()

RATE_DOWN_PAYMENT
                          895844
0.0                       369854
0.1089090909090909         36341
0.2178181818181818          6482
0.3267272727272727          1081
                           ...  
0.09321243872009773            1
0.2178563185916772             1
0.3711080891031141             1
8.76219277165418e-06           1
0.00013800094458075595         1
Name: count, Length: 207034, dtype: int64

Al representar la tasa de anticipo normalizada en función del crédito anterior, asumiremos también que la falta de información indica un valor igual a 0.0.


In [None]:
#Revisamos las filas con valores vacíos en la columna RATE_DOWN_PAYMENT  
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE RATE_DOWN_PAYMENT = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    while i <11:
        print(rows[1])
        i += 1

2025-08-04 16:51:28,442 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:51:28,445 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE RATE_DOWN_PAYMENT = ''
2025-08-04 16:51:28,447 INFO sqlalchemy.engine.Engine [generated in 0.00483s] {}
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, 0.0, 112500, 'TUESDAY', '11', 'Y', 1, '', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0', '1.0')
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, 0.0, 112500, 'TUESDAY', '11', 'Y', 1, '', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0', '1.0')
(2

In [None]:
#Reemplazamos los valores vacíos en RATE_DOWN_PAYMENT por 0.0
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET RATE_DOWN_PAYMENT = 0.0
            WHERE RATE_DOWN_PAYMENT = '';
        """)
    )

2025-08-04 16:54:31,959 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:54:31,961 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET RATE_DOWN_PAYMENT = 0.0
            WHERE RATE_DOWN_PAYMENT = '';
        
2025-08-04 16:54:31,963 INFO sqlalchemy.engine.Engine [generated in 0.00239s] {}
2025-08-04 16:55:20,512 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna RATE_DOWN_PAYMENT nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE RATE_DOWN_PAYMENT = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en RATE_DOWN_PAYMENT")

2025-08-04 16:56:18,508 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:56:18,511 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE RATE_DOWN_PAYMENT = ''
2025-08-04 16:56:18,512 INFO sqlalchemy.engine.Engine [cached since 290.1s ago] {}
No hay filas con valores vacíos en RATE_DOWN_PAYMENT
2025-08-04 16:56:25,503 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN RATE_DOWN_PAYMENT FLOAT;'))

2025-08-04 17:13:25,232 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:13:25,235 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN RATE_DOWN_PAYMENT FLOAT;
2025-08-04 17:13:25,237 INFO sqlalchemy.engine.Engine [generated in 0.00514s] {}
2025-08-04 17:13:54,762 INFO sqlalchemy.engine.Engine ROLLBACK


Se hará lo mismo, siguiendo la misma lógica, con las columnas `RATE_INTEREST_PRIMARY` y `RATE_INTEREST_PRIVILEGED` 

###### `RATE_INTEREST_PRIMARY` Y `RATE_INTEREST_PRIVILEGED`

In [None]:
df_previous.RATE_INTEREST_PRIMARY.value_counts(), df_previous.RATE_INTEREST_PRIVILEGED.value_counts()

(RATE_INTEREST_PRIMARY
                        1664263
 0.1891363481808909        1218
 0.14244021307945146        951
 0.1607163096452454         821
 0.19332993312932112        681
                         ...   
 0.16906097699195285          1
 0.7151479088745326           1
 0.18916468321432625          1
 0.6360364955230647           1
 0.6542700895387058           1
 Name: count, Length: 149, dtype: int64,
 RATE_INTEREST_PRIVILEGED
                       1664263
 0.8350951374207188       1717
 0.715644820295983        1046
 0.6379492600422833       1039
 0.8673361522198731        931
 0.852536997885835         876
 0.5687103594080338        127
 0.4244186046511628         66
 0.5137420718816067         45
 0.8324524312896405         40
 0.8451374207188159         19
 0.6448202959830867          7
 0.6374207188160677          7
 0.7806553911205074          6
 0.7906976744186047          5
 0.7251585623678646          5
 0.806553911205074           4
 0.3731501057082452          2


In [None]:
#Revisamos las filas con valores vacíos en la columna RATE_INTEREST_PRIMARY  
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE RATE_INTEREST_PRIMARY = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    while i <11:
        print(rows[1])
        i += 1

2025-08-04 17:04:17,991 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:04:17,994 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE RATE_INTEREST_PRIMARY = ''
2025-08-04 17:04:17,996 INFO sqlalchemy.engine.Engine [generated in 0.00415s] {}
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, 0.0, 112500, 'TUESDAY', '11', 'Y', 1, '0.0', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0', '1.0')
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, 0.0, 112500, 'TUESDAY', '11', 'Y', 1, '0.0', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0',

In [None]:
#Revisamos las filas con valores vacíos en la columna RATE_INTEREST_PRIVILEGED  
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE RATE_INTEREST_PRIVILEGED = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    while i <11:
        print(rows[1])
        i += 1

2025-08-04 17:05:26,798 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:05:26,800 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE RATE_INTEREST_PRIVILEGED = ''
2025-08-04 17:05:26,803 INFO sqlalchemy.engine.Engine [generated in 0.00515s] {}
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, 0.0, 112500, 'TUESDAY', '11', 'Y', 1, '0.0', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.0', '1.0')
(2523466, 122040, 'Cash loans', 15060.735, 112500.0, 136444.5, 0.0, 112500, 'TUESDAY', '11', 'Y', 1, '0.0', '', '', 'XNA', 'Approved', '-301', 'Cash through the bank', 'XAP', 'Spouse, partner', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'high', 'Cash X-Sell: high', '365243.0', '-271.0', '59.0', '365243.0', '365243.

In [None]:
#Reemplazamos los valores vacíos en RATE_INTEREST_PRIMARY por 0.0
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET RATE_INTEREST_PRIMARY = 0.0
            WHERE RATE_INTEREST_PRIMARY = '';
        """)
    )

2025-08-04 17:08:34,728 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:08:34,731 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET RATE_INTEREST_PRIMARY = 0.0
            WHERE RATE_INTEREST_PRIMARY = '';
        
2025-08-04 17:08:34,734 INFO sqlalchemy.engine.Engine [generated in 0.00218s] {}
2025-08-04 17:10:06,303 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Reemplazamos los valores vacíos en RATE_INTEREST_PRIVILEGED por 0.0
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET RATE_INTEREST_PRIVILEGED = 0.0
            WHERE RATE_INTEREST_PRIVILEGED = '';
        """)
    )

2025-08-04 17:10:31,227 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:10:31,230 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET RATE_INTEREST_PRIVILEGED = 0.0
            WHERE RATE_INTEREST_PRIVILEGED = '';
        
2025-08-04 17:10:31,232 INFO sqlalchemy.engine.Engine [generated in 0.00225s] {}
2025-08-04 17:11:55,583 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna RATE_INTEREST_PRIMARY nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE RATE_INTEREST_PRIMARY = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en RATE_INTEREST_PRIMARY")

2025-08-04 17:14:21,384 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:14:21,386 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE RATE_INTEREST_PRIMARY = ''
2025-08-04 17:14:21,387 INFO sqlalchemy.engine.Engine [cached since 603.4s ago] {}
No hay filas con valores vacíos en RATE_INTEREST_PRIMARY
2025-08-04 17:14:28,320 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Revisamos las filas con valores vacíos en la columna RATE_INTEREST_PRIVILEGED nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE RATE_INTEREST_PRIVILEGED = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en RATE_INTEREST_PRIVILEGED")

2025-08-04 17:14:39,884 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:14:39,887 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE RATE_INTEREST_PRIVILEGED = ''
2025-08-04 17:14:39,889 INFO sqlalchemy.engine.Engine [cached since 553.1s ago] {}
No hay filas con valores vacíos en RATE_INTEREST_PRIVILEGED
2025-08-04 17:14:45,259 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de RATE_INTEREST_PRIMARY y RATE_INTEREST_PRIVILEGED a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN RATE_INTEREST_PRIMARY FLOAT;'))
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN RATE_INTEREST_PRIVILEGED FLOAT;'))

2025-08-04 17:15:54,066 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:15:54,068 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN RATE_INTEREST_PRIMARY FLOAT;
2025-08-04 17:15:54,069 INFO sqlalchemy.engine.Engine [generated in 0.00376s] {}
2025-08-04 17:16:21,293 INFO sqlalchemy.engine.Engine ROLLBACK
2025-08-04 17:16:21,296 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:16:21,297 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN RATE_INTEREST_PRIVILEGED FLOAT;
2025-08-04 17:16:21,298 INFO sqlalchemy.engine.Engine [generated in 0.00216s] {}
2025-08-04 17:16:45,866 INFO sqlalchemy.engine.Engine ROLLBACK


###### `NAME_TYPE_SUITE`

In [None]:
df_previous.NAME_TYPE_SUITE.value_counts()

NAME_TYPE_SUITE
                   820405
Unaccompanied      508970
Family             213263
Spouse, partner     67069
Children            31566
Other_B             17624
Other_A              9077
Group of people      2240
Name: count, dtype: int64

Las casillas vacías son las celdas predominantes en la columna `NAME_TYPE_SUITE`, esta muestra quién acompañó al cliente en la solicitud anterior. Se ve que la moda de los datos, sin contar las celdas vacías es el dato `Unaccompanied`; teniendo esto en cuenta y asumiendo que la falta de registro puede intuirse como gente que no no fué acompañada por nadie en la solicitud anterior.
Así, rellenaremos las celdas vacías con el valor de la moda.

In [None]:
#Revisamos las filas con valores vacíos en la columna NAME_TYPE_SUITE  
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE NAME_TYPE_SUITE = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    while i <11:
        print(rows[1])
        i += 1

2025-08-04 17:31:21,761 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:31:21,762 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE NAME_TYPE_SUITE = ''
2025-08-04 17:31:21,763 INFO sqlalchemy.engine.Engine [generated in 0.00207s] {}
(2819243, 176158, 'Cash loans', 47041.335, 450000.0, 470790.0, 0.0, 450000, 'MONDAY', '7', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Approved', '-512', 'Cash through the bank', 'XAP', '', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'middle', 'Cash X-Sell: middle', '365243.0', '-482.0', '-152.0', '-182.0', '-177.0', '1.0')
(2819243, 176158, 'Cash loans', 47041.335, 450000.0, 470790.0, 0.0, 450000, 'MONDAY', '7', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Approved', '-512', 'Cash through the bank', 'XAP', '', 'Repeater', 'XNA', 'Cash', 'x-sell', 'Credit and cash offices', '-1', 'XNA', 12.0, 'middle', 'Cash X-Sell: middle', '365243.0', '-482.0', '-152.0', '-182.0', '-177.0', '1.0')
(2819243, 176158, 'Cash loan

In [None]:
#Reemplazamos los valores vacíos en NAME_TYPE_SUITE por "Unaccompanied"
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET NAME_TYPE_SUITE = "Unnancompanied"
            WHERE NAME_TYPE_SUITE = '';
        """)
    )

2025-08-04 17:32:03,265 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:32:03,266 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET NAME_TYPE_SUITE = "Unnancompanied"
            WHERE NAME_TYPE_SUITE = '';
        
2025-08-04 17:32:03,267 INFO sqlalchemy.engine.Engine [generated in 0.00070s] {}
2025-08-04 17:32:52,830 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna NAME_TYPE_SUITE nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE NAME_TYPE_SUITE = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en NAME_TYPE_SUITE")

2025-08-04 17:33:03,092 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:33:03,096 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE NAME_TYPE_SUITE = ''
2025-08-04 17:33:03,098 INFO sqlalchemy.engine.Engine [cached since 101.3s ago] {}
No hay filas con valores vacíos en NAME_TYPE_SUITE
2025-08-04 17:33:08,411 INFO sqlalchemy.engine.Engine ROLLBACK


###### `PRODUCT_COMBINATION`

In [None]:
df_previous.PRODUCT_COMBINATION.value_counts()

PRODUCT_COMBINATION
Cash                              285990
POS household with interest       263622
POS mobile with interest          220670
Cash X-Sell: middle               143883
Cash X-Sell: low                  130248
Card Street                       112582
POS industry with interest         98833
POS household without interest     82908
Card X-Sell                        80582
Cash Street: high                  59639
Cash X-Sell: high                  59301
Cash Street: middle                34658
Cash Street: low                   33834
POS mobile without interest        24082
POS other with interest            23879
POS industry without interest      12602
POS others without interest         2555
                                     346
Name: count, dtype: int64

En la columna `PRODUCT_COMBINATION` se encuentra una cantidad prácticamente insignificante de 346 celdas vacías frente a las 1670214 filas existentes. Se tomará como valor para rellenar las celdas vacías de esta columna la moda de los datos, el valor `Cash`.

In [None]:
#Revisamos las filas con valores vacíos en la columna PRODUCT_COMBINATION
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE PRODUCT_COMBINATION = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 17:38:57,830 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:38:57,834 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE PRODUCT_COMBINATION = ''
2025-08-04 17:38:57,836 INFO sqlalchemy.engine.Engine [generated in 0.00630s] {}
(1851920, 417884, 'XNA', 0.0, 0.0, 0.0, 0.0, 0, 'MONDAY', '13', 'Y', 1, 0.0, 0.0, 0.0, 'XAP', 'Canceled', '-291', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Country-wide', '30', 'Connectivity', 0.0, 'XNA', '', '', '', '', '', '', '')
(1851920, 417884, 'XNA', 0.0, 0.0, 0.0, 0.0, 0, 'MONDAY', '13', 'Y', 1, 0.0, 0.0, 0.0, 'XAP', 'Canceled', '-291', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Country-wide', '30', 'Connectivity', 0.0, 'XNA', '', '', '', '', '', '', '')
(1851920, 417884, 'XNA', 0.0, 0.0, 0.0, 0.0, 0, 'MONDAY', '13', 'Y', 1, 0.0, 0.0, 0.0, 'XAP', 'Canceled', '-291', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Country-wide', '30', 'Connectivity

In [None]:
#Reemplazamos los valores vacíos en PRODUCT_COMBINATION por "Cash"
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET PRODUCT_COMBINATION = "Cash"
            WHERE PRODUCT_COMBINATION = '';
        """)
    )

2025-08-04 17:41:58,062 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:41:58,065 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET PRODUCT_COMBINATION = "Cash"
            WHERE PRODUCT_COMBINATION = '';
        
2025-08-04 17:41:58,067 INFO sqlalchemy.engine.Engine [generated in 0.00220s] {}
2025-08-04 17:42:04,749 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna PRODUCT_COMBINATION nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE PRODUCT_COMBINATION = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en PRODUCT_COMBINATION")

2025-08-04 17:43:01,333 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 17:43:01,335 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE PRODUCT_COMBINATION = ''
2025-08-04 17:43:01,338 INFO sqlalchemy.engine.Engine [cached since 243.5s ago] {}
No hay filas con valores vacíos en PRODUCT_COMBINATION
2025-08-04 17:43:07,386 INFO sqlalchemy.engine.Engine ROLLBACK


###### `DAYS_FIRST_DRAWING`

In [None]:
df_previous.DAYS_FIRST_DRAWING.value_counts()

DAYS_FIRST_DRAWING
365243.0    934444
            673065
-228.0         123
-212.0         121
-224.0         121
             ...  
-2007.0          1
-1718.0          1
-1611.0          1
-1770.0          1
-1879.0          1
Name: count, Length: 2839, dtype: int64

La columna `DAYS_FIRST_DRAWING` expone cuándo fue el primer desembolso de la solicitud anterior en relación con la fecha de solicitud de la solicitud actual. Entendiendo que este dato no es relevante para alimentar el modelo planeado, además de los muchos valores atípicos hallados dentro de la misma, asumiremos un valor 0 para toda la columna y la convertiremos de tipo object a tipo float.

In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_FIRST_DRAWING
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_FIRST_DRAWING = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 18:44:13,441 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:44:13,443 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_FIRST_DRAWING = ''
2025-08-04 18:44:13,445 INFO sqlalchemy.engine.Engine [generated in 0.00476s] {}
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', '', '', '', '', '', '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', '', '', '', '', '', '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Cr

In [None]:
#Reemplazamos los valores vacíos en DAYS_FIRST_DRAWING por 0.0. En este caso no se usa la cláusula WHERE porque se quiere actualizar todos los valores de la columna.
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET DAYS_FIRST_DRAWING = 0.0;
        """)
    )

2025-08-04 18:46:58,741 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:46:58,743 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET DAYS_FIRST_DRAWING = 0.0;
        
2025-08-04 18:46:58,744 INFO sqlalchemy.engine.Engine [generated in 0.00121s] {}
2025-08-04 18:47:42,347 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_FIRST_DRAWING nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_FIRST_DRAWING = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en DAYS_FIRST_DRAWING")

2025-08-04 18:48:29,648 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:48:29,649 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_FIRST_DRAWING = ''
2025-08-04 18:48:29,651 INFO sqlalchemy.engine.Engine [cached since 256.2s ago] {}
No hay filas con valores vacíos en DAYS_FIRST_DRAWING
2025-08-04 18:48:35,018 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de DAYS_FIRST_DRAWING a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN DAYS_FIRST_DRAWING FLOAT;'))

2025-08-04 18:50:11,449 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:50:11,453 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN DAYS_FIRST_DRAWING FLOAT;
2025-08-04 18:50:11,455 INFO sqlalchemy.engine.Engine [generated in 0.00610s] {}
2025-08-04 18:50:37,243 INFO sqlalchemy.engine.Engine ROLLBACK


###### `DAYS_FIRST_DUE`

Se le dará un trato igual que a la columna `DAYS_FIRST_DRAWING` a la columna `DAYS_FIRST_DUE`.

In [None]:
df_previous.DAYS_FIRST_DUE.value_counts()

DAYS_FIRST_DUE
            673065
365243.0     40645
-334.0         772
-509.0         760
-208.0         751
             ...  
-2889.0         86
-2890.0         73
-2891.0         55
-2.0            14
-2892.0          9
Name: count, Length: 2893, dtype: int64

In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_FIRST_DUE
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_FIRST_DUE = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 18:56:12,737 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:56:12,739 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_FIRST_DUE = ''
2025-08-04 18:56:12,740 INFO sqlalchemy.engine.Engine [generated in 0.00373s] {}
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', 0.0, '', '', '', '', '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', 0.0, '', '', '', '', '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Cred

In [None]:
#Reemplazamos los valores vacíos en DAYS_FIRST_DUE por 0.0. En este caso no se usa la cláusula WHERE porque se quiere actualizar todos los valores de la columna.
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET DAYS_FIRST_DUE = 0.0;
        """)
    )

2025-08-04 18:56:29,889 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:56:29,890 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET DAYS_FIRST_DUE = 0.0;
        
2025-08-04 18:56:29,891 INFO sqlalchemy.engine.Engine [generated in 0.00104s] {}
2025-08-04 18:57:25,771 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_FIRST_DUE nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_FIRST_DUE = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en DAYS_FIRST_DUE")

2025-08-04 18:57:28,551 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:57:28,552 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_FIRST_DUE = ''
2025-08-04 18:57:28,554 INFO sqlalchemy.engine.Engine [cached since 75.82s ago] {}
No hay filas con valores vacíos en DAYS_FIRST_DUE
2025-08-04 18:57:32,757 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de DAYS_FIRST_DUE a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN DAYS_FIRST_DUE FLOAT;'))

2025-08-04 18:57:32,766 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 18:57:32,768 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN DAYS_FIRST_DUE FLOAT;
2025-08-04 18:57:32,769 INFO sqlalchemy.engine.Engine [generated in 0.00378s] {}
2025-08-04 18:57:59,048 INFO sqlalchemy.engine.Engine ROLLBACK


###### `DAYS_LAST_DUE_1ST_VERSION` `DAYS_LAST_DUE` `DAYS_TERMINATION`


Para estas 3 columnas se seguirá el mismo procedimiento que con las dos anteriores, aplicando la misma lógica.


In [None]:
df_previous.DAYS_LAST_DUE_1ST_VERSION.value_counts(), df_previous.DAYS_LAST_DUE.value_counts(), df_previous.DAYS_TERMINATION.value_counts()

(DAYS_LAST_DUE_1ST_VERSION
             673065
 365243.0     93864
 9.0            720
 8.0            706
 0.0            705
              ...  
 1763.0           1
 1780.0           1
 1878.0           1
 2016.0           1
 1760.0           1
 Name: count, Length: 4606, dtype: int64,
 DAYS_LAST_DUE
             673065
 365243.0    211221
 -245.0         658
 -188.0         650
 -239.0         642
              ...  
 -2851.0          1
 -2836.0          1
 -2876.0          1
 -2885.0          1
 -2849.0          1
 Name: count, Length: 2874, dtype: int64,
 DAYS_TERMINATION
             673065
 365243.0    225913
 -233.0         786
 -184.0         770
 -170.0         770
              ...  
 -2809.0          1
 -2797.0          1
 -2828.0          1
 -2870.0          1
 -2815.0          1
 Name: count, Length: 2831, dtype: int64)

In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_LAST_DUE_1ST_VERSION
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_LAST_DUE_1ST_VERSION = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 19:09:48,887 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:09:48,888 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_LAST_DUE_1ST_VERSION = ''
2025-08-04 19:09:48,890 INFO sqlalchemy.engine.Engine [generated in 0.00307s] {}
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', 0.0, 0.0, '', '', '', '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', 0.0, 0.0, '', '', '', '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA',

In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_LAST_DUE
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_LAST_DUE = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 19:10:02,957 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:10:02,958 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_LAST_DUE = ''
2025-08-04 19:10:02,958 INFO sqlalchemy.engine.Engine [generated in 0.00165s] {}
2025-08-04 19:10:18,081 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_TERMINATION
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_TERMINATION = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 19:10:18,093 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:10:18,094 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_TERMINATION = ''
2025-08-04 19:10:18,095 INFO sqlalchemy.engine.Engine [generated in 0.00186s] {}
2025-08-04 19:10:32,721 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Reemplazamos los valores vacíos en DAYS_LAST_DUE_1ST_VERSION por 0.0. En este caso no se usa la cláusula WHERE porque se quiere actualizar todos los valores de la columna.
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET DAYS_LAST_DUE_1ST_VERSION = 0.0;
        """)
    )

2025-08-04 19:10:32,730 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:10:32,731 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET DAYS_LAST_DUE_1ST_VERSION = 0.0;
        
2025-08-04 19:10:32,731 INFO sqlalchemy.engine.Engine [generated in 0.00050s] {}
2025-08-04 19:11:35,847 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Reemplazamos los valores vacíos en DAYS_LAST_DUE por 0.0. En este caso no se usa la cláusula WHERE porque se quiere actualizar todos los valores de la columna.
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET DAYS_LAST_DUE = 0.0;
        """)
    )

2025-08-04 19:11:38,984 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:11:38,985 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET DAYS_LAST_DUE = 0.0;
        
2025-08-04 19:11:38,985 INFO sqlalchemy.engine.Engine [generated in 0.00071s] {}
2025-08-04 19:12:44,976 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Reemplazamos los valores vacíos en DAYS_TERMINATION por 0.0. En este caso no se usa la cláusula WHERE porque se quiere actualizar todos los valores de la columna.
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET DAYS_TERMINATION = 0.0;
        """)
    )

2025-08-04 19:12:48,678 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:12:48,681 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET DAYS_TERMINATION = 0.0;
        
2025-08-04 19:12:48,684 INFO sqlalchemy.engine.Engine [generated in 0.00281s] {}
2025-08-04 19:13:57,203 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_LAST_DUE_1ST_VERSION nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_LAST_DUE_1ST_VERSION = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en DAYS_LAST_DUE_1ST_VERSION")

2025-08-04 19:13:59,893 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:13:59,895 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_LAST_DUE_1ST_VERSION = ''
2025-08-04 19:13:59,896 INFO sqlalchemy.engine.Engine [cached since 251s ago] {}
No hay filas con valores vacíos en DAYS_LAST_DUE_1ST_VERSION
2025-08-04 19:14:05,640 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_LAST_DUE nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_LAST_DUE = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en DAYS_LAST_DUE")

2025-08-04 19:14:05,656 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:14:05,657 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_LAST_DUE = ''
2025-08-04 19:14:05,657 INFO sqlalchemy.engine.Engine [cached since 242.7s ago] {}
No hay filas con valores vacíos en DAYS_LAST_DUE
2025-08-04 19:14:11,204 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Revisamos las filas con valores vacíos en la columna DAYS_TERMINATION nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE DAYS_TERMINATION = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en DAYS_TERMINATION")

2025-08-04 19:14:11,213 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:14:11,214 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE DAYS_TERMINATION = ''
2025-08-04 19:14:11,214 INFO sqlalchemy.engine.Engine [cached since 233.1s ago] {}
No hay filas con valores vacíos en DAYS_TERMINATION
2025-08-04 19:14:17,681 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de DAYS_LAST_DUE_1ST_VERSION a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN DAYS_LAST_DUE_1ST_VERSION FLOAT;'))

2025-08-04 19:14:17,691 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:14:17,692 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN DAYS_LAST_DUE_1ST_VERSION FLOAT;
2025-08-04 19:14:17,693 INFO sqlalchemy.engine.Engine [generated in 0.00231s] {}
2025-08-04 19:14:45,077 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de DAYS_LAST_DUE a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN DAYS_LAST_DUE FLOAT;'))

2025-08-04 19:14:45,087 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:14:45,089 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN DAYS_LAST_DUE FLOAT;
2025-08-04 19:14:45,091 INFO sqlalchemy.engine.Engine [generated in 0.00342s] {}
2025-08-04 19:15:08,996 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de DAYS_FIRST_DUE a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN DAYS_TERMINATION FLOAT;'))

2025-08-04 19:15:09,005 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:15:09,007 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN DAYS_TERMINATION FLOAT;
2025-08-04 19:15:09,007 INFO sqlalchemy.engine.Engine [generated in 0.00205s] {}
2025-08-04 19:15:30,872 INFO sqlalchemy.engine.Engine ROLLBACK


###### `NFLAG_INSURED_ON_APPROVAL`

In [None]:
df_previous.NFLAG_INSURED_ON_APPROVAL.value_counts()

NFLAG_INSURED_ON_APPROVAL
       673065
0.0    665527
1.0    331622
Name: count, dtype: int64

La columna `NFLAG_INSURED_ON_APPROVAL` expresa si el solicitante solicitó o no un seguro al momento de realizar la solicitud de crédito. Esta información es irrelevante para el desarrollo de este proyecto, por lo que se establecerá el valor de todas las columnas en 0.0 y se convertirá a tipo FLOAT.

In [None]:
#Revisamos las filas con valores vacíos en la columna NFLAG_INSURED_ON_APPROVAL
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE NFLAG_INSURED_ON_APPROVAL = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    while i <11:
            print(rows[1])
            i += 1

2025-08-04 19:22:36,623 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:22:36,624 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE NFLAG_INSURED_ON_APPROVAL = ''
2025-08-04 19:22:36,626 INFO sqlalchemy.engine.Engine [generated in 0.00325s] {}
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', 0.0, 0.0, 0.0, 0.0, 0.0, '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 'XNA', 'XNA', 'Credit and cash offices', '-1', 'XNA', 0.0, 'XNA', 'Cash', 0.0, 0.0, 0.0, 0.0, 0.0, '')
(2315218, 175704, 'Cash loans', 0.0, 0.0, 0.0, 0.0, 0, 'TUESDAY', '11', 'Y', 1, 0.0, 0.0, 0.0, 'XNA', 'Canceled', '-14', 'XNA', 'XAP', 'Unnancompanied', 'Repeater', 'XNA', 

In [None]:
#Reemplazamos los valores vacíos en NFLAG_INSURED_ON_APPROVAL por 0.0. En este caso no se usa la cláusula WHERE porque se quiere actualizar todos los valores de la columna.
with engine_alexis.begin() as conn:
    conn.execute(
        text("""
            UPDATE previous_application
            SET NFLAG_INSURED_ON_APPROVAL = 0.0;
        """)
    )

2025-08-04 19:23:09,460 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:23:09,461 INFO sqlalchemy.engine.Engine 
            UPDATE previous_application
            SET NFLAG_INSURED_ON_APPROVAL = 0.0;
        
2025-08-04 19:23:09,462 INFO sqlalchemy.engine.Engine [generated in 0.00111s] {}
2025-08-04 19:23:57,415 INFO sqlalchemy.engine.Engine COMMIT


In [None]:
#Revisamos las filas con valores vacíos en la columna NFLAG_INSURED_ON_APPROVAL nuevamente 
with engine_alexis.connect() as conn:
    query = text("SELECT * FROM previous_application WHERE NFLAG_INSURED_ON_APPROVAL = ''")
    result = conn.execute(query)
    rows = result.fetchall()
    i = 0
    try:
        while i <11:
            print(rows[1])
            i += 1
    except IndexError:
        print("No hay filas con valores vacíos en NFLAG_INSURED_ON_APPROVAL")

2025-08-04 19:25:45,288 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:25:45,291 INFO sqlalchemy.engine.Engine SELECT * FROM previous_application WHERE NFLAG_INSURED_ON_APPROVAL = ''
2025-08-04 19:25:45,292 INFO sqlalchemy.engine.Engine [cached since 188.7s ago] {}
No hay filas con valores vacíos en NFLAG_INSURED_ON_APPROVAL
2025-08-04 19:25:51,397 INFO sqlalchemy.engine.Engine ROLLBACK


In [None]:
#Modificamos el tipo de dato de NFLAG_INSURED_ON_APPROVAL a FLOAT
with engine_alexis.connect() as conn:
    conn.execute(text('ALTER TABLE previous_application MODIFY COLUMN NFLAG_INSURED_ON_APPROVAL FLOAT;'))

2025-08-04 19:25:51,409 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:25:51,411 INFO sqlalchemy.engine.Engine ALTER TABLE previous_application MODIFY COLUMN NFLAG_INSURED_ON_APPROVAL FLOAT;
2025-08-04 19:25:51,411 INFO sqlalchemy.engine.Engine [generated in 0.00199s] {}
2025-08-04 19:26:16,797 INFO sqlalchemy.engine.Engine ROLLBACK


##### Transformación de celdas vacías y formatos incorrectos `df_POS`


In [None]:
df_POS

Unnamed: 0,SK_ID_PREV,SK_ID_CURR,MONTHS_BALANCE,CNT_INSTALMENT,CNT_INSTALMENT_FUTURE,NAME_CONTRACT_STATUS,SK_DPD,SK_DPD_DEF
0,1803195,182943,-31,48.0,45.0,Active,0,0
1,1715348,367990,-33,36.0,35.0,Active,0,0
2,1784872,397406,-32,12.0,9.0,Active,0,0
3,1903291,269225,-35,48.0,42.0,Active,0,0
4,2341044,334279,-35,36.0,35.0,Active,0,0
...,...,...,...,...,...,...,...,...
10001353,2448283,226558,-20,6.0,0.0,Active,843,0
10001354,1717234,141565,-19,12.0,0.0,Active,602,0
10001355,1283126,315695,-21,10.0,0.0,Active,609,0
10001356,1082516,450255,-22,12.0,0.0,Active,614,0


In [None]:
df_POS.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10001358 entries, 0 to 10001357
Data columns (total 8 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   SK_ID_PREV             int64  
 1   SK_ID_CURR             int64  
 2   MONTHS_BALANCE         int64  
 3   CNT_INSTALMENT         float64
 4   CNT_INSTALMENT_FUTURE  float64
 5   NAME_CONTRACT_STATUS   object 
 6   SK_DPD                 int64  
 7   SK_DPD_DEF             int64  
dtypes: float64(2), int64(5), object(1)
memory usage: 610.4+ MB


In [None]:
conteo_vacíos = (df_POS == '').sum().to_frame()
conteo_vacíos = conteo_vacíos[conteo_vacíos[0]>0]
conteo_vacíos

Unnamed: 0,0


## Gold

#### Ingeniería de Características `credit_card_balance` y `installments_payments`
 
En esta sección, llamaremos a la función `prepare_features_for_modeling` para crear nuevas variables relacionadas con el comportamiento del cliente, utilizando la información proveniente de la tabla `credit_card_balance y  installments_payments`.

Estas nuevas variables están diseñadas para capturar indicadores clave del uso de la tarjeta de crédito, como:

- `Pagos atrasados`
- `Saldos a favor o deudas`
- `Cargos adicionales inesperados`

Estas características se generarán en forma binaria (banderas) y también como variables numéricas que cuantifican el monto asociado, con el fin de enriquecer el conjunto final de entrenamiento con información relevante que podría mejorar la capacidad predictiva del modelo.

Luego de generar estas columnas, se agruparán por cliente (`SK_ID_CURR`) para obtener una vista consolidada por individuo.


In [None]:
df_gold_inst_credit = prepare_features_for_modeling(df_balance=df_credit_data, df_inst=df_installments)


== Primeras filas del dataset preparado (GOLD) ==
   SK_ID_CURR  HAS_CREDIT_BALANCE  HAS_LATE_PAYMENTS  HAS_ADDITIONAL_CHARGES  \
0      100006                   0                  0                       0   
1      100011                   1                  0                       0   
2      100013                   1                  0                       0   
3      100021                   0                  0                       0   
4      100023                   0                  0                       0   

   NUM_LOANS_TOTAL  AVG_PAYMENT_RATIO  FRAC_PAYMENTS_LATE  AVG_DELAY_DAYS  \
0             16.0           1.000000            0.000000        0.000000   
1            130.0           0.907692            0.146154       54.368421   
2            155.0           0.935484            0.070968        7.636364   
3             23.0           1.000000            0.173913       14.000000   
4             26.0           1.000000            0.000000        0.000000   

   MA

#### Tabla gold para credit page dashboard 

In [3]:

try:
    engine_silver = create_engine("mysql+pymysql://root:juanMySQL0513.@localhost/silver")
    engine_gold = create_engine("mysql+pymysql://root:juanMySQL0513.@localhost/gold")
    print("Database connection successful!")
except Exception as e:
    print(f"Database connection failed: {str(e)}")
    raise

try:
    print("Loading raw data from Silver layer...")
    df_installments = pd.read_sql("SELECT * FROM installments_payments", engine_silver)
    df_credit_balance = pd.read_sql("SELECT * FROM credit_card_balance", engine_silver)
except Exception as e:
    print(f"Error loading data from Silver layer: {e}")
    raise

df_gold_final = create_active_customer_gold_table(df_inst=df_installments, df_balance=df_credit_balance)
try:
    print("Saving processed data to Gold layer...")
    df_gold_final.to_sql('gold_active_customer_profile', engine_gold, if_exists='replace', index=False)
    print("Data saved successfully to Gold layer.")
    print("\nSample of the final Gold table:")
    print(df_gold_final.head().to_string())
except Exception as e: 
    print(f"Error saving data to Gold layer: {e}")
    raise

Database connection successful!
Loading raw data from Silver layer...
--- Starting Gold Table Creation for Active Customers ---
Step 1: Aggregating 'installments_payments' by customer...
Step 2: Aggregating 'credit_card_balance' by customer...
Step 3: Merging data sources with an 'outer' join...
--- Gold Table Creation Complete ---
Saving processed data to Gold layer...
Data saved successfully to Gold layer.

Sample of the final Gold table:
   SK_ID_CURR  AVG_DAYS_LATE  MAX_DAYS_LATE  FRAC_LATE_INSTALLMENTS  AVG_PAYMENT_RATIO  FRAC_UNDERPAID_INSTALLMENTS  TOTAL_INSTALLMENTS_PAID  TOTAL_LOANS_WITH_INSTALLMENTS  DAYS_SINCE_LAST_PAYMENT  AVG_BALANCE_TDC  MAX_BALANCE_TDC  AVG_CREDIT_LIMIT_TDC  AVG_UTILIZATION_RATIO_TDC  AVG_DPD_TDC  MAX_DPD_TDC  TOTAL_MONTHS_WITH_DPD_TDC
0      100001           11.0           11.0                0.142857                1.0                          0.0                      7.0                            2.0                   1628.0              0.0         

#### 'gold_active_customer_profile'`

A continuación se detalla cada columna de la tabla Gold, diseñada para el análisis de comportamiento crediticio de clientes activos.

---

`Clave Principal`

| `Nombre de la Columna` | `Fuente Original` | `¿Qué Mide?` | `¿Cómo se Calcula?` | `¿Para Qué Sirve?` |
| :--- | :--- | :--- | :--- | :--- |
| `SK_ID_CURR` | Múltiple | Identificador Único del Cliente | Clave de agrupación. | Es el identificador principal que une toda la información de un cliente en una sola fila. |

---

`Métricas Derivadas de 'installments_payments' (Comportamiento en Préstamos a Plazos)`

Estas columnas describen cómo un cliente paga sus cuotas de préstamos (no de tarjeta de crédito).

| `Nombre de la Columna` | `Fuente Original` | `¿Qué Mide?` | `¿Cómo se Calcula?` | `¿Para Qué Sirve?` |
| :--- | :--- | :--- | :--- | :--- |
| `AVG_DAYS_LATE` | `installments_payments` | La `'severidad promedio'` de los atrasos. | Promedio de `(DAYS_ENTRY_PAYMENT - DAYS_INSTALMENT)` solo para los pagos tardíos. | Diferencia a un cliente que se atrasa por `2 días` de otro que se atrasa por `30`. Un valor alto indica `atrasos significativos`. |
| `MAX_DAYS_LATE` | `installments_payments` | El `'peor atraso'` histórico del cliente. | El valor máximo de `(DAYS_ENTRY_PAYMENT - DAYS_INSTALMENT)`. | Es un indicador del `'peor escenario'`. Un valor muy alto es una `gran señal de alerta`, aunque su promedio de atraso sea bajo. |
| `FRAC_LATE_INSTALLMENTS` | `installments_payments` | La `'frecuencia'` o el `'hábito'` de pagar tarde. | Proporción de cuotas pagadas después de su fecha de vencimiento. | Responde a: ¿El cliente paga tarde de forma `consistente` o fue un `hecho aislado`? |
| `AVG_PAYMENT_RATIO` | `installments_payments` | La `'integridad promedio'` del pago. | Promedio de `(AMT_PAYMENT / AMT_INSTALMENT)`. | Un valor `< 1` indica que el cliente tiende a pagar menos. Un valor `> 1` indica que tiende a pagar de más. |
| `FRAC_UNDERPAID_INSTALLMENTS` | `installments_payments` | La `'frecuencia'` de pagos incompletos. | Proporción de cuotas donde `AMT_PAYMENT < AMT_INSTALMENT`. | Un indicador claro de `dificultades financieras`. Un cliente que consistentemente paga menos de lo que debe es un `alto riesgo`. |
| `TOTAL_INSTALLMENTS_PAID` | `installments_payments` | La `'experiencia total'` del cliente pagando cuotas. | Conteo total de registros de pago de cuotas para el cliente. | Da una medida de la `madurez` y el `volumen de historial` del cliente. |
| `TOTAL_LOANS_WITH_INSTALLMENTS` | `installments_payments` | La `'amplitud'` de la relación del cliente con la entidad. | Conteo de `SK_ID_PREV` únicos. | Diferencia a un cliente con un solo préstamo largo de otro con `múltiples préstamos` cortos. |
| `DAYS_SINCE_LAST_PAYMENT` | `installments_payments` | La `'recencia'` de la actividad del cliente. | Días transcurridos desde el `último pago registrado`. | Esencial para identificar clientes `activos` vs. `inactivos` o "dormidos". |

---

`Métricas Derivadas de 'credit_card_balance' (Comportamiento con Tarjetas de Crédito - TDC)`

Estas columnas describen cómo un cliente gestiona su línea de crédito revolvente.

| `Nombre de la Columna` | `Fuente Original` | `¿Qué Mide?` | `¿Cómo se Calcula?` | `¿Para Qué Sirve?` |
| :--- | :--- | :--- | :--- | :--- |
| `AVG_BALANCE_TDC` | `credit_card_balance` | El `'nivel de endeudamiento promedio'` en la TDC. | Promedio de `AMT_BALANCE` a lo largo de todos los meses registrados. | Indica cuánto dinero debe el cliente típicamente. Saldos promedio altos representan un `mayor riesgo monetario`. |
| `MAX_BALANCE_TDC` | `credit_card_balance` | El `'pico de endeudamiento'` en la TDC. | El valor máximo de `AMT_BALANCE` registrado para el cliente. | Muestra si el cliente ha llegado a tener `niveles de deuda muy altos`, incluso si su promedio es bajo. |
| `AVG_CREDIT_LIMIT_TDC` | `credit_card_balance` | El `'límite de crédito promedio'` otorgado al cliente. | Promedio de `AMT_CREDIT_LIMIT_ACTUAL`. | Es un indicador del `nivel de confianza` que la institución ha depositado en el cliente. |
| `AVG_UTILIZATION_RATIO_TDC` | `credit_card_balance` | Qué `%` de su crédito disponible `'utiliza en promedio'`. | Promedio de `(AMT_BALANCE / AMT_CREDIT_LIMIT_ACTUAL)`. | `Métrica clave de riesgo.` Una utilización consistentemente alta (`>70%`) es una de las señales más fuertes de `estrés financiero`. |
| `AVG_DPD_TDC` | `credit_card_balance` | La `'severidad promedio de morosidad'` en la TDC. | Promedio de `SK_DPD` (Days Past Due). | Similar a `AVG_DAYS_LATE`, pero específico para el producto de tarjeta de crédito. |
| `MAX_DPD_TDC` | `credit_card_balance` | La `'peor morosidad'` registrada en la TDC. | El valor máximo de `SK_DPD`. | Un DPD de `30, 60 o 90` días es un evento de riesgo mayor y esta columna lo captura inmediatamente. |
| `TOTAL_MONTHS_WITH_DPD_TDC` | `credit_card_balance` | La `'persistencia de la morosidad'`. | Conteo total de meses en los que el `SK_DPD > 0`. | Responde a: ¿La morosidad del cliente fue un `evento único` o es un `comportamiento recurrente`? |