## Libraries

In [1]:
from sqlalchemy import create_engine
from sqlalchemy import select
from sqlalchemy import text
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Silver Schema

### Credenciales

In [None]:
credenciales_felipe = "mysql+pymysql://root:Enero182005%@127.0.0.1:3306/bronze"
engine_felipe = create_engine(credenciales_felipe, echo=True)

In [2]:
try:
    engine_pablo = create_engine("mysql+pymysql://root:juanMySQL0513.@localhost/bronze")
    print("Database connection successful!")
except Exception as e:
    print(f"Database connection failed: {str(e)}")
    raise

Database connection successful!


### EDA tablas `application_{train|test}`

In [None]:
df= pd.read_sql("select * from application_train", engine)

#### Descripción de las tablas

Las `tabla application_{train|test}`.csv contienen información detallada sobre las solicitudes de crédito de los clientes en el marco del problema de riesgo crediticio de Home Credit. Cada fila representa una solicitud de préstamo hecha por un cliente, e incluye una variedad de variables que permiten caracterizar tanto su situación personal como financiera, con el objetivo de evaluar la probabilidad de incumplimiento en el pago del crédito.

Las variables de esta tabla abarcan múltiples aspectos del cliente. Entre ellas se encuentran datos demográficos como la edad, el género, el estado civil, el número de hijos y el nivel educativo. También incluye información relacionada con el empleo y los ingresos del cliente, como el tipo de ocupación, el ingreso total declarado y la antigüedad laboral. En cuanto al préstamo solicitado, se incluyen detalles como el tipo de contrato, el monto del crédito, el valor del bien a financiar y el monto de la anualidad que debe pagar el cliente.

Además, la tabla registra condiciones de vivienda (como si el cliente posee casa o automóvil, el tipo de vivienda, y características físicas del inmueble), información sobre medios de contacto y localización geográfica, y puntuaciones externas proporcionadas por fuentes anónimas que estiman el nivel de riesgo crediticio del cliente. También se incluyen indicadores binarios que señalan incongruencias entre el lugar de residencia y el lugar de trabajo, o si el cliente cambió recientemente su documento de identidad.

En el caso de `application_train.csv`, se añade una columna adicional llamada `TARGET`, que indica si el cliente presentó problemas para pagar el préstamo (valor 1) o no (valor 0).

In [None]:
df.info(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48744 entries, 0 to 48743
Data columns (total 122 columns):
 #    Column                        Dtype  
---   ------                        -----  
 0    SK_ID_CURR                    int64  
 1    TARGET                        int64  
 2    NAME_CONTRACT_TYPE            object 
 3    CODE_GENDER                   object 
 4    FLAG_OWN_CAR                  object 
 5    FLAG_OWN_REALTY               object 
 6    CNT_CHILDREN                  int64  
 7    AMT_INCOME_TOTAL              float64
 8    AMT_CREDIT                    float64
 9    AMT_ANNUITY                   float64
 10   AMT_GOODS_PRICE               float64
 11   NAME_TYPE_SUITE               object 
 12   NAME_INCOME_TYPE              object 
 13   NAME_EDUCATION_TYPE           object 
 14   NAME_FAMILY_STATUS            object 
 15   NAME_HOUSING_TYPE             object 
 16   REGION_POPULATION_RELATIVE    float64
 17   DAYS_BIRTH                    int64  
 18   DAYS

#### Descripcion de las columnas

Dado que la tabla `application_{train|test}.csv` contiene una gran cantidad de variables, muchas de las cuales resultan redundantes o poco relevantes para el análisis del riesgo crediticio —ya sea porque aportan información que se encuentra explícita en otras columnas o porque presentan una baja utilidad predictiva— se ha decidido omitir la descripción detallada de estas en este documento. Esta decisión responde a una futura depuración del conjunto de datos, en la que estas variables serán eliminadas para simplificar el análisis y optimizar el rendimiento de los modelos.

Sin embargo, si en algún momento un analista o investigador desea profundizar en el estudio de estas variables excluidas, puede consultar la descripción completa en el archivo `HomeCredit_columns_description.csv`, el cual contiene una explicación detallada de todas las columnas disponibles en el conjunto de datos original.

#### Columnas más relevantes


##### Puntajes de riesgo externo

`EXT_SOURCE_1`, `EXT_SOURCE_2`, `EXT_SOURCE_3`  
Tres variables anónimas que representan puntuaciones de riesgo provenientes de fuentes externas. Han demostrado tener una alta correlación con la variable objetivo (`TARGET`) y suelen ser las más importantes en los modelos predictivos.

---

##### Ingresos y condiciones del préstamo

- `AMT_INCOME_TOTAL`: Ingreso anual total del cliente.  
- `AMT_CREDIT`: Monto total del crédito solicitado.  
- `AMT_ANNUITY`: Cuota anual del préstamo, útil para calcular ratios como ingresos/cuotas.  
- `AMT_GOODS_PRICE`: Valor del bien o servicio a financiar.

Estas columnas permiten estimar ratios financieros como:

- `AMT_ANNUITY / AMT_INCOME_TOTAL` → carga financiera del cliente.  
- `AMT_CREDIT / AMT_INCOME_TOTAL` → riesgo de endeudamiento.

---

##### Edad y experiencia laboral

- `DAYS_BIRTH`: Edad del cliente (en días negativos).  
- `DAYS_EMPLOYED`: Tiempo trabajando (en días negativos, aunque contiene valores atípicos para desempleados).  
- `DAYS_REGISTRATION`: Antigüedad del registro de residencia.  
- `DAYS_ID_PUBLISH`: Antigüedad del documento de identidad.

La edad y la estabilidad laboral son factores clásicos de evaluación crediticia.

---

##### Situación de vivienda

- `NAME_HOUSING_TYPE`: Tipo de vivienda (propia, rentada, municipal, etc.).  
- `FLAG_OWN_REALTY`: Indica si el cliente posee una propiedad inmobiliaria.  
- `REGION_POPULATION_RELATIVE`: Nivel de urbanización de la región de residencia (zonas más pobladas pueden tener mayor exposición a crédito informal).

---

##### Condición familiar

- `CNT_FAM_MEMBERS`: Número de miembros en la familia, lo cual puede indicar carga económica.  
- `CNT_CHILDREN`: Número de hijos, influye en los gastos del hogar.  
- `NAME_FAMILY_STATUS`: Estado civil (soltero, casado, divorciado, etc.).

---

##### Tipo de empleo

- `NAME_INCOME_TYPE`: Categoría de ingreso del cliente (empleado, pensionado, estudiante, etc.).  
- `OCCUPATION_TYPE`: Profesión específica del cliente.  
- `ORGANIZATION_TYPE`: Tipo de empleador (empresa privada, entidad gubernamental, etc.).


In [None]:
columnas_relevantes = [
    # Puntajes de riesgo externo
    'EXT_SOURCE_1',
    'EXT_SOURCE_2',
    'EXT_SOURCE_3',

    # Ingresos y condiciones del préstamo
    'AMT_INCOME_TOTAL',
    'AMT_CREDIT',
    'AMT_ANNUITY',
    'AMT_GOODS_PRICE',

    # Edad y experiencia laboral
    'DAYS_BIRTH',
    'DAYS_EMPLOYED',
    'DAYS_REGISTRATION',
    'DAYS_ID_PUBLISH',

    # Situación de vivienda
    'NAME_HOUSING_TYPE',
    'FLAG_OWN_REALTY',
    'REGION_POPULATION_RELATIVE',

    # Condición familiar
    'CNT_FAM_MEMBERS',
    'CNT_CHILDREN',
    'NAME_FAMILY_STATUS',

    # Tipo de empleo
    'NAME_INCOME_TYPE',
    'OCCUPATION_TYPE',
    'ORGANIZATION_TYPE'
]


In [None]:
df=df[columnas_relevantes]

In [None]:
df

Unnamed: 0,EXT_SOURCE_1,EXT_SOURCE_2,EXT_SOURCE_3,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,AMT_GOODS_PRICE,DAYS_BIRTH,DAYS_EMPLOYED,DAYS_REGISTRATION,DAYS_ID_PUBLISH,NAME_HOUSING_TYPE,FLAG_OWN_REALTY,REGION_POPULATION_RELATIVE,CNT_FAM_MEMBERS,CNT_CHILDREN,NAME_FAMILY_STATUS,NAME_INCOME_TYPE,OCCUPATION_TYPE,ORGANIZATION_TYPE
0,0.083037,0.262949,0.139376,202500.0,406597.5,24700.5,351000.0,-9461,-637,-3648.0,-2120,House / apartment,Y,0.018801,1,0,Single / not married,Working,Laborers,Business Entity Type 3
1,0.311267,0.622246,0.000000,270000.0,1293502.5,35698.5,1129500.0,-16765,-1188,-1186.0,-291,House / apartment,N,0.003541,2,0,Married,State servant,Core staff,School
2,0.000000,0.555912,0.729567,67500.0,135000.0,6750.0,135000.0,-19046,-225,-4260.0,-2531,House / apartment,Y,0.010032,1,0,Single / not married,Working,Laborers,Government
3,0.000000,0.650442,0.000000,135000.0,312682.5,29686.5,297000.0,-19005,-3039,-9833.0,-2437,House / apartment,Y,0.008019,2,0,Civil marriage,Working,Laborers,Business Entity Type 3
4,0.000000,0.322738,0.000000,121500.0,513000.0,21865.5,513000.0,-19932,-3038,-4311.0,-3458,House / apartment,Y,0.028663,1,0,Single / not married,Working,Core staff,Religion
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
307506,0.145570,0.681632,0.000000,157500.0,254700.0,27558.0,225000.0,-9327,-236,-8456.0,-1982,With parents,N,0.032561,1,0,Separated,Working,Sales staff,Services
307507,0.000000,0.115992,0.000000,72000.0,269550.0,12001.5,225000.0,-20775,365243,-4388.0,-4090,House / apartment,Y,0.025164,1,0,Widow,Pensioner,,XNA
307508,0.744026,0.535722,0.218859,153000.0,677664.0,29979.0,585000.0,-14966,-7921,-6737.0,-5150,House / apartment,Y,0.005002,1,0,Separated,Working,Managers,School
307509,0.000000,0.514163,0.661024,171000.0,370107.0,20205.0,319500.0,-11961,-4786,-2562.0,-931,House / apartment,Y,0.005313,2,0,Married,Commercial associate,Laborers,Business Entity Type 1


### EDA tablas `credit_card_balance` y `installments_payments`

In [19]:
df_credit_data = pd.read_sql("select * from credit_card_balance", engine_pablo)
df_installments = pd.read_sql("select * from installments_payments", engine_pablo)

#### Descripción de las tablas

`installments_payments`

Esta tabla contiene información detallada sobre los pagos realizados por los clientes en relación con las cuotas de créditos anteriores. Cada fila representa una cuota específica, incluyendo tanto la fecha programada como la fecha real del pago, así como los montos relacionados. Los datos permiten analizar el comportamiento de pago de los clientes, identificar atrasos, pagos incompletos o adelantados, y evaluar su responsabilidad financiera en créditos pasados.

`credit_card_balance`

Esta tabla representa el historial mensual del comportamiento de los clientes con sus tarjetas de crédito. Incluye información como el saldo de la tarjeta, el límite de crédito, los montos retirados, los pagos realizados y el estado del contrato mes a mes. Es útil para analizar patrones de gasto, nivel de endeudamiento, frecuencia de uso del crédito, cumplimiento de pagos y posibles señales de riesgo financiero.

#### Analisis y limpieza credit_card_balance


In [12]:
df_credit_data.dtypes

SK_ID_PREV                      int64
SK_ID_CURR                      int64
MONTHS_BALANCE                  int64
AMT_BALANCE                   float64
AMT_CREDIT_LIMIT_ACTUAL         int64
AMT_DRAWINGS_ATM_CURRENT      float64
AMT_DRAWINGS_CURRENT          float64
AMT_DRAWINGS_OTHER_CURRENT    float64
AMT_DRAWINGS_POS_CURRENT      float64
AMT_INST_MIN_REGULARITY       float64
AMT_PAYMENT_CURRENT           float64
AMT_PAYMENT_TOTAL_CURRENT     float64
AMT_RECEIVABLE_PRINCIPAL      float64
AMT_RECIVABLE                 float64
AMT_TOTAL_RECEIVABLE          float64
CNT_DRAWINGS_ATM_CURRENT      float64
CNT_DRAWINGS_CURRENT            int64
CNT_DRAWINGS_OTHER_CURRENT    float64
CNT_DRAWINGS_POS_CURRENT      float64
CNT_INSTALMENT_MATURE_CUM     float64
NAME_CONTRACT_STATUS           object
SK_DPD                          int64
SK_DPD_DEF                      int64
dtype: object

- `SK_ID_PREV`: ID de crédito (anterior), sirve como clave para unir datos anteriores de la misma solicitud.

- `SK_ID_CURR`: ID del cliente que permite unir los datos con el cliente principal en application.csv.

- `MONTHS_BALANCE`: Mes relativo del saldo del crédito con respecto a la fecha de aplicación (0 es el mes más reciente).

- `AMT_BALANCE`: Monto del saldo restante en la tarjeta de crédito.

- `AMT_CREDIT_LIMIT_ACTUAL`: Límite de crédito actual de la tarjeta.

- `AMT_DRAWINGS_ATM_CURRENT`: Monto total retirado en cajeros automáticos ese mes.

- `AMT_DRAWINGS_CURRENT`: Monto total retirado en el mes (incluye cajero, POS, otros).

- `AMT_DRAWINGS_OTHER_CURRENT`: Monto retirado por otros medios que no sean cajero o POS
.
- `AMT_DRAWINGS_POS_CURRENT`: Monto retirado en puntos de venta (POS).

- `AMT_INST_MIN_REGULARITY`: Pago mínimo mensual requerido.

- `AMT_PAYMENT_CURRENT`: Monto pagado en el mes.

- `AMT_PAYMENT_TOTAL_CURRENT`: Total de pagos en el mes (puede incluir pagos atrasados).

- `AMT_RECEIVABLE_PRINCIPAL`: Monto del principal que aún debe pagarse.

- `AMT_RECIVABLE`: Monto total que el cliente debe (principal + intereses).

- `AMT_TOTAL_RECEIVABLE`: Monto total por cobrar, incluyendo posibles cargos adicionales.

- `CNT_DRAWINGS_ATM_CURRENT`: Número de veces que el cliente retiró dinero en cajero automático ese mes.

- `CNT_DRAWINGS_CURRENT`: Número total de transacciones de retiro del mes.

- `CNT_DRAWINGS_OTHER_CURRENT`: Número de transacciones de retiro en canales diferentes a cajero y POS.

- `CNT_DRAWINGS_POS_CURRENT`: Número de transacciones en POS ese mes.

- `CNT_INSTALMENT_MATURE_CUM`: Número de cuotas del crédito que se han vencido hasta ese momento.

- `NAME_CONTRACT_STATUS`: Estado del contrato en ese mes (Activo, Cerrado, etc.).

- `SK_DPD`: Días de atraso del pago (sin considerar los pagos atrasados anteriores).

- `SK_DPD_DEF`: Días de atraso considerados como morosidad con penalidad.


In [13]:
df_credit_data.isnull().sum()

SK_ID_PREV                    0
SK_ID_CURR                    0
MONTHS_BALANCE                0
AMT_BALANCE                   0
AMT_CREDIT_LIMIT_ACTUAL       0
AMT_DRAWINGS_ATM_CURRENT      0
AMT_DRAWINGS_CURRENT          0
AMT_DRAWINGS_OTHER_CURRENT    0
AMT_DRAWINGS_POS_CURRENT      0
AMT_INST_MIN_REGULARITY       0
AMT_PAYMENT_CURRENT           0
AMT_PAYMENT_TOTAL_CURRENT     0
AMT_RECEIVABLE_PRINCIPAL      0
AMT_RECIVABLE                 0
AMT_TOTAL_RECEIVABLE          0
CNT_DRAWINGS_ATM_CURRENT      0
CNT_DRAWINGS_CURRENT          0
CNT_DRAWINGS_OTHER_CURRENT    0
CNT_DRAWINGS_POS_CURRENT      0
CNT_INSTALMENT_MATURE_CUM     0
NAME_CONTRACT_STATUS          0
SK_DPD                        0
SK_DPD_DEF                    0
dtype: int64

`Observación sobre precisión decimal`

Se identificó una inconsistencia en la precisión decimal de las columnas `AMT`, con valores mostrados con 1, 2 o 3 decimales según la herramienta (Pandas o SQL). Para estandarizar el tratamiento de montos monetarios, se actualizará el dataset redondeando todos los valores flotantes de columnas `AMT` a 2 decimales, conforme al estándar financiero internacional.


In [None]:
# observar la columna de AMT_BALANCE como ejemplo opara ver si debemos de manipular las decimas
df_credit_data['AMT_BALANCE'].head(5)

0        56.970
1     63975.555
2     31815.225
3    236572.110
4    453919.455
Name: AMT_BALANCE, dtype: float64

In [26]:
# Estandarizar todas las columnas de tipo float64 a 2 decimales
# Identificar columnas de tipo float64
columnas_float = df_credit_data.select_dtypes(include=['float64']).columns

# Redondear todas las columnas float64 a 2 decimales
df_credit_data[columnas_float] = df_credit_data[columnas_float].round(2)

print(f"Columnas redondeadas a 2 decimales: {list(columnas_float)}")
print(f"Total de columnas procesadas: {len(columnas_float)}")

Columnas redondeadas a 2 decimales: ['AMT_BALANCE', 'AMT_DRAWINGS_ATM_CURRENT', 'AMT_DRAWINGS_POS_CURRENT', 'AMT_INST_MIN_REGULARITY', 'AMT_PAYMENT_CURRENT', 'AMT_PAYMENT_TOTAL_CURRENT', 'AMT_RECEIVABLE_PRINCIPAL', 'AMT_RECIVABLE', 'AMT_TOTAL_RECEIVABLE', 'CNT_DRAWINGS_ATM_CURRENT', 'CNT_DRAWINGS_OTHER_CURRENT', 'CNT_DRAWINGS_POS_CURRENT', 'CNT_INSTALMENT_MATURE_CUM']
Total de columnas procesadas: 13


La columna `AMT_DRAWINGS_CURRENT` y `CNT_DRAWINGS_CURRENT` son redundantes, ya que se pueden obtenerse directamente como la suma de `AMT_DRAWINGS_ATM_CURRENT`, `AMT_DRAWINGS_POS_CURRENT` y `AMT_DRAWINGS_OTHER_CURRENT` y su equivakente para la otra columna. Mantenerla genera riesgo de inconsistencias si los componentes cambian y contribuye a un mayor consumo de espacio. Por tanto, se eliminará y calcularla solo cuando sea necesario.

In [None]:
#Eliminar la columna AMT_DRAWINGS_CURRENT y CNT_DRAWINGS_CURRENT
df_credit_data.drop(columns=['AMT_DRAWINGS_CURRENT', 'CNT_DRAWINGS_CURRENT'], inplace=True)

Las columnas AMT_DRAWINGS_CURRENT y CNT_DRAWINGS_CURRENT no existen en el DataFrame


In [24]:
df_credit_data['AMT_CREDIT_LIMIT_ACTUAL'].head(5)

0    135000
1     45000
2    450000
3    225000
4    450000
Name: AMT_CREDIT_LIMIT_ACTUAL, dtype: int64

La columna `AMT_DRAWINGS_OTHER_CURRENT` presenta valores distintos de cero en solo 3 registros de casi 3 millones, lo que indica una variabilidad extremadamente baja. Debido a su baja frecuencia y escasa relevancia analítica, se considera irrelevante para el análisis o modelado predictivo. Se recomienda eliminarla para optimizar el tamaño y la eficiencia del dataset.


In [25]:
df_credit_data.drop(columns=['AMT_DRAWINGS_OTHER_CURRENT'], inplace=True)

La columna `SK_DPD_DEF` será eliminada del dataset, ya que contiene información redundante respecto a `SK_DPD` y está vacía en casi la totalidad de los registros. No aporta valor al análisis y representa una fuente potencial de ruido.


In [32]:
df_credit_data.drop(columns=['SK_DPD_DEF'], inplace=True)

In [None]:
# cambiar nombre de la columna para eviar inconsistencias en la base de datos 
df_credit_data = df_credit_data.rename(columns={'AMT_RECIVABLE': 'AMT_RECEIVABLE'})

`Conteo de Clientes Únicos`

`Objetivo`
Determinar el número total de clientes únicos en el dataset para entender la escala del análisis y la distribución de datos por cliente.

In [12]:
# Conteo de clientes únicos
query_clientes_unicos = """
SELECT 
    COUNT(DISTINCT SK_ID_CURR) as total_clientes_unicos,
    COUNT(*) as total_registros,
    COUNT(*) / COUNT(DISTINCT SK_ID_CURR) as promedio_registros_por_cliente
FROM credit_card_balance
"""

try:
    clientes_unicos = pd.read_sql(query_clientes_unicos, engine_pablo)
    
    print("=== CONTEO DE CLIENTES ÚNICOS ===")
    print(f"Total de clientes únicos: {clientes_unicos['total_clientes_unicos'].iloc[0]:,}")
    print(f"Total de registros: {clientes_unicos['total_registros'].iloc[0]:,}")
    print(f"Promedio de registros por cliente: {clientes_unicos['promedio_registros_por_cliente'].iloc[0]:.1f}")
    
except Exception as e:
    print(f"Error en la consulta: {e}")

=== CONTEO DE CLIENTES ÚNICOS ===
Total de clientes únicos: 103,558
Total de registros: 3,840,312
Promedio de registros por cliente: 37.1


`Análisis Exploratorio con Consultas SQL`

`Objetivo`
Realizar análisis exploratorio del dataset `credit_card_balance` utilizando consultas SQL directas para identificar patrones de comportamiento crediticio y señales de riesgo, sin crear variables redundantes en el DataFrame.

`Metodología`
- `Consultas SQL directas`: Análisis eficiente sin duplicar datos
- `Indicadores de riesgo`: Identificación de comportamientos financieros problemáticos
- `Patrones temporales`: Análisis por estado de contrato y condiciones específicas

`Variables de Análisis`
- `Saldos a favor vs deudas`: Comportamiento de pago responsable
- `Pagos atrasados`: Indicadores de dificultades financieras
- `Cargos adicionales`: Señales de problemas de cumplimiento
- `Estados de contrato`: Patrones por condición crediticia

In [16]:
# Configurar pandas para mostrar todo sin truncación (printear bien todo)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

In [5]:
# Análisis exploratorio con consultas SQL directas
print("=== ANÁLISIS EXPLORATORIO CON CONSULTAS SQL ===")

# Clientes con saldo a favor
query_credito = """
SELECT COUNT(*) as total_clientes_credito,
       COUNT(*) * 100.0 / (SELECT COUNT(*) FROM credit_card_balance) as porcentaje
FROM credit_card_balance 
WHERE AMT_RECIVABLE < 0
"""
result_credito = pd.read_sql(query_credito, engine_pablo)
print(f"Clientes con saldo a favor: {result_credito['total_clientes_credito'].iloc[0]:,} ({result_credito['porcentaje'].iloc[0]:.2f}%)")

# Clientes con deuda pendiente
query_deuda = """
SELECT COUNT(*) as total_clientes_deuda,
       COUNT(*) * 100.0 / (SELECT COUNT(*) FROM credit_card_balance) as porcentaje
FROM credit_card_balance 
WHERE AMT_RECIVABLE > 0
"""
result_deuda = pd.read_sql(query_deuda, engine_pablo)
print(f"Clientes con deuda pendiente: {result_deuda['total_clientes_deuda'].iloc[0]:,} ({result_deuda['porcentaje'].iloc[0]:.2f}%)")

# Casos con pagos atrasados
query_pagos_atrasados = """
SELECT COUNT(*) as total_pagos_atrasados,
       COUNT(*) * 100.0 / (SELECT COUNT(*) FROM credit_card_balance) as porcentaje
FROM credit_card_balance 
WHERE AMT_PAYMENT_TOTAL_CURRENT > AMT_PAYMENT_CURRENT
"""
result_pagos = pd.read_sql(query_pagos_atrasados, engine_pablo)
print(f"Casos con pagos atrasados: {result_pagos['total_pagos_atrasados'].iloc[0]:,} ({result_pagos['porcentaje'].iloc[0]:.2f}%)")

# Casos con cargos adicionales
query_cargos = """
SELECT COUNT(*) as total_cargos_adicionales,
       COUNT(*) * 100.0 / (SELECT COUNT(*) FROM credit_card_balance) as porcentaje
FROM credit_card_balance 
WHERE AMT_TOTAL_RECEIVABLE > AMT_RECIVABLE
"""
result_cargos = pd.read_sql(query_cargos, engine_pablo)
print(f"Casos con cargos adicionales: {result_cargos['total_cargos_adicionales'].iloc[0]:,} ({result_cargos['porcentaje'].iloc[0]:.2f}%)")

=== ANÁLISIS EXPLORATORIO CON CONSULTAS SQL ===
Clientes con saldo a favor: 109,338 (2.85%)
Clientes con deuda pendiente: 1,617,158 (42.11%)
Casos con pagos atrasados: 0 (0.00%)
Casos con cargos adicionales: 11,244 (0.29%)


In [7]:
# Análisis por estado de contrato
query_por_estado = """
SELECT NAME_CONTRACT_STATUS,
       COUNT(*) as total_registros,
       SUM(CASE WHEN AMT_RECIVABLE < 0 THEN 1 ELSE 0 END) as con_credito,
       SUM(CASE WHEN AMT_RECIVABLE > 0 THEN 1 ELSE 0 END) as con_deuda,
       AVG(AMT_RECIVABLE) as promedio_receivable
FROM credit_card_balance 
GROUP BY NAME_CONTRACT_STATUS
ORDER BY total_registros DESC
"""
result_estado = pd.read_sql(query_por_estado, engine_pablo)
print("\n=== ANÁLISIS POR ESTADO DE CONTRATO ===")
print(result_estado)


=== ANÁLISIS POR ESTADO DE CONTRATO ===
  NAME_CONTRACT_STATUS  total_registros  con_credito  con_deuda  \
0               Active          3698436     109098.0  1611310.0   
1            Completed           128918          0.0      132.0   
2               Signed            11058        220.0     4845.0   
3               Demand             1365         20.0      870.0   
4        Sent proposal              513          0.0        1.0   
5              Refused               17          0.0        0.0   
6             Approved                5          0.0        0.0   

   promedio_receivable  
0         60145.125866  
1             5.719435  
2         45298.992176  
3         98607.783132  
4            13.026316  
5             0.000000  
6             0.000000  


`Análisis de Comportamiento por Cliente`

`Objetivo`
Identificar patrones de comportamiento crediticio individual, analizando métricas agregadas por cliente para detectar perfiles de riesgo y responsabilidad financiera.

`Métricas Clave`
- `Total de registros`: Frecuencia de uso de la tarjeta
- `Promedio de receivable`: Nivel de endeudamiento típico
- `Meses con crédito/deuda`: Patrones de comportamiento financiero
- `Pagos atrasados`: Indicadores de riesgo crediticio
- `Utilización del límite`: Eficiencia en el uso del crédito

In [None]:
# Análisis de perfil de clientes - TODOS los clientes

query_perfil_completo = """
SELECT 
    SK_ID_CURR,
    COUNT(*) as total_registros,
    AVG(AMT_RECIVABLE) as promedio_receivable,
    AVG(AMT_CREDIT_LIMIT_ACTUAL) as promedio_limite_credito,
    AVG(SK_DPD) as promedio_dias_atraso,
    MAX(SK_DPD) as max_dias_atraso,
    SUM(CASE WHEN SK_DPD = 0 THEN 1 ELSE 0 END) as meses_sin_atraso,
    SUM(CASE WHEN SK_DPD > 0 THEN 1 ELSE 0 END) as meses_con_atraso,
    AVG(AMT_PAYMENT_CURRENT) as promedio_pagos,
    AVG(AMT_RECIVABLE / AMT_CREDIT_LIMIT_ACTUAL) as ratio_utilizacion,
    NAME_CONTRACT_STATUS
FROM credit_card_balance 
WHERE AMT_CREDIT_LIMIT_ACTUAL > 0
GROUP BY SK_ID_CURR, NAME_CONTRACT_STATUS
HAVING COUNT(*) > 3  -- Al menos 3 meses de historial
ORDER BY promedio_receivable DESC
"""

try:
    perfil_completo = pd.read_sql(query_perfil_completo, engine_pablo)
    
    print("=== ANÁLISIS DE PERFIL DE CLIENTES - DATASET COMPLETO ===")
    print(f"Total de clientes analizados: {len(perfil_completo):,}")
    print(f"Promedio de límite de crédito: ${perfil_completo['promedio_limite_credito'].mean():,.2f}")
    print(f"Promedio de días de atraso: {perfil_completo['promedio_dias_atraso'].mean():.1f}")
    print(f"Clientes sin atrasos: {(perfil_completo['meses_con_atraso'] == 0).sum():,}")
    print(f"Clientes con atrasos: {(perfil_completo['meses_con_atraso'] > 0).sum():,}")
    
    print("\n=== TOP 5 CLIENTES CON MAYOR RECEIVABLE ===")
    top_5_receivable = perfil_completo[['SK_ID_CURR', 'promedio_receivable', 'promedio_limite_credito', 
                                       'promedio_dias_atraso', 'ratio_utilizacion']].head()
    print(top_5_receivable.to_string(index=False))
    
    print("\n=== TOP 5 CLIENTES CON MAYOR ATRASO ===")
    top_5_atraso = perfil_completo[['SK_ID_CURR', 'promedio_receivable', 'promedio_limite_credito', 
                                   'promedio_dias_atraso', 'max_dias_atraso']].sort_values('promedio_dias_atraso', ascending=False).head()
    print(top_5_atraso.to_string(index=False))
    
    print("\n=== CLIENTES VIP (Alto receivable, sin atrasos) ===")
    clientes_vip = perfil_completo[
        (perfil_completo['promedio_receivable'] > 50000) & 
        (perfil_completo['meses_con_atraso'] == 0)
    ][['SK_ID_CURR', 'promedio_receivable', 'promedio_limite_credito', 'ratio_utilizacion']]
    print(f"Total clientes VIP: {len(clientes_vip):,}")
    if len(clientes_vip) > 0:
        print("TOP 5 clientes VIP:")
        print(clientes_vip.head().to_string(index=False))
    
    print("\n=== CLIENTES DE ALTO RIESGO (Alto receivable, con atrasos) ===")
    clientes_riesgo = perfil_completo[
        (perfil_completo['promedio_receivable'] > 50000) & 
        (perfil_completo['meses_con_atraso'] > 0)
    ][['SK_ID_CURR', 'promedio_receivable', 'promedio_dias_atraso', 'max_dias_atraso']]
    print(f"Total clientes de alto riesgo: {len(clientes_riesgo):,}")
    if len(clientes_riesgo) > 0:
        print("TOP 5 clientes de alto riesgo:")
        print(clientes_riesgo.head().to_string(index=False))
        
    print(f"\n=== RESUMEN ESTADÍSTICO ===")
    print(f"Porcentaje de clientes sin atrasos: {(perfil_completo['meses_con_atraso'] == 0).sum() / len(perfil_completo) * 100:.1f}%")
    print(f"Porcentaje de clientes con atrasos: {(perfil_completo['meses_con_atraso'] > 0).sum() / len(perfil_completo) * 100:.1f}%")
    print(f"Porcentaje de clientes VIP: {len(clientes_vip) / len(perfil_completo) * 100:.1f}%")
    print(f"Porcentaje de clientes de alto riesgo: {len(clientes_riesgo) / len(perfil_completo) * 100:.1f}%")
        
except Exception as e:
    print(f"Error en la consulta: {e}")

=== ANÁLISIS DE PERFIL DE CLIENTES - DATASET COMPLETO ===
Total de clientes analizados: 102,551
Promedio de límite de crédito: $230,925.22
Promedio de días de atraso: 4.0
Clientes sin atrasos: 81,872
Clientes con atrasos: 20,679

=== TOP 5 CLIENTES CON MAYOR RECEIVABLE ===
 SK_ID_CURR  promedio_receivable  promedio_limite_credito  promedio_dias_atraso  ratio_utilizacion
     396144        913096.639286                 900000.0                   0.0           1.014552
     367801        902288.225000                 900000.0                   0.0           1.002542
     436340        890237.198077                 900000.0                   0.0           0.989152
     275409        886660.464600                 900000.0                   0.0           0.985178
     423582        883052.737500                 900000.0                   0.0           0.981170

=== TOP 5 CLIENTES CON MAYOR ATRASO ===
 SK_ID_CURR  promedio_receivable  promedio_limite_credito  promedio_dias_atraso  max_dias_a

`Análisis Comparativo: ATM vs POS`

`Objetivo`
Comparar el comportamiento de los clientes entre retiros por cajeros automáticos (ATM) y puntos de venta (POS) para identificar preferencias y patrones de uso.

In [17]:
query_comparativo = """
SELECT 
    'ATM' as canal,
    COUNT(*) as total_transacciones,
    SUM(AMT_DRAWINGS_ATM_CURRENT) as total_monto_retirado,
    AVG(AMT_DRAWINGS_ATM_CURRENT) as promedio_monto,
    COUNT(DISTINCT SK_ID_CURR) as clientes_unicos,
    COUNT(*) * 100.0 / (SELECT COUNT(*) FROM credit_card_balance WHERE AMT_DRAWINGS_ATM_CURRENT > 0 OR AMT_DRAWINGS_POS_CURRENT > 0) as porcentaje_transacciones
FROM credit_card_balance 
WHERE AMT_DRAWINGS_ATM_CURRENT > 0

UNION ALL

SELECT 
    'POS' as canal,
    COUNT(*) as total_transacciones,
    SUM(AMT_DRAWINGS_POS_CURRENT) as total_monto_retirado,
    AVG(AMT_DRAWINGS_POS_CURRENT) as promedio_monto,
    COUNT(DISTINCT SK_ID_CURR) as clientes_unicos,
    COUNT(*) * 100.0 / (SELECT COUNT(*) FROM credit_card_balance WHERE AMT_DRAWINGS_ATM_CURRENT > 0 OR AMT_DRAWINGS_POS_CURRENT > 0) as porcentaje_transacciones
FROM credit_card_balance 
WHERE AMT_DRAWINGS_POS_CURRENT > 0;
"""

try:
    # Ejecutar la consulta
    resultado = pd.read_sql(query_comparativo, engine_pablo)
    
    print("\nRESULTADOS DEL ANÁLISIS COMPARATIVO:")
    print("-" * 80)
    print(resultado.to_string(index=False))
    
    # Análisis adicional
    print("\n" + "=" * 80)
    print("ANÁLISIS DETALLADO:")
    print("=" * 80)
    
    # Obtener los valores para el análisis
    atm_data = resultado[resultado['canal'] == 'ATM'].iloc[0]
    pos_data = resultado[resultado['canal'] == 'POS'].iloc[0]
    
    print(f"\nCANAL ATM:")
    print(f"   Total de transacciones: {atm_data['total_transacciones']:,.0f}")
    print(f"   Monto total retirado: ${atm_data['total_monto_retirado']:,.2f}")
    print(f"   Promedio por transacción: ${atm_data['promedio_monto']:,.2f}")
    print(f"   Clientes únicos: {atm_data['clientes_unicos']:,.0f}")
    print(f"   Porcentaje del total de transacciones: {atm_data['porcentaje_transacciones']:.1f}%")
    
    print(f"\nCANAL POS:")
    print(f"   Total de transacciones: {pos_data['total_transacciones']:,.0f}")
    print(f"   Monto total retirado: ${pos_data['total_monto_retirado']:,.2f}")
    print(f"   Promedio por transacción: ${pos_data['promedio_monto']:,.2f}")
    print(f"   Clientes únicos: {pos_data['clientes_unicos']:,.0f}")
    print(f"   Porcentaje del total de transacciones: {pos_data['porcentaje_transacciones']:.1f}%")
    
    # Comparaciones
    print(f"\nCOMPARACIONES:")
    print(f"   Diferencia en transacciones: {abs(atm_data['total_transacciones'] - pos_data['total_transacciones']):,.0f}")
    print(f"   Diferencia en monto total: ${abs(atm_data['total_monto_retirado'] - pos_data['total_monto_retirado']):,.2f}")
    print(f"   Diferencia en promedio: ${abs(atm_data['promedio_monto'] - pos_data['promedio_monto']):,.2f}")
    
    # Determinar preferencia
    if atm_data['total_transacciones'] > pos_data['total_transacciones']:
        print(f"\nCONCLUSIÓN: Los clientes prefieren ATM con {atm_data['porcentaje_transacciones']:.1f}% de las transacciones")
    else:
        print(f"\nCONCLUSIÓN: Los clientes prefieren POS con {pos_data['porcentaje_transacciones']:.1f}% de las transacciones")
    
    if atm_data['promedio_monto'] > pos_data['promedio_monto']:
        print(f"   Los retiros por ATM son ${atm_data['promedio_monto'] - pos_data['promedio_monto']:.2f} más altos en promedio")
    else:
        print(f"   Los retiros por POS son ${pos_data['promedio_monto'] - atm_data['promedio_monto']:.2f} más altos en promedio")
        
except Exception as e:
    print(f"Error en la consulta: {e}")


RESULTADOS DEL ANÁLISIS COMPARATIVO:
--------------------------------------------------------------------------------
canal  total_transacciones  total_monto_retirado  promedio_monto  clientes_unicos  porcentaje_transacciones
  ATM               424777          1.842346e+10    43372.068979            60032                  70.68943
  POS               264901          9.175080e+09    34635.880976            40824                  44.08360

ANÁLISIS DETALLADO:

CANAL ATM:
   Total de transacciones: 424,777
   Monto total retirado: $18,423,457,344.59
   Promedio por transacción: $43,372.07
   Clientes únicos: 60,032
   Porcentaje del total de transacciones: 70.7%

CANAL POS:
   Total de transacciones: 264,901
   Monto total retirado: $9,175,079,506.55
   Promedio por transacción: $34,635.88
   Clientes únicos: 40,824
   Porcentaje del total de transacciones: 44.1%

COMPARACIONES:
   Diferencia en transacciones: 159,876
   Diferencia en monto total: $9,248,377,838.04
   Diferencia en prom

#### Analisis y limpieza installments_payments

In [20]:
df_installments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13605401 entries, 0 to 13605400
Data columns (total 8 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   SK_ID_PREV              int64  
 1   SK_ID_CURR              int64  
 2   NUM_INSTALMENT_VERSION  float64
 3   NUM_INSTALMENT_NUMBER   int64  
 4   DAYS_INSTALMENT         float64
 5   DAYS_ENTRY_PAYMENT      float64
 6   AMT_INSTALMENT          float64
 7   AMT_PAYMENT             float64
dtypes: float64(5), int64(3)
memory usage: 830.4 MB


- `SK_ID_PREV`: ID del crédito anterior asociado al cliente. Permite enlazar este pago con un préstamo previo.

- `SK_ID_CURR`: ID del cliente, usado para unir esta información con la solicitud principal en application.csv.

- `NUM_INSTALMENT_VERSION`: Número de versión del calendario de pagos del crédito anterior. Indica cambios en las condiciones del préstamo (ej. refinanciaciones).

- `NUM_INSTALMENT_NUMBER``: Número secuencial de la cuota a la que corresponde el pago registrado.

- `DAYS_INSTALMENT`: Día programado para el pago de esa cuota, contado de forma relativa a la fecha de solicitud del crédito actual (negativo).

- `DAYS_ENTRY_PAYMENT`: Día en que efectivamente se realizó el pago, relativo a la fecha de solicitud (puede ser antes o después del esperado).

- `AMT_INSTALMENT`: Valor monetario que se esperaba pagar en esa cuota.

- `AMT_PAYMENT`: Valor monetario que realmente se pagó en esa cuota (puede ser menor, igual o mayor que el esperado).

In [22]:
df_installments.isnull().sum()

SK_ID_PREV                0
SK_ID_CURR                0
NUM_INSTALMENT_VERSION    0
NUM_INSTALMENT_NUMBER     0
DAYS_INSTALMENT           0
DAYS_ENTRY_PAYMENT        0
AMT_INSTALMENT            0
AMT_PAYMENT               0
dtype: int64

`Pasar a datos correctos y estandarizados`, las columnas que deberian de estar en entero como los dias, lo mismo la versión, también al igual que para el dataframe anterior, se estandarizaran los valores monetarios a dos cifras decimales

In [24]:
df_installments[['AMT_INSTALMENT', 'AMT_PAYMENT']].head()

Unnamed: 0,AMT_INSTALMENT,AMT_PAYMENT
0,6948.36,6948.36
1,1716.525,1716.525
2,25425.0,25425.0
3,24350.13,24350.13
4,2165.04,2160.585


In [25]:
# Pasar las columnas monetarias a cifras decimales de dos cifras

df_installments[['AMT_INSTALMENT', 'AMT_PAYMENT']].round(2)

KeyboardInterrupt: 

In [None]:
# Pasar las columnas DAYS y Version a entero

## Gold