In [1]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns

## La función

In [2]:
def resumen_tabla(df, nombre_tabla, top_nulls=10):
    print("="*80)
    print(f"RESUMEN DATA UNDERSTANDING - {nombre_tabla}")
    print("="*80)

    # Dimensiones
    print("\nDimensiones (filas, columnas):")
    print(df.shape)

    # Tipos de datos
    print("\nTipos de datos:")
    print(df.dtypes.value_counts())

    # Columnas categóricas y numéricas
    cat_cols = df.select_dtypes(include="object").columns
    num_cols = df.select_dtypes(include=["int64", "float64"]).columns

    print("\nNúmero de columnas categóricas:", len(cat_cols))
    print("Número de columnas numéricas:", len(num_cols))

    # Valores nulos
    nulls = df.isnull().sum()
    null_percent = (nulls / len(df)) * 100

    nulls_df = pd.DataFrame({
        "Nulos": nulls,
        "% Nulos": null_percent
    }).sort_values("% Nulos", ascending=False)

    print(f"\nTop {top_nulls} columnas con más valores nulos:")
    display(nulls_df.head(top_nulls))

    # Columnas con alto porcentaje de nulos
    high_nulls = nulls_df[nulls_df["% Nulos"] > 40]
    print("\nColumnas con más de 40% de valores nulos:")
    display(high_nulls)

    # Columnas constantes
    constant_cols = [c for c in df.columns if df[c].nunique(dropna=False) <= 1]
    print("\nColumnas constantes o con un solo valor:")
    print(constant_cols)

    # Duplicados
    duplicates = df.duplicated().sum()
    print("\nFilas duplicadas:", duplicates)

    # Estadísticas básicas (solo numéricas)
    if len(num_cols) > 0:
        print("\nEstadísticas básicas (primeras 10 columnas numéricas):")
        display(df[num_cols].describe().T.head(10))

    print("\nFin del resumen de la tabla.")

## Rutas

In [3]:
DATA_PATH = "../datos_examen"

application = pd.read_parquet(os.path.join(DATA_PATH, "application_train.parquet"))
bureau = pd.read_parquet(os.path.join(DATA_PATH, "bureau.parquet"))
bureau_balance = pd.read_parquet(os.path.join(DATA_PATH, "bureau_balance.parquet"))
previous_application = pd.read_parquet(os.path.join(DATA_PATH, "previous_application.parquet"))
pos_cash = pd.read_parquet(os.path.join(DATA_PATH, "POS_CASH_balance.parquet"))
installments = pd.read_parquet(os.path.join(DATA_PATH, "installments_payments.parquet"))
credit_card = pd.read_parquet(os.path.join(DATA_PATH, "credit_card_balance.parquet"))
columns_desc = pd.read_parquet(os.path.join(DATA_PATH, "HomeCredit_columns_description.parquet"))

## Descripción de application

In [4]:
resumen_tabla(application, "application_train")

RESUMEN DATA UNDERSTANDING - application_train

Dimensiones (filas, columnas):
(307511, 122)

Tipos de datos:
float64    65
int64      41
object     16
Name: count, dtype: int64

Número de columnas categóricas: 16
Número de columnas numéricas: 106

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
COMMONAREA_AVG,214865,69.872297
COMMONAREA_MODE,214865,69.872297
COMMONAREA_MEDI,214865,69.872297
NONLIVINGAPARTMENTS_MEDI,213514,69.432963
NONLIVINGAPARTMENTS_MODE,213514,69.432963
NONLIVINGAPARTMENTS_AVG,213514,69.432963
FONDKAPREMONT_MODE,210295,68.386172
LIVINGAPARTMENTS_AVG,210199,68.354953
LIVINGAPARTMENTS_MEDI,210199,68.354953
LIVINGAPARTMENTS_MODE,210199,68.354953



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos
COMMONAREA_AVG,214865,69.872297
COMMONAREA_MODE,214865,69.872297
COMMONAREA_MEDI,214865,69.872297
NONLIVINGAPARTMENTS_MEDI,213514,69.432963
NONLIVINGAPARTMENTS_MODE,213514,69.432963
NONLIVINGAPARTMENTS_AVG,213514,69.432963
FONDKAPREMONT_MODE,210295,68.386172
LIVINGAPARTMENTS_AVG,210199,68.354953
LIVINGAPARTMENTS_MEDI,210199,68.354953
LIVINGAPARTMENTS_MODE,210199,68.354953



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_CURR,307511.0,278180.518577,102790.175348,100002.0,189145.5,278202.0,367142.5,456255.0
TARGET,307511.0,0.080729,0.272419,0.0,0.0,0.0,0.0,1.0
CNT_CHILDREN,307511.0,0.417052,0.722121,0.0,0.0,0.0,1.0,19.0
AMT_INCOME_TOTAL,307511.0,168797.919297,237123.146279,25650.0,112500.0,147150.0,202500.0,117000000.0
AMT_CREDIT,307511.0,599025.999706,402490.776996,45000.0,270000.0,513531.0,808650.0,4050000.0
AMT_ANNUITY,307499.0,27108.573909,14493.737315,1615.5,16524.0,24903.0,34596.0,258025.5
AMT_GOODS_PRICE,307233.0,538396.207429,369446.46054,40500.0,238500.0,450000.0,679500.0,4050000.0
REGION_POPULATION_RELATIVE,307511.0,0.020868,0.013831,0.00029,0.010006,0.01885,0.028663,0.072508
DAYS_BIRTH,307511.0,-16036.995067,4363.988632,-25229.0,-19682.0,-15750.0,-12413.0,-7489.0
DAYS_EMPLOYED,307511.0,63815.045904,141275.766519,-17912.0,-2760.0,-1213.0,-289.0,365243.0



Fin del resumen de la tabla.


### Tabla: application_train

**Descripción:**  
La tabla `application_train` contiene la información asociada a la solicitud de crédito actual de cada cliente al momento de la postulación. Es la tabla central del proyecto y la única que incorpora la variable objetivo `TARGET`, por lo que constituye la base sobre la cual se entrenan y evalúan los modelos de predicción de incumplimiento de pago.

**Llave principal:**  
`SK_ID_CURR`

**Granularidad:**  
Cada fila representa una solicitud de crédito individual asociada a un cliente único.

**Variables relevantes:**  
`TARGET`, `AMT_INCOME_TOTAL`, `AMT_CREDIT`, `AMT_ANNUITY`, `AMT_GOODS_PRICE`, `DAYS_BIRTH`, `DAYS_EMPLOYED`, `CNT_CHILDREN`, `CODE_GENDER`, `NAME_CONTRACT_TYPE`

**Observaciones:**  
El dataset presenta alta dimensionalidad, con un total de 122 columnas, de las cuales 106 son numéricas y 16 categóricas. La variable objetivo `TARGET` se encuentra fuertemente desbalanceada, con aproximadamente un 8% de registros correspondientes a clientes en situación de incumplimiento, lo que representa un desafío relevante para el modelado.  
Se identifican múltiples columnas con un porcentaje elevado de valores nulos, principalmente variables relacionadas con características físicas de la vivienda (áreas, número de pisos, antigüedad del edificio y tipo de construcción), superando en muchos casos el 60% de valores faltantes. Estas variables deberán ser evaluadas en la fase de preparación para determinar su imputación o eliminación.  
No se detectan columnas constantes ni filas duplicadas. Asimismo, se observa la presencia de valores anómalos conocidos, como el valor `365243` en la variable `DAYS_EMPLOYED`, que corresponde a una codificación inválida del tiempo de empleo y deberá ser tratada en etapas posteriores.


## Descripción bureau

In [5]:
resumen_tabla(bureau, "bureau")

RESUMEN DATA UNDERSTANDING - bureau

Dimensiones (filas, columnas):
(1716428, 17)

Tipos de datos:
float64    8
int64      6
object     3
Name: count, dtype: int64

Número de columnas categóricas: 3
Número de columnas numéricas: 14

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
AMT_ANNUITY,1226791,71.47349
AMT_CREDIT_MAX_OVERDUE,1124488,65.513264
DAYS_ENDDATE_FACT,633653,36.916958
AMT_CREDIT_SUM_LIMIT,591780,34.477415
AMT_CREDIT_SUM_DEBT,257669,15.011932
DAYS_CREDIT_ENDDATE,105553,6.149573
AMT_CREDIT_SUM,13,0.000757
SK_ID_CURR,0,0.0
SK_ID_BUREAU,0,0.0
CREDIT_DAY_OVERDUE,0,0.0



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos
AMT_ANNUITY,1226791,71.47349
AMT_CREDIT_MAX_OVERDUE,1124488,65.513264



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_CURR,1716428.0,278214.9,102938.6,100001.0,188866.75,278055.0,367426.0,456255.0
SK_ID_BUREAU,1716428.0,5924434.0,532265.7,5000000.0,5463953.75,5926303.5,6385681.25,6843457.0
DAYS_CREDIT,1716428.0,-1142.108,795.1649,-2922.0,-1666.0,-987.0,-474.0,0.0
CREDIT_DAY_OVERDUE,1716428.0,0.8181666,36.54443,0.0,0.0,0.0,0.0,2792.0
DAYS_CREDIT_ENDDATE,1610875.0,510.5174,4994.22,-42060.0,-1138.0,-330.0,474.0,31199.0
DAYS_ENDDATE_FACT,1082775.0,-1017.437,714.0106,-42023.0,-1489.0,-897.0,-425.0,0.0
AMT_CREDIT_MAX_OVERDUE,591940.0,3825.418,206031.6,0.0,0.0,0.0,0.0,115987185.0
CNT_CREDIT_PROLONG,1716428.0,0.006410406,0.09622391,0.0,0.0,0.0,0.0,9.0
AMT_CREDIT_SUM,1716415.0,354994.6,1149811.0,0.0,51300.0,125518.5,315000.0,585000000.0
AMT_CREDIT_SUM_DEBT,1458759.0,137085.1,677401.1,-4705600.32,0.0,0.0,40153.5,170100000.0



Fin del resumen de la tabla.


### Tabla: bureau

**Descripción:**  
La tabla `bureau` contiene información histórica de los créditos que los clientes han mantenido en otras instituciones financieras, reportados al buró de crédito. Esta tabla permite capturar el comportamiento crediticio externo del cliente, complementando la información interna disponible en la solicitud actual.

**Llave principal:**  
`SK_ID_BUREAU`

**Granularidad:**  
Cada fila representa un crédito individual reportado en el buró, asociado a un cliente a través de la clave `SK_ID_CURR`.

**Variables relevantes:**  
`SK_ID_CURR`, `DAYS_CREDIT`, `CREDIT_DAY_OVERDUE`, `AMT_CREDIT_SUM`, `AMT_CREDIT_SUM_DEBT`, `AMT_CREDIT_MAX_OVERDUE`, `CNT_CREDIT_PROLONG`, `DAYS_CREDIT_ENDDATE`, `DAYS_ENDDATE_FACT`

**Observaciones:**  
La tabla presenta una relación uno-a-muchos con la tabla principal `application_train`, ya que un mismo cliente puede tener múltiples créditos externos registrados. Cuenta con un total de 1.716.428 registros y 17 columnas, predominando las variables numéricas.  
Se identifican columnas con un porcentaje muy elevado de valores nulos, particularmente `AMT_ANNUITY` (más del 71%) y `AMT_CREDIT_MAX_OVERDUE` (más del 65%), lo que indica información incompleta sobre condiciones financieras de ciertos créditos y requerirá una evaluación cuidadosa en la fase de preparación.  
Existen también valores faltantes relevantes en variables temporales como `DAYS_ENDDATE_FACT` y `DAYS_CREDIT_ENDDATE`, lo que refleja que no todos los créditos cuentan con fechas de cierre o término registradas.  
Desde el punto de vista de los rangos, se observan valores extremos en montos crediticios y saldos de deuda, incluyendo montos muy elevados y valores negativos en `AMT_CREDIT_SUM_DEBT`, lo que sugiere la presencia de ajustes, cancelaciones o correcciones contables. No se detectan columnas constantes ni registros duplicados en la tabla.


## Descripción de bureau_balance

In [6]:
resumen_tabla(bureau_balance, "bureau_balance")

RESUMEN DATA UNDERSTANDING - bureau_balance

Dimensiones (filas, columnas):
(27299925, 3)

Tipos de datos:
int64     2
object    1
Name: count, dtype: int64

Número de columnas categóricas: 1
Número de columnas numéricas: 2

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
SK_ID_BUREAU,0,0.0
MONTHS_BALANCE,0,0.0
STATUS,0,0.0



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_BUREAU,27299925.0,6036297.0,492348.856904,5001709.0,5730933.0,6070821.0,6431951.0,6842888.0
MONTHS_BALANCE,27299925.0,-30.74169,23.864509,-96.0,-46.0,-25.0,-11.0,0.0



Fin del resumen de la tabla.


### Tabla: bureau_balance

**Descripción:**  
La tabla `bureau_balance` contiene el historial mensual del estado de los créditos externos reportados en el buró de crédito. Proporciona información temporal sobre el comportamiento de cada crédito a lo largo del tiempo, indicando su estado mes a mes hasta el momento actual o su cierre.

**Llave principal:**  
`SK_ID_BUREAU`

**Granularidad:**  
Cada fila representa el estado de un crédito específico (`SK_ID_BUREAU`) en un mes determinado, indicado por la variable `MONTHS_BALANCE`.

**Variables relevantes:**  
`SK_ID_BUREAU`, `MONTHS_BALANCE`, `STATUS`

**Observaciones:**  
La tabla presenta un volumen extremadamente alto de registros, con aproximadamente 27,3 millones de filas y solo 3 columnas, lo que confirma su naturaleza de serie temporal mensual. No se identifican valores nulos, columnas constantes ni registros duplicados, lo que indica una buena consistencia estructural.  
La variable `MONTHS_BALANCE` representa meses relativos al momento actual, con valores negativos que indican meses en el pasado y un máximo de 0 correspondiente al mes más reciente. La variable categórica `STATUS` codifica el estado del crédito en cada mes, siendo fundamental para capturar atrasos, pagos regulares y situaciones de incumplimiento a lo largo del tiempo.  
Debido a su granularidad mensual y a la relación uno-a-muchos con la tabla `bureau`, esta tabla no puede integrarse directamente al nivel cliente y requiere agregaciones temporales previas para su uso en el modelado.


## Descripción de previous_application

In [7]:
resumen_tabla(previous_application, "previous_application")

RESUMEN DATA UNDERSTANDING - previous_application

Dimensiones (filas, columnas):
(1670214, 37)

Tipos de datos:
object     16
float64    15
int64       6
Name: count, dtype: int64

Número de columnas categóricas: 16
Número de columnas numéricas: 21

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
RATE_INTEREST_PRIVILEGED,1664263,99.643698
RATE_INTEREST_PRIMARY,1664263,99.643698
AMT_DOWN_PAYMENT,895844,53.63648
RATE_DOWN_PAYMENT,895844,53.63648
NAME_TYPE_SUITE,820405,49.119754
DAYS_TERMINATION,673065,40.298129
DAYS_FIRST_DRAWING,673065,40.298129
DAYS_FIRST_DUE,673065,40.298129
DAYS_LAST_DUE_1ST_VERSION,673065,40.298129
DAYS_LAST_DUE,673065,40.298129



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos
RATE_INTEREST_PRIVILEGED,1664263,99.643698
RATE_INTEREST_PRIMARY,1664263,99.643698
AMT_DOWN_PAYMENT,895844,53.63648
RATE_DOWN_PAYMENT,895844,53.63648
NAME_TYPE_SUITE,820405,49.119754
DAYS_TERMINATION,673065,40.298129
DAYS_FIRST_DRAWING,673065,40.298129
DAYS_FIRST_DUE,673065,40.298129
DAYS_LAST_DUE_1ST_VERSION,673065,40.298129
DAYS_LAST_DUE,673065,40.298129



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_PREV,1670214.0,1923089.0,532597.958696,1000001.0,1461857.25,1923110.0,2384280.0,2845382.0
SK_ID_CURR,1670214.0,278357.2,102814.823849,100001.0,189329.0,278714.5,367514.0,456255.0
AMT_ANNUITY,1297979.0,15955.12,14782.137335,0.0,6321.78,11250.0,20658.42,418058.145
AMT_APPLICATION,1670214.0,175233.9,292779.762386,0.0,18720.0,71046.0,180360.0,6905160.0
AMT_CREDIT,1670213.0,196114.0,318574.616547,0.0,24160.5,80541.0,216418.5,6905160.0
AMT_DOWN_PAYMENT,774370.0,6697.402,20921.49541,-0.9,0.0,1638.0,7740.0,3060045.0
AMT_GOODS_PRICE,1284699.0,227847.3,315396.557937,0.0,50841.0,112320.0,234000.0,6905160.0
HOUR_APPR_PROCESS_START,1670214.0,12.48418,3.334028,0.0,10.0,12.0,15.0,23.0
NFLAG_LAST_APPL_IN_DAY,1670214.0,0.9964675,0.05933,0.0,1.0,1.0,1.0,1.0
RATE_DOWN_PAYMENT,774370.0,0.07963682,0.107823,-1.497876e-05,0.0,0.05160508,0.1089091,1.0



Fin del resumen de la tabla.


### Tabla: previous_application

**Descripción:**  
La tabla `previous_application` contiene información detallada sobre las solicitudes de crédito anteriores realizadas por los clientes dentro de Home Credit. Permite analizar el historial interno de postulaciones del cliente, incluyendo montos solicitados, montos aprobados, condiciones financieras y decisiones asociadas a cada solicitud previa.

**Llave principal:**  
`SK_ID_PREV`

**Granularidad:**  
Cada fila representa una solicitud de crédito previa asociada a un cliente, vinculada a la tabla principal mediante la clave `SK_ID_CURR`.

**Variables relevantes:**  
`SK_ID_CURR`, `SK_ID_PREV`, `AMT_APPLICATION`, `AMT_CREDIT`, `AMT_ANNUITY`, `AMT_GOODS_PRICE`, `HOUR_APPR_PROCESS_START`, `NAME_CONTRACT_STATUS`, `RATE_DOWN_PAYMENT`, `AMT_DOWN_PAYMENT`

**Observaciones:**  
La tabla presenta un volumen elevado de registros, con más de 1,6 millones de filas y 37 columnas, y una combinación equilibrada de variables numéricas y categóricas. Se observa una alta proporción de valores nulos en varias columnas, destacando especialmente `RATE_INTEREST_PRIVILEGED` y `RATE_INTEREST_PRIMARY`, que superan el 99% de valores faltantes, lo que limita significativamente su utilidad analítica.  
También se identifican columnas con más del 40% de valores nulos relacionadas con pagos iniciales y con fechas clave del ciclo de vida del crédito (`AMT_DOWN_PAYMENT`, `RATE_DOWN_PAYMENT`, `DAYS_FIRST_DUE`, `DAYS_LAST_DUE`, entre otras), lo que sugiere que dicha información no está disponible para todas las solicitudes.  
No se detectan columnas constantes ni registros duplicados. Desde el punto de vista de los valores, se observan montos crediticios con rangos amplios y algunos valores atípicos, incluyendo valores negativos o cercanos a cero en variables de pago inicial, lo que deberá ser evaluado y tratado en la fase de preparación.  
Debido a su relación uno-a-muchos con la tabla `application_train`, esta tabla requiere agregaciones previas a nivel cliente antes de su integración al dataset final.


## Descripción de pos_cash

In [8]:
resumen_tabla(pos_cash, "pos_cash")

RESUMEN DATA UNDERSTANDING - pos_cash

Dimensiones (filas, columnas):
(10001358, 8)

Tipos de datos:
int64      5
float64    2
object     1
Name: count, dtype: int64

Número de columnas categóricas: 1
Número de columnas numéricas: 7

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
CNT_INSTALMENT_FUTURE,26087,0.260835
CNT_INSTALMENT,26071,0.260675
SK_ID_CURR,0,0.0
SK_ID_PREV,0,0.0
MONTHS_BALANCE,0,0.0
NAME_CONTRACT_STATUS,0,0.0
SK_DPD,0,0.0
SK_DPD_DEF,0,0.0



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_PREV,10001358.0,1903217.0,535846.530722,1000001.0,1434405.0,1896565.0,2368963.0,2843499.0
SK_ID_CURR,10001358.0,278403.9,102763.74509,100001.0,189550.0,278654.0,367429.0,456255.0
MONTHS_BALANCE,10001358.0,-35.01259,26.06657,-96.0,-54.0,-28.0,-13.0,-1.0
CNT_INSTALMENT,9975287.0,17.08965,11.995056,1.0,10.0,12.0,24.0,92.0
CNT_INSTALMENT_FUTURE,9975271.0,10.48384,11.109058,0.0,3.0,7.0,14.0,85.0
SK_DPD,10001358.0,11.60693,132.714043,0.0,0.0,0.0,0.0,4231.0
SK_DPD_DEF,10001358.0,0.6544684,32.762491,0.0,0.0,0.0,0.0,3595.0



Fin del resumen de la tabla.


### Tabla: POS_CASH_balance

**Descripción:**  
La tabla `POS_CASH_balance` contiene información mensual sobre créditos de consumo (POS y cash loans) asociados a solicitudes de crédito previas dentro de Home Credit. Permite analizar el comportamiento de pago del cliente a lo largo del tiempo para este tipo de productos financieros.

**Llave principal:**  
`SK_ID_PREV`

**Granularidad:**  
Cada fila representa el estado de un crédito de consumo específico en un mes determinado, identificado por la variable `MONTHS_BALANCE`.

**Variables relevantes:**  
`SK_ID_CURR`, `SK_ID_PREV`, `MONTHS_BALANCE`, `CNT_INSTALMENT`, `CNT_INSTALMENT_FUTURE`, `SK_DPD`, `SK_DPD_DEF`, `NAME_CONTRACT_STATUS`

**Observaciones:**  
La tabla presenta un volumen elevado de registros, con más de 10 millones de filas y 8 columnas, lo que confirma su naturaleza de serie temporal mensual. La mayoría de las variables corresponden a indicadores numéricos relacionados con el número de cuotas y los días de atraso.  
Los valores nulos son escasos y se concentran únicamente en las variables `CNT_INSTALMENT` y `CNT_INSTALMENT_FUTURE`, con un porcentaje inferior al 0,3%, lo que indica una buena calidad general de los datos. No se detectan columnas constantes ni registros duplicados.  
Se observan valores extremos en las variables `SK_DPD` y `SK_DPD_DEF`, con máximos elevados que reflejan períodos prolongados de atraso, lo que convierte a estas variables en indicadores relevantes del comportamiento de pago.  
Debido a su granularidad mensual y a la relación uno-a-muchos con la tabla `previous_application`, esta tabla no puede integrarse directamente al nivel cliente y requiere agregaciones temporales previas antes de su incorporación al dataset final.


## Descripción de installments

In [9]:
resumen_tabla(installments, "installments")

RESUMEN DATA UNDERSTANDING - installments

Dimensiones (filas, columnas):
(13605401, 8)

Tipos de datos:
float64    5
int64      3
Name: count, dtype: int64

Número de columnas categóricas: 0
Número de columnas numéricas: 8

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
AMT_PAYMENT,2905,0.021352
DAYS_ENTRY_PAYMENT,2905,0.021352
SK_ID_PREV,0,0.0
SK_ID_CURR,0,0.0
NUM_INSTALMENT_NUMBER,0,0.0
NUM_INSTALMENT_VERSION,0,0.0
DAYS_INSTALMENT,0,0.0
AMT_INSTALMENT,0,0.0



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_PREV,13605401.0,1903365.0,536202.905546,1000001.0,1434191.0,1896520.0,2369094.0,2843499.0
SK_ID_CURR,13605401.0,278444.9,102718.310411,100001.0,189639.0,278685.0,367530.0,456255.0
NUM_INSTALMENT_VERSION,13605401.0,0.8566373,1.035216,0.0,0.0,1.0,1.0,178.0
NUM_INSTALMENT_NUMBER,13605401.0,18.8709,26.664067,1.0,4.0,8.0,19.0,277.0
DAYS_INSTALMENT,13605401.0,-1042.27,800.946284,-2922.0,-1654.0,-818.0,-361.0,-1.0
DAYS_ENTRY_PAYMENT,13602496.0,-1051.114,800.585883,-4921.0,-1662.0,-827.0,-370.0,-1.0
AMT_INSTALMENT,13605401.0,17050.91,50570.254429,0.0,4226.085,8884.08,16710.21,3771487.845
AMT_PAYMENT,13602496.0,17238.22,54735.783981,0.0,3398.265,8125.515,16108.425,3771487.845



Fin del resumen de la tabla.


### Tabla: installments_payments

**Descripción:**  
La tabla `installments_payments` contiene el historial detallado de los pagos de cuotas correspondientes a créditos otorgados previamente por Home Credit. Permite analizar el comportamiento de pago del cliente a nivel de cada cuota, comparando montos esperados versus montos efectivamente pagados y las fechas asociadas a dichos pagos.

**Llave principal:**  
`SK_ID_PREV`

**Granularidad:**  
Cada fila representa el pago (o intento de pago) de una cuota específica asociada a una solicitud de crédito previa, identificada por el número de cuota y su versión.

**Variables relevantes:**  
`SK_ID_CURR`, `SK_ID_PREV`, `NUM_INSTALMENT_NUMBER`, `DAYS_INSTALMENT`, `DAYS_ENTRY_PAYMENT`, `AMT_INSTALMENT`, `AMT_PAYMENT`, `NUM_INSTALMENT_VERSION`

**Observaciones:**  
La tabla presenta un volumen muy elevado de registros, con más de 13,6 millones de filas y 8 columnas, todas de tipo numérico. Los valores nulos son mínimos y se concentran únicamente en `AMT_PAYMENT` y `DAYS_ENTRY_PAYMENT`, con un porcentaje inferior al 0,03%, lo que indica una alta calidad general de los datos.  
No se detectan columnas constantes ni registros duplicados. Las variables temporales `DAYS_INSTALMENT` y `DAYS_ENTRY_PAYMENT` permiten identificar atrasos o pagos anticipados al comparar la fecha programada de la cuota con la fecha real de pago.  
Se observan rangos amplios y valores extremos tanto en montos de cuotas como en montos efectivamente pagados, lo que sugiere la existencia de pagos parciales, pagos acumulados o ajustes financieros. Debido a su granularidad a nivel de cuota y a su relación uno-a-muchos con la tabla `previous_application`, esta tabla requiere agregaciones previas antes de su integración al nivel cliente.


## Descripción de credit_card

In [10]:
resumen_tabla(credit_card, "credit_card")

RESUMEN DATA UNDERSTANDING - credit_card

Dimensiones (filas, columnas):
(3840312, 23)

Tipos de datos:
float64    15
int64       7
object      1
Name: count, dtype: int64

Número de columnas categóricas: 1
Número de columnas numéricas: 22

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
AMT_PAYMENT_CURRENT,767988,19.998063
CNT_DRAWINGS_POS_CURRENT,749816,19.524872
AMT_DRAWINGS_ATM_CURRENT,749816,19.524872
CNT_DRAWINGS_ATM_CURRENT,749816,19.524872
AMT_DRAWINGS_POS_CURRENT,749816,19.524872
AMT_DRAWINGS_OTHER_CURRENT,749816,19.524872
CNT_DRAWINGS_OTHER_CURRENT,749816,19.524872
CNT_INSTALMENT_MATURE_CUM,305236,7.948208
AMT_INST_MIN_REGULARITY,305236,7.948208
AMT_DRAWINGS_CURRENT,0,0.0



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SK_ID_PREV,3840312.0,1904504.0,536469.470563,1000018.0,1434385.0,1897122.0,2369328.0,2843496.0
SK_ID_CURR,3840312.0,278324.2,102704.475133,100006.0,189517.0,278396.0,367580.0,456250.0
MONTHS_BALANCE,3840312.0,-34.52192,26.667751,-96.0,-55.0,-28.0,-11.0,-1.0
AMT_BALANCE,3840312.0,58300.16,106307.031024,-420250.185,0.0,0.0,89046.69,1505902.185
AMT_CREDIT_LIMIT_ACTUAL,3840312.0,153808.0,165145.699525,0.0,45000.0,112500.0,180000.0,1350000.0
AMT_DRAWINGS_ATM_CURRENT,3090496.0,5961.325,28225.688578,-6827.31,0.0,0.0,0.0,2115000.0
AMT_DRAWINGS_CURRENT,3840312.0,7433.388,33846.077333,-6211.62,0.0,0.0,0.0,2287098.315
AMT_DRAWINGS_OTHER_CURRENT,3090496.0,288.1696,8201.989345,0.0,0.0,0.0,0.0,1529847.0
AMT_DRAWINGS_POS_CURRENT,3090496.0,2968.805,20796.887047,0.0,0.0,0.0,0.0,2239274.16
AMT_INST_MIN_REGULARITY,3535076.0,3540.204,5600.154122,0.0,0.0,0.0,6633.911,202882.005



Fin del resumen de la tabla.


### Tabla: credit_card_balance

**Descripción:**  
La tabla `credit_card_balance` contiene información mensual sobre el uso y comportamiento de las tarjetas de crédito asociadas a solicitudes de crédito previas dentro de Home Credit. Permite analizar cómo los clientes utilizan el crédito rotativo, incluyendo saldos, límites, montos girados y pagos realizados a lo largo del tiempo.

**Llave principal:**  
`SK_ID_PREV`

**Granularidad:**  
Cada fila representa el estado mensual de una tarjeta de crédito asociada a una solicitud previa, identificado por la variable `MONTHS_BALANCE`.

**Variables relevantes:**  
`SK_ID_CURR`, `SK_ID_PREV`, `MONTHS_BALANCE`, `AMT_BALANCE`, `AMT_CREDIT_LIMIT_ACTUAL`, `AMT_DRAWINGS_CURRENT`, `AMT_PAYMENT_CURRENT`, `AMT_INST_MIN_REGULARITY`

**Observaciones:**  
La tabla presenta un volumen considerable de datos, con aproximadamente 3,8 millones de registros y 23 columnas, predominando las variables numéricas. Se observan valores nulos relevantes en variables asociadas a montos y conteos de giros y pagos (`AMT_PAYMENT_CURRENT`, `CNT_DRAWINGS_*`, `AMT_DRAWINGS_*`), con porcentajes cercanos al 20%, lo que indica que no todas las tarjetas presentan actividad mensual registrada.  
No se detectan columnas constantes ni registros duplicados. Se observan valores extremos y, en algunos casos, valores negativos en variables de montos, como `AMT_BALANCE` y `AMT_DRAWINGS_*`, lo que sugiere ajustes financieros, reversos o correcciones contables.  
La variable `MONTHS_BALANCE` confirma la naturaleza temporal de la tabla, con valores negativos que representan meses en el pasado. Debido a su granularidad mensual y a la relación uno-a-muchos con la tabla `previous_application`, esta tabla requiere agregaciones previas antes de su integración al nivel cliente para su uso en el modelado.


## Descripción de columns_desc

In [11]:
resumen_tabla(columns_desc, "columns_desc")

RESUMEN DATA UNDERSTANDING - columns_desc

Dimensiones (filas, columnas):
(219, 5)

Tipos de datos:
object    4
int64     1
Name: count, dtype: int64

Número de columnas categóricas: 4
Número de columnas numéricas: 1

Top 10 columnas con más valores nulos:


Unnamed: 0,Nulos,% Nulos
Special,133,60.730594
Unnamed: 0,0,0.0
Table,0,0.0
Row,0,0.0
Description,0,0.0



Columnas con más de 40% de valores nulos:


Unnamed: 0,Nulos,% Nulos
Special,133,60.730594



Columnas constantes o con un solo valor:
[]

Filas duplicadas: 0

Estadísticas básicas (primeras 10 columnas numéricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Unnamed: 0,219.0,111.981735,63.395726,1.0,57.5,112.0,166.5,221.0



Fin del resumen de la tabla.


### Tabla: HomeCredit_columns_description

**Descripción:**  
La tabla `HomeCredit_columns_description` corresponde al diccionario de datos del dataset Home Credit. Contiene información descriptiva sobre las variables presentes en las distintas tablas del proyecto, incluyendo el nombre de la tabla, el nombre de la columna y una explicación textual de su significado.

**Llave principal:**  
No aplica (tabla de metadata).

**Granularidad:**  
Cada fila representa la descripción de una variable específica perteneciente a una tabla del dataset.

**Variables relevantes:**  
`Table`, `Row`, `Description`, `Special`

**Observaciones:**  
La tabla presenta un tamaño reducido, con 219 filas y 5 columnas, y está compuesta mayoritariamente por variables categóricas. No se identifican registros duplicados ni columnas constantes.  
Se observa un alto porcentaje de valores nulos en la columna `Special` (aproximadamente 61%), lo que indica que esta información adicional solo está disponible para un subconjunto de variables y no afecta la utilidad principal de la tabla.  
Esta tabla no se utiliza directamente en el modelado ni en la integración de datos, pero resulta fundamental para la correcta interpretación de las variables, la documentación del proyecto y la justificación de decisiones durante la ingeniería de características y la preparación de los datos.
