## Libraries

In [1]:
from sqlalchemy import create_engine
from sqlalchemy import select
from sqlalchemy import text
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sqlite3

## Silver Schema

### Credenciales

In [3]:
credenciales_felipe = "mysql+pymysql://root:Enero182005%@127.0.0.1:3306/"
engine = create_engine(credenciales_felipe, echo=True)

In [None]:
try:
    engine_pablo = create_engine("mysql+pymysql://root:juanMySQL0513.@localhost/bronze")
    print("Database connection successful!")
except Exception as e:
    print(f"Database connection failed: {str(e)}")
    raise

Database connection successful!


### EDA tabla `application_train`

#### Descripción de las tablas

La `tabla application_train`.csv contienen información detallada sobre las solicitudes de crédito de los clientes en el marco del problema de riesgo crediticio de Home Credit. Cada fila representa una solicitud de préstamo hecha por un cliente, e incluye una variedad de variables que permiten caracterizar tanto su situación personal como financiera, con el objetivo de evaluar la probabilidad de incumplimiento en el pago del crédito.

Las variables de esta tabla abarcan múltiples aspectos del cliente. Entre ellas se encuentran datos demográficos como la edad, el género, el estado civil, el número de hijos y el nivel educativo. También incluye información relacionada con el empleo y los ingresos del cliente, como el tipo de ocupación, el ingreso total declarado y la antigüedad laboral. En cuanto al préstamo solicitado, se incluyen detalles como el tipo de contrato, el monto del crédito, el valor del bien a financiar y el monto de la anualidad que debe pagar el cliente.

Además, la tabla registra condiciones de vivienda (como si el cliente posee casa o automóvil, el tipo de vivienda, y características físicas del inmueble), información sobre medios de contacto y localización geográfica, y puntuaciones externas proporcionadas por fuentes anónimas que estiman el nivel de riesgo crediticio del cliente. También se incluyen indicadores binarios que señalan incongruencias entre el lugar de residencia y el lugar de trabajo, o si el cliente cambió recientemente su documento de identidad.


#### Descripcion de las columnas

Dado que la `tabla application_train.csv` contiene una gran cantidad de variables, muchas de las cuales resultan redundantes o poco relevantes para el análisis del riesgo crediticio —ya sea porque aportan información que se encuentra explícita en otras columnas, porque presentan una baja utilidad predictiva o porque ya están presentes en otras tablas de la base de datos—, se ha decidido omitir la descripción detallada de estas en este documento. Esta decisión responde a una futura depuración del conjunto de datos, en la que estas variables serán eliminadas para simplificar el análisis y optimizar el rendimiento de los modelos.

Sin embargo, si en algún momento un analista o investigador desea profundizar en el estudio de estas variables excluidas, puede consultar la descripción completa en el archivo `HomeCredit_columns_description.csv`, el cual contiene una explicación detallada de todas las columnas disponibles en el conjunto de datos original.

In [8]:
df_train= pd.read_sql_query("SELECT*FROM bronze.application_train", engine)

2025-08-03 17:00:41,686 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-03 17:00:41,688 INFO sqlalchemy.engine.Engine SELECT*FROM bronze.application_train
2025-08-03 17:00:41,689 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-03 17:01:50,511 INFO sqlalchemy.engine.Engine ROLLBACK


In [7]:
df_train

<generator object SQLDatabase._query_iterator at 0x000001047CFAEA40>

### Colums

In [76]:
df_train.info(4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307511 entries, 0 to 307510
Data columns (total 122 columns):
 #    Column                        Dtype  
---   ------                        -----  
 0    SK_ID_CURR                    int64  
 1    TARGET                        int64  
 2    NAME_CONTRACT_TYPE            object 
 3    CODE_GENDER                   object 
 4    FLAG_OWN_CAR                  object 
 5    FLAG_OWN_REALTY               object 
 6    CNT_CHILDREN                  int64  
 7    AMT_INCOME_TOTAL              float64
 8    AMT_CREDIT                    float64
 9    AMT_ANNUITY                   float64
 10   AMT_GOODS_PRICE               float64
 11   NAME_TYPE_SUITE               object 
 12   NAME_INCOME_TYPE              object 
 13   NAME_EDUCATION_TYPE           object 
 14   NAME_FAMILY_STATUS            object 
 15   NAME_HOUSING_TYPE             object 
 16   REGION_POPULATION_RELATIVE    float64
 17   DAYS_BIRTH                    int64  
 18   DA

### Limpieza de datos


No hay valores nulos

In [77]:
##valores nulos
valores_nulos = df_train.isnull().sum().to_frame()
valores_nulos= valores_nulos[valores_nulos[0]>0]
valores_nulos

Unnamed: 0,0


En las tablas existen algunos valores vacios 

In [78]:
conteo=((df_train=="")).sum().to_frame()
conteo=conteo[conteo[0]>0]
conteo

Unnamed: 0,0
NAME_TYPE_SUITE,1292
OCCUPATION_TYPE,96391
FONDKAPREMONT_MODE,210295
HOUSETYPE_MODE,154297
WALLSMATERIAL_MODE,156341
EMERGENCYSTATE_MODE,145755


Una vez identificadas las columnas que presentaban valores vacios se procedio a cambiar este valor por not specified or others dependiendo del concepto del significado de la columna y sus valores.

In [79]:
df_train["NAME_TYPE_SUITE"].value_counts()  

NAME_TYPE_SUITE
Unaccompanied      248526
Family              40149
Spouse, partner     11370
Children             3267
Other_B              1770
                     1292
Other_A               866
Group of people       271
Name: count, dtype: int64

In [80]:
df_train["NAME_TYPE_SUITE"].replace("", "Unaccompanied", inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_train["NAME_TYPE_SUITE"].replace("", "Unaccompanied", inplace=True)


In [81]:
df_train.OCCUPATION_TYPE.value_counts()

OCCUPATION_TYPE
                         96391
Laborers                 55186
Sales staff              32102
Core staff               27570
Managers                 21371
Drivers                  18603
High skill tech staff    11380
Accountants               9813
Medicine staff            8537
Security staff            6721
Cooking staff             5946
Cleaning staff            4653
Private service staff     2652
Low-skill Laborers        2093
Waiters/barmen staff      1348
Secretaries               1305
Realty agents              751
HR staff                   563
IT staff                   526
Name: count, dtype: int64

In [82]:
df_train["OCCUPATION_TYPE"].replace("", "Others", inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_train["OCCUPATION_TYPE"].replace("", "Others", inplace=True)


In [83]:
df_train.FONDKAPREMONT_MODE.value_counts()

FONDKAPREMONT_MODE
                         210295
reg oper account          73830
reg oper spec account     12080
not specified              5687
org spec account           5619
Name: count, dtype: int64

In [84]:
df_train.HOUSETYPE_MODE.value_counts()

HOUSETYPE_MODE
                    154297
block of flats      150503
specific housing      1499
terraced house        1212
Name: count, dtype: int64

In [85]:
df_train["WALLSMATERIAL_MODE"].value_counts()

WALLSMATERIAL_MODE
                156341
Panel            66040
Stone, brick     64815
Block             9253
Wooden            5362
Mixed             2296
Monolithic        1779
Others            1625
Name: count, dtype: int64

In [86]:
df_train["EMERGENCYSTATE_MODE"].value_counts()

EMERGENCYSTATE_MODE
No     159428
       145755
Yes      2328
Name: count, dtype: int64

In [87]:
variables=["FONDKAPREMONT_MODE","HOUSETYPE_MODE","WALLSMATERIAL_MODE","EMERGENCYSTATE_MODE"]
for variable in variables:
    df_train[variable].replace("", "not specified", inplace=True)	

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_train[variable].replace("", "not specified", inplace=True)


Durante el análisis, se identificó que las columnas con el prefijo "days" presentaban valores negativos, lo cual generaba una considerable confusión al interpretar la cronología de los datos. Para resolver esta inconsistencia y preparar adecuadamente el conjunto de datos, el analista procedió a realizar una limpieza. En primer lugar, se convirtieron todos esos valores negativos a su equivalente positivo para eliminar la ambigüedad. la columna `DAYS_BIRTH` se normaliza a años para mejorar la interpretacion de este dato

In [88]:
# Filtrar columnas que contienen 'DAYS' 
df_days = df_train[[col for col in df_train.columns if 'DAYS' in col.upper()]]
df_days

Unnamed: 0,DAYS_BIRTH,DAYS_EMPLOYED,DAYS_REGISTRATION,DAYS_ID_PUBLISH,DAYS_LAST_PHONE_CHANGE
0,-9461,-637,-3648.0,-2120,-1134.0
1,-16765,-1188,-1186.0,-291,-828.0
2,-19046,-225,-4260.0,-2531,-815.0
3,-19005,-3039,-9833.0,-2437,-617.0
4,-19932,-3038,-4311.0,-3458,-1106.0
...,...,...,...,...,...
307506,-9327,-236,-8456.0,-1982,-273.0
307507,-20775,365243,-4388.0,-4090,0.0
307508,-14966,-7921,-6737.0,-5150,-1909.0
307509,-11961,-4786,-2562.0,-931,-322.0


In [89]:
df_train[df_days.columns.to_list()]=(df_train[df_days.columns.to_list()].abs())

In [90]:
df_train.DAYS_BIRTH=(df_train.DAYS_BIRTH / 365).astype(np.int64)
df_train.rename(columns={'DAYS_BIRTH': 'YEARS_BIRTH'}, inplace=True)


In [None]:
df_train.to_sql('application_train', con=engine, if_exists="replace", index=False ,schema="silver")
print("Dataframes saved to silver schema successfully.")

2025-08-02 22:19:20,730 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-02 22:19:21,434 INFO sqlalchemy.engine.Engine DESCRIBE `silver`.`application_train`
2025-08-02 22:19:21,439 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-02 22:19:21,477 INFO sqlalchemy.engine.Engine DESCRIBE `silver`.`application_train`
2025-08-02 22:19:21,479 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-02 22:19:21,493 INFO sqlalchemy.engine.Engine SHOW FULL TABLES FROM `silver`
2025-08-02 22:19:21,496 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-02 22:19:21,506 INFO sqlalchemy.engine.Engine SHOW FULL TABLES FROM `silver`
2025-08-02 22:19:21,508 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-02 22:19:21,580 INFO sqlalchemy.engine.Engine SHOW CREATE TABLE `silver`.`application_train`
2025-08-02 22:19:21,585 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-02 22:19:21,659 INFO sqlalchemy.engine.Engine 
DROP TABLE silver.application_train
2025-08-02 22:19:21,662 INFO sqlalchemy.engine.E

### EDA tablas `credit_card_balance` y `installments_payments`

In [92]:
df_credit_data = pd.read_sql("select * from credit_card_balance", engine_pablo)
df_installments = pd.read_sql("select * from installments_payments", engine_pablo)

NameError: name 'engine_pablo' is not defined

#### Descripción de las tablas

`installments_payments`

Esta tabla contiene información detallada sobre los pagos realizados por los clientes en relación con las cuotas de créditos anteriores. Cada fila representa una cuota específica, incluyendo tanto la fecha programada como la fecha real del pago, así como los montos relacionados. Los datos permiten analizar el comportamiento de pago de los clientes, identificar atrasos, pagos incompletos o adelantados, y evaluar su responsabilidad financiera en créditos pasados.

`credit_card_balance`

Esta tabla representa el historial mensual del comportamiento de los clientes con sus tarjetas de crédito. Incluye información como el saldo de la tarjeta, el límite de crédito, los montos retirados, los pagos realizados y el estado del contrato mes a mes. Es útil para analizar patrones de gasto, nivel de endeudamiento, frecuencia de uso del crédito, cumplimiento de pagos y posibles señales de riesgo financiero.

#### Descripción de columnas del dataset credit_card_balance


In [None]:
df_credit_data.dtypes

SK_ID_PREV                      int64
SK_ID_CURR                      int64
MONTHS_BALANCE                  int64
AMT_BALANCE                   float64
AMT_CREDIT_LIMIT_ACTUAL         int64
AMT_DRAWINGS_ATM_CURRENT      float64
AMT_DRAWINGS_CURRENT          float64
AMT_DRAWINGS_OTHER_CURRENT    float64
AMT_DRAWINGS_POS_CURRENT      float64
AMT_INST_MIN_REGULARITY       float64
AMT_PAYMENT_CURRENT           float64
AMT_PAYMENT_TOTAL_CURRENT     float64
AMT_RECEIVABLE_PRINCIPAL      float64
AMT_RECIVABLE                 float64
AMT_TOTAL_RECEIVABLE          float64
CNT_DRAWINGS_ATM_CURRENT      float64
CNT_DRAWINGS_CURRENT            int64
CNT_DRAWINGS_OTHER_CURRENT    float64
CNT_DRAWINGS_POS_CURRENT      float64
CNT_INSTALMENT_MATURE_CUM     float64
NAME_CONTRACT_STATUS           object
SK_DPD                          int64
SK_DPD_DEF                      int64
dtype: object

- `SK_ID_PREV`: ID de crédito (anterior), sirve como clave para unir datos anteriores de la misma solicitud.
- `SK_ID_CURR`: ID del cliente que permite unir los datos con el cliente principal en application.csv.
- `MONTHS_BALANCE`: Mes relativo del saldo del crédito con respecto a la fecha de aplicación (0 es el mes más reciente).
- `AMT_BALANCE`: Monto del saldo restante en la tarjeta de crédito.
- `AMT_CREDIT_LIMIT_ACTUAL`: Límite de crédito actual de la tarjeta.
- `AMT_DRAWINGS_ATM_CURRENT`: Monto total retirado en cajeros automáticos ese mes.
- `AMT_DRAWINGS_CURRENT`: Monto total retirado en el mes (incluye cajero, POS, otros).
- `AMT_DRAWINGS_OTHER_CURRENT`: Monto retirado por otros medios que no sean cajero o POS.
- `AMT_DRAWINGS_POS_CURRENT`: Monto retirado en puntos de venta (POS).
- `AMT_INST_MIN_REGULARITY`: Pago mínimo mensual requerido.
- `AMT_PAYMENT_CURRENT`: Monto pagado en el mes.
- `AMT_PAYMENT_TOTAL_CURRENT`: Total de pagos en el mes (puede incluir pagos atrasados).
- `AMT_RECEIVABLE_PRINCIPAL`: Monto del principal que aún debe pagarse.
- `AMT_RECIVABLE`: Monto total que el cliente debe (principal + intereses).
- `AMT_TOTAL_RECEIVABLE`: Monto total por cobrar, incluyendo posibles cargos adicionales.
- `CNT_DRAWINGS_ATM_CURRENT`: Número de veces que el cliente retiró dinero en cajero automático ese mes.
- `CNT_DRAWINGS_CURRENT`: Número total de transacciones de retiro del mes.
- `CNT_DRAWINGS_OTHER_CURRENT`: Número de transacciones de retiro en canales diferentes a cajero y POS.
- `CNT_DRAWINGS_POS_CURRENT`: Número de transacciones en POS ese mes.
- `CNT_INSTALMENT_MATURE_CUM`: Número de cuotas del crédito que se han vencido hasta ese momento.
- `NAME_CONTRACT_STATUS`: Estado del contrato en ese mes (Activo, Cerrado, etc.).
- `SK_DPD`: Días de atraso del pago (sin considerar los pagos atrasados anteriores).
- `SK_DPD_DEF`: Días de atraso considerados como morosidad con penalidad.


#### Analisis y limpieza

In [None]:
df_credit_data.isnull().sum()

SK_ID_PREV                    0
SK_ID_CURR                    0
MONTHS_BALANCE                0
AMT_BALANCE                   0
AMT_CREDIT_LIMIT_ACTUAL       0
AMT_DRAWINGS_ATM_CURRENT      0
AMT_DRAWINGS_CURRENT          0
AMT_DRAWINGS_OTHER_CURRENT    0
AMT_DRAWINGS_POS_CURRENT      0
AMT_INST_MIN_REGULARITY       0
AMT_PAYMENT_CURRENT           0
AMT_PAYMENT_TOTAL_CURRENT     0
AMT_RECEIVABLE_PRINCIPAL      0
AMT_RECIVABLE                 0
AMT_TOTAL_RECEIVABLE          0
CNT_DRAWINGS_ATM_CURRENT      0
CNT_DRAWINGS_CURRENT          0
CNT_DRAWINGS_OTHER_CURRENT    0
CNT_DRAWINGS_POS_CURRENT      0
CNT_INSTALMENT_MATURE_CUM     0
NAME_CONTRACT_STATUS          0
SK_DPD                        0
SK_DPD_DEF                    0
dtype: int64

**Observación sobre inconsistencia de precisión decimal:**

Al examinar la columna AMT_BALANCE en el dataset de tarjetas de crédito, se observa una inconsistencia en la precisión decimal entre la representación en SQL y pandas:

- `SQL`: Muestra valores con diferentes precisiones (1, 2, o 3 decimales)
- `Pandas`: Interpreta correctamente los valores numéricos independientemente de la precisión mostrada

Esta inconsistencia puede afectar:
1. Comparaciones numéricas en consultas SQL
2. Agregaciones y cálculos financieros
3. Consistencia de datos entre diferentes sistemas
4. Análisis de riesgo crediticio que requiere precisión en montos monetarios

Estandarizaremos la precisión decimal a 2 lugares para montos monetarios, siguiendo estándares financieros internacionales.

In [None]:
# observar la columna de AMT_BALANCE para ver si debemos de manipular las decimas
df_credit_data['AMT_BALANCE'].head(5)

0        56.970
1     63975.555
2     31815.225
3    236572.110
4    453919.455
Name: AMT_BALANCE, dtype: float64

In [None]:
# Estandarizar la columna AMT_BALANCE a 2 decimales

df_credit_data['AMT_BALANCE'] = df_credit_data['AMT_BALANCE'].round(2)
df_credit_data['AMT_BALANCE'].head()

0        56.97
1     63975.56
2     31815.22
3    236572.11
4    453919.46
Name: AMT_BALANCE, dtype: float64

## Gold

In [4]:
df= pd.read_sql("select * from silver.application_train", engine)

2025-08-04 19:07:33,652 INFO sqlalchemy.engine.Engine SELECT DATABASE()
2025-08-04 19:07:33,654 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-04 19:07:33,658 INFO sqlalchemy.engine.Engine SELECT @@sql_mode
2025-08-04 19:07:33,659 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-04 19:07:33,661 INFO sqlalchemy.engine.Engine SELECT @@lower_case_table_names
2025-08-04 19:07:33,663 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-04 19:07:33,666 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 19:07:33,667 INFO sqlalchemy.engine.Engine select * from silver.application_train
2025-08-04 19:07:33,668 INFO sqlalchemy.engine.Engine [raw sql] {}


2025-08-04 19:09:26,863 INFO sqlalchemy.engine.Engine ROLLBACK


In [19]:
df.NAME_EDUCATION_TYPE.value_counts()    

NAME_EDUCATION_TYPE
Secondary / secondary special    218391
Higher education                  74863
Incomplete higher                 10277
Lower secondary                    3816
Academic degree                     164
Name: count, dtype: int64

In [22]:
df.NAME_HOUSING_TYPE.value_counts()   

NAME_HOUSING_TYPE
House / apartment      272868
With parents            14840
Municipal apartment     11183
Rented apartment         4881
Office apartment         2617
Co-op apartment          1122
Name: count, dtype: int64

In [25]:
df.DAYS_EMPLOYED.value_counts()

DAYS_EMPLOYED
365243    55374
200         156
224         152
199         151
230         151
          ...  
11707         1
13385         1
9985          1
9672          1
14232         1
Name: count, Length: 12574, dtype: int64

In [5]:
df.CNT_FAM_MEMBERS.value_counts()

CNT_FAM_MEMBERS
2     158357
1      67847
3      52601
4      24697
5       3478
6        408
7         81
8         20
9          6
10         3
0          2
14         2
12         2
20         2
16         2
13         1
15         1
11         1
Name: count, dtype: int64

In [10]:
df.to_sql('application_train', con=engine, if_exists="replace", index=False, schema="gold")

2025-08-03 18:42:54,326 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-03 18:42:54,681 INFO sqlalchemy.engine.Engine DESCRIBE `gold`.`application_train`
2025-08-03 18:42:54,684 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-03 18:42:54,710 INFO sqlalchemy.engine.Engine DESCRIBE `gold`.`application_train`
2025-08-03 18:42:54,714 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-03 18:42:54,724 INFO sqlalchemy.engine.Engine SHOW FULL TABLES FROM `gold`
2025-08-03 18:42:54,726 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-03 18:42:54,736 INFO sqlalchemy.engine.Engine SHOW FULL TABLES FROM `gold`
2025-08-03 18:42:54,739 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-03 18:42:54,870 INFO sqlalchemy.engine.Engine SHOW CREATE TABLE `gold`.`application_train`
2025-08-03 18:42:54,872 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-03 18:42:54,929 INFO sqlalchemy.engine.Engine 
DROP TABLE gold.application_train
2025-08-03 18:42:54,932 INFO sqlalchemy.engine.Engine [no ke

307511

## prueba

In [2]:
credenciales_felipe = "mysql+pymysql://root:Enero182005%@127.0.0.1:3306/"
engine = create_engine(credenciales_felipe, echo=True)

In [3]:
conn=sqlite3.connect("gold.db")

In [13]:
df=pd.read_sql_query("select * from silver.application_train", engine)

2025-08-04 16:41:07,311 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-08-04 16:41:07,323 INFO sqlalchemy.engine.Engine select * from silver.application_train
2025-08-04 16:41:07,324 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-08-04 16:42:51,438 INFO sqlalchemy.engine.Engine ROLLBACK


In [16]:
df["TARGET"].value_counts()

TARGET
0    282686
1     24825
Name: count, dtype: int64

In [14]:
df.to_csv("train_completa.csv")

In [4]:
df= pd.read_sql_query("select * from application_train", conn)

In [None]:
conn=sqlite3.connect("gold.db")
df.to_sql('installments_payments', conn, if_exists='replace', index=False)
conn.close()
print("Data saved to SQLite database successfully.")

Data saved to SQLite database successfully.


In [2]:
import sys
sys.path.append("..")

from scripts.gold_loader import load_or_download_db

In [4]:
url = "https://www.dropbox.com/scl/fi/p6wtdixxu1ltggfp42hur/gold.zip?rlkey=wl3e6gu8gwn9rco6m0n7gkegp&st=j5kg6fvy&dl=1"
# Descarga y prepara
db_path = load_or_download_db(db_name="gold.db", zip_url=url, zipped=True)



⬇️ Descargando base desde https://www.dropbox.com/scl/fi/p6wtdixxu1ltggfp42hur/gold.zip?rlkey=wl3e6gu8gwn9rco6m0n7gkegp&st=j5kg6fvy&dl=1...
📦 Extrayendo gold.db.zip...
✅ Base de datos disponible: gold.db


In [None]:
conn = sqlite3.connect(db_path)
df=pd.read_sql_query("select * from application_train", conn)
df

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR
0,100002,1,Cash loans,M,N,Y,0,202500.0,406597.5,24700.5,...,0,0,0,0,0,0,0,0,0,1
1,100003,0,Cash loans,F,N,N,0,270000.0,1293502.5,35698.5,...,0,0,0,0,0,0,0,0,0,0
2,100004,0,Revolving loans,M,Y,Y,0,67500.0,135000.0,6750.0,...,0,0,0,0,0,0,0,0,0,0
3,100006,0,Cash loans,F,N,Y,0,135000.0,312682.5,29686.5,...,0,0,0,0,0,0,0,0,0,0
4,100007,0,Cash loans,M,N,Y,0,121500.0,513000.0,21865.5,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
307506,456251,0,Cash loans,M,N,N,0,157500.0,254700.0,27558.0,...,0,0,0,0,0,0,0,0,0,0
307507,456252,0,Cash loans,F,N,Y,0,72000.0,269550.0,12001.5,...,0,0,0,0,0,0,0,0,0,0
307508,456253,0,Cash loans,F,N,Y,0,153000.0,677664.0,29979.0,...,0,0,0,0,1,0,0,1,0,1
307509,456254,1,Cash loans,F,N,Y,0,171000.0,370107.0,20205.0,...,0,0,0,0,0,0,0,0,0,0
