In [1]:
# 🔌 Cargar la extensión de Kedro en Jupyter
%load_ext kedro.ipython

# 📌 Importar librerías necesarias
import pandas as pd

In [2]:
# 📂 Ver todos los datasets disponibles en tu catalog.yml
catalog.keys()



[1m[[0m
    [32m'bank_customer_transactions'[0m,
    [32m'cleaned_dataset'[0m,
    [32m'customer_agg'[0m,
    [32m'customers'[0m,
    [32m'foreign_customer_dataset'[0m,
    [32m'fraud_dataset'[0m,
    [32m'RFM'[0m,
    [32m'transactions'[0m,
    [32m'parameters'[0m
[1m][0m

In [2]:
# 📌 Lista de datasets que tienes en data/01_raw
datasets = [
    "bank_customer_transactions",
    "cleaned_dataset",
    "customer_agg",
    "customers",
    "foreign_customer_dataset",
    "fraud_dataset",
    "RFM",
    "transactions",
]

# 📌 Cargar todos los datasets desde el catálogo, con el objetivo de ver que DataSet serán seleccionados para realizar el EDA
loaded_data = {name: catalog.load(name) for name in datasets}

# 📌 Mostrar resumen de cada DataSet con el objetivo que seleccionar 3 que contengan +10.000 datos
print("--- Resumen de la cantidad de registros por DataFrame ---")
for name, df in loaded_data.items():
    print(f"{name}: {df.shape[0]} filas, {df.shape[1]} columnas")

print("\n--- Datasets con más de 10,000 registros ---")
for name, df in loaded_data.items():
    if df.shape[0] > 10000:
        print(f"{name}: {df.shape[0]} filas")



--- Resumen de la cantidad de registros por DataFrame ---
bank_customer_transactions: 1048567 filas, 9 columnas
cleaned_dataset: 984247 filas, 10 columnas
customer_agg: 838370 filas, 15 columnas
customers: 1000 filas, 5 columnas
foreign_customer_dataset: 3584 filas, 11 columnas
fraud_dataset: 9843 filas, 22 columnas
RFM: 838370 filas, 11 columnas
transactions: 1000 filas, 5 columnas

--- Datasets con más de 10,000 registros ---
bank_customer_transactions: 1048567 filas
cleaned_dataset: 984247 filas
customer_agg: 838370 filas
RFM: 838370 filas


In [4]:
# Lista de los datasets grandes
datasets = [
    "bank_customer_transactions",
    "cleaned_dataset",
    "customer_agg",
    "RFM"
]

# Recorremos cada dataset y mostramos info básica
for name in datasets:
    print(f"\n===== {name} =====")
    df = catalog.load(name)
    
    print("Shape:", df.shape)
    print("\nColumnas:")
    print(df.dtypes)  # tipos de variables
    
    print("\nPrimeras filas:")
    display(df.head(3))



===== bank_customer_transactions =====


Shape: (1048567, 9)

Columnas:
TransactionID               object
CustomerID                  object
CustomerDOB                 object
CustGender                  object
CustLocation                object
CustAccountBalance         float64
TransactionDate             object
TransactionTime              int64
TransactionAmount (INR)    float64
dtype: object

Primeras filas:


Unnamed: 0,TransactionID,CustomerID,CustomerDOB,CustGender,CustLocation,CustAccountBalance,TransactionDate,TransactionTime,TransactionAmount (INR)
0,T1,C5841053,10/1/94,F,JAMSHEDPUR,17819.05,2/8/16,143207,25.0
1,T2,C2142763,4/4/57,M,JHAJJAR,2270.69,2/8/16,141858,27999.0
2,T3,C4417068,26/11/96,F,MUMBAI,17874.44,2/8/16,142712,459.0



===== cleaned_dataset =====


Shape: (984247, 10)

Columnas:
TransactionID               object
CustomerID                  object
CustomerDOB                 object
CustGender                  object
CustLocation                object
CustAccountBalance         float64
TransactionDate             object
TransactionTime             object
TransactionAmount (INR)    float64
Age                          int64
dtype: object

Primeras filas:


Unnamed: 0,TransactionID,CustomerID,CustomerDOB,CustGender,CustLocation,CustAccountBalance,TransactionDate,TransactionTime,TransactionAmount (INR),Age
0,T1,C5841053,1994-01-10,F,JAMSHEDPUR,17819.05,2016-08-02,14:32:07,25.0,22
1,T2,C2142763,1957-04-04,M,JHAJJAR,2270.69,2016-08-02,14:18:58,27999.0,59
2,T3,C4417068,1996-11-26,F,MUMBAI,17874.44,2016-08-02,14:27:12,459.0,19



===== customer_agg =====


Shape: (838370, 15)

Columnas:
Unnamed: 0                 int64
CustomerID                object
txn_count                  int64
total_spent              float64
avg_spent                float64
max_spent                float64
avg_balance              float64
first_txn_date            object
last_txn_date             object
location                  object
gender                    object
recency_days               int64
tenure_days                int64
txn_per_day              float64
avg_spent_pct_balance    float64
dtype: object

Primeras filas:


Unnamed: 0.1,Unnamed: 0,CustomerID,txn_count,total_spent,avg_spent,max_spent,avg_balance,first_txn_date,last_txn_date,location,gender,recency_days,tenure_days,txn_per_day,avg_spent_pct_balance
0,0,C1010011,2,5106.0,2553.0,4750.0,76340.635,2016-08-09,2016-09-26,NOIDA,F,25,48,0.041667,0.033442
1,1,C1010012,1,1499.0,1499.0,1499.0,24204.49,2016-08-14,2016-08-14,MUMBAI,M,68,0,1.0,0.061931
2,2,C1010014,2,1455.0,727.5,1205.0,100112.95,2016-08-01,2016-08-07,MUMBAI,F,75,6,0.333333,0.007267



===== RFM =====


Shape: (838370, 11)

Columnas:
Unnamed: 0         int64
CustomerID        object
Recency            int64
Frequency          int64
Monetary         float64
R                  int64
F                  int64
M                  int64
RFM Score          int64
Segment           object
Segment_Final     object
dtype: object

Primeras filas:


Unnamed: 0.1,Unnamed: 0,CustomerID,Recency,Frequency,Monetary,R,F,M,RFM Score,Segment,Segment_Final
0,0,C1010011,25,2,5106.0,5,5,5,555,Champions,Champions
1,1,C1010012,68,1,1499.0,2,1,4,214,At Risk (Inactive),Needs Attention
2,2,C1010014,75,2,1455.0,1,5,4,154,At Risk (High-value),Critical


# Selección de Datasets para el EDA

Luego de revisar los datasets disponibles en el catálogo de Kedro, analizar su tamaño (mayor a 10.000) y contenido d estos, se observó lo siguiente:

- **bank_customer_transactions**  
  - (+) Dataset más grande, con más de 1M de transacciones.  
  - (–) Datos crudos, con formatos de fecha y hora desordenados y sin la variable `Age`.  
  - 🔴 **Descartado** porque es redundante frente a `cleaned_dataset` y requiere más preprocesamiento.

- **cleaned_dataset**  
  - (+) Contiene la misma información que `bank_customer_transactions` pero ya depurada (fechas en formato ISO, hora legible, incluye `Age`).  
  - (+) Combina datos transaccionales con información demográfica y financiera.  
  - 🟢 **Seleccionado** → base principal para tareas de **clasificación (fraude)** y análisis de comportamiento transaccional.

- **customer_agg**  
  - (+) Dataset agregado a nivel cliente: número de transacciones, gasto total/promedio, recencia, frecuencia, saldo promedio.  
  - (+) Facilita la creación de features y es ideal para modelado de **regresión** (predicción de gasto futuro).  
  - 🟢 **Seleccionado** → resume el comportamiento histórico de los clientes.

- **RFM**  
  - (+) Incluye métricas de Recency, Frequency, Monetary y segmentación ya pre-calculada (Champions, At Risk, Critical).  
  - (+) Permite aplicar **clustering y segmentación de clientes** sin necesidad de construir desde cero.  
  - 🟢 **Seleccionado** → usado para **segmentación** y validación de perfiles de valor.

---

Por lo que para continuar con el EDA y las fases posteriores, se seleccionan los siguientes **3 datasets principales**:

1. **cleaned_dataset** → Análisis transaccional a nivel detalle.  
2. **customer_agg** → Comportamiento agregado por cliente.  
3. **RFM** → Segmentación y perfiles de clientes.  

> El dataset `bank_customer_transactions` fue descartado al ser redundante y requerir limpieza adicional.
