In [42]:
# 🔌 Cargar la extensión de Kedro en Jupyter
%load_ext kedro.ipython

# 📌 Importar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

The kedro.ipython extension is already loaded. To reload it, use:
  %reload_ext kedro.ipython


In [3]:
# 📂 Ver todos los datasets disponibles en tu catalog.yml
catalog.keys()



[1m[[0m
    [32m'bank_customer_transactions'[0m,
    [32m'cleaned_dataset'[0m,
    [32m'customer_agg'[0m,
    [32m'customers'[0m,
    [32m'foreign_customer_dataset'[0m,
    [32m'fraud_dataset'[0m,
    [32m'RFM'[0m,
    [32m'transactions'[0m,
    [32m'parameters'[0m
[1m][0m

In [4]:
# 📌 Lista de datasets que tienes en data/01_raw
datasets = [
    "bank_customer_transactions",
    "cleaned_dataset",
    "customer_agg",
    "customers",
    "foreign_customer_dataset",
    "fraud_dataset",
    "RFM",
    "transactions",
]

# 📌 Cargar todos los datasets desde el catálogo, con el objetivo de ver que DataSet serán seleccionados para realizar el EDA
loaded_data = {name: catalog.load(name) for name in datasets}

# 📌 Mostrar resumen de cada DataSet con el objetivo que seleccionar 3 que contengan +10.000 datos
print("--- Resumen de la cantidad de registros por DataFrame ---")
for name, df in loaded_data.items():
    print(f"{name}: {df.shape[0]} filas, {df.shape[1]} columnas")

print("\n--- Datasets con más de 10,000 registros ---")
for name, df in loaded_data.items():
    if df.shape[0] > 10000:
        print(f"{name}: {df.shape[0]} filas")



--- Resumen de la cantidad de registros por DataFrame ---
bank_customer_transactions: 1048567 filas, 9 columnas
cleaned_dataset: 984247 filas, 10 columnas
customer_agg: 838370 filas, 15 columnas
customers: 1000 filas, 5 columnas
foreign_customer_dataset: 3584 filas, 11 columnas
fraud_dataset: 9843 filas, 22 columnas
RFM: 838370 filas, 11 columnas
transactions: 1000 filas, 5 columnas

--- Datasets con más de 10,000 registros ---
bank_customer_transactions: 1048567 filas
cleaned_dataset: 984247 filas
customer_agg: 838370 filas
RFM: 838370 filas


In [4]:
# Lista de los datasets grandes
datasets = [
    "bank_customer_transactions",
    "cleaned_dataset",
    "customer_agg",
    "RFM"
]

# Recorremos cada dataset y mostramos info básica
for name in datasets:
    print(f"\n===== {name} =====")
    df = catalog.load(name)
    
    print("Shape:", df.shape)
    print("\nColumnas:")
    print(df.dtypes)  # tipos de variables
    
    print("\nPrimeras filas:")
    display(df.head(3))



===== bank_customer_transactions =====


Shape: (1048567, 9)

Columnas:
TransactionID               object
CustomerID                  object
CustomerDOB                 object
CustGender                  object
CustLocation                object
CustAccountBalance         float64
TransactionDate             object
TransactionTime              int64
TransactionAmount (INR)    float64
dtype: object

Primeras filas:


Unnamed: 0,TransactionID,CustomerID,CustomerDOB,CustGender,CustLocation,CustAccountBalance,TransactionDate,TransactionTime,TransactionAmount (INR)
0,T1,C5841053,10/1/94,F,JAMSHEDPUR,17819.05,2/8/16,143207,25.0
1,T2,C2142763,4/4/57,M,JHAJJAR,2270.69,2/8/16,141858,27999.0
2,T3,C4417068,26/11/96,F,MUMBAI,17874.44,2/8/16,142712,459.0



===== cleaned_dataset =====


Shape: (984247, 10)

Columnas:
TransactionID               object
CustomerID                  object
CustomerDOB                 object
CustGender                  object
CustLocation                object
CustAccountBalance         float64
TransactionDate             object
TransactionTime             object
TransactionAmount (INR)    float64
Age                          int64
dtype: object

Primeras filas:


Unnamed: 0,TransactionID,CustomerID,CustomerDOB,CustGender,CustLocation,CustAccountBalance,TransactionDate,TransactionTime,TransactionAmount (INR),Age
0,T1,C5841053,1994-01-10,F,JAMSHEDPUR,17819.05,2016-08-02,14:32:07,25.0,22
1,T2,C2142763,1957-04-04,M,JHAJJAR,2270.69,2016-08-02,14:18:58,27999.0,59
2,T3,C4417068,1996-11-26,F,MUMBAI,17874.44,2016-08-02,14:27:12,459.0,19



===== customer_agg =====


Shape: (838370, 15)

Columnas:
Unnamed: 0                 int64
CustomerID                object
txn_count                  int64
total_spent              float64
avg_spent                float64
max_spent                float64
avg_balance              float64
first_txn_date            object
last_txn_date             object
location                  object
gender                    object
recency_days               int64
tenure_days                int64
txn_per_day              float64
avg_spent_pct_balance    float64
dtype: object

Primeras filas:


Unnamed: 0.1,Unnamed: 0,CustomerID,txn_count,total_spent,avg_spent,max_spent,avg_balance,first_txn_date,last_txn_date,location,gender,recency_days,tenure_days,txn_per_day,avg_spent_pct_balance
0,0,C1010011,2,5106.0,2553.0,4750.0,76340.635,2016-08-09,2016-09-26,NOIDA,F,25,48,0.041667,0.033442
1,1,C1010012,1,1499.0,1499.0,1499.0,24204.49,2016-08-14,2016-08-14,MUMBAI,M,68,0,1.0,0.061931
2,2,C1010014,2,1455.0,727.5,1205.0,100112.95,2016-08-01,2016-08-07,MUMBAI,F,75,6,0.333333,0.007267



===== RFM =====


Shape: (838370, 11)

Columnas:
Unnamed: 0         int64
CustomerID        object
Recency            int64
Frequency          int64
Monetary         float64
R                  int64
F                  int64
M                  int64
RFM Score          int64
Segment           object
Segment_Final     object
dtype: object

Primeras filas:


Unnamed: 0.1,Unnamed: 0,CustomerID,Recency,Frequency,Monetary,R,F,M,RFM Score,Segment,Segment_Final
0,0,C1010011,25,2,5106.0,5,5,5,555,Champions,Champions
1,1,C1010012,68,1,1499.0,2,1,4,214,At Risk (Inactive),Needs Attention
2,2,C1010014,75,2,1455.0,1,5,4,154,At Risk (High-value),Critical


# Selección de Datasets para el EDA

Luego de revisar los datasets disponibles en el catálogo de Kedro, analizar su tamaño (mayor a 10.000) y contenido d estos, se observó lo siguiente:

- **bank_customer_transactions**  
  - (+) Dataset más grande, con más de 1M de transacciones.  
  - (–) Datos crudos, con formatos de fecha y hora desordenados y sin la variable `Age`.  
  - 🔴 **Descartado** porque es redundante frente a `cleaned_dataset` y requiere más preprocesamiento.

- **cleaned_dataset**  
  - (+) Contiene la misma información que `bank_customer_transactions` pero ya depurada (fechas en formato ISO, hora legible, incluye `Age`).  
  - (+) Combina datos transaccionales con información demográfica y financiera.  
  - 🟢 **Seleccionado** → base principal para tareas de **clasificación (fraude)** y análisis de comportamiento transaccional.

- **customer_agg**  
  - (+) Dataset agregado a nivel cliente: número de transacciones, gasto total/promedio, recencia, frecuencia, saldo promedio.  
  - (+) Facilita la creación de features y es ideal para modelado de **regresión** (predicción de gasto futuro).  
  - 🟢 **Seleccionado** → resume el comportamiento histórico de los clientes.

- **RFM**  
  - (+) Incluye métricas de Recency, Frequency, Monetary y segmentación ya pre-calculada (Champions, At Risk, Critical).  
  - (+) Permite aplicar **clustering y segmentación de clientes** sin necesidad de construir desde cero.  
  - 🟢 **Seleccionado** → usado para **segmentación** y validación de perfiles de valor.

---

Por lo que para continuar con el EDA y las fases posteriores, se seleccionan los siguientes **3 datasets principales**:

1. **cleaned_dataset** → Análisis transaccional a nivel detalle.  
2. **customer_agg** → Comportamiento agregado por cliente.  
3. **RFM** → Segmentación y perfiles de clientes.  

> El dataset `bank_customer_transactions` fue descartado al ser redundante y requerir limpieza adicional.


In [None]:
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////
#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////#//////////

In [44]:
#  Cargar datasets del catálogo de Kedro
df_cleaned_dataset = catalog.load("cleaned_dataset")
df_customer_agg = catalog.load("customer_agg")
df_RFM = catalog.load("RFM")
# Ver número de filas y columnas de cada dataset
print("cleaned_dataset:", df_cleaned_dataset.shape)
print("customer_agg:", df_customer_agg.shape)
print("RFM:", df_RFM.shape)

#PODEMOS VISUALIZAR FILAS Y COLUMNAS PARA LOS 3 DATASETS QUE TENEMOS :D

cleaned_dataset: (984247, 10)
customer_agg: (838370, 15)
RFM: (838370, 11)


In [45]:
print("\n--- cleaned_dataset ---")
df_cleaned_dataset.info()

print("\n--- customer_agg ---")
df_customer_agg.info()

print("\n--- RFM ---")
df_RFM.info()


--- cleaned_dataset ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984247 entries, 0 to 984246
Data columns (total 10 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   TransactionID            984247 non-null  object 
 1   CustomerID               984247 non-null  object 
 2   CustomerDOB              984247 non-null  object 
 3   CustGender               984247 non-null  object 
 4   CustLocation             984240 non-null  object 
 5   CustAccountBalance       984247 non-null  float64
 6   TransactionDate          984247 non-null  object 
 7   TransactionTime          984247 non-null  object 
 8   TransactionAmount (INR)  984247 non-null  float64
 9   Age                      984247 non-null  int64  
dtypes: float64(2), int64(1), object(7)
memory usage: 75.1+ MB

--- customer_agg ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 838370 entries, 0 to 838369
Data columns (total 15 columns):
 #   Col

In [14]:
#Anotaciones

#cleaned_dataset
#TransactionTime cambió a object, antes era int64 → inconsistencia entre datasets (habría que revisar cuál es el formato correcto).
#CustomerDOB sigue en formato object, no datetime.
#CustLocation: 7 valores nulos.
#Agregaron Age (int64) calculada → bien, pero revisa que sea consistente con DOB.

#customer_agg
#Columna Unnamed: 0 → parece un índice exportado de otro proceso. Podría eliminarse.
#Fechas (first_txn_date, last_txn_date) → están en formato object, convendría pasarlas a datetime.
#location: 4 valores nulos.
#avg_spent_pct_balance: tiene 3 valores nulos.
#Variables como avg_spent, avg_balance pueden contener valores atípicos (muy grandes o muy pequeños), hay que revisarlos.

#RFM
#También con Unnamed: 0 → índice exportado innecesario.
#No hay nulos, lo cual es bueno.
#Alta redundancia: columnas R, F, M y también RFM Score → hay que verificar si se usan todas o se puede reducir.
#Segmentación (Segment, Segment_Final) → revisar si realmente son distintas o si hay duplicación de etiquetas.

#LLAVES PRIMARIAS

#cleaned_dataset 
#TransactionID  (cada transacción debería ser única).
#customer_agg 
#CustomerID 
#RFM
#CustomerID

In [16]:
#Unicidad de PK
#SEGUN EL RESULTADO TODAS LAS PK ESTAN BIEN Y NO TIENEN DUPLICADOS
# cleaned_dataset -> PK debería ser TransactionID
print("TransactionID únicos:", df_cleaned_dataset["TransactionID"].is_unique)
# customer_agg -> PK debería ser CustomerID
print("CustomerID únicos en customer_agg:", df_customer_agg["CustomerID"].is_unique)
# RFM -> PK debería ser CustomerID
print("CustomerID únicos en RFM:", df_RFM["CustomerID"].is_unique)

TransactionID únicos: True
CustomerID únicos en customer_agg: True
CustomerID únicos en RFM: True


In [18]:
# ¿Todos los clientes de transacciones están en customer_agg?
#SEGUN RESULTADOS LOS DATOS SI SE ENCUENTRAN EN TODAS LAS TABLAS
print("Clientes transacciones ⊆ customer_agg:",
      df_cleaned_dataset["CustomerID"].isin(df_customer_agg["CustomerID"]).all())

# ¿Todos los clientes de transacciones están en RFM?
print("Clientes transacciones ⊆ RFM:",
      df_cleaned_dataset["CustomerID"].isin(df_RFM["CustomerID"]).all())

# ¿Todos los clientes de customer_agg están en RFM?
print("Clientes customer_agg ⊆ RFM:",
      df_customer_agg["CustomerID"].isin(df_RFM["CustomerID"]).all())

Clientes transacciones ⊆ customer_agg: True
Clientes transacciones ⊆ RFM: True
Clientes customer_agg ⊆ RFM: True


In [19]:
# Clientes que tienen transacciones pero no aparecen en customer_agg
# TODOS LOS CLIENTES APARECEN EN LAS OTRAS TABLAS :D
missing_in_agg = df_cleaned_dataset.loc[
    ~df_cleaned_dataset["CustomerID"].isin(df_customer_agg["CustomerID"]), "CustomerID"
].unique()

# Clientes que están en customer_agg pero no en RFM
missing_in_rfm = df_customer_agg.loc[
    ~df_customer_agg["CustomerID"].isin(df_
        # TODOS LOS CLIENTES APARECEN EN LAS OTRAS TABLAS :DRFM["CustomerID"]), "CustomerID"
].unique()

print("Clientes sin resumen en customer_agg:", len(missing_in_agg))
print("Clientes sin segmento en RFM:", len(missing_in_rfm))

Clientes sin resumen en customer_agg: 0
Clientes sin segmento en RFM: 0


In [None]:
#////////////// #////////////// #////////////// #////////////// #////////////// #////////////// #////////////// 
#////////////// #////////////// #////////////// #////////////// #////////////// #////////////// #////////////// 
#////////////// A PARTIR DE AQUI QUIERO VERIFICAR LA CALIDAD DE LOS DATOS NULOS, OUTLIERS, DUPLICADOS, ETC.
#////////////// #////////////// #////////////// #////////////// #////////////// #////////////// #////////////// 
#////////////// #////////////// #////////////// #////////////// #////////////// #////////////// #////////////// 

In [20]:
#ESTA FUNCION SIRVE PARA VER LOS NULOS CON EL NOMBRE DEL DATASET XD
def missing_values_report(df, name="Dataset"):
    print(f"\n--- {name} ---")
    missing = df.isnull().sum()
    percent = (df.isnull().sum() / len(df)) * 100
    missing_table = pd.DataFrame({
        "Valores Faltantes": missing,
        "Porcentaje (%)": percent.round(2)
    })
    print(missing_table[missing_table["Valores Faltantes"] > 0])

# Aplicar a cada dataset
missing_values_report(df_cleaned_dataset, "cleaned_dataset")
missing_values_report(df_customer_agg, "customer_agg")
missing_values_report(df_RFM, "RFM")


#POCOS VALORES NULOS EN LOS DATASETS
#RFM TIENE 0 NULOS POR LO QUE ESTA IMPECABLE


--- cleaned_dataset ---
              Valores Faltantes  Porcentaje (%)
CustLocation                  7             0.0

--- customer_agg ---
                       Valores Faltantes  Porcentaje (%)
location                               4             0.0
avg_spent_pct_balance                  3             0.0

--- RFM ---
Empty DataFrame
Index: []


In [24]:
#ESTA FUNCION ES PARA VER LOS DUPLICADOS
#SEGUN LOS RESULTADOS NO HAY DATOS DUPLICADOS
def duplicate_report(df, name="Dataset"):
    total_dupes = df.duplicated().sum()
    percent = (total_dupes / len(df)) * 100
    print(f"\n--- {name} ---")
    print(f"Duplicados: {total_dupes} ({percent:.4f}%)")

# Aplicar a cada dataset
duplicate_report(df_cleaned_dataset, "cleaned_dataset")
duplicate_report(df_customer_agg, "customer_agg")
duplicate_report(df_RFM, "RFM")


--- cleaned_dataset ---
Duplicados: 0 (0.0000%)

--- customer_agg ---
Duplicados: 0 (0.0000%)

--- RFM ---
Duplicados: 0 (0.0000%)


In [50]:
#esto es para arreglar un problema con el nombre de una variable :D
cleaned_dataset = cleaned_dataset.rename(
    columns={"TransactionAmount (INR)": "TransactionAmount_INR"}
)

In [47]:
#  Función para detectar outliers con IQR
def detect_outliers_iqr(df, cols, name="Dataset"):
    print(f"\n--- {name} ---")
    for col in cols:
        if col not in df.columns:
            print(f"{col}: ⚠️ columna no encontrada en {name}")
            continue
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower = Q1 - 1.5 * IQR
        upper = Q3 + 1.5 * IQR
        outliers = ((df[col] < lower) | (df[col] > upper)).sum()
        percent = (outliers / len(df)) * 100
        print(f"{col}: {outliers} outliers ({percent:.4f}%)")

#Aseguramos que no fallen los nombres de columnas
# Renombrar para evitar problemas con espacios/paréntesis
cleaned_dataset = cleaned_dataset.rename(columns={"TransactionAmount (INR)": "TransactionAmount_INR"})

#  Llamar función en cada dataset
detect_outliers_iqr(
    cleaned_dataset,
    ["CustAccountBalance", "TransactionAmount_INR", "Age"],
    "cleaned_dataset"
)

detect_outliers_iqr(
    df_customer_agg,
    ["txn_count","total_spent","avg_spent","max_spent","avg_balance","txn_per_day","avg_spent_pct_balance"],
    "customer_agg"
)

detect_outliers_iqr(
    df_RFM,
    ["Recency","Frequency","Monetary","RFM Score"],
    "RFM"
)


--- cleaned_dataset ---
CustAccountBalance: 130148 outliers (13.2231%)
TransactionAmount_INR: 105429 outliers (10.7116%)
Age: 53291 outliers (5.4144%)

--- customer_agg ---
txn_count: 128568 outliers (15.3355%)
total_spent: 85724 outliers (10.2251%)
avg_spent: 86923 outliers (10.3681%)
max_spent: 88856 outliers (10.5987%)
avg_balance: 109507 outliers (13.0619%)
txn_per_day: 124203 outliers (14.8148%)
avg_spent_pct_balance: 133993 outliers (15.9826%)

--- RFM ---
Recency: 3402 outliers (0.4058%)
Frequency: 128568 outliers (15.3355%)
Monetary: 85724 outliers (10.2251%)
RFM Score: 0 outliers (0.0000%)


In [53]:
#RESULTADOS

#Cleaned_dataset

#CustAccountBalance Y TransactionAmount_INR Con valores considerables de Outliers, Algunos valores muy altos y otros muy bajos. 
#Con esto podemos tener varias opciones para tratarlos

#Account balance
#Si buscas fraude/riesgo → mantenerlos, pueden ser señales relevantes.
#Si buscas modelos generales de clientes → aplicar transformación logarítmica (np.log1p) o winsorización (recorte en P1 y P99).
#TrAmount
#Opción 1: aplicar logaritmo para normalizar distribuciones sesgadas.
#Opción 2: recortar a percentiles (ej. P1–P99) para reducir impacto de transacciones extremas.
#Opción 3: mantenerlos si el análisis es detectar clientes “VIP”.

#Age tiene valer atipicos 0< >100 
#Se puede agrupar o trabajar con percentiles
#Podría existir algún error de datos (revisar)

#///////////////////////////////////////////////
#Customer_agg

#txn_count, txn_per_day (~15% outliers)
#Clientes hiperactivos.

#Mantener si el objetivo es analizar clientes más valiosos.
#Para ML: usar log-transformation o recorte en percentiles extremos.

#total_spent, avg_spent, max_spent, avg_balance (~10–13% outliers)
#Clientes con gastos o balances atípicos.

#Usar logaritmo para suavizar la escala.
#Alternativa: winsorizar para limitar extremos.

#avg_spent_pct_balance (~16% outliers)
#Casos de clientes que gastan mucho más que su balance promedio.

#Revisar si son errores (ej. balance cero → división infinita).
#Si es real, pueden ser muy interesantes → mantener para análisis de riesgo.
#///////////////////////////////////////////////
#RFM
#Recency (0.4% outliers)
#Clientes con inactividad muy larga.

#Mantener (puede marcar clientes perdidos).
#Opcional: truncar valores > P99 si distorsionan gráficas.

#Frequency (15.3% outliers)
#Clientes con compras excesivas.

#Log-transformación o winsorización para modelado.

#Mantener si el foco es identificar heavy users. Monetary (10.2% outliers)
#Clientes con gasto desproporcionado.
#Log-transformación es lo más recomendable.

M#antener si quieres analizar “clientes estrella”.

#RFM Score (0% outliers)
#No requiere acción.



In [None]:
#