In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
import os

# Ajustar diretório para a raiz do projeto
os.chdir(r"C:\Users\DELL\Documents\bank-analyst-project")
print("Diretório atual:", os.getcwd())


Diretório atual: C:\Users\DELL\Documents\bank-analyst-project


In [2]:
# Clientes
customers = pd.read_csv("data/raw/customers.csv")

# Agregados mensais
monthly = pd.read_csv("data/processed/monthly_agg.csv", parse_dates=["month"])

# Transações (para churn)
tx = pd.read_csv("data/raw/transactions.csv", parse_dates=["txn_date"])

print("Dados carregados com sucesso")


Dados carregados com sucesso


In [3]:
ref_month = monthly['month'].max()
ref_date = pd.to_datetime(ref_month)
print("Último mês disponível:", ref_month)


Último mês disponível: 2025-09-01 00:00:00


In [4]:
# Recency
last_txn = monthly.groupby('customer_id').agg(last_txn_month=('month','max')).reset_index()
last_txn['recency_days'] = (ref_date - last_txn['last_txn_month']).dt.days

# Frequency
frequency = monthly.groupby('customer_id').agg(frequency=('txn_count','sum')).reset_index()

# Monetary
monetary = monthly.groupby('customer_id').agg(monetary=('txn_amount_sum','sum')).reset_index()


In [5]:
# Criar colunas de produtos fictícias se não existirem
for col in ['checking','savings','credit_card','personal_loan','mortgage']:
    if col not in customers.columns:
        customers[col] = 0

customers['products_count'] = customers[['checking','savings','credit_card','personal_loan','mortgage']].sum(axis=1)


In [6]:
feat = customers[['customer_id','products_count']]\
        .merge(last_txn[['customer_id','recency_days']], on='customer_id', how='left')\
        .merge(frequency, on='customer_id', how='left')\
        .merge(monetary, on='customer_id', how='left')

feat['frequency'] = feat['frequency'].fillna(0)
feat['monetary'] = feat['monetary'].fillna(0)


In [7]:
# Última transação real por cliente
last_tx = tx.groupby('customer_id')['txn_date'].max().reset_index()
last_tx['days_since_last_tx'] = (ref_date - last_tx['txn_date']).dt.days

# Adicionar churn_90d
feat = feat.merge(last_tx[['customer_id','days_since_last_tx']], on='customer_id', how='left')
feat['churn_90d'] = np.where(feat['days_since_last_tx'] > 90, 1, 0)


In [8]:
feat[['customer_id','recency_days','frequency','monetary','products_count','churn_90d']]\
    .to_csv("data/processed/features_table.csv", index=False)

print("✅ features_table.csv gerado em data/processed/")


✅ features_table.csv gerado em data/processed/
