## Dataset Description

- **Tên dữ liệu**: Bank Marketing Dataset
- **Nguồn**: UCI Machine Learning Repository
- **Mô tả**: Dữ liệu các chiến dịch marketing qua điện thoại của ngân hàng Bồ Đào Nha
- **Mục tiêu**: Dự đoán khách hàng có đăng ký term deposit hay không (`y`)

### Data Dictionary

| Cột | Kiểu | Mô tả |
|----|----|----|
| age | numeric | Tuổi khách hàng |
| job | categorical | Nghề nghiệp |
| marital | categorical | Tình trạng hôn nhân |
| education | categorical | Trình độ học vấn |
| default | categorical | Có nợ xấu không |
| balance | numeric | Số dư tài khoản |
| housing | categorical | Có vay mua nhà |
| loan | categorical | Có vay tiêu dùng |
| contact | categorical | Phương thức liên hệ |
| day | numeric | Ngày liên hệ |
| month | categorical | Tháng liên hệ |
| duration | numeric | Thời lượng cuộc gọi (❌ leakage) |
| campaign | numeric | Số lần liên hệ trong chiến dịch |
| pdays | numeric | Số ngày từ lần liên hệ trước |
| previous | numeric | Số lần liên hệ trước |
| poutcome | categorical | Kết quả chiến dịch trước |
| y | binary | Target: đăng ký term deposit |


- Dữ liệu mất cân bằng (~11% y = yes)
- Biến `duration` gây data leakage → loại khỏi modeling

# 01. Exploratory Data Analysis (EDA)

**Mục tiêu**
- Hiểu cấu trúc dữ liệu Bank Marketing
- Phát hiện mất cân bằng lớp
- Phát hiện leakage, outlier, pattern ban đầu

# Load dữ liệu

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from src.data.loader import DataLoader

df = DataLoader("data/raw/bank-full.csv").load()
df.head()


# Thông tin tổng quan

In [None]:
df.info()
df.describe()

# Phân bố target

In [None]:
sns.countplot(x="y", data=df)
plt.title("Target distribution (y)")
plt.show()

df["y"].value_counts(normalize=True)

Nhận xét: dữ liệu mất cân bằng (~11% yes) → cần PR-AUC, class_weight.

# Age vs target

In [None]:
sns.boxplot(x="y", y="age", data=df)
plt.title("Age vs Term Deposit")
plt.show()

# Duration vs target (leakage)

In [None]:
sns.boxplot(x="y", y="duration", data=df)
plt.title("Duration vs Target (LEAKAGE)")
plt.show()

Nhận xét: duration liên quan mạnh → chỉ dùng EDA, loại khỏi model.