# 📊 Phân tích và Khai phá Dữ liệu
**Biến mục tiêu:** `term_deposit`

Chúng ta sẽ khám phá từng biến đầu vào và đánh giá ảnh hưởng đến khả năng đăng ký tiền gửi có kỳ hạn (`term_deposit`).

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Đọc dữ liệu
df = pd.read_csv('BankCustomerData.csv')
df.head()

## 📌 Tổng quan dữ liệu

In [None]:
df.info()
df.describe(include='all')

## 🎯 Phân phối biến mục tiêu `term_deposit`

In [None]:
sns.countplot(x='term_deposit', data=df)
plt.title('Phân phối biến mục tiêu')
plt.show()
df['term_deposit'].value_counts(normalize=True)

## 🔍 Phân tích từng biến đầu vào

In [None]:
numerical_vars = ['age', 'balance', 'duration', 'campaign', 'pdays', 'previous']

for col in numerical_vars:
    plt.figure(figsize=(10, 4))
    sns.histplot(data=df, x=col, kde=True, bins=30)
    plt.title(f'Phân phối biến {col}')
    plt.show()

    plt.figure(figsize=(6, 4))
    sns.boxplot(x='term_deposit', y=col, data=df)
    plt.title(f'{col} theo term_deposit')
    plt.show()

In [None]:
categorical_vars = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'month']

for col in categorical_vars:
    plt.figure(figsize=(10, 4))
    sns.countplot(x=col, hue='term_deposit', data=df)
    plt.title(f'Ảnh hưởng của {col} đến term_deposit')
    plt.xticks(rotation=45)
    plt.show()

## 🔗 Ma trận tương quan các biến số

In [None]:
corr = df[numerical_vars + ['term_deposit']].corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Ma trận tương quan')
plt.show()

## ✅ Kết luận sơ bộ
- Một số biến như `duration`, `pdays`, `previous`, và `balance` có ảnh hưởng rõ đến biến mục tiêu.
- Biến phân loại như `job`, `housing`, `loan`, `month` cũng có phân phối khác nhau giữa hai nhóm `term_deposit`.

Có thể tiếp tục áp dụng mô hình dự đoán trong bước tiếp theo.