# Customer Churn – EDA

Notebook khám phá dữ liệu (Exploratory Data Analysis) cho bộ dữ liệu **Churn_Modelling.csv**.

**Mục tiêu:** Hiểu phân phối dữ liệu và các yếu tố liên quan đến biến mục tiêu `Exited` (1 = rời bỏ, 0 = ở lại).

In [None]:
# 1) Import libraries\nimport pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\nimport seaborn as sns\n\nplt.style.use('seaborn-v0_8')\nsns.set_palette('Set2')\npd.set_option('display.max_columns', None)

In [None]:
# 2) Load dataset\nimport os\npossible_paths = [\n    '../data/raw/Churn_Modelling.csv',  # chạy từ notebooks/\n    'data/raw/Churn_Modelling.csv',     # chạy ở root\n]\ncsv_path = None\nfor p in possible_paths:\n    if os.path.exists(p):\n        csv_path = p\n        break\nif csv_path is None:\n    raise FileNotFoundError('Không tìm thấy Churn_Modelling.csv trong data/raw/. Hãy kiểm tra đường dẫn.')\n\ndata = pd.read_csv(csv_path)\nprint('✅ Đã nạp dữ liệu từ:', csv_path)\nprint('Kích thước dữ liệu:', data.shape)\ndata.head()

In [None]:
# 3) Tổng quan dữ liệu\ndisplay(data.info())\nprint('\nThống kê mô tả:')\ndisplay(data.describe())\nprint('\nSố lượng giá trị thiếu mỗi cột:')\nprint(data.isnull().sum())

In [None]:
# 4) Tỉ lệ churn và phân bố chung\nfig, ax = plt.subplots(1, 2, figsize=(12, 5))\ndata['Exited'].value_counts().plot(kind='bar', ax=ax[0])\nax[0].set_title('Số lượng churn vs ở lại')\nax[0].set_xlabel('Exited (1 = churn)')\nax[0].set_ylabel('Count')\n\ndata['Exited'].value_counts(normalize=True).plot(kind='bar', ax=ax[1], color=['#66c2a5', '#fc8d62'])\nax[1].set_title('Tỉ lệ churn')\nax[1].set_xlabel('Exited (1 = churn)')\nax[1].set_ylabel('Tỉ lệ')\nplt.tight_layout()\nplt.show()

In [None]:
# 5) Churn theo giới tính và quốc gia\nplt.figure(figsize=(12, 4))\nplt.subplot(1, 2, 1)\nsns.countplot(x='Gender', hue='Exited', data=data)\nplt.title('Tỉ lệ churn theo giới tính')\n\nplt.subplot(1, 2, 2)\nsns.countplot(x='Geography', hue='Exited', data=data)\nplt.title('Tỉ lệ churn theo quốc gia')\nplt.tight_layout()\nplt.show()

In [None]:
# 6) Phân phối một số biến quan trọng\nfig, ax = plt.subplots(1, 3, figsize=(15, 4))\nsns.histplot(data['Age'], kde=True, ax=ax[0])\nax[0].set_title('Phân phối tuổi')\nsns.histplot(data['CreditScore'], kde=True, ax=ax[1])\nax[1].set_title('Phân phối điểm tín dụng')\nsns.histplot(data['Balance'], kde=True, ax=ax[2])\nax[2].set_title('Phân phối số dư tài khoản')\nplt.tight_layout()\nplt.show()

In [None]:
# 7) Ma trận tương quan (các biến số)\ncorr = data.corr(numeric_only=True)\nplt.figure(figsize=(10, 6))\nsns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')\nplt.title('Ma trận tương quan')\nplt.show()

## Kết luận sơ bộ\n\n- Biến mục tiêu: **Exited** (1 = churn, 0 = ở lại).\n- Dữ liệu khá sạch (thường không có missing).\n- Các yếu tố có ảnh hưởng đáng kể: **Age**, **CreditScore**, **IsActiveMember**, **Geography**, **Balance**...\n- Bước tiếp theo: xử lý đặc trưng (one-hot `Geography`, `Gender`), chuẩn hóa/chuẩn bị dữ liệu, train các model (Logistic Regression / Tree-based).