# Data Description

- **Background:**  
  本資料集為電子商務（E-Commerce）平台的客戶流失資料集，包含客戶的基本屬性、使用行為、購買紀錄與滿意度等資訊，用於建立與評估客戶流失（Churn）預測模型，以協助平台設計更有效的客戶留存策略。

- **date received:** 20260112  

- **Path to data:**  
  https://www.kaggle.com/datasets/whenamancodes/e-commerce-customer-churn  

- **Unit of observation:**  
  每一筆紀錄對應一位電子商務平台的客戶。

- **Sample period:**  
  本資料集為橫斷面（cross-sectional）資料，變數多數反映客戶在最近一個月或最近一段時間內的行為與交易狀況。

- **Known issues:**  
  - 多個欄位為類別型變數（例如 PreferredLoginDevice、PreferredPaymentMode、Gender、MaritalStatus、PreferedOrderCat），需轉換為數值編碼後才能用於模型訓練與 SHAP 分析。  
  - `CustomerID` 為識別欄位，無預測意義，建模前應移除。  
  - 數值變數（例如 Tenure、WarehouseToHome、OrderAmountHikeFromlastYear、CashbackAmount）尺度差異大，建模前應進行標準化（scaling）。  
  - `Churn` 為目標變數（標籤），需確認其編碼方式（例如 0/1）。


- Definition for each variable

  - **CustomerID**：  
  客戶的唯一識別碼，用來區分不同客戶。

  - **Churn**：  
  是否流失的標籤（目標變數），1 = 客戶已流失，0 = 客戶仍為活躍客戶。

  - **Tenure**：  
  客戶在平台的使用年資或存續時間。

  - **PreferredLoginDevice**：  
  客戶偏好使用的登入裝置（例如 Mobile、Desktop）。

  - **CityTier**：  
  客戶所屬城市等級（例如 Tier 1、Tier 2、Tier 3）。

  - **WarehouseToHome**：  
  客戶住家與倉庫之間的距離。

  - **PreferredPaymentMode**：  
  客戶偏好的付款方式（例如 Credit Card、Debit Card、UPI、Cash on Delivery）。

  - **Gender**：  
  客戶性別（例如 Male、Female）。

  - **HourSpendOnApp**：  
  客戶在行動應用程式或網站上花費的時間（小時）。

  - **NumberOfDeviceRegistered**：  
  客戶註冊的裝置數量。

  - **PreferedOrderCat**：  
  客戶最近一個月偏好的商品訂購類別。

  - **SatisfactionScore**：  
  客戶對平台服務的滿意度評分。

  - **MaritalStatus**：  
  客戶婚姻狀態（例如 Single、Married）。

  - **NumberOfAddress**：  
  客戶在平台上登錄的地址數量。

  - **Complain**：  
  客戶在最近一個月內是否提出過投訴（0 = 否，1 = 是）。

  - **OrderAmountHikeFromlastYear**：  
  與去年相比，訂單金額的成長百分比。

  - **CouponUsed**：  
  最近一個月內使用的優惠券數量。

  - **OrderCount**：  
  最近一個月內下單的次數。

  - **DaySinceLastOrder**：  
  距離客戶最近一次下單的天數。

  - **CashbackAmount**：  
  最近一個月客戶獲得的平均回饋金額。



In [5]:
import pandas as pd

# Change for Your Own Data

In [6]:
input_data_file = "/Users/chengxianghuang/Downloads/E Commerce Dataset.xlsx"

# Summary

In [7]:
df = pd.read_excel(input_data_file)

# Sample

In [8]:
df.head(10)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,Data,Variable,Discerption
1,,E Comm,CustomerID,Unique customer ID
2,,E Comm,Churn,Churn Flag
3,,E Comm,Tenure,Tenure of customer in organization
4,,E Comm,PreferredLoginDevice,Preferred login device of customer
5,,E Comm,CityTier,City tier
6,,E Comm,WarehouseToHome,Distance in between warehouse to home of customer
7,,E Comm,PreferredPaymentMode,Preferred payment method of customer
8,,E Comm,Gender,Gender of customer
9,,E Comm,HourSpendOnApp,Number of hours spend on mobile application or...


# Summary Stats

In [9]:
df.describe()

Unnamed: 0.1,Unnamed: 0
count,0.0
mean,
std,
min,
25%,
50%,
75%,
max,
