# Data Description

- **Background:**  
  本資料集為 IBM 提供的電信客戶流失（Telco Customer Churn）樣本資料集，用於分析與預測哪些客戶可能在觀測期間內取消服務，以協助企業設計更有效的客戶留存（customer retention）策略。

- **date received:** 20260112  

- **Path to data:**  
  https://www.kaggle.com/datasets/blastchar/telco-customer-churn  

- **Unit of observation:**  
  每一筆紀錄對應一位電信公司客戶。

- **Sample period:**  
  本資料集標記的流失狀態為「過去一個月內是否離開服務」，但未提供實際曆法時間區間，屬於橫斷面客戶狀態資料。

- **Known issues:**  
  - 多個欄位為類別型變數（例如 Gender、Contract、Payment Method、Internet Service），需轉換為數值編碼後才能用於模型訓練與 SHAP 分析。  
  - `TotalCharges` 為數值型但在原始資料中以字串格式存放，需轉換為數值並處理缺失值。  
  - `CustomerID` 為識別欄位，無預測意義，建模前應移除。  
  - 不同金額與期間變數（如 MonthlyCharges、TotalCharges、tenure）尺度差異大，建模前應進行標準化（scaling）。  
  - `Churn` 為目標變數（標籤），其編碼為 Yes / No，需轉換為 1 / 0。


- Definition for each variable

  - **CustomerID**：  
  客戶的唯一識別碼，用來區分不同客戶。

  - **Gender**：  
  客戶性別（類別型，例如 Male、Female）。

  - **SeniorCitizen**：  
  是否為高齡客戶（0 = 否，1 = 是）。

  - **Partner**：  
  客戶是否有伴侶（Yes / No）。

  - **Dependents**：  
  客戶是否有需扶養的家屬（Yes / No）。

  - **Tenure**：  
  客戶與電信公司往來的時間長度（月）。

  - **PhoneService**：  
  客戶是否使用電話服務（Yes / No）。

  - **MultipleLines**：  
  客戶是否使用多條電話線（Yes / No）。

  - **InternetService**：  
  客戶的網路服務類型（例如 DSL、Fiber optic、None）。

  - **OnlineSecurity**：  
  是否訂閱線上安全服務（Yes / No）。

  - **OnlineBackup**：  
  是否訂閱線上備份服務（Yes / No）。

  - **DeviceProtection**：  
  是否訂閱裝置保護服務（Yes / No）。

  - **TechSupport**：  
  是否訂閱技術支援服務（Yes / No）。

  - **StreamingTV**：  
  是否訂閱串流電視服務（Yes / No）。

  - **StreamingMovies**：  
  是否訂閱串流電影服務（Yes / No）。

  - **Contract**：  
  客戶的合約類型（例如 Month-to-month、One year、Two year）。

  - **PaperlessBilling**：  
  是否使用無紙化帳單（Yes / No）。

  - **PaymentMethod**：  
  客戶的付款方式（例如 Electronic check、Credit card、Bank transfer）。

  - **MonthlyCharges**：  
  客戶每月支付的費用（數值型）。

  - **TotalCharges**：  
  客戶累積支付的總金額（數值型）。

  - **Churn**：  
  是否流失的標籤（目標變數），  
    - `Yes` = 客戶在最近一個月內已取消服務  
    - `No` = 客戶仍為現有客戶  




In [1]:
import pandas as pd

# Change for Your Own Data

In [2]:
input_data_file = "/Users/chengxianghuang/Downloads/WA_Fn-UseC_-Telco-Customer-Churn.csv"

# Summary

In [3]:
df = pd.read_csv(input_data_file)

# Sample

In [4]:
df.head(10)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes
5,9305-CDSKC,Female,0,No,No,8,Yes,Yes,Fiber optic,No,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,99.65,820.5,Yes
6,1452-KIOVK,Male,0,No,Yes,22,Yes,Yes,Fiber optic,No,...,No,No,Yes,No,Month-to-month,Yes,Credit card (automatic),89.1,1949.4,No
7,6713-OKOMC,Female,0,No,No,10,No,No phone service,DSL,Yes,...,No,No,No,No,Month-to-month,No,Mailed check,29.75,301.9,No
8,7892-POOKP,Female,0,Yes,No,28,Yes,Yes,Fiber optic,No,...,Yes,Yes,Yes,Yes,Month-to-month,Yes,Electronic check,104.8,3046.05,Yes
9,6388-TABGU,Male,0,No,Yes,62,Yes,No,DSL,Yes,...,No,No,No,No,One year,No,Bank transfer (automatic),56.15,3487.95,No


# Summary Stats

In [5]:
df.describe()

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,7043.0,7043.0,7043.0
mean,0.162147,32.371149,64.761692
std,0.368612,24.559481,30.090047
min,0.0,0.0,18.25
25%,0.0,9.0,35.5
50%,0.0,29.0,70.35
75%,0.0,55.0,89.85
max,1.0,72.0,118.75
