# Data Description

- **Background:**  
  本資料集為一個模擬 Netflix 類型 OTT 串流影音平台的客戶行為資料集，包含 5,000 筆客戶紀錄與 14 個經過設計的特徵，用於建立與評估客戶流失（Churn）預測模型，以及進行客戶行為分析與分群研究。

- **date received:** 20260112  

- **Path to data:**  
  https://www.kaggle.com/datasets/muhammadshahidazeem/customer-churn-dataset  

- **Unit of observation:**  
  每一筆紀錄對應一位串流平台的訂閱用戶。

- **Sample period:**  
  本資料集為合成（synthetic）資料，未對應真實時間區間，而是模擬一個觀測期間內的客戶行為與流失狀態。

- **Known issues:**  
  - 資料為合成資料（synthetic data），因此真實世界的季節性、突發事件與行為異常可能未完全反映。  
  - 類別型欄位（例如 Subscription Type、Contract Type 等）需轉換為數值編碼後才能用於模型訓練與 SHAP 分析。  
  - 不同數值變數（例如 Monthly Charges、Total Spend、Tenure 等）尺度差異大，建模前應進行標準化（scaling）。  
  - Churn 為目標變數（標籤），需確認其編碼方式（例如 0/1 或 Yes/No）。


- Definition for each variable

  - **CustomerID**：  
  客戶的唯一識別碼，用來區分不同用戶。

  - **Age**：  
  客戶年齡（數值型）。

  - **Gender**：  
  客戶性別（類別型，例如 Male、Female）。

  - **Tenure**：  
  客戶訂閱串流平台的時間長度（例如以月為單位）。

  - **Subscription Type**：  
  客戶的訂閱方案類型（類別型，例如 Basic、Standard、Premium）。

  - **Contract Type**：  
  客戶的合約類型（例如 Monthly、Yearly），表示與平台的綁定程度。

  - **Monthly Charges**：  
  客戶每月支付的訂閱費用（數值型）。

  - **Total Spend**：  
  客戶累積支付的總金額（數值型），反映客戶整體價值。

  - **Usage Frequency**：  
  客戶使用串流服務的頻率（數值型），表示活躍程度。

  - **Content Hours**：  
  客戶在平台上觀看內容的時數（數值型）。

  - **Support Interactions**：  
  客戶與客服互動的次數（數值型）。

  - **Last Interaction**：  
  距離客戶最近一次與平台互動的時間（例如以天為單位）。

  - **Payment Issues**：  
  客戶是否曾出現付款問題（例如延遲或失敗）。

  - **Churn**：  
  是否流失的標籤（目標變數），  
    - `1` = 客戶已取消訂閱或離開平台  
    - `0` = 客戶仍為活躍用戶  




In [1]:
import pandas as pd

# Change for Your Own Data

In [2]:
input_data_file = "/Users/chengxianghuang/Downloads/netflix_customer_churn.csv"

# Summary

In [3]:
df = pd.read_csv(input_data_file)

# Sample

In [4]:
df.head(10)

Unnamed: 0,customer_id,age,gender,subscription_type,watch_hours,last_login_days,region,device,monthly_fee,churned,payment_method,number_of_profiles,avg_watch_time_per_day,favorite_genre
0,a9b75100-82a8-427a-a208-72f24052884a,51,Other,Basic,14.73,29,Africa,TV,8.99,1,Gift Card,1,0.49,Action
1,49a5dfd9-7e69-4022-a6ad-0a1b9767fb5b,47,Other,Standard,0.7,19,Europe,Mobile,13.99,1,Gift Card,5,0.03,Sci-Fi
2,4d71f6ce-fca9-4ff7-8afa-197ac24de14b,27,Female,Standard,16.32,10,Asia,TV,13.99,0,Crypto,2,1.48,Drama
3,d3c72c38-631b-4f9e-8a0e-de103cad1a7d,53,Other,Premium,4.51,12,Oceania,TV,17.99,1,Crypto,2,0.35,Horror
4,4e265c34-103a-4dbb-9553-76c9aa47e946,56,Other,Standard,1.89,13,Africa,Mobile,13.99,1,Crypto,2,0.13,Action
5,d8079475-5be7-47e9-8782-ceb7ff61395e,58,Female,Standard,13.8,26,Oceania,Mobile,13.99,0,Debit Card,3,0.51,Action
6,8e63450a-13d6-4e83-bbb5-6aebde9152cb,48,Other,Basic,13.83,20,Asia,TV,8.99,0,Gift Card,5,0.66,Romance
7,02387681-8c42-462a-807a-de0168c73b38,51,Male,Basic,14.3,56,Europe,Mobile,8.99,1,Gift Card,1,0.25,Action
8,0bcaad0c-545c-4ee1-85a6-75e165f39361,45,Other,Basic,9.98,10,Asia,Mobile,8.99,0,PayPal,3,0.91,Romance
9,eae6439e-8cdf-4258-ab49-c493925b927a,32,Other,Premium,2.22,34,Europe,TV,17.99,1,Debit Card,1,0.06,Drama


# Summary Stats

In [5]:
df.describe()

Unnamed: 0,age,watch_hours,last_login_days,monthly_fee,churned,number_of_profiles,avg_watch_time_per_day
count,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0
mean,43.8474,11.64945,30.0898,13.6834,0.503,3.0244,0.8748
std,15.501128,12.014654,17.536078,3.692062,0.500041,1.415841,2.619824
min,18.0,0.01,0.0,8.99,0.0,1.0,0.0
25%,30.0,3.3375,15.0,8.99,0.0,2.0,0.11
50%,44.0,8.0,30.0,13.99,1.0,3.0,0.29
75%,58.0,16.03,45.0,17.99,1.0,4.0,0.72
max,70.0,110.4,60.0,17.99,1.0,5.0,98.42
