<a href="https://colab.research.google.com/github/JerryLiu789/BankChurners/blob/main/BankChurners.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 環境準備

In [7]:
from google.colab import drive
import pandas as pd

drive.mount('/content/drive')

# 讀取 Google Drive 中的文件
file_path = '/content/drive/My Drive/BankChurners.csv'
df = pd.read_csv(file_path)
df.head()


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,9.3e-05,0.99991
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,5.7e-05,0.99994
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,2.1e-05,0.99998
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.000134,0.99987
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,2.2e-05,0.99998


# 資料欄位定義

CLIENTNUM: 客戶編號（唯一識別碼）。

Attrition_Flag: 客戶流失標籤，標示客戶是否流失（如 "Existing Customer" 為現有客戶，"Attrited Customer" 為已流失客戶）。

Customer_Age: 客戶年齡。

Gender: 客戶性別，"M" 為男性，"F" 為女性。

Dependent_count: 客戶的受養人數量，這個數字表示該客戶負責供養的家庭成員或其他依賴他們經濟支持的人數。

Education_Level: 客戶的教育程度：
Doctorate（博士學位）
Post-Graduate（研究生）
Graduate（大學畢業）
College（大專）
High School（高中）
Uneducated（無受教育）
Unknown（未知）

Marital_Status: 客戶婚姻狀況，
Married（已婚）
Single（單身）
Unknown（未知）
Divorced（離婚）

Income_Category: 客戶的收入類別，例如 "$60K - $80K" 表示收入在 60,000 至 80,000 美元之間。

Card_Category: 信用卡類別，
Platinum（鉑金卡）
Gold（金卡）
Silver（銀卡）
Blue（藍卡）


Months_on_book: 客戶開卡後的月數。

Total_Relationship_Count: 客戶的總關係數（與銀行的互動次數）。

Months_Inactive_12_mon: 過去12個月內不活躍的月份數。

Contacts_Count_12_mon: 過去12個月內客戶聯繫次數。

Credit_Limit: 信用卡額度。

Total_Revolving_Bal: 客戶的總循環餘額（信用卡透支未償還金額）。

Avg_Open_To_Buy: 平均可用信用額度（信用額度減去循環餘額）。

Total_Amt_Chng_Q4_Q1: 第四季度與第一季度間的總交易額變化比率。

Total_Trans_Amt: 總交易金額。

Total_Trans_Ct: 總交易次數。

Total_Ct_Chng_Q4_Q1: 第四季度與第一季度間的交易次數變化比率。

Avg_Utilization_Ratio: 平均使用率（信用卡使用比率）。

Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1: 用於預測流失的樸素貝葉斯分類器特徵1。

Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2: 用於預測流失的樸素貝葉斯分類器特徵2。

# 確認資料狀況

In [None]:
# 確認資料狀況
print(df.describe())
print('-'*60)
print(df.info())
print('-'*60)
print(df.isnull().sum())
print('-'*60)

# 計算 Attrition_Flag 欄位中各標籤的比例
label_proportion = df['Attrition_Flag'].value_counts(normalize=True)

# 顯示標籤比例
print(label_proportion)

          CLIENTNUM  Customer_Age  Dependent_count  Months_on_book  \
count  1.012700e+04  10127.000000     10127.000000    10127.000000   
mean   7.391776e+08     46.325960         2.346203       35.928409   
std    3.690378e+07      8.016814         1.298908        7.986416   
min    7.080821e+08     26.000000         0.000000       13.000000   
25%    7.130368e+08     41.000000         1.000000       31.000000   
50%    7.179264e+08     46.000000         2.000000       36.000000   
75%    7.731435e+08     52.000000         3.000000       40.000000   
max    8.283431e+08     73.000000         5.000000       56.000000   

       Total_Relationship_Count  Months_Inactive_12_mon  \
count              10127.000000            10127.000000   
mean                   3.812580                2.341167   
std                    1.554408                1.010622   
min                    1.000000                0.000000   
25%                    3.000000                2.000000   
50%            

1.年齡分佈 (Customer_Age)

客戶年齡的平均值是 46.33 歲，標準差為 8 歲。年齡分佈從 26 歲到 73 歲之間，這表明這些信用卡客戶的年齡跨度較大。

2.信用額度 (Credit_Limit)

平均信用額度為 8,631 美元，最大額度為 34,516 美元，最小額度為 1,438 美元。這說明客戶的信用額度有很大差異。

3.客戶的活動與非活動情況

過去 12 個月中非活動的月份數 (Months_Inactive_12_mon) 平均為 2.34，最長的非活動時間為 6 個月。這可以作為預測客戶流失的潛在重要特徵。

4.總關係數 (Total_Relationship_Count)

客戶與銀行的總關係數平均為 3.81，這可能與客戶的忠誠度有關。該變數的最大值為 6，代表一些客戶與銀行有多種關係。

5.信用卡使用率 (Avg_Utilization_Ratio)

信用卡使用率的平均值為 27.49%，這表明大部分客戶只使用了約四分之一的信用額度。

6.交易活動

平均每位客戶的交易總金額 (Total_Trans_Amt) 為 4,404 美元，總交易次數 (Total_Trans_Ct) 平均為 65 次，說明這些客戶的交易活躍度相對較高。

※ 初步推斷 Months_Inactive_12_mon、Credit_Limit 和 Avg_Utilization_Ratio 可能跟客戶流失預測有較大影響

# 類別欄位轉換

In [8]:
from sklearn.preprocessing import OrdinalEncoder

# 使用 One-Hot Encoding 處理 Marital_Status
df_one_hot = pd.get_dummies(df, columns=['Marital_Status'], drop_first=True)

# 定義欄位及其類別順序
ordinal_cols = ['Attrition_Flag', 'Gender', 'Education_Level', 'Income_Category', 'Card_Category']

# 指定每個欄位的類別順序
ordinal_categories = [
    ['Existing Customer', 'Attrited Customer'],  # Attrition_Flag
    ['F', 'M'],  # Gender
    ['Unknown', 'Uneducated', 'High School', 'College', 'Graduate', 'Post-Graduate', 'Doctorate'],  # Education_Level
    ['Unknown', 'Less than $40K', '$40K - $60K', '$60K - $80K', '$80K - $120K', '$120K +'],  # Income_Category
    ['Blue', 'Silver', 'Gold', 'Platinum']  # Card_Category
]

# 創建 OrdinalEncoder 並指定順序
ordinal_encoder = OrdinalEncoder(categories=ordinal_categories)

# 對資料進行有序編碼
df_one_hot[ordinal_cols] = ordinal_encoder.fit_transform(df_one_hot[ordinal_cols])

# 檢查轉換後的結果
df_one_hot.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,...,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2,Marital_Status_Married,Marital_Status_Single,Marital_Status_Unknown
0,768805383,0.0,45,1.0,3,2.0,3.0,0.0,39,5,...,1.335,1144,42,1.625,0.061,9.3e-05,0.99991,True,False,False
1,818770008,0.0,49,0.0,5,4.0,1.0,0.0,44,6,...,1.541,1291,33,3.714,0.105,5.7e-05,0.99994,False,True,False
2,713982108,0.0,51,1.0,3,4.0,4.0,0.0,36,4,...,2.594,1887,20,2.333,0.0,2.1e-05,0.99998,True,False,False
3,769911858,0.0,40,0.0,4,2.0,1.0,0.0,34,3,...,1.405,1171,20,2.333,0.76,0.000134,0.99987,False,False,True
4,709106358,0.0,40,1.0,3,1.0,3.0,0.0,21,5,...,2.175,816,28,2.5,0.0,2.2e-05,0.99998,True,False,False


# 使用 LogisticRegression 建立第一個Baseline版本

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 準備特徵
X = df_one_hot.drop(columns=['Attrition_Flag'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，30% 的資料作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化 Logistic Regression 模型
model = LogisticRegression(max_iter=1000)

# 訓練模型
model.fit(X_train, y_train)

# 在測試集上進行預測
y_pred = model.predict(X_test)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))

準確度: 0.84106614017769
混淆矩陣:
[[2543    0]
 [ 483   13]]
分類報告:
              precision    recall  f1-score   support

         0.0       0.84      1.00      0.91      2543
         1.0       1.00      0.03      0.05       496

    accuracy                           0.84      3039
   macro avg       0.92      0.51      0.48      3039
weighted avg       0.87      0.84      0.77      3039



> **混淆矩陣：**

混淆矩陣顯示模型在預測 Attrition_Flag 時遇到了一些問題：

預測為 0 的情況下，模型預測得非常好（有 2543 個樣本正確分類為 0，無誤分類）。

但預測為 1 的表現較差，只有 13 個樣本被正確預測為 1，卻有 483 個樣本實際為 1 被錯誤預測為 0。

> **分類報告：**

Precision（精確度）：模型在預測 Attrition_Flag = 1（流失客戶）時，精確度為 1.00，這表示當它預測為流失客戶時，幾乎都是正確的，但由於模型很少預測 1（只有 13 個），這可能反映了模型過於謹慎地預測這個類別。


Recall（召回率）：模型對於 Attrition_Flag = 1 的召回率只有 0.03，這表示實際為流失客戶的樣本中，模型只正確預測了其中的 3%，這說明模型在檢測流失客戶時表現很差。


F1-Score：Attrition_Flag = 1 的 F1 分數為 0.06，這表示模型在預測流失客戶方面表現不佳。


# 使用 ADASYN 處理類別不平衡問題

In [None]:
from imblearn.over_sampling import ADASYN
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 準備特徵和目標變數
X = df_one_hot.drop(columns=['Attrition_Flag'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 使用 ADASYN 進行過抽樣
adasyn = ADASYN(random_state=42)
X_train_adasyn, y_train_adasyn = adasyn.fit_resample(X_train, y_train)

# 初始化 Logistic Regression 模型
model = LogisticRegression(max_iter=1000)

# 訓練模型
model.fit(X_train_adasyn, y_train_adasyn)

# 在測試集上進行預測
y_pred = model.predict(X_test)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))


準確度: 0.6755511681474169
混淆矩陣:
[[1748  795]
 [ 191  305]]
分類報告:
              precision    recall  f1-score   support

         0.0       0.90      0.69      0.78      2543
         1.0       0.28      0.61      0.38       496

    accuracy                           0.68      3039
   macro avg       0.59      0.65      0.58      3039
weighted avg       0.80      0.68      0.72      3039



 ADASYN 有效地改善了模型對類別 1（流失客戶）的檢測能力，特別是提升了類別 1 的 recall 和 F1 分數。這在處理類別不平衡問題時是一個良好的結果，因為我們希望提高對少數類別的檢測率，即便可能會略微犧牲對多數類別的檢測準確度。

模型對於類別 0（非流失客戶）有較好的表現，精確度和 F1-score 都相對較高。

但對於類別 1（流失客戶），精確度和 F1-score 明顯較低，這可能是由於類別不平衡問題導致的，儘管使用了 ADASYN 進行過抽樣處理，但模型對於少數類別仍然存在挑戰。

下一步考慮嘗試不同模型來提升類別 1 的分類表現。

# 使用支持向量機 (Support Vector Machine, SVM) 來進行模型預測

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，30% 的資料作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化標準化工具
scaler = StandardScaler()

# 標準化訓練集和測試集
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 初始化 Support Vector Classifier
svm_model = SVC()

# 訓練模型
svm_model.fit(X_train_scaled, y_train)

# 在測試集上進行預測
y_pred = svm_model.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))


準確度: 1.0
混淆矩陣:
[[2543    0]
 [   0  496]]
分類報告:
              precision    recall  f1-score   support

         0.0       1.00      1.00      1.00      2543
         1.0       1.00      1.00      1.00       496

    accuracy                           1.00      3039
   macro avg       1.00      1.00      1.00      3039
weighted avg       1.00      1.00      1.00      3039



所有準確評分都是 1.00 ，判斷應該是有過擬合問題或數據洩漏問題

# 檢查過擬合問題或數據洩漏問題

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance

# 分割資料集，30% 的資料作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 初始化標準化工具
scaler = StandardScaler()

# 標準化訓練集和測試集
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 初始化 Support Vector Classifier
svm_model = SVC(random_state=42)

# 使用交叉驗證
cv_scores = cross_val_score(svm_model, X_train_scaled, y_train, cv=5)
print("交叉驗證分數:", cv_scores)
print("平均交叉驗證分數:", cv_scores.mean())

# 訓練模型
svm_model.fit(X_train_scaled, y_train)

# 在測試集上進行預測
y_pred = svm_model.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))

# 使用隨機森林來檢查特徵重要性
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train_scaled, y_train)

# 計算特徵重要性
importances = permutation_importance(rf_model, X_test_scaled, y_test, n_repeats=10, random_state=42)
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': importances.importances_mean})
feature_importance = feature_importance.sort_values('importance', ascending=False)
print("特徵重要性:")
print(feature_importance.head(10))  # 顯示前10個最重要的特徵

交叉驗證分數: [1. 1. 1. 1. 1.]
平均交叉驗證分數: 1.0
準確度: 1.0
混淆矩陣:
[[2551    0]
 [   0  488]]
分類報告:
              precision    recall  f1-score   support

         0.0       1.00      1.00      1.00      2551
         1.0       1.00      1.00      1.00       488

    accuracy                           1.00      3039
   macro avg       1.00      1.00      1.00      3039
weighted avg       1.00      1.00      1.00      3039

特徵重要性:
                                              feature  importance
19  Naive_Bayes_Classifier_Attrition_Flag_Card_Cat...    0.269661
0                                           CLIENTNUM    0.000000
1                                        Customer_Age    0.000000
22                              Marital_Status_Single    0.000000
21                             Marital_Status_Married    0.000000
20  Naive_Bayes_Classifier_Attrition_Flag_Card_Cat...    0.000000
18                              Avg_Utilization_Ratio    0.000000
17                                Total_Ct_Chng_Q4_

初步推測 Naive_Bayes_Classifier_Attrition_Flag_Card_Cat... 的特徵與目標變數過於相似，嘗試移除該特徵重新檢查評估結果

# 移除影響模型學習的特徵

In [None]:

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數


# 分割資料集，30% 的資料作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 初始化標準化工具
scaler = StandardScaler()

# 標準化訓練集和測試集
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 初始化 Support Vector Classifier
svm_model = SVC(random_state=42)

# 使用交叉驗證
cv_scores = cross_val_score(svm_model, X_train_scaled, y_train, cv=5)
print("交叉驗證分數:", cv_scores)
print("平均交叉驗證分數:", cv_scores.mean())

# 訓練模型
svm_model.fit(X_train_scaled, y_train)

# 在測試集上進行預測
y_pred = svm_model.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))

# 使用隨機森林來檢查特徵重要性
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train_scaled, y_train)

# 計算特徵重要性
importances = permutation_importance(rf_model, X_test_scaled, y_test, n_repeats=10, random_state=42)
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': importances.importances_mean})
feature_importance = feature_importance.sort_values('importance', ascending=False)
print("特徵重要性:")
print(feature_importance.head(10))  # 顯示前10個最重要的特徵

交叉驗證分數: [0.92524683 0.92736248 0.93159379 0.93013409 0.92589979]
平均交叉驗證分數: 0.9280473954688834
準確度: 0.9230009871668312
混淆矩陣:
[[2499   52]
 [ 182  306]]
分類報告:
              precision    recall  f1-score   support

         0.0       0.93      0.98      0.96      2551
         1.0       0.85      0.63      0.72       488

    accuracy                           0.92      3039
   macro avg       0.89      0.80      0.84      3039
weighted avg       0.92      0.92      0.92      3039

特徵重要性:
                     feature  importance
16            Total_Trans_Ct    0.116617
15           Total_Trans_Amt    0.048898
8   Total_Relationship_Count    0.027345
12       Total_Revolving_Bal    0.025206
17       Total_Ct_Chng_Q4_Q1    0.013853
9     Months_Inactive_12_mon    0.007239
14      Total_Amt_Chng_Q4_Q1    0.007206
1               Customer_Age    0.003850
10     Contacts_Count_12_mon    0.003718
13           Avg_Open_To_Buy    0.003225


看起來確實是因為 Naive_Bayes_Classifier_Attrition_Flag_Card_Cat... 的特徵使數據洩漏，以至於預測模型過擬合，移除後得到了比較正常的預測結果

模型對於非流失客戶（類別 0）的預測表現非常好，但對於流失客戶的預測（類別 1）還有進一步提升的空間，尤其是在 recall（召回率）上。因此可以嘗試以下方式提高模型在類別 1 上的表現

# 使用 ADASYN 處理類別不平衡問題

In [None]:
from imblearn.over_sampling import ADASYN

# 使用 ADASYN 處理類別不平衡問題
adasyn = ADASYN(random_state=42)
X_train_resampled, y_train_resampled = adasyn.fit_resample(X_train_scaled, y_train)

# 初始化 SVM 模型
svm_model = SVC(kernel='linear', random_state=42)

# 訓練 SVM 模型
svm_model.fit(X_train_resampled, y_train_resampled)

# 在測試集上進行預測
y_pred = svm_model.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))

準確度: 0.8265876933201711
混淆矩陣:
[[2099  452]
 [  75  413]]
分類報告:
              precision    recall  f1-score   support

         0.0       0.97      0.82      0.89      2551
         1.0       0.48      0.85      0.61       488

    accuracy                           0.83      3039
   macro avg       0.72      0.83      0.75      3039
weighted avg       0.89      0.83      0.84      3039



在調用 ADASYN 進行類別不平衡處理後，0 類的 recall 提升顯著，但 1 類的 precision 卻大幅下降。這說明模型對 1 類（流失客戶）的預測中，正確預測的比例減少，容易錯誤地標記為 1 類（流失客戶）。

# 使用 SMOTE 處理類別不平衡問題

In [None]:
from imblearn.over_sampling import SMOTE

# 使用 SMOTE 處理類別不平衡問題
smote = SMOTE(random_state=42)
X_train_resampled_smote, y_train_resampled_smote = smote.fit_resample(X_train_scaled, y_train)

# 訓練模型
svm_model_smote = SVC(kernel='linear', random_state=42)
svm_model_smote.fit(X_train_resampled_smote, y_train_resampled_smote)

# 在測試集上進行預測
y_pred_smote = svm_model_smote.predict(X_test_scaled)

# 計算準確度
accuracy_smote = accuracy_score(y_test, y_pred_smote)
print("準確度 (SMOTE):", accuracy_smote)

# 顯示混淆矩陣
print("混淆矩陣 (SMOTE):")
print(confusion_matrix(y_test, y_pred_smote))

# 顯示分類報告
print("分類報告 (SMOTE):")
print(classification_report(y_test, y_pred_smote))


準確度 (SMOTE): 0.8571898650871997
混淆矩陣 (SMOTE):
[[2203  348]
 [  86  402]]
分類報告 (SMOTE):
              precision    recall  f1-score   support

         0.0       0.96      0.86      0.91      2551
         1.0       0.54      0.82      0.65       488

    accuracy                           0.86      3039
   macro avg       0.75      0.84      0.78      3039
weighted avg       0.89      0.86      0.87      3039



使用 SMOTE 處理類別不平衡問題，成效相比 ADASYN 要稍好一些，但仍然存在 precision 過低的情況

# 調整類別權重來處理類別不平衡問題

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 初始化 SVM 模型，使用類別權重平衡
svm_model_balanced = SVC(kernel='linear', class_weight='balanced', random_state=42)

# 訓練模型
svm_model_balanced.fit(X_train_scaled, y_train)

# 在測試集上進行預測
y_pred_balanced = svm_model_balanced.predict(X_test_scaled)

# 計算準確度
accuracy_balanced = accuracy_score(y_test, y_pred_balanced)
print("準確度 (balanced):", accuracy_balanced)

# 顯示混淆矩陣
print("混淆矩陣 (balanced):")
print(confusion_matrix(y_test, y_pred_balanced))

# 顯示分類報告
print("分類報告 (balanced):")
print(classification_report(y_test, y_pred_balanced))


準確度 (balanced): 0.8525830865416255
混淆矩陣 (balanced):
[[2185  366]
 [  82  406]]
分類報告 (balanced):
              precision    recall  f1-score   support

         0.0       0.96      0.86      0.91      2551
         1.0       0.53      0.83      0.64       488

    accuracy                           0.85      3039
   macro avg       0.74      0.84      0.78      3039
weighted avg       0.89      0.85      0.86      3039



通過調整類別權重來自動平衡類別不平衡，預測成效與使用 SMOTE 沒有太大差別，目前以 SMOTE 效果最好

再嘗試不同模型進行預測

# 使用隨機森林 (RandomForest) 來進行預測

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2']) # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，30% 的資料作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化標準化工具
scaler = StandardScaler()

# 標準化訓練集和測試集
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 初始化隨機森林模型
rf_model = RandomForestClassifier(random_state=42)

# 訓練隨機森林模型
rf_model.fit(X_train_scaled, y_train)

# 在測試集上進行預測
y_pred = rf_model.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度:", accuracy)

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))


準確度: 0.953932214544258
混淆矩陣:
[[2517   26]
 [ 114  382]]
分類報告:
              precision    recall  f1-score   support

         0.0       0.96      0.99      0.97      2543
         1.0       0.94      0.77      0.85       496

    accuracy                           0.95      3039
   macro avg       0.95      0.88      0.91      3039
weighted avg       0.95      0.95      0.95      3039



整體預測成效都優於 SVM 或是 LogisticRegression，接著嘗試處理資料不平衡問題

# 使用隨機森林來進行預測 ( 加入SMOTE )

In [None]:
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2']) # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，30% 的資料作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 使用 SMOTE 處理類別不平衡問題
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# 標準化數據
scaler = StandardScaler()
X_train_resampled_scaled = scaler.fit_transform(X_train_resampled)
X_test_scaled = scaler.transform(X_test)

# 初始化隨機森林模型
random_forest = RandomForestClassifier(random_state=42)

# 訓練隨機森林模型
random_forest.fit(X_train_resampled_scaled, y_train_resampled)

# 在測試集上進行預測
y_pred = random_forest.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print("準確度 (使用隨機森林):", accuracy)

# 顯示混淆矩陣
print("混淆矩陣 (使用隨機森林):")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告 (使用隨機森林):")
print(classification_report(y_test, y_pred))


準確度 (使用隨機森林): 0.9526159921026653
混淆矩陣 (使用隨機森林):
[[2463   80]
 [  64  432]]
分類報告 (使用隨機森林):
              precision    recall  f1-score   support

         0.0       0.97      0.97      0.97      2543
         1.0       0.84      0.87      0.86       496

    accuracy                           0.95      3039
   macro avg       0.91      0.92      0.91      3039
weighted avg       0.95      0.95      0.95      3039



加入 SMOTE 的隨機森林， recall 跟 precision 的表現更加平衡，並且 f1-score 有小幅提升，決定後續的模型皆加入 SMOTE

# 使用 Stacking 模型集成來嘗試提升綜合預測成效

In [11]:
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，70% 作為訓練集，30% 作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 標準化數據
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 使用 SMOTE 處理類別不平衡問題，只對訓練集進行處理
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

# 定義基分類器
base_estimators = [
    ('svm', SVC(probability=True, random_state=42)),  # 使用 SVM 作為基分類器
    ('logreg', LogisticRegression(max_iter=1000, random_state=42)),  # 使用 Logistic Regression 作為基分類器
    ('rf', RandomForestClassifier(random_state=42))  # 使用隨機森林作為基分類器
]

# 定義最終分類器（Gradient Boosting）
final_estimator = GradientBoostingClassifier(random_state=42)

# 初始化 Stacking Classifier，使用 Gradient Boosting 作為最終分類器
stacking_clf = StackingClassifier(estimators=base_estimators, final_estimator=final_estimator, cv=5)

# 訓練模型
stacking_clf.fit(X_train_resampled, y_train_resampled)

# 使用測試集進行預測
y_pred = stacking_clf.predict(X_test_scaled)

# 計算準確度
accuracy = accuracy_score(y_test, y_pred)
print(f"Stacking Classifier 的準確度: {accuracy}")

# 顯示混淆矩陣
print("混淆矩陣:")
print(confusion_matrix(y_test, y_pred))

# 顯示分類報告
print("分類報告:")
print(classification_report(y_test, y_pred))


Stacking Classifier 的準確度: 0.9578808818690359
混淆矩陣:
[[2487   56]
 [  72  424]]
分類報告:
              precision    recall  f1-score   support

         0.0       0.97      0.98      0.97      2543
         1.0       0.88      0.85      0.87       496

    accuracy                           0.96      3039
   macro avg       0.93      0.92      0.92      3039
weighted avg       0.96      0.96      0.96      3039



基分類器使用 SVM、Logistic Regression 和隨機森林，

最終分類器使用 Gradient Boosting 作為最終分類器，

 f1-score 預測表現有小幅提升

# 檢查過擬合 (Overfitting)

In [None]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 訓練集預測
y_train_pred = stacking_clf.predict(X_train_resampled)

# 測試集預測
y_test_pred = stacking_clf.predict(X_test_scaled)

# 訓練集準確度
train_accuracy = accuracy_score(y_train_resampled, y_train_pred)
print(f"訓練集的準確度: {train_accuracy}")

# 測試集準確度
test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"測試集的準確度: {test_accuracy}")

# 顯示訓練集的分類報告
print("訓練集分類報告:")
print(classification_report(y_train_resampled, y_train_pred))

# 顯示測試集的分類報告
print("測試集分類報告:")
print(classification_report(y_test, y_test_pred))

# 顯示混淆矩陣
print("測試集混淆矩陣:")
print(confusion_matrix(y_test, y_test_pred))


訓練集的準確度: 0.9989088467349337
測試集的準確度: 0.9578808818690359
訓練集分類報告:
              precision    recall  f1-score   support

         0.0       1.00      1.00      1.00      5957
         1.0       1.00      1.00      1.00      5957

    accuracy                           1.00     11914
   macro avg       1.00      1.00      1.00     11914
weighted avg       1.00      1.00      1.00     11914

測試集分類報告:
              precision    recall  f1-score   support

         0.0       0.97      0.98      0.97      2543
         1.0       0.88      0.85      0.87       496

    accuracy                           0.96      3039
   macro avg       0.93      0.92      0.92      3039
weighted avg       0.96      0.96      0.96      3039

測試集混淆矩陣:
[[2487   56]
 [  72  424]]


模型在訓練集上的表現比測試集好很多，尤其是訓練集上達到了幾乎完美的分數，這強烈表明模型可能過擬合了訓練數據。

雖然測試集上的表現也很好，但與訓練集的表現差距顯示了模型在測試集上不能完全泛化。

# 加入正則化，解決過擬合 (Overfitting) 問題

In [None]:
from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2']) # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 標準化數據
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 使用 SMOTE 處理類別不平衡問題
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

# 建立基礎模型，並使用正則化
base_estimators = [
    ('rf', RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)),  # 使用 max_depth 限制隨機森林的深度
    ('svc', SVC(kernel='linear', C=0.1, probability=True, random_state=42)),  # 加入正則化（C=0.1）控制 SVM 的正則化強度
]

# 使用 Logistic Regression 作為最終分類器，並加入 L2 正則化
stacking_clf = StackingClassifier(
    estimators=base_estimators,
    final_estimator=LogisticRegression(penalty='l2', C=0.1, max_iter=1000, random_state=42),  # L2 正則化
    cv=5
)

# 訓練模型
stacking_clf.fit(X_train_resampled, y_train_resampled)

# 預測測試集
y_pred = stacking_clf.predict(X_test_scaled)

# 顯示結果
print(f"準確度: {accuracy_score(y_test, y_pred)}")
print("分類報告:")
print(classification_report(y_test, y_pred))

# 訓練集上進行預測以檢查過擬合問題
y_train_pred = stacking_clf.predict(X_train_scaled)
print("訓練集上的分類報告:")
print(classification_report(y_train, y_train_pred))

# 測試集上的結果
print("測試集上的分類報告:")
print(classification_report(y_test, y_pred))


準確度: 0.9055610398157289
分類報告:
              precision    recall  f1-score   support

         0.0       0.97      0.91      0.94      2543
         1.0       0.66      0.87      0.75       496

    accuracy                           0.91      3039
   macro avg       0.82      0.89      0.85      3039
weighted avg       0.92      0.91      0.91      3039

訓練集上的分類報告:
              precision    recall  f1-score   support

         0.0       0.98      0.92      0.94      5957
         1.0       0.66      0.88      0.76      1131

    accuracy                           0.91      7088
   macro avg       0.82      0.90      0.85      7088
weighted avg       0.93      0.91      0.91      7088

測試集上的分類報告:
              precision    recall  f1-score   support

         0.0       0.97      0.91      0.94      2543
         1.0       0.66      0.87      0.75       496

    accuracy                           0.91      3039
   macro avg       0.82      0.89      0.85      3039
weighted avg       0.9

訓練集和測試集上的準確率以及其他指標（precision、recall、f1-score）的表現相對接近，表明經過正則化以後，改善了模型過擬合的問題。

但實際上正則化前模型在測試集上的預測效果（如準確度、精確率、召回率等）比正則化後更好。

雖然正則化前的模型可能有過擬合，但它仍然在測試集上表現更佳，這可能表明正則化對於這個數據集的預測效果並沒有顯著提升。

最終決定保持原來的模型，接受它在測試集上的更好預測效果，並容忍一定程度的過擬合。


# 利用 隨機搜尋 (RandomizedSearchCV) 調整模型超參數

In [None]:
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint, uniform

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，70% 作為訓練集，30% 作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 標準化數據
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 使用 SMOTE 處理類別不平衡問題，只對訓練集進行處理
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

# 定義基分類器
base_estimators = [
    ('rf', RandomForestClassifier(random_state=42)),  # 隨機森林
    ('svc', SVC(probability=True, random_state=42)),  # SVM
    ('logreg', LogisticRegression(max_iter=1000, random_state=42))  # Logistic Regression
]

# 定義最終分類器（Gradient Boosting）
final_estimator = GradientBoostingClassifier(random_state=42)

# 初始化 Stacking Classifier
stacking_clf = StackingClassifier(estimators=base_estimators, final_estimator=final_estimator, cv=5)

# 定義隨機搜尋的參數範圍，對應於具體分類器的參數名稱
param_distributions = {
    'rf__n_estimators': randint(50, 150),  # 隨機森林的樹木數量
    'rf__max_depth': randint(3, 7),  # 隨機森林的最大深度
    'svc__C': uniform(0.01, 1),  # SVM 的正則化參數
    'svc__gamma': uniform(0.01, 0.1),  # SVM 的核函數係數
    'final_estimator__learning_rate': uniform(0.01, 0.05),  # Gradient Boosting 的學習率
    'final_estimator__n_estimators': randint(50, 150),  # Gradient Boosting 的樹木數量
    'final_estimator__max_depth': randint(3, 5),  # Gradient Boosting 的最大深度
}

# 使用隨機搜尋進行超參數優化
random_search = RandomizedSearchCV(estimator=stacking_clf,
                                   param_distributions=param_distributions,
                                   n_iter=20,  # 進行 20 次隨機搜索
                                   scoring='accuracy',
                                   cv=3,  # 交叉驗證
                                   random_state=42,
                                   n_jobs=-1)  # 使用所有可用 CPU 核心

# 執行隨機搜尋
random_search.fit(X_train_resampled, y_train_resampled)

# 顯示最佳參數組合
print("最佳超參數組合:", random_search.best_params_)

# 使用最佳模型進行測試集預測
y_pred_optimal = random_search.best_estimator_.predict(X_test_scaled)

# 計算準確度
optimal_accuracy = accuracy_score(y_test, y_pred_optimal)
print(f"最佳模型的準確度: {optimal_accuracy}")

# 顯示最佳模型的混淆矩陣
print("最佳模型的混淆矩陣:")
print(confusion_matrix(y_test, y_pred_optimal))

# 顯示最佳模型的分類報告
print("最佳模型的分類報告:")
print(classification_report(y_test, y_pred_optimal))


最佳超參數組合: {'final_estimator__learning_rate': 0.04645035840204937, 'final_estimator__max_depth': 3, 'final_estimator__n_estimators': 54, 'rf__max_depth': 4, 'rf__n_estimators': 90, 'svc__C': 0.9249596755437808, 'svc__gamma': 0.09500385777897993}
最佳模型的準確度: 0.9197104310628497
最佳模型的混淆矩陣:
[[2471   72]
 [ 172  324]]
最佳模型的分類報告:
              precision    recall  f1-score   support

         0.0       0.93      0.97      0.95      2543
         1.0       0.82      0.65      0.73       496

    accuracy                           0.92      3039
   macro avg       0.88      0.81      0.84      3039
weighted avg       0.92      0.92      0.92      3039



利用隨機搜尋找尋模型最佳超參數，反而預測效果比未使用超參數還差，推測有可能是隨機搜尋的參數空間有可能未涵蓋到最優的參數組合。考慮到電腦效能，每次尋找隨機參數需要耗費太多時間，改使用網格搜索 (GridSearchCV)來嘗試優化模型

# 利用 網格搜索 (GridSearchCV) 調整模型超參數

In [9]:
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，70% 作為訓練集，30% 作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 標準化數據
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 使用 SMOTE 處理類別不平衡問題，只對訓練集進行處理
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

# 定義基分類器
base_estimators = [
    ('svm', SVC(probability=True, random_state=42)),  # SVM
    ('logreg', LogisticRegression(max_iter=1000, random_state=42)),  # Logistic Regression
    ('rf', RandomForestClassifier(random_state=42))  # 隨機森林
]

# 定義最終分類器（Gradient Boosting）
final_estimator = GradientBoostingClassifier(random_state=42)

# 初始化 Stacking Classifier
stacking_clf = StackingClassifier(estimators=base_estimators, final_estimator=final_estimator, cv=5)

# 定義網格搜索的參數範圍，對應於具體分類器的名稱
param_grid = {
    'rf__n_estimators': [50, 100],  # 隨機森林樹木數量
    'rf__max_depth': [3, 5],  # 隨機森林的最大深度
    'svm__C': [0.1, 1],  # SVM 的正則化參數
    'svm__kernel': ['linear'],  # 只測試線性核函數
    'final_estimator__learning_rate': [0.01, 0.05],  # Gradient Boosting 的學習率
    'final_estimator__n_estimators': [100],  # Gradient Boosting 的樹木數量
    'final_estimator__max_depth': [3],  # Gradient Boosting 的最大深度
}

# 使用網格搜索進行超參數優化
grid_search = GridSearchCV(estimator=stacking_clf,
                           param_grid=param_grid,
                           scoring='accuracy',
                           cv=3,  # 3 折交叉驗證折數
                           n_jobs=-1,  # 使用所有可用的 CPU 核心
                           verbose=2)

# 執行網格搜索
grid_search.fit(X_train_resampled, y_train_resampled)

# 顯示最佳參數組合
print("最佳超參數組合:", grid_search.best_params_)

# 使用最佳模型進行測試集預測
y_pred_optimal = grid_search.best_estimator_.predict(X_test_scaled)

# 計算準確度
optimal_accuracy = accuracy_score(y_test, y_pred_optimal)
print(f"最佳模型的準確度: {optimal_accuracy}")

# 顯示最佳模型的混淆矩陣
print("最佳模型的混淆矩陣:")
print(confusion_matrix(y_test, y_pred_optimal))

# 顯示最佳模型的分類報告
print("最佳模型的分類報告:")
print(classification_report(y_test, y_pred_optimal))


Fitting 3 folds for each of 16 candidates, totalling 48 fits
最佳超參數組合: {'final_estimator__learning_rate': 0.05, 'final_estimator__max_depth': 3, 'final_estimator__n_estimators': 100, 'rf__max_depth': 5, 'rf__n_estimators': 50, 'svm__C': 1, 'svm__kernel': 'linear'}
最佳模型的準確度: 0.9029285949325436
最佳模型的混淆矩陣:
[[2317  226]
 [  69  427]]
最佳模型的分類報告:
              precision    recall  f1-score   support

         0.0       0.97      0.91      0.94      2543
         1.0       0.65      0.86      0.74       496

    accuracy                           0.90      3039
   macro avg       0.81      0.89      0.84      3039
weighted avg       0.92      0.90      0.91      3039



網格搜索仍然成效不佳，推測可能是網格搜索尋找的超參數組合可能過度擬合了訓練數據，這使得模型在測試數據上表現不佳，網格搜索有可能找到了一個複雜度較高的超參數組合，這些參數可能使得模型變得更複雜，從而導致測試集上的泛化性能下降。

最終決定使用原始模型，並且透過交叉驗證，來確保模型泛化能力。

# 使用 Stacking 模型集成並且交叉驗證確保模型泛化能力

In [12]:
from sklearn.model_selection import cross_validate

# 準備特徵變數 X 和目標變數 y
X = df_one_hot.drop(columns=['Attrition_Flag','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                             'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'])  # 特徵變數
y = df_one_hot['Attrition_Flag']  # 目標變數

# 分割資料集，70% 作為訓練集，30% 作為測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 標準化數據
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 使用 SMOTE 處理類別不平衡問題，只對訓練集進行處理
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

# 定義基分類器
base_estimators = [
    ('svm', SVC(probability=True, random_state=42)),  # 使用 SVM 作為基分類器
    ('logreg', LogisticRegression(max_iter=1000, random_state=42)),  # 使用 Logistic Regression 作為基分類器
    ('rf', RandomForestClassifier(random_state=42))  # 使用隨機森林作為基分類器
]

# 定義最終分類器（Gradient Boosting）
final_estimator = GradientBoostingClassifier(random_state=42)

# 初始化 Stacking Classifier，使用 Gradient Boosting 作為最終分類器
stacking_clf = StackingClassifier(estimators=base_estimators, final_estimator=final_estimator, cv=5)

# 訓練模型
stacking_clf.fit(X_train_resampled, y_train_resampled)


# 使用交叉驗證來驗證模型的各項指標
scoring = ['accuracy', 'precision_macro', 'recall_macro', 'f1_macro']  # 定義你希望評估的指標

# 進行交叉驗證，這裡使用 5 折交叉驗證作為例子
cv_results = cross_validate(stacking_clf, X_train_resampled, y_train_resampled, cv=5, scoring=scoring, return_train_score=True)

# 輸出結果
print("交叉驗證結果（5 折）:")
print(f"平均準確度: {cv_results['test_accuracy'].mean()}")
print(f"平均精確率: {cv_results['test_precision_macro'].mean()}")
print(f"平均召回率: {cv_results['test_recall_macro'].mean()}")
print(f"平均F1分數: {cv_results['test_f1_macro'].mean()}")


交叉驗證結果（5 折）:
平均準確度: 0.9758273426414995
平均精確率: 0.9764524893546419
平均召回率: 0.975823147882046
平均F1分數: 0.9758137862576108


經歷交叉驗證 5 折，各方面的評估指標表現都不錯，使用此模型當作最終模型