In [None]:
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.feature_selection import SelectKBest, f_classif

# --- 過濾法 (Filter Methods) ---
# 過濾法是根據特徵本身的統計特性來進行特徵選擇，
# 不需要考慮任何機器學習模型。
# 它們的計算速度快，但可能沒有選出對特定模型最優的特徵組合。

# 建立一個分類問題的範例數據集
# n_samples: 樣本數
# n_features: 總特徵數
# n_informative: 有用的特徵數
# n_redundant: 冗餘的特徵數 (由有用特徵線性組合而成)
# n_classes: 類別數
# random_state: 隨機種子，確保每次生成的數據都一樣
X, y = make_classification(n_samples=100, n_features=20, n_informative=5,
                           n_redundant=5, n_classes=2, random_state=42)

# 將數據轉換為 DataFrame (方便觀察)
X = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(20)])

print("原始數據的維度:")
print(X.shape)
print("\n")

# --- 使用 SelectKBest 進行特徵選擇 ---
# SelectKBest 會根據指定的評分函數，選出分數最高的 K 個特徵。
# 評分函數 (score_func):
# - f_classif: ANOVA F-value，適用於分類問題。
# - mutual_info_classif: 互信息，適用於分類問題。
# - f_regression: F-value，適用於迴歸問題。
# k: 要選擇的特徵數量
selector = SelectKBest(score_func=f_classif, k=5)

# 對數據進行擬合與轉換
X_selected = selector.fit_transform(X, y)

print("使用 SelectKBest 選擇 5 個特徵後的維度:")
print(X_selected.shape)
print("\n")

# --- 查看被選擇的特徵 ---
# get_support() 方法會返回一個布林遮罩，
# True 表示該特徵被選中，False 表示未被選中。
selected_features_mask = selector.get_support()
selected_features = X.columns[selected_features_mask]

print("被選擇的特徵:")
print(selected_features)
print("\n")

# 查看每個特徵的分數
feature_scores = pd.DataFrame({'Feature': X.columns, 'Score': selector.scores_})
feature_scores = feature_scores.sort_values(by='Score', ascending=False)
print("每個特徵的 ANOVA F-value 分數 (越高越好):")
print(feature_scores)