<a href="https://colab.research.google.com/github/ldsAS/Tibame-AI-Learning/blob/main/Tibame20250609_Step_Wise.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Stepwise方法在統計中的應用
在統計學中，**stepwise**（逐步法）是一種變數選擇的方法，常用於回歸分析中，幫助選擇最適合的預測變數。這種方法透過迭代過程，逐步添加或刪除解釋變數，以建立最能解釋資料的統計模型。

## Stepwise方法的主要類型：
1. **Forward Selection（前向選擇）**：
   - 從無任何變數的模型開始，逐步將最顯著的變數加入模型。
   - 每一步會加入對模型擬合影響最大的變數，直到沒有更多顯著的變數可以加入。
2. **Backward Elimination（後向刪除）**：
   - 從包含所有候選變數的模型開始，逐步刪除對模型影響最小或不顯著的變數。
   - 每一步會刪除對模型擬合貢獻最小的變數，直到剩下的變數都顯著。
3. **Bidirectional Elimination（雙向刪除）**：
   - 是前向選擇和後向刪除的結合。每一步根據變數的顯著性，決定是否添加新變數或刪除不顯著的變數。

## 優缺點：
- **優點**：
  - 有助於從大量變數中挑選出最有用的變數，建立簡潔且有效的預測模型。
- **缺點**：
  - 可能會過度擬合資料。
  - 可能忽略一些重要的交互作用或變數，因此需要謹慎使用。


In [None]:
import pandas as pd
data = pd.read_csv("../data/Iris.csv")
data.columns

Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_validate

def getAccuracy(field_names):
    x = data[field_names]
    y = data['Species']
    model = DecisionTreeClassifier()
    score = cross_validate(model, x, y, cv=5, n_jobs=2, scoring=['balanced_accuracy'])
    return score['test_balanced_accuracy'].mean()

# Step Wise

## 四個欄位全用時的正確率

In [None]:
getAccuracy(['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'])

np.float64(0.9533333333333334)

## Step 1 :
['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']

### 測試四個欄位分別拿掉時的正確率

In [None]:
getAccuracy(['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm'])

np.float64(0.9400000000000001)

In [None]:
getAccuracy(['SepalLengthCm', 'SepalWidthCm', 'PetalWidthCm'])

np.float64(0.9199999999999999)

In [None]:
getAccuracy(['SepalLengthCm', 'PetalLengthCm', 'PetalWidthCm'])

np.float64(0.9600000000000002)

In [None]:
getAccuracy(['SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'])

np.float64(0.9666666666666668)

### 四種組合中，拿掉SepalLengthCm的正確率最高，因此可以拿掉SepalLengthCm

## Step 2
['SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']

### 測試三個欄位分別拿掉時的正確率

In [None]:
getAccuracy(['SepalWidthCm', 'PetalLengthCm'])

np.float64(0.8933333333333333)

In [None]:
getAccuracy(['SepalWidthCm', 'PetalWidthCm'])

np.float64(0.9399999999999998)

In [None]:
getAccuracy(['PetalLengthCm', 'PetalWidthCm'])

np.float64(0.9533333333333334)

### 三種組合中，拿掉SepalWidthCm的正確率最高，因此可以拿掉SepalWidthCm

## Step 3
['PetalLengthCm', 'PetalWidthCm']

### 測試兩個欄位分別拿掉時的正確率

In [None]:
getAccuracy(['PetalWidthCm'])

np.float64(0.9533333333333334)

In [None]:
getAccuracy(['PetalLengthCm'])

np.float64(0.9199999999999999)

### 兩種組合中，拿掉PetalLengthCm的正確率最高，因此可以拿掉PetalLengthCm

## 最終欄位重要順序排序為
PetalWidthCm > PetalLengthCm > SepalWidthCm > SepalLengthCm