# Iterative Stacking

在Iterative Stacking中，我們使用類似交叉驗證的方法，將數據集分為多個折（folds）進行多輪的模型訓練和預測。每輪訓練後，我們將基模型的預測結果加入到原始數據中，然後用這些新的特徵來訓練元模型。這樣的過程可以進行多次，從而達到模型的迭代優化。

## 步驟

1. 將數據集分成若干折（folds），比如K折交叉驗證。
2. 在每個折上，使用部分數據來訓練基模型，然後在該折上進行預測，得到基模型的預測結果。
3. 將每個折的基模型預測結果合併，得到一個新的特徵集。
4. 使用這個新的特徵集來訓練元模型。

## 優缺點

### 優點：

* 泛化能力提升： 透過多次迭代的訓練和預測，可以減少過擬合的風險，從而提高模型的泛化能力。

* 特徵優化： 每輪迭代都會生成新的特徵集，這些特徵可能更能捕捉數據的模式，從而提升模型性能。

* 彌補模型弱點： 通過不斷的迭代，可以有機會逐步補償不同基模型的弱點，使得整體模型更加強大。

### 缺點：

* 計算成本高： 由於需要進行多次的模型訓練和預測，所以計算成本相對較高，可能需要更多的計算資源和時間。

* 超參數調整難度增加： 在每輪迭代中，不僅需要調整基模型的超參數，還需要調整元模型的超參數，這增加了參數調整的難度。

* 可能出現過擬合： 雖然迭代可以減少過擬合的風險，但如果不恰當地設計迭代策略，仍然可能導致過擬合的問題。

## python code

```python
from sklearn.ensemble import StackingClassifier
...
stacking_model = StackingClassifier(estimators=base_models, final_estimator=meta_model)
...
```

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import StackingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression

# 載入數據集
iris = load_iris()
X, y = iris.data, iris.target

# 將數據集分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定義基模型
base_models = [
    ('knn', KNeighborsClassifier(n_neighbors=3)),
    ('rf', RandomForestClassifier(n_estimators=100, random_state=42)),
    ('svm', SVC(kernel='linear', probability=True))
]

# 定義元模型
meta_model = LogisticRegression()

# 定義 Iterative Stacking 模型
stacking_model = StackingClassifier(estimators=base_models, final_estimator=meta_model)

# 訓練 Iterative Stacking 模型
stacking_model.fit(X_train, y_train)

# 預測測試集數據
y_pred = stacking_model.predict(X_test)

# 計算準確率
accuracy = (y_pred == y_test).mean()
print("Accuracy:", accuracy)


Accuracy: 1.0
