<a href="https://colab.research.google.com/github/fadhilahmad11/Hands-on-Machine-Learning-with-Scikit-Learn-TensorFlow-Tugas-Machine-LearningW8-W16/blob/main/Chapter_07_Ensemble_Report_and_Random_Forests.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 7: Ensemble Learning and Random Forests

## 1. Pendahuluan
Ensemble Learning adalah metode dalam machine learning di mana beberapa model (disebut estimator) digabungkan untuk membentuk model yang lebih kuat dan lebih akurat. Gagasan utama di balik ensemble learning adalah bahwa gabungan dari beberapa prediksi model yang berbeda dapat menghasilkan hasil yang lebih baik daripada hanya mengandalkan satu model.

Jenis utama dari metode ensemble adalah:
- Voting
- Bagging
- Pasting
- Random Forests
- Boosting
- Stacking

## 2. Voting Classifiers
Voting Classifier adalah metode ensemble untuk klasifikasi yang menggabungkan prediksi dari beberapa model berbeda dan memutuskan kelas akhir berdasarkan suara mayoritas (untuk klasifikasi) atau rata-rata (untuk regresi).

### Jenis Voting:
- **Hard Voting**: Setiap model memberikan prediksi dan kelas yang dipilih adalah yang paling sering dipilih (mode).
- **Soft Voting**: Setiap model memberikan probabilitas dan prediksi akhir berdasarkan probabilitas rata-rata tertinggi.

```python
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

log_clf = LogisticRegression()
svc_clf = SVC(probability=True)
tree_clf = DecisionTreeClassifier()

voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('svc', svc_clf), ('tree', tree_clf)],
    voting='soft'
)
```

### Kelebihan:
- Menggabungkan kekuatan berbagai model
- Umumnya lebih stabil dan akurat

## 3. Bagging dan Pasting
Bagging (Bootstrap Aggregating) dan Pasting adalah teknik ensemble di mana beberapa model dilatih secara paralel menggunakan subset data pelatihan.

- **Bagging**: Menggunakan sampling dengan pengembalian (bootstrapping)
- **Pasting**: Menggunakan sampling tanpa pengembalian

Model yang digunakan biasanya sama, tetapi data latihannya berbeda.

```python
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1
)
bag_clf.fit(X_train, y_train)
```

## 4. Out-of-Bag Evaluation
Out-of-Bag (oob) Evaluation digunakan dalam bagging. Karena beberapa data tidak digunakan saat training (out-of-bag), data tersebut bisa dipakai untuk mengevaluasi model.

```python
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500,
    bootstrap=True, oob_score=True
)
bag_clf.fit(X_train, y_train)
print(bag_clf.oob_score_)
```

## 5. Random Patches dan Random Subspaces
- **Random Subspaces**: Hanya memilih subset fitur untuk tiap model.
- **Random Patches**: Memilih subset dari fitur dan data untuk tiap model.

Metode ini membantu mengurangi korelasi antar model dan memperkuat generalisasi.

## 6. Random Forests
Random Forest adalah teknik bagging khusus dengan Decision Tree sebagai estimator dan pengambilan fitur secara acak di setiap split.

```python
from sklearn.ensemble import RandomForestClassifier
rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
rnd_clf.fit(X_train, y_train)
```

### Feature Importance
Random Forest dapat digunakan untuk melihat seberapa penting setiap fitur dalam membuat keputusan.


```python
for name, score in zip(iris['feature_names'], rnd_clf.feature_importances_):
    print(name, score)
```



## 7. Extra-Trees (Extremely Randomized Trees)
Berbeda dengan Random Forest, Extra-Trees menggunakan split yang benar-benar acak. Hal ini meningkatkan kecepatan tetapi bisa mengurangi akurasi.

```python
from sklearn.ensemble import ExtraTreesClassifier
ext_clf = ExtraTreesClassifier(n_estimators=500, n_jobs=-1)
ext_clf.fit(X_train, y_train)
```

## 8. Boosting
Boosting adalah metode ensemble yang melatih model secara berurutan, di mana setiap model berusaha mengoreksi kesalahan model sebelumnya.

### AdaBoost
Menambahkan bobot lebih besar pada sampel yang salah klasifikasi.


```python
from sklearn.ensemble import AdaBoostClassifier
ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1), n_estimators=200,
    algorithm="SAMME.R", learning_rate=0.5
)
ada_clf.fit(X_train, y_train)
```



### Gradient Boosting
Model baru dilatih berdasarkan residual dari model sebelumnya.

```python
from sklearn.ensemble import GradientBoostingRegressor
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0)
gbrt.fit(X, y)
```


## 9. Stacking
Stacking (Stacked Generalization) menggabungkan prediksi dari beberapa model dasar (base learners) dengan model meta.

```python
from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression

stack_clf = StackingClassifier(
    estimators=[('rf', RandomForestClassifier(n_estimators=10)),
                ('ada', AdaBoostClassifier(n_estimators=10))],
    final_estimator=LogisticRegression()
)
stack_clf.fit(X_train, y_train)
```