# Studi Kasus Pertemuan ke-12

## <a id="home">Table of Content</a>
- [Studi kasus part I](#part-i)
- [Studi kasus part II](#part-ii)

## <a id="part-i">Tujuan Studi Kasus part I</a> (Back to [Home](#home))
>Anda mampu membuat **ensemble** dari berbagai macam _classifier_ untuk memprediksi secara _soft_ atau _hard voting_.



Mari kita import library-library yang dibutuhkan.

In [1]:
import sklearn
import numpy as np
import matplotlib.pyplot as plt

plt.rc('font', size=14)
plt.rc('axes', labelsize=14, titlesize=14)
plt.rc('legend', fontsize=14)
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=10)

In [2]:
from pathlib import Path

IMAGES_PATH = Path() / "images" / "ensembles"
IMAGES_PATH.mkdir(parents=True, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = IMAGES_PATH / f"{fig_id}.{fig_extension}"
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

Mari kita load the MNIST dataset.

In [3]:
from sklearn.datasets import fetch_openml

X_mnist, y_mnist = fetch_openml('mnist_784', return_X_y=True, as_frame=False)

**Exercise**: _Load data MNIST dan split data tersebut menjadi training set, validation set, dan test set (contoh: gunakan 50,000 instances untuk training, 10.000 untuk validation, dan 10.000 untuk testing)._

In [4]:
X_mnist.shape

(70000, 784)

Dataset MNIST telah di-_load_ sebelumnya. Dataset ini sudah dibagi menjadi _training set_ (60.000 baris pertama) dan _testing set_ (10.000 baris terakhir), dan train set sudah diacak.     
    
Jadi, **yang perlu kita lakukan adalah** mengambil 50.000 baris pertama untuk train set baru, 10.000 berikutnya untuk validation set, dan 10.000 baris terakhir untuk test set:

Mari kita bagi `X_mnist` menjadi:
- `X_train` sebanyak 50.000 instances pertama,
- `X_valid` sebanyak 50.000 instances berikutnya, dan
- `X_test` sebanyak 10.000 instances berikutnya.
  
**Hint**: Gunakan simbol titik dua (:), contoh: `X_train[0:100]` berarti mau mengambil baris ke-`0` sampai dengan baris ke-`99`.


In [5]:
##############################
# Write Your Code Here
##############################
X_train, y_train = X_mnist[0:50000], y_mnist[0:50000]
X_valid, y_valid = X_mnist[50000:60000], y_mnist[50000:60000]
X_test, y_test = X_mnist[60000:70000], y_mnist[60000:70000]

Mari kita latih berbagai _classifiers_ sbb:
- Random Forest classifier dengan `n_estimators` adalah 100 dan `random_state` adalah 42,
- Extra-Trees classifier (baca [Geron (2022) hlm. 220](https://a.co/d/efCY4Bd)) dengan `n_estimators` adalah 100 dan `random_state` adalah 42,
- SVM, yaitu `LinearSVC` dengan `max_iter` adalah 100, `tol` adalah 20, `random_state` adalah 42, dan
- Multi-layer Perceptron dengan `random_state` adalah 42.

In [6]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.svm import LinearSVC
from sklearn.neural_network import MLPClassifier

In [7]:
##############################
# Write Your Code Here
##############################
random_forest_clf = RandomForestClassifier(n_estimators=100, random_state=42)
extra_trees_clf = ExtraTreesClassifier(n_estimators=100, random_state=42)
svm_clf = LinearSVC(tol=20,random_state=42,max_iter=100)
mlp_clf = MLPClassifier(random_state=42)

Kita buat `estimators` yang merupakan _list_ yang beranggotakan _classifier_-_classifier_ di atas.     
**Hint**: Gunakan _list_ seperti: `estimators = [classifier_A, classifier_B, classifier_C]`

In [8]:
##############################
# Write Your Code Here
##############################
estimators = [random_forest_clf, extra_trees_clf, svm_clf, mlp_clf]

Selanjutnya, kita latih setiap _classifier_ di dalam <a id="estimators">`estimators`</a>.

In [9]:
for estimator in estimators:
    print("Training the", estimator)
    ##############################
    # Write Your Code Here
    ##############################
    estimator.fit(X_train, y_train)

Training the RandomForestClassifier(random_state=42)
Training the ExtraTreesClassifier(random_state=42)
Training the LinearSVC(max_iter=100, random_state=42, tol=20)
Training the MLPClassifier(random_state=42)


Mari kita tampilkan `score` dari setiap _classifier_ pada validation set.     
**Hint**: Gunakan method `score` dari setiap estimator, seperti `classifier.score()`

In [None]:
##############################
# Write Your Code Here
##############################
for estimator in estimators:
    print("Score", estimator, " = ", estimator.score(X_valid, y_valid))

Score RandomForestClassifier(random_state=42)  =  0.9736
Score ExtraTreesClassifier(random_state=42)  =  0.9743
Score LinearSVC(max_iter=100, random_state=42, tol=20)  =  0.0991
Score MLPClassifier(random_state=42)  =  0.9613


### Exercise:
Berikutnya, kita akan kombinasikan _classifier_-_classifier_ dalam suatu ensemble pada _validation set_, dengan _soft_ atau _hard_ _voting classifier_.

In [None]:
from sklearn.ensemble import VotingClassifier

Buatlah sebuah _list_ yang bernama `named_estimators` dan berisi tuple (\<string\>, \<classifier yang sudah dibuat sebelumnya\>) sebagai berikut:
- random_forest_clf $\Rightarrow$ `random_forest_clf`,
- extra_trees_clf $\Rightarrow$ `extra_trees_clf`,
- svm_clf $\Rightarrow$ `svm_clf`,
- mlp_clf $\Rightarrow$ `mlp_clf`.

In [None]:
##############################
# Write Your Code Here
##############################
named_estimators = [
    ("random_forest_clf", random_forest_clf),
    ("extra_trees_clf", extra_trees_clf),
    ("svm_clf", svm_clf),
    ("mlp_clf", mlp_clf)
]

Buatlah `voting_clf` yang merupakan instance dari `VotingClassifier` dengan parameter: `named_estimators`.

In [None]:
##############################
# Write Your Code Here
##############################
voting_clf = VotingClassifier(named_estimators)

Latihlah `voting_clf` dengan `X_train` dan `y_train`.

In [None]:
##############################
# Write Your Code Here
##############################
voting_clf.fit(X_train, y_train)



Hitung _accuracy_ pada validation set dengan fungsi `score`.

In [None]:
##############################
# Write Your Code Here
##############################
voting_clf.score(X_valid, y_valid)

0.9748

Cara kerja `VotingClassifier` adalah
1. dengan membuat klon dari setiap _classifier_, dan
2. `VotingClassifier` melatih setiap klon dengan menggunakan indeks dari kelas sebagai label (_integer_), bukan nama label aslinya (_string_).

Jadi untuk mengevaluasi klon ini, anda perlu menyediakan indeks dari kelas juga.    
Untuk mengonversi kelas ini menjadi indeks dari kelas, anda dapat menggunakan `LabelEncoder`:

In [None]:
y_valid

array(['3', '8', '6', ..., '5', '6', '8'], dtype=object)

In [None]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
y_valid_encoded = encoder.fit_transform(y_valid)

In [None]:
y_valid_encoded

array([3, 8, 6, ..., 5, 6, 8])

Akan tetapi dalam kasus MNIST, proses konversi akan lebih sederhana dengan cara mengonversi nama kelas menjadi bilangan bulat karena nama kelas cocok dengan bilangan bulatnya:

In [None]:
y_valid_encoded = y_valid.astype(np.int64)

Mari kita evaluasi setiap klon _classifier_ ini:    
**Hint**: Gunakan attribute `estimators_` dari `voting_clf`.

In [None]:
##############################
# Write Your Code Here
##############################
voting_clf.estimators_

[RandomForestClassifier(random_state=42),
 ExtraTreesClassifier(random_state=42),
 LinearSVC(max_iter=100, random_state=42, tol=20),
 MLPClassifier(random_state=42)]

Mari kita buang SVM untuk melihat apakah _performance_ akan meningkat.    
Salah satu cara untuk membuang _estimator_ adalah dengan melakukan _setting_ `"drop"` dengan menggunakan `set_params()` seperti berikut:

In [None]:
voting_clf.set_params(svm_clf="drop")

This updated the list of estimators:

In [None]:
voting_clf.estimators

[('random_forest_clf', RandomForestClassifier(random_state=42)),
 ('extra_trees_clf', ExtraTreesClassifier(random_state=42)),
 ('svm_clf', 'drop'),
 ('mlp_clf', MLPClassifier(random_state=42))]

Akan tetapi, apa yang sudah dilakukan tidak meng-_update_ list dari _estimators_ yang sudah di-_trained_:

In [None]:
voting_clf.estimators_

[RandomForestClassifier(random_state=42),
 ExtraTreesClassifier(random_state=42),
 LinearSVC(max_iter=100, random_state=42, tol=20),
 MLPClassifier(random_state=42)]

In [None]:
voting_clf.named_estimators_

{'random_forest_clf': RandomForestClassifier(random_state=42),
 'extra_trees_clf': ExtraTreesClassifier(random_state=42),
 'svm_clf': LinearSVC(max_iter=100, random_state=42, tol=20),
 'mlp_clf': MLPClassifier(random_state=42)}

Jadi kita dapat
1. _fit_ kembali `VotingClassifier` lagi, atau
2. buang SVM dari list _estimators_ yang sudah di-_trained_, baik di `estimators_` dan `named_estimators_`:

In [None]:
svm_clf_trained = voting_clf.named_estimators_.pop("svm_clf")
voting_clf.estimators_.remove(svm_clf_trained)

Mari kita evaluasi `VotingClassifier` lagi:

In [None]:
voting_clf.score(X_valid, y_valid)

0.9761

Sedikit lebih baik daripada sebelumnya ya setelah SVM dibuang!

Sekarang mari kita gunakan _soft voting classifier_.    
Kita tidak perlu melatih ulang classifier ini, kita cukup hanya menyetting attribute `voting` dari `voting_clf` menjadi `"soft"`:

In [None]:
##############################
# Write Your Code Here
##############################
voting_clf.voting = "soft"

Mari kita hitung kembali score `voting_clf` pada `X_valid` dan `y_valid`:

In [None]:
##############################
# Write Your Code Here
##############################
voting_clf.score(X_valid, y_valid)

0.9691

Dalam kasus kita:
> Cara voting manakah yang lebih baik? _hard_ atau _soft voting_?

**Jawab**:    
Voting yang lebih baik adalah Hard Voting karena kita bisa melihat voitng_clf.score pada saat sebelum kita gunakan atribut voting ="soft" memiliki nilai 0.9761, sedangkan saat setelah kita gunakan voting="soft" nilainya malah turun menjadi 0.9703. Maka yang dipilih adalah yang paling tinggi, yakni Hard Voting

Setelah anda menemukan _ensemble_ yang lebih baik daripada _classifier_ secara individu, coba gunakan _ensemble_ tersebut pada test set.   
Berapakah persentase peningkatan ensemble dibandingkan dengan masing-masing _classifier_?


In [None]:
##############################
# Write Your Code Here
##############################
voting_clf.voting = "hard"
voting_clf.score(X_test, y_test)

0.9727

Mari kita hitung `score` dari setiap estimator yang berada di `voting_clf.estimators` pada _test set_.

In [None]:
##############################
# Write Your Code Here
##############################
for estimator in estimators:
    print("Score", estimator, " = ", estimator.score(X_test, y_test))

Score RandomForestClassifier(random_state=42)  =  0.968
Score ExtraTreesClassifier(random_state=42)  =  0.9703
Score LinearSVC(max_iter=100, random_state=42, tol=20)  =  0.098
Score MLPClassifier(random_state=42)  =  0.9618


## <a id="part-ii">Tujuan Studi Kasus part II</a> (Back to [Home](#home))
>Anda mampu membuat **ensemble stacking** dari berbagai macam _classifier_.

Mari kita
1. jalankan _classifier_-_classifier_ secara individu dari Studi Kasus part I pada **validation set** kemudian
2. buat train set baru dari hasil prediksi pada validation set.

Kolom dataset baru (`X_valid_predictions`) adalah _classifier_-_classifier_ dan baris dataset baru adalah _instance_-_instance_-nya.


In [None]:
X_valid_predictions = np.empty((len(X_valid), len(estimators)), dtype=object)

for index, estimator in enumerate(estimators):
    X_valid_predictions[:, index] = estimator.predict(X_valid)

In [None]:
X_valid_predictions

array([['3', '3', '0', '3'],
       ['8', '8', '0', '8'],
       ['6', '6', '0', '6'],
       ...,
       ['5', '5', '0', '5'],
       ['6', '6', '0', '6'],
       ['8', '8', '0', '8']], dtype=object)

**Pertanyaan Refleksi**     
1. `X_valid_predictions` merupakan sebuah matriks dengan baris merupakan instance-instance dari validation set
2. `X_valid_predictions` merupakan sebuah matriks dengan kolom merupakan prediksi dari setiap classifier
3. Kolom ke-1 adalah prediksi dari Random Forest
4. Kolom ke-2 adalah prediksi dari Extra Trees
5. Kolom ke-3 adalah prediksi dari SVM
6. Kolom ke-4 adalah prediksi dari MLP

**Pertanyaan Refleksi**    
Apakah yang dimaksud dengan **blender**?

**Jawab**:     
Blender adalah meta-classifier yang menggabungkan prediksi dari beberapa classifier untuk menghasilkan prediksi akhir. Dalam konteks ini, RandomForestClassifier digunakan sebagai blender.

Sekarang, mari kita buat sebuah **blender**, yaitu `RandomForestClassifier` dengan `n_estimators` sebanyak 200, `oob_score` bernilai `True`, dan `random_state=42`.

In [None]:
##############################
# Write Your Code Here
##############################
rnd_forest_blender = RandomForestClassifier(n_estimators = 200, oob_score=True, random_state=42)

Sekarang, kita latih **blender** pada `X_valid_predictions` dan `y_valid`.

In [None]:
##############################
# Write Your Code Here
##############################
rnd_forest_blender.fit(X_valid_predictions, y_valid)


Karena kita menggunakan `oob_score` alias evaluasi out-of-bag (OOB) sesudah `training`, kita dapat memperoleh `oob_score` dari _ensemble_ ini ([Geron (2022) hlm. 218](https://a.co/d/efCY4Bd)).

In [None]:
##############################
# Write Your Code Here
##############################
rnd_forest_blender.oob_score_

0.9743

Anda dapat melakukan _fine-tune_ blender ini or mencoba jenis blender lain seperti `MLPClassifier`, kemudian memilih blender terbaik dengan melakukan _cross-validation_ seperti biasa.

Selamat!   
Anda sudah berhasil melatih
$$
    \text{blender} + \text{classifier-classifier} = \text{stacking ensemble}
$$

Terakhir mari kita evaluasi _performance_ ensemble pada _test set_.   
Untuk setiap gambar dalam _test set_, gunakan semua _classifier_ anda untuk memprediksi, kemudian masukkan hasil prediksi ke dalam **blender** untuk memperoleh prediksi akhir.

> Bagaimana kinerja prediksi **blender** dibandingkan dengan [classifier voting yang anda latih sebelumnya? How does it compare to the voting classifier you trained earlier](#estimators)?
   
**Hint**: hasil prediksi semua _classifier_ disimpan di sebuah matriks, yaitu `X_test_predictions`.

In [None]:
X_test_predictions = np.empty((len(X_test), len(estimators)), dtype=object)

for index, estimator in enumerate(estimators):
    ##############################
    # Write Your Code Here
    ##############################
    X_test_predictions[:, index] = estimator.predict(X_test)



Mari kita gunakan **blender** untuk memprediksi

In [None]:
##############################
# Write Your Code Here
##############################
y_pred = rnd_forest_blender.predict(X_test_predictions)

Hitung `accuracy_score` dari `rnd_forest_blen`.

In [None]:
##############################
# Write Your Code Here
##############################
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

0.9693

Manakah yang lebih baik: _stacking ensemble_ atau _voting ensemble_?

**Jawab**:    

Berdasarkan score yang telah dihitung di atas, maka kita bisa lihat bahwa nilai score yang lebih tinggi adalah voting ensemble, karena yang stacking hanya berisi score 0.9693

<center>
    <div style="font-size:250%">The End</div>
</center>