## **Praktikum 2**

### **Boosting dengan AdaBoost**

Pada kasus ini kita akan menggunakan salah satu metode boosting yaitu AdaBoost untuk mengklasifikasikan jenis bunga Iris. Dalam latihan ini kita akan menggunakan dataset Iris yang sangat lazim digunakan. Latihan ini akan melakukan prediksi memprediksi 3 jenis bunga Iris yaitu, Iris Setosa, Iris Versicolor, dan Iris Virginica berdasarkan panjang dan lebar sepal dan petal.
Kita akan membandingkan performa dari algoritma Decision Tree dan AdaBoost pada kasus ini.

#### **Import Library**

In [None]:
# Mengimpor pustaka NumPy ke dalam program yang dimana library ini berfungsi untuk komputasi numerik dalam pengolahan data dan array.
import numpy as np

# Mengimpor pustaka Pandas ke dalam program yang dimana library ini berfungsi untuk memanipulasi dan analisis data tabular.
import pandas as pd

# Mengimpor modul DecisionTreeClassifier pada pustaka scikit-learn yang berfungsi untuk klasifikasi berdasarkan pohon keputusan.
from sklearn.tree import DecisionTreeClassifier # import DT

# Mengimpor modul AdaBoostTreeClassifier pada pustaka scikit-learn yang berfungsi untuk meningkatkan kinerja model klasifikasi dengan menggabungkan beberapa model lemah menjadi satu model yang lebih kuat.
from sklearn.ensemble import AdaBoostClassifier # import AdaBoost

# Mengimpor modul train_test_split pada pustaka scikit-learn yang berfungsi untuk membagi data menjadi subset pelatihan dan subset pengujian.
from sklearn.model_selection import train_test_split

# Mengimpor modul accuracy_score dan classification_report pada pustaka scikit-learn yang dimana accuracy_score berfungsi sebagai metrik evaluasi untuk mengukur akurasi dari model klasifikasi dan classification_report berfungsi untuk menghasilkan laporan klasifikasi yang berisi metrik-metrik lainnya untuk mengevaluasi kinerja model klasifikasi.
from sklearn.metrics import accuracy_score, classification_report

# Mengimpor modul LabelEncoder dari pustaka scikit-learn yang berfungsi untuk mengkodekan variabel target (label kelas) yang umumnya berupa string menjadi bilangan bulat, sehingga dapat digunakan dalam pemodelan.
from sklearn.preprocessing import LabelEncoder # Kebutuhan encoding label

#### **Persiapan Data**

In [9]:
# Load data
# Membaca sebuah berkas CSV dengan menggunakan Pandas. Data dari berkas "iris.csv" akan dimuat pada suatu struktur data yaitu DataFrame (df) yang memungkinkan untuk melakukan manipulasi dan analisis lebih lanjut pada data tersebut.
df = pd.read_csv('iris.csv')

# Berfungsi untuk mencetak lima baris pertama dari DataFrame (df) lalu menampilkan sampel data dan memeriksa data terlihat, dilanjut dengan fungsi "head()" yang dimana menampilkan kolom-kolom awal dari data.
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [10]:
# Cek kolom null
# Berfungsi untuk membaca berkas CSV yang dimana terdapat data yang bernilai null dan "isnull()" berfungsi untuk mengidentifikasi setiap elemen pada DataFrame adalah null atau bukan. Lalu untuk "sum()" berfungsi menghitung jumlah nilai 'True' (nilai null) dalam setiap DataFrame.
df.isnull().sum()

Id               0
SepalLengthCm    0
SepalWidthCm     0
PetalLengthCm    0
PetalWidthCm     0
Species          0
dtype: int64

In [11]:
# Seleksi fitur
# Berfungsi untuk mengambil subset dari DataFrame (df) yang dimana operasi ini memilih baris-baris dan kolom-kolom yang akan digunakan untuk analisis lebih lanjut.
X = df.iloc[:,2:-1]

# Berfungsi untuk mengambil kolom 'Species' dari DataFrame (df) yang dimana kolom ini berisi label/target yang akan diprediksi dalam analisis.
y = df['Species']

# encode label
ec = LabelEncoder()
y = ec.fit_transform(y)

# Cek jumlah fitur dan instance
print(X.shape)

# Cek label
print(y)

(150, 3)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


#### **Split data training dan testing**

In [12]:
# # Mengimpor modul train_test_split pada pustaka scikit-learn yang berfungsi untuk membagi data menjadi subset pelatihan dan subset pengujian.
from sklearn.model_selection import train_test_split

# Berfungsi untuk memanggil fungsi train_test_split.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

#### **Training Decision Tree**

In [13]:
# Secara default, DecisionTreeClassifier dari scikit-learn akan menggunakan nilai "Gini" untuk kriteria
# Terdapat beberapa "hyperparamater" yang dapat digunakan. Silahka baca dokumentasi
# Pada kasus ini kita akan menggunakan parameter default

# Berfungsi untuk membuat objek dari kelas DecisionTreeClassifier.
dt = DecisionTreeClassifier()

# Sesuaikan dt ke set training
dt.fit(X_train, y_train)

# Memprediksi label set test
y_pred_dt = dt.predict(X_test)

#  menghitung set accuracy
# Berfungsi untuk menghitung akurasi model pada set pengujian.
acc_dt = accuracy_score(y_test, y_pred_dt)

# Berfungsi untuk mencetak akurasi model pada set pengujian dengan dua angka desimal.
print("Test set accuracy: {:.2f}".format(acc_dt))

# Berfungsi untuk mencetak akurasi model pada set pengujian tanpa desimal.
print(f"Test set accuracy: {acc_dt}")

Test set accuracy: 0.97
Test set accuracy: 0.9666666666666667


#### **Training AdaBoost**

In [14]:
# Pada kasus kali ini kita akan menggunakan estimator pada AdaBoost
# Untuk detail parameter (hyperparameter) silahkan cek dokumentasi

# Berfungsi untuk membuat model klasifikasi dengan algoritma "AdaBoost". "AdaBoost" adalah singkatan dari "Adaptive Boosting", sebuah metode ensemble yang menggabungkan beberapa model lemah untuk membuat model kuat.
ada = AdaBoostClassifier(n_estimators=2)

# Sesuaikan dt ke set training
ada.fit(X_train, y_train)

# Memprediksi label set test
y_pred_ada = ada.predict(X_test)

#  menghitung set accuracy
# Berfungsi untuk menghitung akurasi model pada set pengujian.
acc_ada = accuracy_score(y_test, y_pred_ada)

# Berfungsi untuk mencetak akurasi model pada set pengujian dengan dua angka desimal.
print("Test set accuracy: {:.2f}".format(acc_ada))

# Berfungsi untuk mencetak akurasi model pada set pengujian tanpa desimal.
print(f"Test set accuracy: {acc_ada}")

Test set accuracy: 0.97
Test set accuracy: 0.9666666666666667
