# Download Dataset Terlebih Dahulu

In [1]:
import numpy as np  # Import library NumPy untuk operasi numerik
import pandas as pd  # Import library Pandas untuk manipulasi data dalam bentuk dataframe
from sklearn.tree import DecisionTreeClassifier  # Import Decision Tree Classifier
from sklearn.ensemble import AdaBoostClassifier  # Import AdaBoost Classifier
from sklearn.model_selection import train_test_split  # Import fungsi train_test_split untuk pemisahan data
from sklearn.metrics import accuracy_score, classification_report  # Import metrik evaluasi: akurasi dan laporan klasifikasi
from sklearn.preprocessing import LabelEncoder  # Import LabelEncoder untuk encoding label dalam data

# Persiapan Data

In [2]:
# Load data
df = pd.read_csv('iris.csv')

df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [3]:
# Seleksi fitur
X = df.iloc[:,2:-1]
y = df['Species']

# encode label
ec = LabelEncoder()
y = ec.fit_transform(y)

# Cek jumlah fitur dan instance
print(X.shape)

# Cek label
print(y)

(150, 3)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


# Split data training dan testing

In [4]:
from sklearn.model_selection import train_test_split  # Mengimpor fungsi train_test_split dari scikit-learn

# Memisahkan dataset menjadi data latih dan data uji dengan rasio 80:20 dan random state 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# Training Decision Tree

In [5]:
# Secara default, DecisionTreeClassifier dari scikit-learn akan menggunakan nilai "Gini" untuk kriteria
# Terdapat beberapa "hyperparamater" yang dapat digunakan. Silahka baca dokumentasi
# Pada kasus ini kita akan menggunakan parameter default
dt = DecisionTreeClassifier()

# Sesuaikan dt ke set training
dt.fit(X_train, y_train)

# Memprediksi label set test
y_pred_dt = dt.predict(X_test)

#  menghitung set accuracy
acc_dt = accuracy_score(y_test, y_pred_dt)
print("Test set accuracy: {:.2f}".format(acc_dt))
print(f"Test set accuracy: {acc_dt}")

Test set accuracy: 0.97
Test set accuracy: 0.9666666666666667


# Training AdaBoost

In [6]:
# Pada kasus kali ini kita akan menggunakan estimator pada AdaBoost
# Untuk detail parameter (hyperparameter) silahkan cek dokumentasi

ada = AdaBoostClassifier(n_estimators=2)

# Sesuaikan dt ke set training
ada.fit(X_train, y_train)

# Memprediksi label set test
y_pred_ada = ada.predict(X_test)

#  menghitung set accuracy
acc_ada = accuracy_score(y_test, y_pred_ada)
print("Test set accuracy: {:.2f}".format(acc_ada))
print(f"Test set accuracy: {acc_ada}")

Test set accuracy: 0.97
Test set accuracy: 0.9666666666666667


In [7]:
from sklearn.ensemble import RandomForestClassifier, StackingClassifier  # Mengimpor kelas RandomForestClassifier dan StackingClassifier dari scikit-learn
from sklearn.linear_model import LogisticRegression  # Mengimpor kelas LogisticRegression dari scikit-learn
from sklearn.model_selection import train_test_split  # Mengimpor fungsi train_test_split dari scikit-learn
from sklearn.neighbors import KNeighborsClassifier  # Mengimpor kelas KNeighborsClassifier dari scikit-learn
from sklearn.tree import DecisionTreeClassifier  # Mengimpor kelas DecisionTreeClassifier dari scikit-learn

# Definisi estimator untuk layer pertama
layer_one_estimators = [
    ('rf_1', RandomForestClassifier(n_estimators=10, random_state=42)),  # RandomForestClassifier dengan 10 pohon
    ('knn_1', KNeighborsClassifier(n_neighbors=5))  # KNeighborsClassifier dengan 5 tetangga terdekat
]

# Definisi estimator untuk layer kedua (menggunakan output dari layer pertama)
layer_two_estimators = [
    ('dt_2', DecisionTreeClassifier()),  # DecisionTreeClassifier
    ('rf_2', RandomForestClassifier(n_estimators=50, random_state=42))  # RandomForestClassifier dengan 50 pohon
]

# Membuat StackingClassifier untuk layer kedua dengan estimator yang telah ditentukan
layer_two = StackingClassifier(estimators=layer_two_estimators, final_estimator=LogisticRegression())

# Membuat StackingClassifier dengan layer pertama dan layer kedua
clf = StackingClassifier(estimators=layer_one_estimators, final_estimator=layer_two)

# Memisahkan data ke dalam data latih dan data uji menggunakan train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

# Melatih model StackingClassifier menggunakan data latih dan mengevaluasi performanya menggunakan data uji
clf.fit(X_train, y_train).score(X_test, y_test)


0.8947368421052632