# Praktikum 1

## Bagging dengan RandomForest

Pada kasus ini kita akan menggunakan salah satu metode bagging yaitu RandomForest untuk mengklasifikasikan jenis tumor. Dalam latihan ini Anda akan melakukan training dengan data Wisconsin Breast Cancer Dataset dari UCI machine learning repository. Latihan ini akan melakukan prediksi memprediksi apakah tumor ganas atau jinak.

Kita akan membandingkan performa dari algoritma Decision Tree dan RandomForest pada kasus ini.

### Import Library

Import dependensi dari library numpy, pandas, sklearn.tree.DecisionTreeClassifier, sklearn.ensemble.RandomForestClassifier, sklearn.model_selection.train_test_split, sklearn.metrics.accuracy_score dan sklearn.metrics.classification_report.

In [1]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier # import DT
from sklearn.ensemble import RandomForestClassifier # import RandomForest
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

### Persiapan Data

Menampilkan 5 data teratas dari dataframe

In [2]:
# Load data
df = pd.read_csv('data/wbc.csv')

df.head()

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


Cek jumlah value null pada setiam kolom

In [34]:
# Cek kolom null
df.isnull().sum()

Unnamed: 0,0
Id,0
SepalLengthCm,0
SepalWidthCm,0
PetalLengthCm,0
PetalWidthCm,0
Species,0


Seleksi fitur,
X meruapakan slice dataframe dari kolom radius_mean sampai fractal_dimension_worst.
y merupakan encoded value dari kolom diagnosis

In [4]:
# Seleksi fitur

# Slice dataframe mulai dari kolom 'radius_mean' sampai 'fractal_dimension_worst'
X = df.iloc[:,3:-1]
y = df['diagnosis']
y = y.map({'M':1, 'B':0}) # Encode label

# Cek jumlah fitur dan instance
X.shape

(569, 29)

### Split data training dan testing

Split data training dan test menggunakan train_test_split dengan test size 20% dan random_state 1

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

### Traning Decision Tree

Fitting data train pada model DecisionTreeClassifier dengan menggunakan hyperparameter default, setelah selesai, proses prediksi pada data X_test dilakukan, selanjutnya menampilkan accuracy_score dari hasil prediksi.

In [7]:
# Secara default, DecisionTreeClassifier dari scikit-learn akan menggunakan nilai "Gini" untuk kriteria
# Terdapat beberapa "hyperparamater" yang dapat digunakan. Silahka baca dokumentasi
# Pada kasus ini kita akan menggunakan parameter default
dt = DecisionTreeClassifier()

# Sesuaikan dt ke set training
dt.fit(X_train, y_train)

# Memprediksi label set test
y_pred_dt = dt.predict(X_test)

#  menghitung set accuracy
acc_dt = accuracy_score(y_test, y_pred_dt)
print("Test set accuracy: {:.2f}".format(acc_dt))
print(f"Test set accuracy: {acc_dt}")

Test set accuracy: 0.96
Test set accuracy: 0.956140350877193


### Training RandomForest

Fitting data train pada model RandomForestClassifier dengan menggunakan hyperparameter default, setelah selesai, proses prediksi pada data X_test dilakukan, selanjutnya menampilkan accuracy_score dari hasil prediksi.

In [8]:
# Pada kasus kali ini kita akan menggunakan estimator pada RandomForest
# Untuk detail parameter (hyperparameter) silahkan cek dokumentasi

rf = RandomForestClassifier(n_estimators=10, random_state=1)

# Sesuaikan dt ke set training
rf.fit(X_train, y_train)

# Memprediksi label set test
y_pred_rf = rf.predict(X_test)

#  menghitung set accuracy
acc_rf = accuracy_score(y_test, y_pred_rf)
print("Test set accuracy: {:.2f}".format(acc_rf))
print(f"Test set accuracy: {acc_rf}")

Test set accuracy: 0.96
Test set accuracy: 0.956140350877193


# Praktikum 2

## Boosting dengan AdaBoost

Pada kasus ini kita akan menggunakan salah satu metode boosting yaitu AdaBoost untuk mengklasifikasikan jenis bunga Iris. Dalam latihan ini kita akan menggunakan dataset Iris yang sangat lazim digunakan. Latihan ini akan melakukan prediksi memprediksi 3 jenis bunga Iris yaitu, Iris Setosa, Iris Versicolor, dan Iris Virginica berdasarkan panjang dan lebar sepal dan petal.

Kita akan membandingkan performa dari algoritma Decision Tree dan AdaBoost pada kasus ini.

### Import Library

Import dependensi dari library numpy, pandas, sklearn.tree.DecisionTreeClassifier, sklearn.ensemble.AdaBoostClassifier, sklearn.model_selection.train_test_split, sklearn.metrics.accuracy_score dan sklearn.metrics.classification_report, sklearn.preprocessing.LabelEncoder.

In [13]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier # import DT
from sklearn.ensemble import AdaBoostClassifier # import AdaBoost
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder # Kebutuhan encoding label

### Persiapan Data

Load data iris.csv dan menampilkan 5 data teratas dari dataframe

In [33]:
# Load data
df = pd.read_csv('data/iris.csv')

df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


Cek jumlah value null pada setiap kolom

In [15]:
# Cek kolom null
df.isnull().sum()

Unnamed: 0,0
Id,0
SepalLengthCm,0
SepalWidthCm,0
PetalLengthCm,0
PetalWidthCm,0
Species,0


In [23]:
# Seleksi fitur
X = df.iloc[:,2:-1]
y = df['Species']

# encode label
ec = LabelEncoder()
y = ec.fit_transform(y)

# Cek jumlah fitur dan instance
print(X.shape)

# Cek label
print(y)

(150, 3)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


Seleksi fitur,

X merupakan kolom SepalWidthCm sampai PetalWidthCm,

y merupakan Encoded value dari kolom Species,

cek jumlah fitur dari X

Cek label (y)

In [26]:
# Seleksi fitur
X = df.iloc[:,2:-1]
y = df['Species']

# encode label
ec = LabelEncoder()
y = ec.fit_transform(y)

# Cek jumlah fitur dan instance
print(X.shape)

# Cek label
print(y)

(150, 3)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


### Split data training dan testing

Split data training dan test menggunakan train_test_split dengan test size 20% dan random_state 1

In [27]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

### Training Decision Tree

Fitting data train pada model DecisionTreeClassifier dengan menggunakan hyperparameter default, setelah selesai, proses prediksi pada data X_test dilakukan, selanjutnya menampilkan accuracy_score dari hasil prediksi.

In [21]:
# Secara default, DecisionTreeClassifier dari scikit-learn akan menggunakan nilai "Gini" untuk kriteria
# Terdapat beberapa "hyperparamater" yang dapat digunakan. Silahka baca dokumentasi
# Pada kasus ini kita akan menggunakan parameter default
dt = DecisionTreeClassifier()

# Sesuaikan dt ke set training
dt.fit(X_train, y_train)

# Memprediksi label set test
y_pred_dt = dt.predict(X_test)

#  menghitung set accuracy
acc_dt = accuracy_score(y_test, y_pred_dt)
print("Test set accuracy: {:.2f}".format(acc_dt))
print(f"Test set accuracy: {acc_dt}")

Test set accuracy: 0.97
Test set accuracy: 0.9666666666666667


### Training AdaBoost

Fitting data train pada model AdaBoostClassifier dengan menggunakan hyperparameter default, setelah selesai, proses prediksi pada data X_test dilakukan, selanjutnya menampilkan accuracy_score dari hasil prediksi.

Karena algoritma SAMME.R deprecated, maka diganti dengan algoritma SAMME.

In [30]:
# Pada kasus kali ini kita akan menggunakan estimator pada AdaBoost
# Untuk detail parameter (hyperparameter) silahkan cek dokumentasi

ada = AdaBoostClassifier(n_estimators=2, algorithm="SAMME")

# Sesuaikan dt ke set training
ada.fit(X_train, y_train)

# Memprediksi label set test
y_pred_ada = ada.predict(X_test)

# menghitung set accuracy
acc_ada = accuracy_score(y_test, y_pred_ada)
print("Test set accuracy: {:.2f}".format(acc_ada))
print(f"Test set accuracy: {acc_ada}")

Test set accuracy: 0.80
Test set accuracy: 0.8


# Praktikum 3

Lengkapi bagian berikut dengan data sesuai tugas, dan tentukan perbedaan nilai akurasi antara Random Forest, Adaboost, dan Stacking

In [51]:
from sklearn.ensemble import RandomForestClassifier, StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

# Load data
df = pd.read_csv('data/diabetes.csv')

df.head()

# Seleksi fitur
X = df.iloc[:,:-1]
y = df['Outcome']

# Split data training
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

# Defines Models

#Stacking
layer_one_estimators = [
  ('rf_1', RandomForestClassifier(n_estimators=10, random_state=42)),
  ('knn_1', KNeighborsClassifier(n_neighbors=5))
]
layer_two_estimators = [
  ('dt_2', DecisionTreeClassifier()),
  ('rf_2', RandomForestClassifier(n_estimators=50, random_state=42)),
]

layer_two = StackingClassifier(estimators=layer_two_estimators, final_estimator=LogisticRegression())
stackingCLF = StackingClassifier(estimators=layer_one_estimators, final_estimator=layer_two)

# RF
rfCLF = RandomForestClassifier(n_estimators=10, random_state=1)

# Ada
adaCLF = AdaBoostClassifier(n_estimators=2, algorithm="SAMME")

# Fitting
stackingCLF.fit(X_train, y_train).score(X_test, y_test)
rfCLF.fit(X_train, y_train)
adaCLF.fit(X_train, y_train)

# Prediction
stacking_pred = stackingCLF.predict(X_test)
rf_pred = rfCLF.predict(X_test)
ada_pred = adaCLF.predict(X_test)

# Accuracy Eval
print('Stacking Accuracy: ', accuracy_score(y_test, stacking_pred))
print('RF Accuracy: ', accuracy_score(y_test, rf_pred))
print('Ada Accuracy: ', accuracy_score(y_test, ada_pred))

Stacking Accuracy:  0.7239583333333334
RF Accuracy:  0.7239583333333334
Ada Accuracy:  0.6822916666666666


# Praktikum 4

## Stacking dengan Voting

Pada kasus ini kita akan menggunakan salah satu metode stacking yaitu voting untuk mengklasifikasikan pasien penderita diabetes dengan beberapa ciri. Pasien akan di klasifikasikan menjadi pasien menderita diabetes (1) dan tidak menderita diabetes (0). Pertama-tama, kita akan menggunakan beberapa algoritma klasifikasi secara terpisah, yaitu Naive Bayes, SVM Linier, dan SVM RBF. Setelah itu, kita akan menggabungkan performa dari 3 algoritma tersebut dengan menggunakan metode ensemble voting.

### Import Library

Import dependensi dari library numpy, pandas, sklearn.naive_bayes.GaussianNB, sklearn.svm.SVC, sklearn.ensemble.VotingClassifier, sklearn.model_selection.train_test_split, sklearn.metrics.accuracy_score dan sklearn.metrics.classification.

In [52]:
import numpy as np
import pandas as pd
from sklearn.naive_bayes import GaussianNB # import Naive Bayes model Gaussian (asumsi data terdistribusi normal)
from sklearn.svm import SVC # import SVM classifier
from sklearn.ensemble import VotingClassifier # import model Voting
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

### Persiapan Data

Load data diabetes.csv dan menampilkan 5 data teratas

In [53]:
# Load Data

dbt = pd.read_csv('data/diabetes.csv')

dbt.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Cek nama kolom menggunakan attribute columns

In [54]:
# Cek nama kolom
dbt.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

Cek jumlah value null pada setiap kolom

In [55]:
# Cek kolom null
dbt.isnull().sum()

Unnamed: 0,0
Pregnancies,0
Glucose,0
BloodPressure,0
SkinThickness,0
Insulin,0
BMI,0
DiabetesPedigreeFunction,0
Age,0
Outcome,0


Iterasi pada seluruh value pada setiap kolom, untuk penentuan imputasi nilai 0 pada value anomali (value dengan nol)

In [56]:
# Pada kasus ini, agak tidak masuk akal jika beberapa parameter bernilai 0
# sebagai contoh adalah nilai 'Glucose', 'BloodPlessure' ataupun 'Insulin'.
# Sekecil apapun nilainya, setiap manusia yang hidup pasti miliki nilai-nilai tersebut

# Kita akan manipulasi nilai yang 0 dengan melakukan 'imputasi' atau mengganti nilainya dengan nilai sintetis
# Pada kasus ini, kita akan menggunakan nilai mean

# Cek kolom neng nilai 0
feature_columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
for column in feature_columns:
    print("============================================")
    print(f"{column} ==> Missing zeros : {len(dbt.loc[dbt[column] == 0])}")

Pregnancies ==> Missing zeros : 111
Glucose ==> Missing zeros : 5
BloodPressure ==> Missing zeros : 35
SkinThickness ==> Missing zeros : 227
Insulin ==> Missing zeros : 374
BMI ==> Missing zeros : 11
DiabetesPedigreeFunction ==> Missing zeros : 0
Age ==> Missing zeros : 0


Imputasi menggunakan SimpleImputer pada setiap value dengan nilai 0, menggunakan strategi mean.

In [57]:
# Impute nilai 0 dengan mean
from sklearn.impute import SimpleImputer

fill_values = SimpleImputer(missing_values=0, strategy="mean", copy=False)

dbt[feature_columns] = fill_values.fit_transform(dbt[feature_columns])

### Split data training dan testing

Split data training dan testing dengan rasio 7:3

dengan nilai X yaitu semua kolom selain kolom outcome, dan y adalah kolom outcome.

In [58]:
X = dbt[feature_columns]
y = dbt.Outcome

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Training dengan GaussianNB

#### Standarisasi Fitur

Standarisasi fitur pada variable X_train dan X_test dengan StandardScaler.

In [60]:
# Karena asumsi Gaussian NB adalah data terdistribusi secara normal,
# maka kita perlu melakukan standarisasi

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

# Standarisasi pada fitur di X_train dan X_test
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)

#### Training dan Evaluasi

Fitting menggunakan model GaussianNB, dan melakukan prediksi pada data X_test_std.

In [61]:
# Buat obyek GaussianNB
gnb_std = GaussianNB()

# Fit dengan data yang telah di standarisasi
gnb_std.fit(X_train_std, y_train)

# Prediksi dengan data test
y_pred_gnb = gnb_std.predict(X_test_std)

# Evaluasi akurasi testing data
acc_gnb = accuracy_score(y_test, y_pred_gnb)

# Print hasil evaluasi
print("Test set accuracy: {:.2f}".format(acc_gnb))
print(f"Test set accuracy: {acc_gnb}")

Test set accuracy: 0.74
Test set accuracy: 0.7359307359307359


#### Training dengan SVM Linier

Fitting menggunakan model SVC (kernel linear), dan melakukan prediksi pada data X_test_std.

In [62]:
# Model SVM linier tanpa tunnning hyperparameter
svm_lin = SVC(kernel='linear')

# Fit ke model
svm_lin.fit(X_train_std, y_train)

# Prediksi
y_pred_svm_lin = svm_lin.predict(X_test_std)

# Evaluasi akurasi testing data
acc_svm_lin = accuracy_score(y_test, y_pred_svm_lin)

# Print hasil evaluasi
print("Test set accuracy: {:.2f}".format(acc_svm_lin))
print(f"Test set accuracy: {acc_svm_lin}")

Test set accuracy: 0.74
Test set accuracy: 0.7402597402597403


#### Training dengan SVM RBF

Fitting menggunakan model SVC (kernel rbf), dan melakukan prediksi pada data X_test_std.

In [63]:
# Model SVM RBF tanpa tunnning hyperparameter
svm_rbf = SVC(kernel='rbf')

# Fit ke model
svm_rbf.fit(X_train_std, y_train)

# Prediksi
y_pred_svm_rbf = svm_rbf.predict(X_test_std)

# Evaluasi akurasi testing data
acc_svm_rbf = accuracy_score(y_test, y_pred_svm_rbf)

# Print hasil evaluasi
print("Test set accuracy: {:.2f}".format(acc_svm_rbf))
print(f"Test set accuracy: {acc_svm_rbf}")

Test set accuracy: 0.72
Test set accuracy: 0.7229437229437229


#### Training dengan Voting

Proses prediksi menggunakan hard voting classifier dengan 3 estimator yaitu GaussianNB, SVM Linear, SVM RBF.

Hard Voting Classifier bekerja dengan cara mengambil value prediksi terbanyak yang dikeluarkan oleh setiap estimator.

In [68]:
# Definisikan algoritma yang akan digunakan untuk voting

clf1 = GaussianNB()
clf2 = SVC(kernel='linear')
clf3 = SVC(kernel='rbf', probability=True)

# model hard voting
voting = VotingClassifier(estimators=[('GaussianNB', clf1), ('SVM-LIN', clf2), ('SVM-RBF', clf3)], voting='hard')

# Fit model
voting.fit(X_train_std, y_train)

# Prediksi
y_pred_vt1 = voting.predict(X_test_std)

# Evaluasi akurasi testing data
acc_vt1 = accuracy_score(y_test, y_pred_vt1)

# Print hasil evaluasi
print('Voting Hard')
print("Test set accuracy: {:.2f}".format(acc_vt1))
print(f"Test set accuracy: {acc_vt1}")

Voting Hard
Test set accuracy: 0.74
Test set accuracy: 0.7402597402597403


# Tugas 1

Terdapat dataset mushroom. Berdasarkan dataset yang tersebut, bandingkan peforma antara algoritma Decision Tree dan RandomForest. Gunakan tunning hyperparameter untuk mendapatkan parameter dan akurasi yang terbaik.

In [95]:
# Import dependencies
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

# Preprocess
df = pd.read_csv('data/mushrooms.csv')
df.head()

labelencoder=LabelEncoder()
for column in df.columns:
    df[column] = labelencoder.fit_transform(df[column])

# Extract features and targets
X = df.iloc[:,1:]
y = df.iloc[:,0]

# Split train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

dtf = DecisionTreeClassifier()
rfc = RandomForestClassifier()

grid_dtf = GridSearchCV(
    estimator=dtf,
    param_grid={
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
},
    cv=5, verbose=0,
    scoring='neg_mean_squared_error'
)

grid_rfc = GridSearchCV(
    estimator=rfc,
    param_grid={
    'n_estimators': [25, 50, 100, 150],
    'max_features': ['sqrt', 'log2', None],
    'max_depth': [3, 6, 9],
    'max_leaf_nodes': [3, 6, 9],
    },
    cv=5, verbose=0,
    scoring='neg_mean_squared_error'
)

# Fit
grid_dtf.fit(X_train, y_train)
grid_rfc.fit(X_train, y_train)

# Eval
dtf_pred = grid_dtf.predict(X_test)
rfc_pred = grid_rfc.predict(X_test)

print("Decision Tree Accuracy: {:.2F}".format(accuracy_score(y_test, dtf_pred)))
print("Random Forest Accuracy: {:.2F}".format(accuracy_score(y_test, rfc_pred)))

Decision Tree Accuracy: 1.00
Random Forest Accuracy: 0.99


# Tugas 2

Terdapat dataset mushroom. Berdasarkan dataset tersebut, bandingkan peforma antara algoritma Decision Tree dan AdaBoost. Gunakan tunning hyperparameter untuk mendapatkan parameter dan akurasi yang terbaik.

In [102]:
# Import dependencies
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

# Preprocess
df = pd.read_csv('data/mushrooms.csv')
df.head()

labelencoder=LabelEncoder()
for column in df.columns:
    df[column] = labelencoder.fit_transform(df[column])

# Extract features and targets
X = df.iloc[:,1:]
y = df.iloc[:,0]

# Split train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

dtf = DecisionTreeClassifier()
ada = AdaBoostClassifier()

grid_dtf = GridSearchCV(
    estimator=dtf,
    param_grid={
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
},
    cv=5,
    verbose=0,
)

grid_ada = GridSearchCV(
    estimator=ada,
    param_grid={
    'algorithm': ['SAMME'],
    'n_estimators' : [50, 70, 90, 120, 180, 200],
    'learning_rate' : [0.001, 0.01, 0.1, 1, 10]
    },
    cv=5,
    verbose=0,
)

# Fit
grid_dtf.fit(X_train, y_train)
grid_ada.fit(X_train, y_train)

# Eval
dtf_pred = grid_dtf.predict(X_test)
ada_pred = grid_ada.predict(X_test)

print("Decision Tree Accuracy: {:.2F}".format(accuracy_score(y_test, dtf_pred)))
print("Ada Boost Accuracy: {:.2F}".format(accuracy_score(y_test, ada_pred)))

Decision Tree Accuracy: 1.00
Ada Boost Accuracy: 1.00


# Tugas 3

Dengan menggunakan dataset diabetes, buatlah ensemble voting dengan algoritma

1. Logistic Regression

2. SVM kernel polynomial

3. Decission Tree

In [101]:
from sklearn.ensemble import RandomForestClassifier, StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

# Load data
df = pd.read_csv('data/diabetes.csv')

df.head()

# Seleksi fitur
X = df.iloc[:,:-1]
y = df['Outcome']

# Split data training
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

# Standarisasi pada fitur di X_train dan X_test
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)


# Definisikan algoritma yang akan digunakan untuk voting

clf1 = LogisticRegression()
clf2 = SVC(kernel='poly')
clf3 = DecisionTreeClassifier()

# model hard voting
voting = VotingClassifier(estimators=[('LR', clf1), ('SVM-POL', clf2), ('DTC', clf3)], voting='hard')

# Fit model
voting.fit(X_train_std, y_train)

# Prediksi
y_pred_vt1 = voting.predict(X_test_std)

# Evaluasi akurasi testing data
acc_vt1 = accuracy_score(y_test, y_pred_vt1)

# Print hasil evaluasi
print('Voting Hard')
print("Test set accuracy: {:.2f}".format(acc_vt1))
print(f"Test set accuracy: {acc_vt1}")

Voting Hard
Test set accuracy: 0.76
Test set accuracy: 0.7604166666666666
