## Tugas 1
Terdapat dataset mushroom. Berdasarkan dataset yang tersebut, bandingkan peforma antara algoritma Decision Tree dan RandomForest. Gunakan tunning hyperparameter untuk mendapatkan parameter dan akurasi yang terbaik.

### Import Library

In [11]:
import numpy as np
import pandas as pd
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier # import DT
from sklearn.ensemble import RandomForestClassifier # import RandomForest
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

### Persiapan Data

In [3]:
# Load data
df = pd.read_csv('../data/mushrooms.csv')

df.head()

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


In [4]:
# Cek kolom null
df.isnull().sum()

class                       0
cap-shape                   0
cap-surface                 0
cap-color                   0
bruises                     0
odor                        0
gill-attachment             0
gill-spacing                0
gill-size                   0
gill-color                  0
stalk-shape                 0
stalk-root                  0
stalk-surface-above-ring    0
stalk-surface-below-ring    0
stalk-color-above-ring      0
stalk-color-below-ring      0
veil-type                   0
veil-color                  0
ring-number                 0
ring-type                   0
spore-print-color           0
population                  0
habitat                     0
dtype: int64

### <b> Algoritma Decision Tree

In [5]:
# Pra-pemrosesan Data
X = df.drop('class', axis=1)  # Fitur
y = df['class']  # Kelas target

# Lakukan one-hot encoding untuk data kategorikal
X = pd.get_dummies(X)

# Pisahkan data menjadi data pelatihan dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pembuatan Model Decision Tree
dt = DecisionTreeClassifier()  # Gunakan hyperparameter default

# Pelatihan Model
dt.fit(X_train, y_train)

# Evaluasi Model
y_pred = dt.predict(X_test)

# Mengukur akurasi
acc_dt = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_dt))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 1.00
Classification Report:
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       843
           p       1.00      1.00      1.00       782

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



### <b> Algoritma RandomForest

#### <b> Parameter n_estimators kecil

In [9]:
# Pembuatan Model RandomForest dengan Hyperparameter Manual
# Penyetelan manual dilakukan dengan mengatur hyperparameter yang dianggap optimal
rf = RandomForestClassifier(n_estimators=1, max_depth=10)

# Pelatihan Model
rf.fit(X_train, y_train)

# Evaluasi Model
y_pred = rf.predict(X_test)

# Mengukur akurasi
acc_rf = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_rf))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 0.98
Classification Report:
              precision    recall  f1-score   support

           e       0.99      0.98      0.98       843
           p       0.98      0.99      0.98       782

    accuracy                           0.98      1625
   macro avg       0.98      0.98      0.98      1625
weighted avg       0.98      0.98      0.98      1625



#### <b> Parameter max_depth kecil

In [10]:
# Pembuatan Model RandomForest dengan Hyperparameter Manual
# Penyetelan manual dilakukan dengan mengatur hyperparameter yang dianggap optimal
rf = RandomForestClassifier(n_estimators=100, max_depth=1)

# Pelatihan Model
rf.fit(X_train, y_train)

# Evaluasi Model
y_pred = rf.predict(X_test)

# Mengukur akurasi
acc_rf = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_rf))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 0.89
Classification Report:
              precision    recall  f1-score   support

           e       0.83      0.98      0.90       843
           p       0.98      0.78      0.87       782

    accuracy                           0.89      1625
   macro avg       0.90      0.88      0.88      1625
weighted avg       0.90      0.89      0.88      1625



#### <b> Parameter n_estimators dan max_depth diperbesar nilainya

In [6]:
# Pembuatan Model RandomForest dengan Hyperparameter Manual
# Penyetelan manual dilakukan dengan mengatur hyperparameter yang dianggap optimal
rf = RandomForestClassifier(n_estimators=100, max_depth=10)

# Pelatihan Model
rf.fit(X_train, y_train)

# Evaluasi Model
y_pred = rf.predict(X_test)

# Mengukur akurasi
acc_rf = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_rf))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 1.00
Classification Report:
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       843
           p       1.00      1.00      1.00       782

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



#### <b>Keterangan</b>
Peningkatan akurasi berbanding lurus dengan jumlah pohon dan kedalaman maksimum suatu pohon. Setiap pohon memiliki bias tertentu, tetapi dengan penggabungan hasil dari banyak pohon, varians dapat dikurangi dan kinerja model dapat meningkat secara keseluruhan. Selanjutnya, semakin tinggi kedalaman maksimum dari pohon maka model dapat mempelajari pola yang lebih rumit pada data. Namun, kenaikan tak terbatas dalam n_estimators atau max_depth juga dapat meningkatkan kompleksitas model, sehingga dapat terjadi overfitting maupun waktu komputasi yang lebih lama. 

## Tugas 2
Terdapat dataset mushroom. Berdasarkan dataset tersebut, bandingkan peforma antara algoritma Decision Tree dan AdaBoost. Gunakan tunning hyperparameter untuk mendapatkan parameter dan akurasi yang terbaik.

### <b> Algoritma Decision Tree

In [12]:
# Pra-pemrosesan Data
X = df.drop('class', axis=1)  # Fitur
y = df['class']  # Kelas target

# Lakukan one-hot encoding untuk data kategorikal
X = pd.get_dummies(X)

# Pisahkan data menjadi data pelatihan dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pembuatan Model Decision Tree
dt = DecisionTreeClassifier()  # Gunakan hyperparameter default

# Pelatihan Model
dt.fit(X_train, y_train)

# Evaluasi Model
y_pred = dt.predict(X_test)

# Mengukur akurasi
acc_dt = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_dt))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 1.00
Classification Report:
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       843
           p       1.00      1.00      1.00       782

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



### <b> Algoritma AdaBoost

#### <b> Parameter n_estimators sejumlah 5

In [16]:
# Pembuatan Model AdaBoost dengan Hyperparameter Manual
# Penyetelan manual dilakukan dengan mengatur hyperparameter yang dianggap optimal
estimator = DecisionTreeClassifier(max_depth=1)  # Pohon keputusan dengan kedalaman 1
n_estimators = 5  # Jumlah estimator (jumlah iterasi)

# Buat model AdaBoost
adaboost = AdaBoostClassifier(estimator=estimator, n_estimators=n_estimators, random_state=42)

# Pelatihan Model
adaboost.fit(X_train, y_train)

# Evaluasi Model
y_pred = adaboost.predict(X_test)

# Mengukur akurasi
acc_adaboost = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_adaboost))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 0.95
Classification Report:
              precision    recall  f1-score   support

           e       0.92      0.98      0.95       843
           p       0.98      0.91      0.94       782

    accuracy                           0.95      1625
   macro avg       0.95      0.95      0.95      1625
weighted avg       0.95      0.95      0.95      1625



#### <b> Parameter n_estimators sejumlah 50

In [14]:
# Pembuatan Model AdaBoost dengan Hyperparameter Manual
# Penyetelan manual dilakukan dengan mengatur hyperparameter yang dianggap optimal
estimator = DecisionTreeClassifier(max_depth=1)  # Pohon keputusan dengan kedalaman 1
n_estimators = 50  # Jumlah estimator (jumlah iterasi)

# Buat model AdaBoost
adaboost = AdaBoostClassifier(estimator=estimator, n_estimators=n_estimators, random_state=42)

# Pelatihan Model
adaboost.fit(X_train, y_train)

# Evaluasi Model
y_pred = adaboost.predict(X_test)

# Mengukur akurasi
acc_adaboost = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_adaboost))

# Menampilkan laporan klasifikasi
print("Classification Report:")
print(classification_report(y_test, y_pred))

Test set accuracy: 1.00
Classification Report:
              precision    recall  f1-score   support

           e       1.00      1.00      1.00       843
           p       1.00      1.00      1.00       782

    accuracy                           1.00      1625
   macro avg       1.00      1.00      1.00      1625
weighted avg       1.00      1.00      1.00      1625



#### <b>Keterangan</b>
Pada algoritma Adaboost, peningkatan jumlah n_estimators (jumlah estimator) dapat meningkatkan akurasi model karena setiap estimator (pohon keputusan) yang dihasilkan memperbaiki kesalahan yang dilakukan oleh estimator sebelumnya. Dengan kata lain, estimator berikutnya akan mengoreksi prediksi yang salah yang dilakukan oleh estimator sebelumnya.

## Tugas 3
Dengan menggunakan dataset diabetes, buatlah ensemble voting dengan algoritma
1. Logistic Regression
2. SVM kernel polynomial
3. Decission Tree
Anda boleh melakukan eksplorasi dengan melakukan tunning hyperparameter

### Import Library

In [17]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

### Persiapan Data

In [18]:

# Load Data
dbt = pd.read_csv('../data/diabetes.csv')
dbt.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [19]:
# Cek nama kolom
dbt.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [20]:
# Cek kolom null
dbt.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [66]:
# Pisahkan fitur (X) dan kelas target (y)
X = dbt.drop('Outcome', axis=1)
y = dbt['Outcome']

# Pisahkan data menjadi data pelatihan dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


### <b> Algoritma Logistic Regression

#### <b> Parameter C rendah

In [56]:
# Inisialisasi model Logistic Regression dengan hyperparameter tertentu
# Contoh hyperparameter: C (kebalikan dari kekuatan regularisasi)
logreg = LogisticRegression(C=0.0001, max_iter=1000, random_state=42)

# Latih model dengan data pelatihan
logreg.fit(X_train, y_train)

# Lakukan prediksi
y_pred = logreg.predict(X_test)

# Hitung akurasi
acc_logreg = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_logreg))

Test set accuracy: 0.76


#### <b> Parameter C tinggi

In [50]:
# Inisialisasi model Logistic Regression dengan hyperparameter tertentu
# Contoh hyperparameter: C (kebalikan dari kekuatan regularisasi)
logreg = LogisticRegression(C=1.0, max_iter=1000, random_state=42)

# Latih model dengan data pelatihan
logreg.fit(X_train, y_train)

# Lakukan prediksi
y_pred = logreg.predict(X_test)

# Hitung akurasi
acc_logreg = accuracy_score(y_test, y_pred)
print("Test set accuracy: {:.2f}".format(acc_logreg))

Test set accuracy: 0.75


#### <b>Keterangan</b>
Dalam algoritma Logistic Regression, parameter C adalah hyperparameter yang mengontrol kekuatan regularisasi. Kekuatan regularisasi membantu mengendalikan overfitting dan meningkatkan generalisasi model. Nilai C yang ditentukan mempengaruhi seberapa ketat model akan menyesuaikan data pelatihan.

### <b> Algoritma SVM kernel polynomial

#### <b> Parameter C rendah

In [59]:
# Inisialisasi model SVM dengan kernel polinomial
# Set hyperparameter: C (kebalikan dari kekuatan regularisasi)
svm_poly = SVC(kernel='poly', C=0.01)

# Latih model dengan data pelatihan
svm_poly.fit(X_train, y_train)

# Lakukan prediksi
y_pred_svm_poly = svm_poly.predict(X_test)

# Hitung akurasi
acc_svm_poly = accuracy_score(y_test, y_pred_svm_poly)
print("Test set accuracy: {:.2f}".format(acc_svm_poly))

Test set accuracy: 0.69


#### <b> Parameter C tinggi

In [58]:
# Inisialisasi model SVM dengan kernel polinomial
# Set hyperparameter: C (kebalikan dari kekuatan regularisasi)
svm_poly = SVC(kernel='poly',  C=1.0)

# Latih model dengan data pelatihan
svm_poly.fit(X_train, y_train)

# Lakukan prediksi
y_pred_svm_poly = svm_poly.predict(X_test)

# Hitung akurasi
acc_svm_poly = accuracy_score(y_test, y_pred_svm_poly)
print("Test set accuracy: {:.2f}".format(acc_svm_poly))

Test set accuracy: 0.76


#### <b>Keterangan</b>
Nilai C mempengaruhi kompleksitas model SVM dengan kernel polinomial. Nilai C yang tinggi dapat menghasilkan model yang lebih kompleks dengan batasan keputusan yang lebih rumit.
Nilai C yang rendah dapat menghasilkan model yang lebih sederhana dengan batasan keputusan yang lebih sederhana.

### <b> Algoritma Decission Tree

#### <b> Parameter max_depth=1

In [63]:
# Inisialisasi model Decision Tree dengan hyperparameter tertentu
# Set hyperparameter: max_depth (kedalaman maksimum)
dt = DecisionTreeClassifier(max_depth=1, random_state=42)

# Latih model dengan data pelatihan
dt.fit(X_train, y_train)

# Lakukan prediksi
y_pred_dt = dt.predict(X_test)

# Hitung akurasi
acc_dt = accuracy_score(y_test, y_pred_dt)
print("Test set accuracy: {:.2f}".format(acc_dt))

Test set accuracy: 0.74


#### <b> Parameter max_depth=3

In [64]:
# Inisialisasi model Decision Tree dengan hyperparameter tertentu
# Set hyperparameter: max_depth (kedalaman maksimum)
dt = DecisionTreeClassifier(max_depth=3, random_state=42)

# Latih model dengan data pelatihan
dt.fit(X_train, y_train)

# Lakukan prediksi
y_pred_dt = dt.predict(X_test)

# Hitung akurasi
acc_dt = accuracy_score(y_test, y_pred_dt)
print("Test set accuracy: {:.2f}".format(acc_dt))

Test set accuracy: 0.76


### <b> Ensemble Voting

#### <b> Hard Voting

In [67]:
from sklearn.preprocessing import StandardScaler

# Inisialisasi objek untuk normalisasi
scaler = StandardScaler()

# Normalisasi data pelatihan
X_train_std = scaler.fit_transform(X_train)

# Normalisasi data uji menggunakan mean dan std dari data pelatihan
X_test_std = scaler.transform(X_test)

from sklearn.ensemble import VotingClassifier

# Definisi model-model yang akan digunakan
clf1 = LogisticRegression(random_state=42)
clf2 = SVC(kernel='poly', probability=True, random_state=42)  # SVM kernel polynomial
clf3 = DecisionTreeClassifier(random_state=42)

# Model Ensemble dengan Hard Voting
voting_hard = VotingClassifier(estimators=[('Logistic Regression', clf1),
                                           ('SVM Polynomial', clf2),
                                           ('Decision Tree', clf3)],
                               voting='hard')

# Pelatihan model ensemble
voting_hard.fit(X_train_std, y_train)

# Prediksi menggunakan model ensemble
y_pred_voting_hard = voting_hard.predict(X_test_std)

# Evaluasi akurasi model ensemble
acc_voting_hard = accuracy_score(y_test, y_pred_voting_hard)

# Print hasil evaluasi
print('Voting Hard')
print("Test set accuracy: {:.2f}".format(acc_voting_hard))
print(f"Test set accuracy: {acc_voting_hard}")

Voting Hard
Test set accuracy: 0.79
Test set accuracy: 0.7857142857142857


#### <b> Soft Voting

In [69]:
# Model Ensemble dengan Soft Voting
voting_soft = VotingClassifier(estimators=[('Logistic Regression', clf1),
                                           ('SVM Polynomial', clf2),
                                           ('Decision Tree', clf3)],
                               voting='soft')

# Pelatihan model ensemble
voting_soft.fit(X_train_std, y_train)

# Prediksi menggunakan model ensemble
y_pred_voting_soft = voting_soft.predict(X_test_std)

# Evaluasi akurasi model ensemble
acc_voting_soft = accuracy_score(y_test, y_pred_voting_soft)

# Print hasil evaluasi
print('Voting Soft')
print("Test set accuracy: {:.2f}".format(acc_voting_soft))
print(f"Test set accuracy: {acc_voting_soft}")

Voting Soft
Test set accuracy: 0.77
Test set accuracy: 0.7662337662337663
