# **HyperParameter dengan Algoritma DecisionTreeClassifier**

Pencarian nilai hyperparameter dengan **algoritma DecisionTreeClassifier** dan menggunakan teknik **GridSearch** dan **Random Search**. Pencarian nilai hyperparameter dengan teknik **GridSearch** dan **Random Search** hampir sama. akan tetapi jika teknik **Grid search ** melalukan pencarian nilai hyperparameter untuk semua kemungkinan yang telah ditentukan oleh developer model yang akan dievaluasi. Dan jika Teknik **Random search** kombinasi dari setiap hyperparameter akan dicari secara acak. Untuk nilai hyperparameter yang telah dipilih pada iterasi sebelumnya, tidak akan mempengaruhi nilai hyperparameter yang dipilih untuk iterasi selanjutnya.


In [None]:
from google.colab import files
uploaded = files.upload()

Saving dataset_quiz.csv to dataset_quiz.csv


In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('dataset_quiz.csv')
df.head()

Unnamed: 0,id_ketua,id_anggota1,id_anggota2,id_anggota3,id_anggota4,id_anggota5,keterlibatan_vltr,jml_vltr_terlibat,tahun,skema,luaran_hki,jenis_luaran_hki,potensi_hki,luaran_lain,jenis_luaran_lain,status_luaran_lain
0,7206.0,7214.0,6211.0,8602.0,7801.0,,TIDAK,0,2019,REGULER,TIDAK ADA,TIDAK ADA,TIDAK,TIDAK ADA,TIDAK ADA,TIDAK ADA
1,7214.0,7109.0,8402.0,7903.0,9202.0,,TIDAK,0,2019,REGULER,TIDAK ADA,TIDAK ADA,TIDAK,TIDAK ADA,TIDAK ADA,TIDAK ADA
2,5911.0,8201.0,8701.0,9101.0,9003.0,,TIDAK,0,2019,REGULER,TIDAK ADA,TIDAK ADA,TIDAK,TIDAK ADA,TIDAK ADA,TIDAK ADA
3,8402.0,7702.0,8602.0,8903.0,8903.0,,TIDAK,0,2019,REGULER,TIDAK ADA,TIDAK ADA,TIDAK,TIDAK ADA,TIDAK ADA,TIDAK ADA
4,8201.0,8305.0,5911.0,5903.0,8402.0,,TIDAK,0,2019,REGULER,TIDAK ADA,TIDAK ADA,TIDAK,TIDAK ADA,TIDAK ADA,TIDAK ADA


In [None]:
# Seleksi fitur
# Slice dataframe mulai dari kolom 'radius_mean' sampai 'fractal_dimension_worst'
X = df.iloc[:,7:-8]
# converted = type(df['keterlibatan_vltr'])
y = df['keterlibatan_vltr']
y = y.map({'YA':1, 'TIDAK':0}) # Encode label

# Split data training dan testing

Pada percobaan ini, kita akan mencoba menggunakan teknik repeated k-fold cross validation untuk splitting data training dan testing. Konfigurasi yang akan kita gunakan adalah $k=4$ dan jumlah perulangan 3 kali (*n_repeated=3*). Proses ini juga akan kita jadikan input pada saat melakukan grid search.

In [None]:
from sklearn.model_selection import RepeatedKFold

# inisiasi repated k-fold
cv = RepeatedKFold(n_splits=4, n_repeats=3, random_state=42)

**Implementasi Hyperparameter Tunning dengan Grid Search**

Melakukan tunning parameter dengan menggunakan grid search. Dan menggunakan algoritma klasifikasi decision tree. Kemudian, untuk hyperparamater yang akan kita tentukan adalah kriteria split dan kedalaman tree

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# inisiasi model
dt = DecisionTreeClassifier()

# Definisikan hyperparameter yang akan digunakan
# sklearn menerima dalam bentuk dictionary
# nama hyperparamater HARUS SESUAI dengan dokumentasi sklearn
params = {
    'criterion': ['gini', 'entropy'],
    'max_depth': list(range(5,11))
}

# inisiasi grid berdasarkan nilai repeated k-fold dan hyperparameter
grid = GridSearchCV(dt, param_grid=params, cv=cv)

# Fit / latih berdasarkan grid
# %timeit merupakan magic command didalam ipython notebook
# yang dapat kita gunakan untuk menghitung waktu komputasi
# cara ini cukup efektif untuk melakukan evaluasi suatu algoritma atau prosedur
%timeit grid.fit(X, y)

# Evaluasi dengan score
score = grid.score(X,y)


print(f'Hasil evaluasi: {score}')
print(f'Konfigurasi hyperparameter: {grid.best_params_}')

597 ms ± 29.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Hasil evaluasi: 0.9882352941176471
Konfigurasi hyperparameter: {'criterion': 'gini', 'max_depth': 5}


**Implementasi Hyperparameter Tunning dengan RandomizedSearchCV**

Berikut langkah melakukan tunning parameter dengan menggunakan Random Search. Dengan menggunakan algoritma klasifikasi decision tree. Kemudian, untuk hyperparamater yang akan kita tentukan adalah kriteria split dan kedalaman tree

In [None]:
#Hyperparameter tuning with RandomizedSearchCV
# Import necessary modules
from scipy.stats import randint
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RandomizedSearchCV

# Setup the parameters and distributions to sample from: param_dist
params = {
    'criterion': ['gini', 'entropy'],
    'max_depth': list(range(5,11))
}

# Instantiate a Decision Tree classifier: random
random = DecisionTreeClassifier()

# Instantiate the RandomizedSearchCV object: tree_cv
random_cv = RandomizedSearchCV(random, params, cv=cv)

# Fit it to the data
random_cv.fit(X, y)

# Print the tuned parameters and score
print("Hasil Evaluasi {}".format(random_cv.best_score_))
print("Konfigurasi hyperparameter: : {}".format(random_cv.best_params_))

Hasil Evaluasi 0.9880952380952381
Konfigurasi hyperparameter: : {'max_depth': 7, 'criterion': 'gini'}


**Implementasi Hyperparameter Tunning dengan Exhausive Search**

Berikut langkah melakukan tunning parameter dengan menggunakan Exhausive Search. Dengan menggunakan algoritma klasifikasi decision tree. Kemudian, untuk hyperparamater yang akan kita tentukan adalah kriteria split dan kedalaman tree

In [None]:
#Hyperparameter tuning with HalvingGridSearchCV
# Import necessary modules
from scipy.stats import randint
from sklearn.tree import DecisionTreeClassifier
from sklearn.experimental import enable_halving_search_cv  
from sklearn.model_selection import HalvingGridSearchCV

# Setup the parameters and distributions to sample from: param_dist
params = {
    'criterion': ['gini', 'entropy'],
    'max_depth': list(range(5,11))
}

# Instantiate a Decision Tree classifier: exhausive 
exhausive = DecisionTreeClassifier()

# Instantiate the RandomizedSearchCV object: tree_cv
exhausive_cv = HalvingGridSearchCV(exhausive, params, cv=cv)

# Fit it to the data
exhausive_cv.fit(X, y)

# Print the tuned parameters and score
print("Hasil Evaluasi {}".format(exhausive_cv.best_score_))
print("Konfigurasi hyperparameter: : {}".format(exhausive_cv.best_params_))

Hasil Evaluasi 0.9703282828282829
Konfigurasi hyperparameter: : {'criterion': 'gini', 'max_depth': 5}


# **HyperParameter dengan Algoritma Support Vector Machine(SVM)**

Pencarian nilai hyperparameter dengan **algoritma Support Vector Machine(SVM)** dan menggunakan teknik **GridSearch** dan **Random Search**. Pencarian nilai hyperparameter dengan teknik **GridSearch** dan **Random Search** hampir sama. akan tetapi jika teknik **Grid search** melalukan pencarian nilai hyperparameter untuk semua kemungkinan yang telah ditentukan oleh developer model yang akan dievaluasi. Dan jika Teknik **Random search** kombinasi dari setiap hyperparameter akan dicari secara acak. Untuk nilai hyperparameter yang telah dipilih pada iterasi sebelumnya, tidak akan mempengaruhi nilai hyperparameter yang dipilih untuk iterasi selanjutnya.


# Implementasi Hyperparameter Tunning dengan Grid Search

Melakukan tunning parameter dengan menggunakan grid search. Dan menggunakan algoritma Support Vector Machine(SVM). Kemudian, untuk hyperparamater yang akan ditentukan berdasarkan Kernel (Linear, polynomial, RBF), Degree (akan berdampak pada polynomial), Koefisien C (Regularization) 

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

# inisiasi model
svc = SVC()

# Definisikan hyperparameter yang akan digunakan
# sklearn menerima dalam bentuk dictionary
# nama hyperparamater HARUS SESUAI dengan dokumentasi sklearn
C_range = np.logspace(-1, 1, 3)
params = {
    'kernel': ['linear', 'rbf', 'poly'],
    'degree': [2, 3, 4],
    'C' : C_range
}

# inisiasi grid berdasarkan nilai repeated k-fold dan hyperparameter
grid = GridSearchCV(svc, param_grid=params, cv=cv)

# Fit / latih berdasarkan grid
# %timeit merupakan magic command didalam ipython notebook
# yang dapat kita gunakan untuk menghitung waktu komputasi
# cara ini cukup efektif untuk melakukan evaluasi suatu algoritma atau prosedur
%timeit grid.fit(X, y)

# Evaluasi dengan score
score = grid.score(X, y)


print(f'Hasil evaluasi: {score}')
print(f'Konfigurasi hyperparameter: {grid.best_params_}')

1.42 s ± 35 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Hasil evaluasi: 0.9882352941176471
Konfigurasi hyperparameter: {'C': 1.0, 'degree': 2, 'kernel': 'linear'}


# Implementasi Hyperparameter Tunning dengan RandomizedSearchCV

Berikut langkah melakukan tunning parameter dengan menggunakan Random Search. Dengan menggunakan algoritma Support Vector Machine(SVM). Kemudian, untuk hyperparamater yang akan ditentukan berdasarkan Kernel (Linear, polynomial, RBF), Degree (akan berdampak pada polynomial), Koefisien C (Regularization) 

In [None]:
#Hyperparameter tuning with RandomizedSearchCV
# Import necessary modules
from scipy.stats import randint
from sklearn.svm import SVC
from sklearn.model_selection import RandomizedSearchCV

# Setup the parameters and distributions to sample from: param_dist
C_range = np.logspace(-1, 1, 3)
params = {
    'kernel': ['linear', 'rbf', 'poly'],
    'degree': [2, 3, 4],
    'C' : C_range
}

# Instantiate a SVM: svc
svc = SVC()

# Instantiate the exhausive object: exhausive
rsc = RandomizedSearchCV(svc, params, cv=cv)

# Fit it to the data
rsc.fit(X, y)

# Print the tuned parameters and score
print("Hasil Evaluasi {}".format(rsc.best_score_))
print("Konfigurasi hyperparameter: : {}".format(rsc.best_params_))

Hasil Evaluasi 0.9880952380952381
Konfigurasi hyperparameter: : {'kernel': 'linear', 'degree': 4, 'C': 10.0}


# Implementasi Hyperparameter Tunning dengan Exhausive Search

Berikut langkah melakukan tunning parameter dengan menggunakan Exhausive  Search. Dengan menggunakan algoritma Support Vector Machine(SVM). Kemudian, untuk hyperparamater yang akan ditentukan berdasarkan Kernel (Linear, polynomial, RBF), Degree (akan berdampak pada polynomial), Koefisien C (Regularization) 

In [None]:
#Hyperparameter tuning with Exhausive Search
# Import necessary modules
from scipy.stats import randint
from sklearn.svm import SVC
from sklearn.experimental import enable_halving_search_cv  
from sklearn.model_selection import HalvingGridSearchCV

# Setup the parameters and distributions to sample from: param_dist
C_range = np.logspace(-1, 1, 3)
params = {
    'kernel': ['linear', 'rbf', 'poly'],
    'degree': [2, 3, 4],
    'C' : C_range
}

# Instantiate a SVM: svc
svc = SVC()

# Instantiate the Exhausive Search object: exhausive
exhausive = HalvingGridSearchCV(svc, params, cv=cv)

# Fit it to the data
rsc.fit(X, y)

# Print the tuned parameters and score
print("Hasil Evaluasi {}".format(rsc.best_score_))
print("Konfigurasi hyperparameter: : {}".format(rsc.best_params_))

Hasil Evaluasi 0.9772727272727272
Konfigurasi hyperparameter: : {'C': 1.0, 'degree': 2, 'kernel': 'linear'}
