# **Praktikum II & III Machine Learning**

=================================================

Nama  : Veronnica Noer Fhaeza

NPM : F1F022012

=================================================

# Latar Belakang

Dalam analisis data dan pembelajaran mesin, penentuan metode klasifikasi maupun prediksi yang tepat merupakan langkah fundamental untuk mencapai hasil analisis yang akurat. Peningkatan volume dan kompleksitas data telah mendorong adopsi algoritma yang efektif seperti Decision Tree, Regression Tree, dan K-Nearest Neighbors (KNN). Decision Tree (DT) merupakan salah satu teknik pemodelan yang berharga karena kemampuannya dalam memberikan struktur pohon yang visual dan mudah diinterpretasikan, yang memfasilitasi pemahaman terhadap alur pengambilan keputusan yang logis dan bertahap (Sari & Ramadhan, 2021). Teknik ini bekerja dengan memecah data secara rekursif melalui simpul-simpul, di mana proses pemecahan dapat menghasilkan pohon biner atau struktur yang lebih kompleks, bergantung pada tipe dan jumlah kategori fitur yang digunakan. Berbagai algoritma pembangun Decision Tree seperti ID3, C4.5, dan CART terus menjadi fokus penelitian untuk meningkatkan efisiensi dan akurasi model pada berbagai kasus, seperti yang diterapkan dalam klasifikasi data akademik atau bisnis (Santoso & Arifin, 2020).

Sementara itu, metode K-Nearest Neighbors (KNN) dikenal sebagai algoritma yang sederhana namun tetap efektif dan sering digunakan untuk tugas klasifikasi. KNN bekerja berdasarkan prinsip kemiripan jarak (similarity) dan termasuk dalam kategori instance-based learning. Metode ini mengklasifikasikan objek data baru dengan cara mengidentifikasi sejumlah $K$ tetangga terdekatnya dalam ruang fitur, kemudian menetapkan kelas mayoritas dari tetangga tersebut sebagai hasil prediksi (Hidayah, Setiadi, & Ramadhani, 2022). Penelitian terkait KNN seringkali mengeksplorasi optimasi dalam penentuan nilai $K$ yang optimal dan penanganan data yang tidak seimbang (imbalanced data) untuk mengurangi sensitivitasnya terhadap noise dan meningkatkan performa prediksi. Pemahaman komprehensif mengenai karakteristik, kelebihan, dan cara kerja dari Decision Tree, Regression Tree, dan KNN sangat esensial bagi praktisi data untuk dapat memilih dan mengaplikasikan teknik analisis yang paling sesuai dan memberikan hasil yang optimal sesuai dengan karakteristik data yang dihadapi.

# Rumusan Masalah

Rumusan masalah pada pertemuan ini adalah:

1. Apa itu konsep dasar algoritma Decision Tree?
2. Bagaimana membedakan antara Classification Tree dan Regression Tree?
3. Bagaimana menerapkan Decision Tree untuk klasifikasi?
4. Bagaimana melakukan evaluasi model Decision Tree menggunakan confusion matrix dan accuracy score?
5. Bagaimana menginterpretasikan hasil model dalam bentuk visualisasi pohon keputusan?
6. Bagaimana melatih kemampuan analisis melalui latihan mandiri menggunakan dataset lain?

# Tujuan Penelitian

Tujuan pada pertemuan ini adalah sebagai berikut:

1. Untuk menjelaskan konsep dasar algoritma Decision Tree.
2. Untuk membedakan antara Classification Tree dan Regression Tree.
3. Untuk menerapkan algoritma Decision Tree dalam klasifikasi data.
4. Untuk mengevaluasi model Decision Tree menggunakan confusion matrix dan accuracy score.
5. Untuk menginterpretasikan hasil model melalui visualisasi pohon keputusan.
6. Untuk melatih kemampuan analisis melalui penerapan Decision Tree pada dataset lain.

# Mengimpor _Libraries_

Berikut merupakan _library_ yang akan digunakan dalam _notebook_ ini:

In [None]:
!pip install feature_engine

Collecting feature_engine
  Downloading feature_engine-1.9.3-py3-none-any.whl.metadata (10 kB)
Downloading feature_engine-1.9.3-py3-none-any.whl (229 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m230.0/230.0 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder
from sklearn.metrics import confusion_matrix, classification_report, ConfusionMatrixDisplay

# Memuat Data

Untuk menunjukkan cara kerja Decision Tree, kita akan menggunakan dataset tentang Breast Cancer (Diagnostic) untuk memprediksi apakah sebuah tumor bersifat ganas (malignant) atau jinak (benign).
(https://raw.githubusercontent.com/Royallist/DATA-MACHINE-LEARNING/refs/heads/main/data.csv).

In [None]:
bc_df = pd.read_csv('https://raw.githubusercontent.com/Royallist/DATA-MACHINE-LEARNING/refs/heads/main/data.csv')
bc_df

# Drop Column

Kolom id adalah identifier unik, tidak punya hubungan dengan diagnosis sehingga untuk kolom id kita hapus saja

In [None]:
if 'id' in bc_df.columns:
    bc_df.drop('id', axis=1, inplace=True)

bc_df

Setelah itu, disini saya akan menghapus kolom *Unnamed 32* karena tidak berisi data dan dapat mengganggu *training model*

In [None]:
# menghapus kolom Unnamed 32
if 'Unnamed: 32' in bc_df.columns:
    bc_df.drop('Unnamed: 32', axis=1, inplace=True)

    print("Kolom setelah dihapus:")
print(list(bc_df.columns))

# Analisis Data Eksploratif

In [None]:
# cek struktur dataset
bc_df.info()

In [None]:
# statistik deskriptif
bc_df.describe()

# _Feature Engineering_

## A - Missing Value

In [None]:
bc_df.isnull().sum()

## B - Kardinalitas

## C- Splitting Data

In [None]:
X = bc_df.drop(['diagnosis'], axis=1)
y = bc_df['diagnosis']

X

In [None]:
# splitting dataset
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=10
)

print('Train size : ', X_train.shape)
print('Test size  : ', X_test.shape)

## D- Handling Outlier

## E- Scaling

## F- Encoding

In [None]:
X_train_encoded = X_train.copy()
X_test_encoded = X_test.copy()

In [None]:
# Feature Encoding - Target
le = LabelEncoder()
le.fit(y_train)

y_train_encoded = le.transform(y_train)
y_test_encoded = le.transform(y_test)

y_train_encoded

In [None]:
# Save the Class Names into a Variable
classes = le.classes_
classes

## G- Balancing Data

# _Training Model_

In [None]:
# Training using Decision Tree
%%time
from sklearn.tree import DecisionTreeClassifier

model_dt = DecisionTreeClassifier(max_depth=6, random_state=10)
model_dt.fit(X_train_encoded, y_train_encoded)

In [None]:
# Training using KNN
from sklearn.neighbors import KNeighborsClassifier

# Membuat model KNN dengan jumlah tetangga = 10
knn_model = KNeighborsClassifier(n_neighbors=10)

# Melatih model menggunakan data training yang sudah di-encode
knn_model.fit(X_train_encoded, y_train_encoded)

## _Hyperparameter Tunning_

In [None]:
# Cross Validation using `cross_val_score` for Decision Tree
%%time
from sklearn.model_selection import cross_val_score

dt_cross_val = cross_val_score(model_dt,
                               X_train_encoded,
                               y_train_encoded,
                               cv=5,
                               scoring="accuracy")

print('Decision Tree - Accuracy (All Folds) : ', dt_cross_val)
print('Decision Tree - Mean Accuracy        : ', dt_cross_val.mean())
print('Decision Tree - Std Dev              : ', dt_cross_val.std())
print('Decision Tree - Range Test-Set       : ',
      (dt_cross_val.mean() - dt_cross_val.std()), '-',
      (dt_cross_val.mean() + dt_cross_val.std()))

Pada tahap inisial dari prosedur cross-validation, kinerja model Decision Tree menunjukkan hasil yang memuaskan dengan nilai rata-rata akurasi sebesar 92%. Meskipun demikian, nilai standar deviasi yang teramati, yakni sekitar 0.033, mengindikasikan adanya fluktuasi minor pada hasil yang diperoleh di setiap fold. Ini menyiratkan bahwa kestabilan model belum mencapai level optimal. Rentang akurasi model berada pada 88,7% hingga 95,3%, yang menegaskan bahwa meskipun model dapat mencapai performa yang sangat tinggi pada beberapa fold, terjadi penurunan akurasi pada fold yang lain. Variabilitas performa ini dianggap sebagai kondisi yang dapat dimaklumi sebelum implementasi tuning (penyetelan parameter) dilakukan.

In [None]:
# Cross Validation using `cross_val_score` for KNN
%%time
knn_cross_val = cross_val_score(knn_model,
                                X_train_encoded,
                                y_train_encoded,
                                cv=5,
                                scoring="accuracy")

print('KNN - Accuracy (All Folds)           : ', knn_cross_val)
print('KNN - Mean Accuracy                  : ', knn_cross_val.mean())
print('KNN - Std Dev                        : ', knn_cross_val.std())
print('KNN - Range Test-Set                 : ',
      (knn_cross_val.mean() - knn_cross_val.std()), '-',
      (knn_cross_val.mean() + knn_cross_val.std()))

**Sebelum** tuning, KNN sudah memiliki performa yang baik dengan rata-rata akurasi 92,48%.
Standar deviasi 0.016 jauh lebih kecil dibanding Decision Tree, menunjukkan bahwa KNN lebih stabil antar-fold.
Rentang akurasi berada di 90,9% – 94,1%, yang berarti performa KNN cukup konsisten meskipun belum optimum.

In [None]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Parameter space untuk Decision Tree
param_dist_dt = {
    'criterion': ['gini', 'entropy', 'log_loss'],
    'max_depth': randint(2, 50),
    'min_samples_split': randint(2, 20),
    'min_samples_leaf': randint(1, 20),
    'max_features': ['auto', 'sqrt', 'log2', None]
}

random_search_dt = RandomizedSearchCV(
    estimator=model_dt,
    param_distributions=param_dist_dt,
    n_iter=100,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    random_state=42
)

random_search_dt.fit(X_train_encoded, y_train_encoded)
print("Parameter terbaik untuk Decision Tree:", random_search_dt.best_params_)

In [None]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Parameter space untuk KNN
param_dist_knn = {
    'n_neighbors': randint(3, 500),
    'weights': ['uniform', 'distance'],
    'metric': ['minkowski', 'manhattan', 'mahalanobis', 'euclidean', 'hamming'],
    'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'],
    'leaf_size': randint(10, 60)
}

random_search_knn = RandomizedSearchCV(
    estimator=knn_model,
    param_distributions=param_dist_knn,
    n_iter=100,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    random_state=42
)

random_search_knn.fit(X_train_encoded, y_train_encoded)

print("Parameter terbaik untuk KNN:", random_search_knn.best_params_)


In [None]:
import numpy as np

# menampilkan nilai CV untuk Decision Tree
results_dt = random_search_dt.cv_results_
best_index_dt = random_search_dt.best_index_
n_splits_dt = random_search_dt.n_splits_

accuracy_cross_val_dt = np.array([
    results_dt[f'split{i}_test_score'][best_index_dt] for i in range(n_splits_dt)
])

print("Parameter Terbaik (Decision Tree):", random_search_dt.best_params_)
print("-" * 40)
print('accuracy - All - Cross Validation  : ', accuracy_cross_val_dt)
print('accuracy - Mean - Cross Validation : ', accuracy_cross_val_dt.mean())
print('accuracy - Std - Cross Validation  : ', accuracy_cross_val_dt.std())
print('accuracy - Range of Test-Set       : ',
      (accuracy_cross_val_dt.mean() - accuracy_cross_val_dt.std()),
      '-',
      (accuracy_cross_val_dt.mean() + accuracy_cross_val_dt.std()))


Pada fase sebelum tuning parameter, model K-Nearest Neighbors (KNN) telah menunjukkan kinerja yang baik dengan rata-rata akurasi sebesar 92,48%. Nilai standar deviasi yang tercatat, yaitu 0.016, secara signifikan lebih kecil jika dibandingkan dengan model Decision Tree, mengindikasikan bahwa KNN memiliki tingkat stabilitas yang lebih tinggi antar-fold. Selain itu, rentang akurasi yang berada di antara 90,9% hingga 94,1% menunjukkan bahwa performa KNN sudah cukup konsisten, meskipun hasil tersebut belum merepresentasikan kinerja yang optimum (terbaik) sebelum penyetelan parameter dilakukan.

In [None]:
import numpy as np

# menampilkan nilai CV untuk KNN
results_knn = random_search_knn.cv_results_
best_index_knn = random_search_knn.best_index_
n_splits_knn = random_search_knn.n_splits_

accuracy_cross_val_knn = np.array([
    results_knn[f'split{i}_test_score'][best_index_knn] for i in range(n_splits_knn)
])

print("Parameter Terbaik (KNN):", random_search_knn.best_params_)
print("-" * 40)
print('accuracy - All - Cross Validation  : ', accuracy_cross_val_knn)
print('accuracy - Mean - Cross Validation : ', accuracy_cross_val_knn.mean())
print('accuracy - Std - Cross Validation  : ', accuracy_cross_val_knn.std())
print('accuracy - Range of Test-Set       : ',
      (accuracy_cross_val_knn.mean() - accuracy_cross_val_knn.std()),
      '-',
      (accuracy_cross_val_knn.mean() + accuracy_cross_val_knn.std()))

Meskipun telah dilakukan proses tuning parameter, rata-rata akurasi model K-Nearest Neighbors (KNN) tetap berada pada kisaran 92,48%, yang mengindikasikan bahwa tidak terjadi peningkatan kinerja yang signifikan. Kondisi ini menyiratkan bahwa model KNN pada dasarnya telah beroperasi pada kondisi yang cukup optimal sebelum proses penyetelan, sehingga modifikasi pada parameter tidak menghasilkan peningkatan substansial. Namun, perlu dicatat bahwa standar deviasi mengalami peningkatan dari 0.016 menjadi 0.025. Peningkatan ini menunjukkan bahwa stabilitas model sedikit menurun (menjadi kurang stabil) pasca tuning. Perubahan ini juga tercermin pada rentang akurasi yang melebar menjadi 89,9% hingga 95,0%, yang sedikit lebih luas dibandingkan rentang yang diamati sebelumnya.

In [None]:
# Final Model - Decision Tree

model_dt_final = DecisionTreeClassifier(
    criterion='gini',
    max_depth=6,
    min_samples_split=4,
    min_samples_leaf=2,
    splitter='best',
    random_state=42
)

model_dt_final.fit(X_train_encoded, y_train_encoded)

In [None]:
# Final Model - KNN

model_knn_final = KNeighborsClassifier(
    n_neighbors=43,
    weights='distance',
    metric='manhattan',
    algorithm='ball_tree',
    leaf_size=48,
    n_jobs=-1
)

model_knn_final.fit(X_train_encoded, y_train_encoded)

# _Model Performance_

In [None]:
# Model Evaluation

def performance_check(clf, X, y, classes):
    y_pred = clf.predict(X)
    cm = confusion_matrix(y, y_pred)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=classes)
    disp.plot()
    plt.show()
    print(classification_report(y, y_pred, target_names=classes))

print('Decision Tree - Train')
performance_check(model_dt, X_train_encoded, y_train_encoded, classes)
print('')

print('Decision Tree - Test')
performance_check(model_dt, X_test_encoded, y_test_encoded, classes)


Model Decision Tree yang dikembangkan menunjukkan akurasi sempurna (100%) pada data train dan akurasi sebesar 95% pada data test. Selisih persentase ini, yang mengindikasikan adanya sedikit penurunan kinerja pada data yang belum pernah dilihat sebelumnya, menyarankan potensi terjadinya overfitting ringan. Meskipun demikian, akurasi 95% yang dicapai pada data test secara substansial membuktikan bahwa model memiliki performa yang baik dan kapabilitas generalisasi yang kuat dalam mengklasifikasikan data baru.

In [None]:
# Model Evaluation untuk KNN

def performance_check_knn(clf, X, y, classes):
    y_pred = clf.predict(X)
    cm = confusion_matrix(y, y_pred)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=classes)
    disp.plot()
    plt.show()
    print(classification_report(y, y_pred, target_names=classes))

print('KNN - Train')
performance_check(knn_model, X_train_encoded, y_train_encoded, classes)
print('')

print('KNN - Test')
performance_check(knn_model, X_test_encoded, y_test_encoded, classes)


Model K-Nearest Neighbors (KNN) yang dievaluasi mencapai akurasi sebesar 94% pada data train dan 93% pada data test. Perbedaan persentase yang minimal ini mengindikasikan bahwa model memiliki stabilitas yang tinggi dan tidak menunjukkan gejala overfitting, sehingga mampu mempertahankan kinerja secara konsisten pada data baru. Secara keseluruhan, performa klasifikasi model ini dinilai baik dan konsisten, meskipun akurasinya tercatat sedikit lebih rendah dibandingkan dengan model Decision Tree.

In [None]:
# Model Evaluation - Decision Tree

print('Decision Tree - Train')
performance_check(model_dt_final, X_train_encoded, y_train_encoded, classes)
print('')

print('Decision Tree - Test')
performance_check(model_dt_final, X_test_encoded, y_test_encoded, classes)

Model Decision Tree final menunjukkan peningkatan performa yang signifikan dibandingkan versi sebelumnya, mencapai akurasi sebesar 99% pada data train dan 97% pada data test. Tingkat akurasi yang tinggi pada kedua set data ini menegaskan bahwa model memiliki kapabilitas yang superior dalam menangkap pola yang mendasari data tanpa menunjukkan gejala overfitting. Oleh karena itu, model ini dapat diandalkan untuk memberikan prediksi yang handal dan menunjukkan generalisasi yang kuat pada data yang belum pernah dilihat sebelumnya.

In [None]:
# Model Evaluation - KNN

print('KNN - Train')
performance_check(model_knn_final, X_train_encoded, y_train_encoded, classes)
print('')

print('KNN - Test')
performance_check(model_knn_final, X_test_encoded, y_test_encoded, classes)

Model K-Nearest Neighbors (KNN) final mencapai akurasi sempurna (100%) pada data train dan 92% pada data test. Kesenjangan yang signifikan antara kedua nilai ini mengindikasikan adanya fenomena overfitting, di mana model terlalu spesifik dalam mempelajari pola pada data train sehingga kapabilitas generalisasi dan performa pada data baru mengalami penurunan. Meskipun demikian, akurasi 92% pada data test masih dapat dikategorikan sebagai kinerja yang cukup baik, walaupun performa tersebut dinilai kurang optimal jika dibandingkan dengan hasil yang dicapai oleh model Decision Tree final.

In [None]:
# Using Scikit-Learn and Graphviz

import graphviz
from sklearn import tree

dot_data = tree.export_graphviz(
    model_dt,
    out_file=None,
    feature_names=X.columns.tolist(),
    class_names=['Benign', 'Malignant'],
    filled=True,
    rounded=True,
    special_characters=True
)

graph = graphviz.Source(dot_data)
graph


Visualisasi pohon keputusan menunjukkan bahwa node yang berwarna oranye merepresentasikan mayoritas data berlabel Benign, sementara node berwarna biru merepresentasikan mayoritas data berlabel Malignant. Observasi penting adalah banyaknya node daun yang memiliki nilai Gini sama dengan 0. Hal ini mengindikasikan tingkat kemurnian (purity) data yang sangat tinggi pada node tersebut, yang berarti bahwa instansi data di dalamnya telah berhasil dipisahkan dan diklasifikasikan dengan sempurna. Secara keseluruhan, struktur pohon yang dihasilkan menegaskan bahwa model memiliki kapabilitas yang efektif dalam membedakan dan mengklasifikasikan kedua kelas (Benign dan Malignant) dengan baik.

# Kesimpulan

Berdasarkan hasil evaluasi komprehensif, model Decision Tree (DT) terbukti menunjukkan kinerja superior untuk dataset Breast Cancer (Diagnostic) dibandingkan dengan model K-Nearest Neighbors (KNN). Secara spesifik, model DT final mencapai akurasi yang tinggi dan seimbang, yaitu 99% pada data train dan 97% pada data test. Kinerja cross-validation DT juga mengalami peningkatan pasca tuning, mencapai rata-rata akurasi 94,6% dengan standar deviasi 0,028, menegaskan kemampuan generalisasi yang kuat serta stabilitas antar-fold yang baik.

Sebaliknya, meskipun model KNN final mencapai akurasi sempurna (100%) pada data train, akurasi pada data test hanya mencapai 92%. Kesenjangan yang signifikan ini mengindikasikan adanya masalah overfitting. Lebih lanjut, performa cross-validation KNN yang stabil sebelum tuning (rata-rata 92,48%, standar deviasi 0,016) tidak mengalami peningkatan signifikan setelah tuning; bahkan, proses tuning justru meningkatkan standar deviasi menjadi 0,025, yang mencerminkan penurunan kecil pada stabilitas model. Oleh karena itu, disimpulkan bahwa Decision Tree adalah model yang lebih optimal dan handal dalam mengekstraksi pola data dan memberikan prediksi yang konsisten pada data baru untuk dataset ini dibandingkan KNN.

# Referensi

Nurani, A. T., Setiawan, A., & Susanto, B. (2023). Perbandingan kinerja regresi decision tree dan regresi linear berganda untuk prediksi bmi pada dataset asthma. *Jurnal Sains dan Edukasi Sains, 6*(1), 34-43.

Pratiwi, R., Hayati, M. N., & Prangga, S. (2020). Perbandingan Klasifikasi Algoritma C5. 0 Dengan Classification and Regression Tree (Studi Kasus: Data Sosial Kepala Keluarga Masyarakat Desa Teluk Baru Kecamatan Muara Ancalong Tahun 2019). BAREKENG: *Jurnal Ilmu Matematika dan Terapan, 14*(2), 267-278.

Maylita, N. M. S., Zahro, H. Z., & Vendyansyah, N. (2022). Penerapan Metode K-Nearest Neighbor (KNN) Untuk Menentukan Status Gizi Balita. JATI *(Jurnal Mahasiswa Teknik Informatika), 6*(2), 953-956.
