# **Decision Tree**


---


Pada notebook kali ini, kita akan mempelajari tentang *Decision Tree*.
*Decision Tree* adalah salah satu metode *supervised learning* dalam *machine learning* yang digunakan baik untuk klasifikasi maupun regresi. Berbeda dengan regresi linier yang memprediksi nilai numerik, *Decision Tree* bekerja dengan membuat serangkaian aturan berbentuk percabangan pohon berdasarkan fitur-fitur dalam data untuk memprediksi hasil.

Setiap node dalam pohon keputusan mewakili suatu kondisi pada sebuah atribut, cabang mewakili keputusan berdasarkan kondisi tersebut, dan setiap daun (leaf node) mewakili hasil prediksi.
Proses ini membuat model *Decision Tree* sangat mudah dipahami dan diinterpretasikan, karena menyerupai cara manusia mengambil keputusan secara logis.

# Dataset


---


Pada notebook ini, kita akan belajar cara menggunakan bahasa pemrograman R untuk membangun model klasifikasi sederhana menggunakan metode Decision Tree.
Dataset yang digunakan adalah Gender Classification Dataset, yaitu kumpulan data yang berisi informasi ciri-ciri fisik individu untuk memprediksi jenis kelamin mereka (Male atau Female). Dataset ini memiliki atribut-atribut sebagai berikut:

  **- long_hair : 1 = rambut panjang, 0 = tidak.**

  **- forehead_width_cm : lebar dahi dalam centimeter.**

  **- forehead_height_cm : tinggi dahi dalam centimeter.**

  **- nose_wide : 1 = hidung lebar, 0 = tidak.**

  **- nose_long : 1 = hidung panjang, 0 = tidak.**

  **- lips_thin : 1 = bibir tipis, 0 = tidak.**

  **- distance_nose_to_lip_long : 1 = jarak hidung ke bibir panjang, 0 = pendek.**

  **- gender : label target berupa "Male" atau "Female".**
  

Dengan menggunakan metode Decision Tree, kita akan membuat model yang dapat mempelajari pola dari fitur-fitur tersebut untuk melakukan prediksi terhadap gender seseorang.

In [None]:
#import library dan package yang dibutuhkan

library(rpart)
library(readxl)
library(caTools)
library(rpart.plot)
library(ggplot2)
library(caret)

In [None]:
# Load Dataset

Dataset <- read_excel("C:/Users/uwu/Documents/1111.xlsx") #Ganti dengan PATH Dataset
View(Dataset)

![alt text](https://i.ibb.co.com/RT7vF9yZ/Datse.png)

Datasetnya memiliki 5001 data

In [None]:
# Lihat struktur data

str(Dataset)
head(Dataset)

![alt text](https://i.ibb.co.com/21b3mPX1/wda.png)
![alt text](https://i.ibb.co.com/Q7GcNyFm/dada.png)

Melihat Struktur Dataset

# Melakukan Data Splitting

Dalam membuat permodelan Machine Learning, merupakan suatu hal yang lazim untuk membagi data ke dalam data latih (train) dan data uji (test). Kita gunakan data latih untuk melatih model, dan data uji untuk menilai performa dari permodelan yang kita buat. Hal ini kita lakukan untuk mensimulasikan, apakah model kita dapat bekerja dengan baik dalam menganalisa kasus yang belum pernah ia temui sebelumnya

![alt text](https://miro.medium.com/max/936/0*VH8IKfRP4mewrsTo.png)

Biasanya data training akan berjumlah sekitar 70-80% dari semua data, dan sisanya adalah data testing.

In [None]:
# Split data (training dan testing)

set.seed(101)
split = sample.split(Dataset$gender, SplitRatio = 0.8)
data.training = subset(Dataset, split == TRUE)

Membagi data menjadi 80% Training, dan 20% Testing

In [None]:
# Cek dimensi data

dim(data.training)
dim(data.testing)

Melihat ukuran Data Training dan Testing

# Membuat Model Decision Tree

In [None]:
# Buat Model Decision tree
tree = rpart(gender ~ ., method = "class", data = data.training)

Membuat model Decision Tree

In [None]:
#Plot Hasil Decision Tree

prp(tree,
    type = 2,               # Node oval
    extra = 0,              # Tidak tampilkan angka apa pun
    nn = FALSE,             # Tidak tampilkan nomor node
    fallen.leaves = TRUE,   # Daun sejajar rapi
    under = FALSE,          # Tidak ada info di bawah node
    faclen = 0,             # Nama faktor penuh
    varlen = 0,             # Nama variabel penuh
    shadow.col = "gray",    # Bayangan abu
    branch.lty = 3,         # Cabang putus-putus
    split.cex = 0.8,        # Ukuran teks split
    cex = 0.7,              # Ukuran teks keseluruhan
    box.palette = "RdYlGn"  # Gradasi warna kotak
)


![alt text](https://i.ibb.co.com/k6mNGK9V/sas.png)


Hasil Decision Tree

In [None]:
# Prediksi data testing

prediksi = predict(tree, newdata = data.testing, type = "class")

In [None]:
# Buat confusion matrix

cm = table(prediksi, data.testing$gender)
cm_df = as.data.frame(cm)
colnames(cm_df) <- c("Predicted", "Actual", "Count"

In [None]:
# Plot confusion matrix heatmap

ggplot(cm_df, aes(x = Predicted, y = Actual, fill = Count)) +
  geom_tile() +
  geom_text(aes(label = Count), color = "black") +
  scale_fill_gradient(low = "white", high = "blue") +
  labs(title = "Confusion Matrix Heatmap", x = "Predicted", y = "Actual") +
  theme_minimal()

![alt text](https://i.ibb.co.com/F4rQwMKX/dfgdsg.png)

Hasil Plot Confusion Matrix

In [None]:
# Variable Importance

importance_df <- data.frame(Variable = names(tree$variable.importance),
                            Importance = tree$variable.importance)

In [None]:
# Plot Variable Importance

ggplot(importance_df, aes(x = reorder(Variable, Importance), y = Importance)) +
  geom_col(fill = "steelblue") +
  coord_flip() +
  labs(title = "Variable Importance in Decision Tree",
       x = "Variable", y = "Importance") +
  theme_minimal()

# Lihat variabel paling penting
tree$variable.importance

![alt text](https://i.ibb.co.com/ZkqnLmN/dfgdsa.png)

![alt text](https://i.ibb.co.com/S4tG6HYy/vds.png)


Hasil Plot Variable Importance



In [None]:
# Evaluasi akurasi dengan confusionMatrix dari library caret

prediksi <- factor(prediksi, levels = c("Female", "Male"))
data.testing$gender <- factor(data.testing$gender, levels = c("Female", "Male"))
confusionMatrix(data = prediksi, reference = data.testing$gender)

![alt text](https://i.ibb.co.com/n8zV44LQ/fsdfs.png)


Evaluasi Akurasi dll
