<a href="https://colab.research.google.com/github/KrituneX/Hands-on-Machine-Learning-with-Scikit-Learn-Keras-TensorFlow/blob/main/Chapter_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 6: Decision Trees

## Ringkasan
Pohon Keputusan adalah metode pembelajaran mesin yang membagi data secara hierarkis berdasarkan fitur untuk membuat prediksi. Model ini sangat populer karena kemudahan interpretasi dan implementasinya. Pohon keputusan dapat digunakan untuk tugas klasifikasi, di mana hasilnya adalah kategori, atau untuk regresi, di mana hasilnya adalah nilai kontinu.

## Konsep Utama

1. **Komponen Utama**
   - **Node Akar**: Titik awal dari pohon keputusan yang mewakili seluruh dataset.
   - **Node Dalam**: Mewakili fitur yang digunakan untuk membagi data. Setiap node dalam pohon memiliki kondisi yang menentukan bagaimana data dibagi.
   - **Daun**: Node akhir yang memberikan hasil prediksi. Setiap daun mewakili kelas (untuk klasifikasi) atau nilai (untuk regresi).

2. **Algoritma CART (Classification and Regression Trees)**
   - Algoritma ini digunakan oleh scikit-learn untuk membangun pohon keputusan. CART bekerja dengan cara mencari pembagian terbaik yang meminimalkan ketidakmurnian (impurity).
   - **Pseudocode**:
     1. Hitung impurity untuk semua fitur yang ada.
     2. Pilih fitur dengan impurity terendah untuk melakukan pemisahan.
     3. Bagi dataset menjadi subset berdasarkan pemisahan tersebut.
     4. Ulangi proses ini secara rekursif hingga kriteria penghentian terpenuhi (misalnya, kedalaman maksimum atau jumlah minimum sampel di daun).

3. **Ukuran Ketidakmurnian**
   - Metrik untuk menilai kualitas pembagian dalam pohon keputusan. Dua ukuran yang umum digunakan adalah:
     - **Indeks Gini**:
       \[ G = 1 - \sum_{k=1}^{K} p_k^2 \]
       Di mana \( p_k \) adalah proporsi kelas \( k \) dalam node. Nilai Gini berkisar antara 0 (murni) hingga 0.5 (acak).
     - **Entropi**:
       \[ H = -\sum_{k=1}^{K} p_k \log(p_k) \]
       Di mana \( p_k \) adalah proporsi kelas \( k \) dalam node. Entropi juga berkisar antara 0 (murni) hingga log(K) (acak).

4. **Parameter Pengendali**
   - Parameter yang digunakan untuk mencegah overfitting dan mengontrol kompleksitas pohon:
     - `max_depth`: Menentukan kedalaman maksimum pohon. Semakin dalam pohon, semakin besar risiko overfitting.
     - `min_samples_split`: Jumlah minimum sampel yang diperlukan untuk membagi node. Jika jumlah sampel kurang dari nilai ini, node tidak akan dibagi.
     - `min_samples_leaf`: Jumlah minimum sampel yang harus ada di daun. Ini membantu memastikan bahwa setiap daun memiliki cukup data untuk membuat prediksi yang andal.


In [None]:
# Contoh Kode untuk Visualisasi Pohon Keputusan
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

# Membuat model pohon keputusan
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X, y)

# Visualisasi pohon
plt.figure(figsize=(12,8))
plot_tree(tree_clf, filled=True)
plt.title('Visualisasi Pohon Keputusan')
plt.show()

In [None]:
# Contoh Kode untuk Tuning Parameter
from sklearn.model_selection import GridSearchCV

# Mencari parameter terbaik
params = {
  'max_depth': [3, 5, 7],
  'min_samples_leaf': [1, 2, 4]
}
grid_search = GridSearchCV(
  DecisionTreeClassifier(),
  params,
  cv=5
)
grid_search.fit(X_train, y_train)

# Menampilkan parameter terbaik
print("Parameter terbaik:", grid_search.best_params_)
print("Akurasi terbaik:", grid_search.best_score_)

## Catatan Penting
- **Keunggulan**: Mudah diinterpretasi, tidak memerlukan penskalaan fitur, dan dapat menangani data kategorikal dan numerik.
- **Kelemahan**: Rentan terhadap overfitting, terutama jika pohon terlalu dalam. Sensitif terhadap data noise dan outlier.
- **Solusi**: Gunakan metode ensemble seperti Random Forest atau Gradient Boosting untuk meningkatkan stabilitas dan akurasi model.