<a href="https://colab.research.google.com/github/Abi-Lowkey/Introduction-to-Machine-Learning-with-Python-Books/blob/main/BAB%205/Bab_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Bab 5: Model Evaluation and Improvement**

## 1. Tujuan  
Bab ini bertujuan untuk membahas berbagai cara mengevaluasi performa model machine learning secara objektif. Evaluasi model bertujuan untuk memahami seberapa baik model dalam membuat prediksi pada data baru yang tidak terlihat selama pelatihan. Selain itu, bab ini juga menjelaskan teknik untuk meningkatkan performa model melalui:  
- **Cross-Validation**: Metode untuk memastikan bahwa model tidak overfitting atau underfitting dengan membagi data menjadi beberapa subset pelatihan dan validasi.  
- **Grid Search**: Teknik pencarian sistematis untuk menemukan kombinasi parameter terbaik yang memaksimalkan performa model.  
- **Pemilihan Metrik Evaluasi**: Panduan dalam memilih metrik yang tepat (seperti akurasi, precision, recall, F1-score) sesuai dengan masalah yang ingin diselesaikan.  

2. Implementasi Kode

In [1]:
# Import library yang diperlukan
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Load dataset Iris
# Dataset ini memiliki fitur untuk spesies bunga Iris yang digunakan dalam klasifikasi
iris = load_iris()
X, y = iris['data'], iris['target']  # X adalah fitur, y adalah target

# Membuat model Random Forest
# Random Forest adalah algoritma ensemble yang menggunakan beberapa pohon keputusan untuk membuat prediksi
clf = RandomForestClassifier(random_state=0)

# Melakukan cross-validation dengan 5-fold
# cross_val_score secara otomatis membagi data menjadi 5 subset (fold) untuk validasi silang
# Model dilatih pada 4 subset dan diuji pada subset yang tersisa, proses ini diulang untuk setiap fold
scores = cross_val_score(clf, X, y, cv=5)

# Menampilkan hasil cross-validation
# Hasil berupa skor akurasi untuk setiap fold
print("Cross-validation scores:", scores)

# Menghitung rata-rata skor akurasi dari semua fold
# Rata-rata ini memberikan gambaran umum performa model
print("Rata-rata skor:", scores.mean())


Cross-validation scores: [0.96666667 0.96666667 0.93333333 0.96666667 1.        ]
Rata-rata skor: 0.9666666666666668


In [2]:
# Import library yang diperlukan
from sklearn.model_selection import GridSearchCV

# Membuat parameter grid untuk RandomForest
# Parameter yang diuji adalah jumlah pohon dalam hutan ('n_estimators') dan kedalaman maksimum pohon ('max_depth')
param_grid = {'n_estimators': [10, 50, 100],  # Jumlah pohon
              'max_depth': [None, 10, 20]}    # Kedalaman maksimum pohon

# Membuat objek GridSearchCV
# GridSearchCV digunakan untuk mencari kombinasi parameter terbaik berdasarkan hasil cross-validation
# Model yang diuji adalah RandomForestClassifier dengan validasi silang 5-fold
grid_search = GridSearchCV(RandomForestClassifier(random_state=0), param_grid, cv=5)

# Melatih model dengan parameter grid pada dataset
grid_search.fit(X, y)

# Menampilkan parameter terbaik berdasarkan hasil grid search
# grid_search.best_params_ memberikan kombinasi parameter yang menghasilkan skor cross-validation terbaik
print("Best parameters:", grid_search.best_params_)

# Menampilkan skor cross-validation terbaik
# grid_search.best_score_ memberikan rata-rata skor cross-validation untuk parameter terbaik
print("Best cross-validation score:", grid_search.best_score_)


Best parameters: {'max_depth': None, 'n_estimators': 100}
Best cross-validation score: 0.9666666666666668


## 3. Penjelasan Teoritis

- **Cross-Validation**  
Cross-validation adalah teknik evaluasi model yang membagi dataset menjadi beberapa lipatan (folds) untuk melatih dan menguji model secara bergantian. Pendekatan ini memastikan bahwa setiap bagian data digunakan baik untuk pelatihan maupun pengujian, sehingga menghasilkan estimasi performa model yang lebih akurat. Selain itu, cross-validation membantu menghindari overfitting dengan memastikan model diuji pada data yang belum pernah dilihat selama pelatihan. Teknik ini sangat penting untuk memvalidasi kemampuan model dalam generalisasi terhadap data baru.

- **Grid Search**  
Grid search adalah metode sistematis untuk mencari kombinasi hyperparameter terbaik pada suatu model. Dengan mendefinisikan grid parameter yang ingin diuji, grid search secara otomatis mencoba setiap kombinasi dan mengevaluasi performanya menggunakan validasi silang. Proses ini memastikan bahwa model tidak hanya bekerja optimal pada dataset pelatihan, tetapi juga memiliki performa yang baik pada data yang tidak terlihat. Meskipun memakan waktu, grid search merupakan pendekatan efektif untuk mengoptimalkan hyperparameter model secara objektif.

- **Metrik Evaluasi**  
Pemilihan metrik evaluasi yang tepat sangat penting dalam membangun model machine learning. Akurasi adalah metrik umum yang digunakan, namun tidak selalu mencerminkan performa model yang sebenarnya, terutama pada dataset yang tidak seimbang. Dalam situasi tertentu, metrik seperti precision, recall, F1-score, atau AUC-ROC lebih relevan. Precision menilai kemampuan model dalam memprediksi kelas positif dengan benar, sementara recall mengukur sejauh mana model dapat menemukan semua data positif. F1-score menggabungkan precision dan recall untuk memberikan keseimbangan antara keduanya. AUC-ROC digunakan untuk mengevaluasi performa model dalam memisahkan kelas pada berbagai threshold.

## 4. Insight & Ringkasan

- Teknik cross-validation merupakan langkah penting untuk menghindari evaluasi model yang bias, sehingga memberikan gambaran performa yang lebih realistis dan dapat diandalkan.
- Penggunaan grid search memungkinkan pencarian hyperparameter terbaik secara sistematis, yang pada akhirnya dapat meningkatkan performa model tanpa intervensi manual yang signifikan.
- Memilih metrik evaluasi yang tepat merupakan langkah krusial dalam memastikan bahwa model tidak hanya bekerja dengan baik di atas kertas, tetapi juga relevan dengan tujuan dan kebutuhan aplikasi di dunia nyata.