# Machine Learning Workflow

---
# 1. Bussines understanding

💡 Pemahaman Business Understanding
<br>

Sebagai fondasi analisis data yang sukses, Business Understanding adalah langkah kritis yang melibatkan:

✅ Proses Menghasilkan Data

Memahami dari mana data berasal, bagaimana data dikumpulkan, dan siapa yang bertanggung jawab atasnya.

Ini penting untuk menilai kualitas dan keterbatasan data yang ada.

<br>

✅ User Journey

Menganalisis alur pengalaman pengguna dari awal hingga akhir.

Membantu mengidentifikasi titik-titik kritis (pain points) di mana intervensi data dapat memberikan nilai.

<br>

✅ Business Process

Memahami alur kerja dan operasional perusahaan secara menyeluruh.

Dengan ini, kita bisa:

Mengidentifikasi masalah bisnis nyata yang dapat diselesaikan dengan Machine Learning.

Menentukan solusi yang paling sesuai dan berdampak.

---

# 2. objective matrix

Dalam pembelajaran mesin, metrik evaluasi adalah alat untuk mengukur seberapa baik kinerja model kita. Anggaplah ini seperti rapor atau hasil tes untuk model Anda. Metrik ini membantu kita memahami kekuatan dan kelemahan model, sama seperti rapor yang menunjukkan apakah Anda lebih baik dalam matematika atau bahasa.

1. Matriks Kebingungan (Confusion Matrix)
Matriks kebingungan adalah fondasi dari banyak metrik evaluasi. Ini adalah tabel yang merangkum hasil prediksi model. Matriks ini membantu kita melihat prediksi apa yang benar dan prediksi apa yang salah.

Ada empat hasil utama yang bisa kita dapatkan:

True Positive (TP): Model memprediksi "positif" dengan benar.

Contoh: Model memprediksi orang ini sakit, dan dia memang sakit.

True Negative (TN): Model memprediksi "negatif" dengan benar.

Contoh: Model memprediksi orang ini tidak sakit, dan dia memang sehat.

False Positive (FP): Model memprediksi "positif," tapi salah.

Contoh: Model memprediksi orang ini sakit, padahal dia sehat. Ini adalah kesalahan.

False Negative (FN): Model memprediksi "negatif," tapi salah.

Contoh: Model memprediksi orang ini sehat, padahal dia sakit. Ini adalah kesalahan yang seringkali berbahaya.

2. Akurasi (Accuracy)
Akurasi adalah metrik paling sederhana yang mengukur seberapa sering model Anda membuat prediksi yang benar secara keseluruhan.

Rumus: (TP+TN)/(TP+TN+FP+FN)

Kapan digunakan? Ketika jumlah data untuk setiap kategori seimbang.

Kelemahan: Akurasi bisa menipu pada data yang tidak seimbang. Misalnya, jika 99% data adalah "sehat," model yang selalu memprediksi "sehat" akan memiliki akurasi 99%, tetapi model tersebut tidak berguna.

3. Presisi (Precision)
Presisi berfokus pada prediksi "positif" yang dibuat oleh model. Metrik ini menjawab pertanyaan, "Dari semua yang model prediksi sebagai 'positif', seberapa banyak yang benar-benar positif?"

Rumus: TP/(TP+FP)

Kapan penting? Ketika biaya dari False Positive (kesalahan memprediksi "positif") sangat tinggi.

Contoh: Filter spam. Kita ingin presisi tinggi agar email penting (bukan spam) tidak masuk ke folder spam.

4. Rekal (Recall)
Rekal berfokus pada semua kasus "positif" yang sebenarnya ada. Metrik ini menjawab pertanyaan, "Dari semua kasus yang seharusnya 'positif', seberapa banyak yang berhasil ditemukan oleh model?"

Rumus: TP/(TP+FN)

Kapan penting? Ketika biaya dari False Negative (kesalahan memprediksi "negatif") sangat tinggi.

Contoh: Deteksi penyakit. Kita ingin rekal tinggi agar tidak ada pasien yang sakit terlewatkan dan dianggap sehat.

5. Skor F1 (F1-Score)
Skor F1 adalah metrik yang menggabungkan Presisi dan Rekal menjadi satu nilai. F1-Score sangat berguna saat Anda ingin model yang memiliki keseimbangan baik antara kedua metrik ini, terutama pada dataset yang tidak seimbang.

Rumus: 2∗(Presisi∗Rekal)/(Presisi+Rekal)

6. Kurva AUC-ROC
Kurva AUC-ROC (Area Under the Curve - Receiver Operating Characteristic) adalah grafik yang menunjukkan kemampuan model untuk membedakan antara dua kelas. Semakin tinggi kurvanya, semakin baik modelnya.

Skor AUC: Nilai numerik tunggal dari 0 hingga 1.

AUC = 1.0: Model sempurna.

AUC = 0.5: Modelnya sama dengan menebak secara acak.

Keunggulan: Tidak terpengaruh oleh ketidakseimbangan data, sehingga sangat andal untuk membandingkan model.

---

# 3. Data Preparation

1. Pengumpulan Data (Data Gathering)
Langkah pertama adalah mendapatkan data dari sumber yang berbeda-beda. Data mentah ini bisa berasal dari:

Database (SQL, NoSQL).

File statis (CSV, JSON, Excel, PDF).

API (Application Programming Interface).

Web scraping.

2. Definisi Data (Data Definition)
Setelah data terkumpul, kita perlu memahami strukturnya. Tahap ini adalah tentang "mengenal" data Anda.

Pengecekan Struktur: Lihat jumlah baris dan kolom. Periksa tipe data untuk setiap kolom (dtype).

Analisis Statistik Deskriptif: Hitung nilai statistik dasar seperti rata-rata, median, modus, dan standar deviasi.

Identifikasi Masalah: Cari tahu apakah ada nilai yang hilang, pencilan (outliers), atau data duplikat.

Visualisasi: Gunakan plot sederhana seperti histogram atau boxplot untuk melihat distribusi dan anomali data.

3. Validasi Data (Data Validation)
Validasi data adalah proses memeriksa keakuratan dan kualitas data berdasarkan aturan atau kriteria yang telah ditentukan.

Pengecekan Integritas: Pastikan data berada dalam rentang atau format yang benar.

Contoh: Kolom usia tidak boleh memiliki nilai negatif.

Konsistensi: Periksa apakah data konsisten di seluruh dataset.

Contoh: Nama negara di satu kolom harus sama persis dengan nama di kolom lain.

Kualitas Data: Tentukan apakah data cukup berkualitas untuk digunakan. Data yang buruk dapat menyebabkan model yang buruk.

4. Pertahanan Data (Data Defense)
Ini adalah langkah-langkah untuk menangani masalah yang ditemukan selama validasi, sehingga model dapat berjalan dengan baik.

Menangani Nilai Hilang:

Imputasi: Mengisi nilai yang hilang dengan nilai yang masuk akal, seperti rata-rata, median, atau modus.

Penghapusan: Menghapus baris atau kolom yang memiliki terlalu banyak nilai hilang.

Menangani Pencilan (Outliers):

Penghapusan: Menghapus data yang ekstrem jika dianggap sebagai kesalahan input.

Transformasi: Mengubah nilai pencilan (misalnya, dengan log transformation) agar tidak terlalu mempengaruhi model.

Menangani Data Duplikat:

Hapus data duplikat untuk mencegah bias pada model.

Encoding Variabel Kategorikal:

Mengubah data teks menjadi format numerik yang dapat dipahami oleh model.

Contoh: Menggunakan One-Hot Encoding untuk mengubah kategori menjadi kolom biner.

---


# 4. Data Spitting

Tiga Bagian Utama dalam Data Splitting
Secara umum, dataset dibagi menjadi tiga bagian:

1. Data Pelatihan (Training Data) 🏋️‍♂️
Ini adalah bagian terbesar dari dataset (biasanya 70-80%). Data ini digunakan untuk melatih model. Model akan belajar pola, fitur, dan hubungan dari data ini untuk membuat prediksi.

2. Data Validasi (Validation Data) 📝
Bagian ini digunakan untuk menyempurnakan model dan melakukan tuning hyperparameter. Contohnya, Anda mungkin menguji beberapa versi model dengan parameter yang berbeda pada data validasi untuk melihat versi mana yang berkinerja terbaik. Data ini membantu mencegah overfitting pada data pelatihan dan membantu Anda memilih model yang paling optimal sebelum diuji pada data pengujian.

3. Data Pengujian (Testing Data) ✅
Bagian ini digunakan untuk mengevaluasi performa akhir dari model Anda. Data pengujian harus tetap "tersembunyi" dari model hingga semua proses pelatihan dan tuning selesai. Pengujian pada data ini memberikan gambaran yang paling jujur dan tidak bias tentang seberapa baik model Anda akan bekerja di dunia nyata.

Perbandingan dan Ukuran Umum
Ukuran pembagian data yang umum adalah:

70% Data Pelatihan, 15% Data Validasi, dan 15% Data Pengujian.

Atau 80% Data Pelatihan dan 20% Data Pengujian (jika data validasi tidak digunakan secara eksplisit).

Pembagian ini penting untuk memastikan model yang kita buat tidak hanya "menghafal" data pelatihan, tetapi benar-benar "belajar" dan mampu menggeneralisasi pengetahuan untuk memecahkan masalah baru.

# Data Leakage


Data leakage adalah masalah serius dalam machine learning di mana informasi dari data pengujian (testing data) secara tidak sengaja "bocor" ke dalam data pelatihan (training data). Hal ini menyebabkan model memiliki kinerja yang terlihat luar biasa saat pengujian, tetapi sebenarnya gagal total saat diimplementasikan di dunia nyata.

Jenis-Jenis Data Leakage
Ada dua jenis utama data leakage:

1. Kebocoran Data Target (Target Leakage) 🎯
Ini terjadi ketika data yang digunakan untuk melatih model menyertakan informasi yang tidak akan tersedia pada saat model membuat prediksi di dunia nyata.

Contoh: Anda ingin memprediksi apakah seorang nasabah akan default pinjaman. Jika Anda memasukkan kolom "pembayaran setelah 3 bulan" ke dalam data pelatihan, ini akan menyebabkan kebocoran. Mengapa? Karena saat memprediksi nasabah baru, Anda belum memiliki informasi tersebut. Model akan "mencontek" dari data target, membuat akurasi terlihat sempurna.

2. Kebocoran Data di Tahap Pemrosesan (Data Processing Leakage) 🛠️
Ini terjadi saat Anda memproses seluruh dataset (termasuk data pengujian) secara bersamaan sebelum membaginya.

Contoh: Jika Anda menghitung rata-rata untuk mengisi nilai yang hilang atau menstandarisasi fitur menggunakan seluruh dataset, informasi dari data pengujian telah "bocor" ke dalam data pelatihan. Data pengujian seharusnya tetap terisolasi.

Cara Mengatasi Data Leakage
Mencegah data leakage sangat penting untuk membangun model yang andal. Berikut adalah cara-cara mengatasinya:

Lakukan Pembagian Data Terlebih Dahulu: Selalu bagi data Anda menjadi data pelatihan dan pengujian sebelum melakukan pra-pemrosesan. Ini adalah aturan emas.

Terapkan Transformasi Secara Terpisah:

Hitung parameter transformasi (seperti rata-rata, standar deviasi) hanya dari data pelatihan.

Terapkan parameter yang sama tersebut ke data pelatihan dan juga data pengujian.

Ini memastikan bahwa data pengujian tetap "tidak terlihat" oleh model selama proses pelatihan dan pra-pemrosesan.

Gunakan Pipeline: Gunakan pipeline dari library seperti Scikit-learn. Pipeline akan mengotomatiskan proses ini, memastikan bahwa semua langkah pra-pemrosesan hanya dilakukan pada data pelatihan, dan kemudian diterapkan pada data pengujian. Ini adalah cara paling aman dan efisien untuk mencegah kebocoran.

Hapus Fitur yang Mencurigakan: Jika ada fitur yang secara logis hanya bisa tersedia setelah peristiwa yang Anda prediksi terjadi, hapuslah fitur tersebut dari dataset.

---

# 5. Data Understanding (EDA)

- Cari pattern yang berpengaruh pada model
- Cari anomali yang mengurangi akurasi model
- Dilakukan dengan EDA

---

# 6. Data Preprocessing

- Handling Missing Values
- Handling Kategorikal Variable
- Scaling

---
1. Penanganan Nilai yang Hilang (Handling Missing Values) 🗑️
Nilai yang hilang (missing values) adalah celah atau data yang tidak tercatat dalam dataset. Menangani nilai ini sangat penting karena banyak model machine learning tidak bisa bekerja dengan data yang tidak lengkap.

Cara mengatasinya:

Menghapus (Deletion): Menghapus baris atau kolom yang memiliki nilai hilang. Metode ini sederhana, tetapi bisa menyebabkan hilangnya informasi penting.

Imputasi (Imputation): Mengisi nilai yang hilang dengan nilai lain yang masuk akal. Ini adalah metode yang paling umum.

Contoh Imputasi:
Misalkan Anda memiliki kolom Usia dengan beberapa data yang hilang. Anda dapat mengisinya dengan:

Nilai rata-rata (mean) dari semua usia yang ada. Ini efektif jika distribusinya normal.

Nilai median (median) jika data memiliki pencilan (outliers).

Nilai modus (mode) untuk data kategorikal.

Menggunakan model machine learning lain untuk memprediksi nilai yang hilang.

2. Penanganan Variabel Kategorikal (Handling Categorical Variables) 🔢
Variabel kategorikal adalah fitur yang memiliki nilai dalam bentuk teks atau kategori, bukan angka. Contohnya seperti Warna (merah, biru, hijau) atau Jenis Kelamin (pria, wanita). Model machine learning hanya bisa memproses angka, jadi kita harus mengubah variabel ini menjadi format numerik.

Cara mengatasinya:

Label Encoding: Memberikan angka unik untuk setiap kategori.

Contoh: merah -> 0, biru -> 1, hijau -> 2. Metode ini dapat menimbulkan masalah jika model salah menginterpretasikan angka tersebut sebagai urutan (ordinal).

One-Hot Encoding: Membuat kolom biner baru (0 atau 1) untuk setiap kategori.

Contoh: Untuk kolom Warna, dibuat tiga kolom baru: Warna_merah, Warna_biru, Warna_hijau. Jika baris data adalah "merah", maka Warna_merah = 1, sisanya 0. Ini lebih aman karena tidak ada asumsi urutan.

3. Penskalaan (Scaling) ⚖️
Penskalaan adalah proses mengubah nilai numerik dalam dataset ke dalam rentang atau skala yang sama. Ini penting karena beberapa algoritma machine learning sensitif terhadap skala fitur. Jika satu fitur memiliki nilai sangat besar dan fitur lain sangat kecil, model bisa menganggap fitur besar lebih penting.

Cara mengatasinya:

Standardisasi (Standard Scaling): Mengubah data sehingga memiliki rata-rata (mean) 0 dan standar deviasi 1. Cocok untuk data yang distribusinya mendekati normal.

Rumus: X 
new
​
 =(X−μ)/σ

Normalisasi (Min-Max Scaling): Mengubah data ke dalam rentang 0 hingga 1. Cocok untuk data yang distribusinya tidak normal atau ketika Anda membutuhkan nilai dalam rentang tertentu.

Rumus: X 
new
​
 =(X−X 
min
​
 )/(X 
max
​
 −X 
min
​
 )

---

# 7. Feature Engineering

Rekayasa fitur (Feature Engineering) adalah proses menciptakan fitur (variabel) baru yang lebih bermakna dari data yang sudah ada. Tujuannya adalah untuk meningkatkan performa model machine learning. Rekayasa fitur sering disebut sebagai "seni" dalam data science karena membutuhkan kreativitas dan pengetahuan domain yang mendalam.

Secara sederhana, proses ini mengubah data mentah menjadi representasi yang lebih baik, sehingga model dapat "melihat" pola yang lebih jelas. Semakin baik fiturnya, semakin baik pula kinerja model.

Penggunaan Rekayasa Fitur 🛠️
Rekayasa fitur digunakan untuk berbagai tujuan, di antaranya:

Meningkatkan Akurasi Model: Fitur yang lebih baik dapat membantu model membuat prediksi yang lebih akurat.

Mengurangi Overfitting: Dengan menciptakan fitur yang lebih relevan dan tidak terlalu spesifik, kita bisa membantu model menggeneralisasi dengan lebih baik.

Mempercepat Pelatihan Model: Fitur yang lebih ringkas dan informatif dapat membuat proses pelatihan menjadi lebih cepat.

Mendapatkan Insight Baru: Proses ini seringkali mengungkap hubungan dan pola tersembunyi dalam data yang sebelumnya tidak terlihat.

Macam-Macam Jenis Rekayasa Fitur
Ada banyak teknik rekayasa fitur yang bisa diterapkan. Berikut adalah beberapa jenis yang paling umum:

1. Imputasi (Imputation)
Ini adalah teknik untuk mengisi nilai yang hilang dalam dataset. Meskipun sudah dijelaskan sebelumnya, imputasi juga merupakan bentuk rekayasa fitur karena mengubah data untuk menjadikannya lebih lengkap.

Contoh: Mengganti nilai yang hilang di kolom Usia dengan rata-rata atau median dari kolom tersebut.

2. Binning atau Discretization
Teknik ini mengelompokkan nilai numerik ke dalam "keranjang" (bins) atau kategori.

Contoh: Mengubah nilai Usia menjadi kategori Anak-anak (0-12), Remaja (13-19), Dewasa (20-60), dan Lanjut Usia (60+). Ini bisa membantu model jika hubungan antara usia dan target tidak linier.

3. Log Transformation
Ini adalah teknik mengubah fitur yang distribusinya miring (skewed) menjadi distribusi yang lebih normal. Ini sangat berguna untuk fitur yang memiliki rentang nilai yang sangat besar.

Contoh: Menerapkan log() pada kolom Gaji untuk mengurangi dampak pencilan yang memiliki gaji sangat tinggi.

4. Penggabungan Fitur (Feature Combination)
Menciptakan fitur baru dengan menggabungkan dua atau lebih fitur yang sudah ada.

Contoh: Menggabungkan kolom Panjang dan Lebar untuk membuat fitur baru bernama Luas. Dalam kasus lain, Anda bisa membuat Indeks Massa Tubuh (BMI) dari Berat dan Tinggi.

5. Encoding
Ini adalah proses mengubah variabel kategorikal menjadi format numerik. Meskipun sudah dibahas, ini adalah bagian integral dari rekayasa fitur.

Contoh: Menggunakan One-Hot Encoding untuk mengubah kolom Kota menjadi beberapa kolom biner (Kota_Surabaya, Kota_Jakarta, dll.).

6. Ekstraksi Fitur Berbasis Waktu
Membuat fitur dari kolom tanggal dan waktu.

Contoh: Mengekstrak Hari dalam seminggu, Bulan, atau Tahun dari kolom Tanggal. Fitur ini bisa sangat kuat karena banyak pola data yang bersifat musiman atau terkait waktu.

7. Ekstraksi Fitur Berbasis Teks
Mengubah data teks menjadi fitur numerik.

Contoh: Menggunakan TF-IDF (Term Frequency-Inverse Document Frequency) atau Bag of Words untuk mengkonversi isi ulasan pelanggan menjadi vektor numerik yang bisa dipahami model.

---

# 8. Model Fitting

Apa itu Model Fitting? ⚙️

Model fitting adalah proses di mana sebuah model machine learning "belajar" dari data pelatihan (training data). Tujuannya adalah agar model dapat menemukan pola dan hubungan di antara fitur (variabel) yang ada, sehingga dapat membuat prediksi yang akurat pada data baru.

Bayangkan Anda sedang mengajari seorang anak untuk mengenali anjing. Anda menunjukkan banyak gambar anjing dengan berbagai ras dan ukuran. Proses ini adalah "fitting" model. Anak tersebut akan belajar ciri-ciri anjing (telinga, ekor, moncong, bulu) dan akhirnya bisa membedakan anjing dari hewan lain.

Konsep-Konsep Utama dalam Model Fitting
Ada tiga konsep utama yang sangat penting untuk dipahami dalam model fitting:

1. Underfitting
Underfitting terjadi ketika model terlalu sederhana dan tidak mampu menangkap pola dasar dari data. Akibatnya, model memiliki performa yang buruk pada data pelatihan maupun data pengujian.

Penyebab:

Menggunakan model yang terlalu sederhana (misalnya, regresi linier untuk data non-linier).

Fitur yang tidak cukup.

Gejala: Akurasi rendah pada data pelatihan dan pengujian.

Solusi:

Menggunakan model yang lebih kompleks.

Menambah lebih banyak fitur (feature engineering).

2. Overfitting
Overfitting terjadi ketika model terlalu kompleks dan "menghafal" data pelatihan, termasuk noise atau anomali. Akibatnya, model bekerja sangat baik pada data pelatihan, tetapi performanya sangat buruk saat dihadapkan pada data pengujian atau data baru.

Penyebab:

Menggunakan model yang terlalu kompleks (misalnya, pohon keputusan yang terlalu dalam).

Data pelatihan yang terlalu sedikit.

Gejala: Akurasi tinggi pada data pelatihan, tetapi akurasi rendah pada data pengujian.

Solusi:

Menggunakan model yang lebih sederhana.

Menambah lebih banyak data pelatihan.

Menggunakan teknik regulasi (seperti L1 atau L2 regularization) untuk mengurangi kompleksitas model.

Menggunakan cross-validation.

3. Good Fit
Good fit adalah kondisi ideal di mana model memiliki kompleksitas yang tepat. Model ini mampu menangkap pola utama dari data tanpa "menghafal" noise. Akibatnya, model berkinerja baik pada data pelatihan maupun data pengujian. Tujuan dari model fitting adalah untuk mencapai good fit ini.

Proses Model Fitting dalam Praktik
Pilih Model: Tentukan algoritma machine learning yang akan digunakan (misalnya, Linear Regression, Decision Tree, Support Vector Machine).

Latih Model: Gunakan fungsi fit() pada data pelatihan. Selama proses ini, model menyesuaikan bobotnya agar dapat meminimalkan kesalahan prediksi.

Evaluasi: Setelah model dilatih, gunakan data pengujian untuk mengevaluasi performanya. Langkah ini penting untuk melihat apakah model mengalami underfitting atau overfitting.

---

# 9. Cross Validation

Eksperimen dengan Cross-Validation 🔬
Cross-validation tidak hanya digunakan untuk mengevaluasi satu model, tetapi juga sebagai alat penting dalam serangkaian eksperimen untuk menemukan model terbaik. Dengan menggunakan cross-validation, kita bisa membandingkan hasil dari setiap eksperimen secara adil dan objektif. Berikut adalah contoh bagaimana cross-validation diterapkan dalam eksperimen:

1. Variasi Hyperparameter
Hyperparameter adalah parameter yang tidak dipelajari dari data, tetapi harus diatur sebelum pelatihan dimulai (misalnya, learning rate atau jumlah pohon dalam Random Forest).

Tujuan Eksperimen: Menemukan nilai hyperparameter yang optimal untuk model Anda.

Cara Kerja:

Anda memiliki satu model (misalnya, Random Forest).

Lakukan cross-validation (misalnya, 5-fold) untuk beberapa kombinasi hyperparameter yang berbeda.

Misalnya, Anda menguji n_estimators = [10, 50, 100].

Hitung rata-rata skor akurasi dari 5-fold cross-validation untuk setiap n_estimators tersebut.

Hasil: Anda akan mendapatkan tiga skor rata-rata (misalnya, 82% untuk 10 pohon, 88% untuk 50 pohon, dan 87% untuk 100 pohon).

Kesimpulan: Berdasarkan hasil ini, Anda dapat menyimpulkan bahwa 50 pohon adalah pilihan terbaik karena memberikan akurasi rata-rata tertinggi.

2. Pra-pemrosesan Data (Variasi Scaling)
Metode penskalaan (scaling) dapat memengaruhi performa beberapa model. Cross-validation membantu menentukan metode penskalaan mana yang paling cocok untuk model Anda.

Tujuan Eksperimen: Membandingkan efektivitas Standard Scaling dan Min-Max Scaling.

Cara Kerja:

Eksperimen 1: Terapkan Standard Scaling pada data. Latih dan evaluasi model (misalnya, SVM) menggunakan cross-validation. Catat skor rata-ratanya (misalnya, 85%).

Eksperimen 2: Terapkan Min-Max Scaling pada data yang sama. Latih dan evaluasi model yang sama menggunakan cross-validation. Catat skor rata-ratanya (misalnya, 82%).

Kesimpulan: Berdasarkan perbandingan skor, Standard Scaling memberikan hasil yang lebih baik untuk model SVM ini.

3. Rekayasa Fitur (Feature Engineering)
Rekayasa fitur adalah proses menciptakan variabel baru dari data yang ada. Cross-validation sangat berguna untuk menguji apakah fitur baru yang Anda buat benar-benar meningkatkan performa model.

Tujuan Eksperimen: Menilai apakah fitur baru (misalnya, BMI yang dibuat dari Berat dan Tinggi) bermanfaat.

Cara Kerja:

Eksperimen 1 (Baseline): Latih model dengan fitur asli tanpa BMI menggunakan cross-validation. Catat skor rata-ratanya (misalnya, 78%).

Eksperimen 2: Tambahkan fitur BMI ke dalam dataset. Latih model yang sama dengan cross-validation. Catat skor rata-ratanya (misalnya, 81%).

Kesimpulan: Karena skornya meningkat, Anda bisa menyimpulkan bahwa fitur BMI adalah fitur yang berguna dan dapat dipertahankan.

Dengan menggunakan cross-validation dalam setiap langkah eksperimen, Anda memastikan bahwa keputusan yang Anda ambil tentang model, hyperparameter, dan fitur didasarkan pada evaluasi yang solid dan tidak rentan terhadap kebetulan.

---

# 10. Model Evaluation

Metode Evaluasi (Evaluation Methods) 📊
Metode evaluasi adalah serangkaian teknik dan metrik untuk mengukur kinerja model machine learning. Tujuannya adalah untuk menilai seberapa baik model dapat membuat prediksi yang akurat dan dapat diandalkan, serta untuk membandingkan model-model yang berbeda. Ada dua kategori utama, yaitu untuk masalah klasifikasi dan regresi.

1. Masalah Klasifikasi (Classification)
Pada masalah klasifikasi, model memprediksi kategori atau kelas (misalnya, "spam" atau "bukan spam").

Matriks Kebingungan (Confusion Matrix): Ini adalah dasar dari sebagian besar metrik klasifikasi. Matriks ini menampilkan empat hasil prediksi: True Positive (TP), True Negative (TN), False Positive (FP), dan False Negative (FN).

Akurasi (Accuracy): Mengukur proporsi total prediksi yang benar. Metrik ini berguna untuk dataset yang seimbang, tetapi bisa menyesatkan pada dataset yang tidak seimbang.

Rumus: (TP+TN)/(TP+TN+FP+FN)

Presisi (Precision): Mengukur seberapa banyak prediksi positif yang benar. Penting ketika biaya False Positive tinggi.

Rumus: TP/(TP+FP)

Rekal (Recall) / Sensitivitas: Mengukur seberapa banyak kasus positif yang berhasil ditemukan. Penting ketika biaya False Negative tinggi.

Rumus: TP/(TP+FN)

Skor F1 (F1-Score): Nilai rata-rata harmonik dari Presisi dan Rekal. Berguna untuk mencari keseimbangan antara kedua metrik, terutama pada dataset yang tidak seimbang.

Rumus: 2∗(Presisi∗Rekal)/(Presisi+Rekal)

Kurva ROC-AUC: Mengukur kemampuan model untuk membedakan antara kelas positif dan negatif. Nilai AUC (Area Under the Curve) yang mendekati 1 menunjukkan kinerja yang sangat baik, sementara nilai 0.5 menunjukkan kinerja acak. Metrik ini sangat baik untuk dataset yang tidak seimbang.

2. Masalah Regresi (Regression)
Pada masalah regresi, model memprediksi nilai numerik kontinu (misalnya, harga rumah).

Kesalahan Mutlak Rata-Rata (Mean Absolute Error / MAE): Mengukur rata-rata selisih mutlak antara nilai prediksi dan nilai sebenarnya.

Rumus:  
n
1
​
 ∑ 
i=1
n
​
 ∣y 
i
​
 − 
y
^
​
  
i
​
 ∣

Kesalahan Kuadrat Rata-Rata (Mean Squared Error / MSE): Mengukur rata-rata kuadrat selisih antara nilai prediksi dan nilai sebenarnya. MSE memberikan bobot yang lebih besar pada kesalahan yang besar.

Rumus:  
n
1
​
 ∑ 
i=1
n
​
 (y 
i
​
 − 
y
^
​
  
i
​
 ) 
2
 

Akar Kesalahan Kuadrat Rata-Rata (Root Mean Squared Error / RMSE): Akar kuadrat dari MSE. Metrik ini lebih mudah diinterpretasikan karena memiliki satuan yang sama dengan variabel target.

Rumus:  
n
1
​
 ∑ 
i=1
n
​
 (y 
i
​
 − 
y
^
​
  
i
​
 ) 
2
 

​
 

R-Squared (R 
2
 ): Mengukur proporsi varians dalam variabel target yang dapat dijelaskan oleh model. Nilai R 
2
  berkisar dari 0 hingga 1. Semakin dekat ke 1, semakin baik modelnya.

Baseline dan Pentingnya 🎯
Baseline adalah model sederhana yang digunakan sebagai titik acuan untuk membandingkan kinerja model machine learning Anda yang lebih kompleks. Baseline membantu Anda menentukan apakah model Anda benar-benar efektif atau hanya lebih baik dari tebakan acak.

Jenis-Jenis Baseline:

Baseline Acak (Random Baseline): Memprediksi secara acak. Misalnya, untuk klasifikasi biner, model ini memprediksi 50% "ya" dan 50% "tidak".

Baseline Mayoritas Kelas (Majority Class Baseline): Memprediksi kelas yang paling sering muncul dalam dataset.

Contoh: Jika 95% email adalah "bukan spam," baseline ini selalu memprediksi "bukan spam." Akurasi baseline ini adalah 95%, dan model Anda harus bisa mengalahkan angka ini untuk dianggap berguna.

Baseline Statistik: Menggunakan statistik sederhana.

Contoh (Regresi): Menggunakan rata-rata (mean) atau median dari data target sebagai prediksi untuk semua data. Jika model regresi Anda tidak bisa mengalahkan prediksi rata-rata ini, maka model tersebut tidak efektif.

---

# 11. Error Analysis

- Kita ingin tau sumber eror dari model
- sehingga dapat meningkatkan performa model
- Dilakukan dengan memeriksa kesalahan yang terjadi pada test set, dan memahami mengapa hal tersebut salah