# Chapter 1: The Machine Learning Landscape

Bab ini menjelaskan dasar-dasar Machine Learning (ML), jenis-jenis sistem ML, tantangan umum, dan alur kerja proyek ML.


## Apa itu Machine Learning?

**Definisi:**
- ML adalah seni dan ilmu membuat komputer belajar dari data tanpa diprogram secara eksplisit.
- **Contoh**: Spam filter belajar dari data email spam/ham untuk mengklasifikasikan email baru.

**Pendekatan:**
- **Task (T)**, **Experience (E)**, **Performance (P)**.
- Contoh: T = klasifikasi spam, E = data email, P = akurasi.


## Mengapa Menggunakan ML?

ML unggul dalam:
- Masalah kompleks dengan banyak aturan (misal: spam filter).
- Masalah tanpa algoritma eksplisit (misal: pengenalan suara).
- Lingkungan yang berubah-ubah.
- Menemukan pola dalam data besar (data mining).


## Aplikasi Machine Learning

Beberapa contoh:
- Klasifikasi gambar → CNN
- Deteksi tumor → Semantic Segmentation
- NLP (klasifikasi teks, summarization) → RNN, Transformer
- Regresi pendapatan → Linear/Polynomial Regression
- Pengenalan suara → RNN, Transformer
- Anomali (fraud) → Isolation Forest, One-class SVM
- Rekomendasi produk → Neural Network
- Game AI → Reinforcement Learning


## Jenis Sistem ML

1. **Supervised**: Data dilabeli. Contoh: klasifikasi, regresi.
2. **Unsupervised**: Data tidak dilabeli. Contoh: clustering, deteksi anomali.
3. **Semisupervised**: Campuran data label dan tidak.
4. **Reinforcement Learning**: Agen belajar melalui reward/penalty.

**Lainnya:**
- **Batch vs Online**: Batch dilatih sekaligus, Online belajar terus-menerus.
- **Instance-based vs Model-based**: Hafalan vs membangun model prediktif.


## Contoh Kode: Linear Regression dengan Scikit-Learn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Dummy data
X = np.array([[12240], [27195], [37675], [50962], [55805]])
y = np.array([[4.9], [5.8], [6.5], [7.3], [7.2]])

# Model
model = LinearRegression()
model.fit(X, y)

# Prediksi
X_new = [[22587]]
print("Prediksi Life Satisfaction:", model.predict(X_new))

## Tantangan Umum

1. Data:
   - Terlalu sedikit
   - Tidak representatif
   - Berkualitas buruk
   - Fitur tidak relevan

2. Model:
   - **Overfitting**: terlalu kompleks
   - **Underfitting**: terlalu sederhana

**Solusi:**
- Regularisasi
- Tambah data
- Feature engineering


## Evaluasi dan Validasi

- **Train/Test Split**: 80% pelatihan, 20% pengujian.
- **Validation Set**: untuk tuning model/hyperparameter.
- **Train-dev Set**: untuk deteksi mismatch data.

**Cross-validation**: teknik untuk evaluasi model dengan validasi berulang.



## No Free Lunch Theorem

Tidak ada satu model terbaik untuk semua kasus. Pemilihan model tergantung pada asumsi dan jenis data.


## Kesimpulan

- ML memungkinkan komputer belajar dari data.
- Banyak jenis dan aplikasi.
- Kualitas data sangat penting.
- Perlu evaluasi dan tuning untuk generalisasi yang baik.


## Penjelasan Teori Machine Learning

### Apa Itu Machine Learning?

Machine Learning (ML) adalah bidang dalam kecerdasan buatan (AI) yang fokus pada pengembangan algoritma yang memungkinkan komputer belajar dari dan membuat prediksi atau keputusan berdasarkan data.

#### Penjelasan Teoritis:
ML tidak mengandalkan aturan eksplisit, melainkan menggunakan pola dalam data untuk memodelkan relasi. Intinya, ML mencoba mengestimasi fungsi \( f: X ightarrow Y \) dari data input-output, tanpa kita harus secara eksplisit menyatakan bentuk dari fungsi tersebut.

Contoh: Mengklasifikasikan email sebagai spam/ham berdasarkan fitur seperti frekuensi kata, pengirim, dll.


### Supervised Learning

Supervised learning adalah jenis ML di mana setiap data pelatihan memiliki label target yang diketahui.

- **Tujuan**: Mempelajari fungsi pemetaan dari input ke output.
- **Tugas umum**: Klasifikasi dan regresi.

Contoh:
- Klasifikasi: Email → spam atau tidak.
- Regresi: Prediksi harga rumah berdasarkan ukuran, lokasi, dll.


### Unsupervised Learning

Unsupervised learning digunakan saat data tidak memiliki label. Model mencoba menemukan struktur tersembunyi dalam data.

- **Contoh algoritma**: K-Means, PCA, DBSCAN
- **Aplikasi**: Clustering, pengurangan dimensi, deteksi anomali.

Contoh: Mengelompokkan pelanggan e-commerce berdasarkan kebiasaan belanja.


### Semisupervised Learning

Gabungan antara supervised dan unsupervised. Digunakan ketika sebagian besar data tidak dilabeli dan hanya sebagian kecil yang dilabeli.

- Berguna dalam dunia nyata karena pelabelan data mahal dan memakan waktu.


### Reinforcement Learning

Jenis pembelajaran di mana agen berinteraksi dengan lingkungan dan belajar dari umpan balik berupa reward.

- **Tujuan**: Mempelajari kebijakan (policy) yang memaksimalkan reward jangka panjang.
- **Contoh**: AlphaGo, robot navigasi, rekomendasi adaptif.


### Overfitting dan Underfitting

- **Overfitting**: Model terlalu kompleks → belajar noise data → generalisasi buruk.
- **Underfitting**: Model terlalu sederhana → gagal menangkap pola.

**Solusi Overfitting**:
- Regularisasi (misalnya L1/L2)
- Pengumpulan data tambahan
- Pengurangan kompleksitas model

**Solusi Underfitting**:
- Model yang lebih kompleks
- Menambah fitur yang informatif


### Regularisasi

Regularisasi adalah teknik untuk mencegah overfitting dengan menambahkan penalti terhadap kompleksitas model.

- **L1 (Lasso)**: Menyebabkan sparsity (beberapa koefisien jadi nol)
- **L2 (Ridge)**: Menjaga agar parameter tetap kecil tapi tidak nol

Formulasi Ridge Regression:
\[
J(\theta) = \frac{1}{m} \sum (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda \sum \theta_j^2
\]


### Validasi dan Evaluasi Model

- **Training set**: Untuk melatih model
- **Validation set**: Untuk tuning parameter dan memilih model
- **Test set**: Untuk estimasi generalisasi ke data baru

**Cross-validation**: Membagi data menjadi beberapa fold dan melatih model berkali-kali untuk meningkatkan estimasi performa.

**Tujuan utama**: Memastikan model bekerja baik terhadap data yang belum pernah dilihat (real-world performance).


### No Free Lunch Theorem

Teorema ini menyatakan bahwa tidak ada satu algoritma ML yang selalu lebih baik dari yang lain untuk semua jenis masalah.

Artinya, pemilihan algoritma harus disesuaikan dengan karakteristik data dan domain spesifik.
