<a href="https://colab.research.google.com/github/nissrinayy/deeplearning/blob/main/week8-16/Chapter1_Theory.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Rangkuman Chapter 1: The Machine Learning Landscape
## Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow (Aurélien Géron)

---

## $\textbf{1. Apa itu Machine Learning?}$

Machine Learning adalah **ilmu (dan seni) memprogram komputer agar dapat belajar dari data**.

### Definisi Alternatif:
- **Arthur Samuel (1959)**: *"Field of study that gives computers the ability to learn without being explicitly programmed"*
- **Tom Mitchell (1997)**: *"A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E"*

### Konsep Dasar:
- **Training Set**: Contoh-contoh yang digunakan sistem untuk belajar
- **Training Instance/Sample**: Setiap contoh pelatihan individual
- **Task (T)**: Tugas yang ingin diselesaikan (misal: mengklasifikasi spam)
- **Experience (E)**: Data pelatihan
- **Performance Measure (P)**: Metrik evaluasi (misal: akurasi)

---

## $\textbf{2. Mengapa Menggunakan Machine Learning?}$

### Keunggulan ML dibanding Pendekatan Tradisional:

| **Pendekatan Tradisional** | **Machine Learning** |
|---------------------------|----------------------|
| Aturan kompleks dan panjang | Program lebih pendek |
| Sulit dipelihara | Lebih mudah dipelihara |
| Perlu update manual | Adaptasi otomatis |
| Akurasi terbatas | Umumnya lebih akurat |

### ML Sangat Baik untuk:
- ✅ **Masalah dengan solusi kompleks**: Memerlukan banyak fine-tuning atau daftar aturan panjang
- ✅ **Masalah tanpa solusi tradisional**: Masalah kompleks tanpa algoritma yang diketahui
- ✅ **Lingkungan yang berubah-ubah**: Sistem dapat beradaptasi dengan data baru
- ✅ **Mendapatkan insight**: Dari masalah kompleks dan data besar

---

## $\textbf{3. Contoh Aplikasi Machine Learning}$

### Computer Vision
- **Image Classification**: Mengklasifikasi produk di jalur produksi → $\text{CNNs}$
- **Semantic Segmentation**: Deteksi tumor di brain scan → $\text{CNNs}$

### Natural Language Processing (NLP)
- **Text Classification**: Klasifikasi artikel berita → $\text{RNNs, CNNs, Transformers}$
- **Text Summarization**: Meringkas dokumen panjang
- **Chatbot**: Asisten personal dengan komponen NLU

### Prediksi dan Analisis
- **Regression**: Forecasting revenue perusahaan → $\text{Linear/Polynomial Regression, SVM, Random Forest, Neural Networks}$
- **Speech Recognition**: Pengenalan suara → $\text{RNNs, CNNs, Transformers}$
- **Anomaly Detection**: Deteksi fraud kartu kredit
- **Clustering**: Segmentasi pelanggan berdasarkan pembelian
- **Recommendation Systems**: Sistem rekomendasi produk

---

## $\textbf{4. Jenis-jenis Sistem Machine Learning}$

### $\textbf{4.1 Berdasarkan Supervisi}$

#### **Supervised Learning**
- **Definisi**: Training set mengandung **labels** (solusi yang diinginkan)
- **Contoh Tasks**:
  - **Classification**: Spam filter, klasifikasi email
  - **Regression**: Prediksi harga mobil berdasarkan features
- **Algoritma**:
  - k-Nearest Neighbors
  - Linear Regression, Logistic Regression
  - Support Vector Machines (SVMs)
  - Decision Trees, Random Forests
  - Neural Networks

#### **Unsupervised Learning**
- **Definisi**: Training data **tidak berlabel**, sistem belajar tanpa "guru"
- **Kategori**:
  - **Clustering**: K-Means, DBSCAN, HCA
  - **Anomaly Detection**: One-class SVM, Isolation Forest
  - **Visualization & Dimensionality Reduction**: PCA, Kernel PCA, LLE, t-SNE
  - **Association Rule Learning**: Apriori, Eclat

#### **Semisupervised Learning**
- **Definisi**: Kombinasi data berlabel dan tidak berlabel
- **Contoh**: Google Photos - clustering wajah (unsupervised) + labeling manual

#### **Reinforcement Learning**
- **Definisi**: Agent belajar melalui **reward/penalty** dari environment
- **Komponen**: Agent, Environment, Actions, Rewards, Policy
- **Contoh**: AlphaGo, robot belajar berjalan

### $\textbf{4.2 Berdasarkan Pembelajaran}$

#### **Batch Learning (Offline Learning)**
- Sistem **tidak dapat belajar secara incremental**
- Perlu training ulang dengan **seluruh dataset**
- **Kelebihan**: Sederhana, sering bekerja dengan baik
- **Kekurangan**:
  - Training memakan waktu dan resource besar
  - Tidak cocok untuk data yang cepat berubah
  - Tidak cocok untuk sistem dengan resource terbatas

#### **Online Learning (Incremental Learning)**
- Sistem belajar **secara bertahap** dari data yang datang berurutan
- **Kelebihan**:
  - Cocok untuk continuous data flow
  - Hemat resource dan space
  - Adaptasi cepat terhadap perubahan
- **Parameter Penting**: **Learning Rate**
  - $\text{High learning rate}$ → adaptasi cepat, mudah lupa data lama
  - $\text{Low learning rate}$ → pembelajaran lambat, kurang sensitif terhadap noise
- **Tantangan**: Bad data dapat menurunkan performa sistem

### $\textbf{4.3 Berdasarkan Generalisasi}$

#### **Instance-based Learning**
- Sistem **menghafal** contoh-contoh training
- Generalisasi menggunakan **similarity measure**
- **Contoh**: k-Nearest Neighbors

#### **Model-based Learning**
- Membangun **model** dari training examples
- Menggunakan model untuk **prediksi**
- **Proses**:
  1. **Model Selection**: Pilih jenis model (misal: Linear Model)
  2. **Training**: Temukan parameter optimal
  3. **Inference**: Gunakan model untuk prediksi baru

---

## $\textbf{5. Workflow Proyek Machine Learning}$

### Langkah-langkah Utama:
1. **📊 Study the data** - Analisis dan eksplorasi data
2. **🎯 Select a model** - Pilih algoritma yang sesuai  
3. **🔧 Train the model** - Latih model pada training data
4. **📈 Apply the model** - Gunakan untuk prediksi (inference)

### Contoh: Prediksi Life Satisfaction
```python
# Model Selection
life_satisfaction = θ₀ + θ₁ × GDP_per_capita

# Training menghasilkan: θ₀ = 4.85, θ₁ = 4.91 × 10⁻⁵

# Prediction untuk Cyprus (GDP = $22,587)
life_satisfaction = 4.85 + 22,587 × 4.91 × 10⁻⁵ = 5.96
```

---

## $\textbf{6. Tantangan Utama Machine Learning}$

### $\textbf{6.1 Bad Data}$

#### **Insufficient Training Data**
- **Masalah**: ML membutuhkan data dalam jumlah besar
- **Kebutuhan**:
  - Masalah sederhana: ribuan contoh
  - Masalah kompleks (image/speech recognition): jutaan contoh
- **Insight**: *"Data matters more than algorithms"* (untuk masalah kompleks)

#### **Nonrepresentative Training Data**
- **Sampling Noise**: Sample terlalu kecil → data tidak representatif karena kebetulan
- **Sampling Bias**: Metode sampling yang cacat
- **Contoh Historical**: Polling Literary Digest 1936 (prediksi salah karena bias wealth dan nonresponse bias)

#### **Poor-Quality Data**
- **Masalah**: Errors, outliers, noise dalam training data
- **Solusi**:
  - Buang atau perbaiki outliers
  - Handle missing features (ignore, fill median, train separate models)

#### **Irrelevant Features**
- **Feature Engineering** meliputi:
  - **Feature Selection**: Pilih features paling berguna
  - **Feature Extraction**: Kombinasi features existing (dimensionality reduction)
  - **Creating New Features**: Kumpulkan data baru

### $\textbf{6.2 Bad Algorithms}$

#### **Overfitting**
- **Definisi**: Model perform baik pada training data, tapi **tidak generalize** ke data baru
- **Penyebab**: Model terlalu kompleks relatif terhadap jumlah dan noise training data
- **Solusi**:
  - **Simplify model**: Kurangi parameter, kurangi attributes
  - **Gather more data**: Tambah training data
  - **Reduce noise**: Perbaiki error, buang outliers
  - **Regularization**: Konstrain model untuk mencegah overfitting

#### **Regularization**
- **Konsep**: Membatasi model agar lebih sederhana
- **Hyperparameter**: Parameter algoritma learning (bukan model)
- **Trade-off**: Balance antara fitting training data vs generalization

#### **Underfitting**
- **Definisi**: Model terlalu sederhana untuk mempelajari struktur underlying data
- **Solusi**:
  - **Select more powerful model**: Model dengan lebih banyak parameter
  - **Better features**: Feature engineering
  - **Reduce constraints**: Kurangi regularization

---

## $\textbf{7. Testing dan Validating}$

### $\textbf{7.1 Train-Test Split}$
- **Training Set**: Untuk melatih model (biasanya 80%)
- **Test Set**: Untuk evaluasi final (biasanya 20%)
- **Generalization Error**: Error rate pada data baru (out-of-sample error)

### $\textbf{7.2 Hyperparameter Tuning}$

#### **Holdout Validation**
- **Validation Set**: Subset dari training set untuk evaluasi kandidat model
- **Process**:
  1. Train multiple models pada reduced training set
  2. Select best model berdasarkan validation set performance
  3. Train final model pada full training set
  4. Evaluate pada test set

#### **Cross-Validation**
- **Repeated cross-validation**: Menggunakan multiple small validation sets
- **Kelebihan**: Evaluasi lebih akurat dengan averaging
- **Kekurangan**: Training time berlipat ganda

### $\textbf{7.3 Data Mismatch}$
- **Masalah**: Training data tidak representatif terhadap production data
- **Solusi**: **Train-Dev Set**
  - Hold out sebagian web training data
  - Evaluasi pada train-dev set untuk detect overfitting
  - Evaluasi pada validation set untuk detect data mismatch

---

## $\textbf{8. Ringkasan Big Picture}$

### **Machine Learning adalah tentang**:
- 🎯 Membuat mesin menjadi lebih baik dalam suatu task dengan belajar dari data
- 🔄 Bukan explicit programming, tapi learning from experience

### **Jenis-jenis ML Systems**:
- **Supervision**: Supervised, Unsupervised, Semisupervised, Reinforcement
- **Learning Style**: Batch vs Online
- **Generalization**: Instance-based vs Model-based

### **Workflow ML Project**:
1. Gather data → training set
2. Feed ke learning algorithm
3. Algorithm tunes parameters (model-based) atau memorize examples (instance-based)
4. Make predictions pada new cases

### **Keys to Success**:
- ✅ **Sufficient** dan **representative** training data
- ✅ **Relevant features** (good feature engineering)
- ✅ **Right model complexity** (tidak overfit/underfit)
- ✅ **Proper validation** untuk hyperparameter tuning

---

### $\textbf{💡 Key Takeaway}$
> *"Machine Learning is great, but data is the key ingredient. Garbage in, garbage out."*