# 📝 Notebook - Teori Bab 1: Peta Dunia Machine Learning

Selamat datang di notebook untuk Bab 1! Di sini, kita akan mengulas konsep-konsep fundamental Machine Learning yang dijelaskan dalam buku "Hands-On Machine Learning." Setiap bagian akan berisi penjelasan teoretis dan contoh kode Python yang bisa Anda jalankan untuk mendapatkan pemahaman praktis.

## 1. Apa Itu Machine Learning?

Secara sederhana, **Machine Learning (ML)** adalah ilmu yang memprogram komputer agar dapat **belajar dari data**. Alih-alih menulis aturan-aturan eksplisit (seperti `if-else` yang sangat banyak), kita memberikan banyak contoh kepada sebuah algoritma, dan algoritma itu akan "belajar" pola dari data tersebut.

**Analogi:**
* **Pendekatan Tradisional:** Anda membuat program filter spam dengan menulis daftar kata kunci yang dilarang (misalnya, "gratis", "diskon", "pemenang"). Jika spammer mengganti kata, Anda harus memperbarui daftar itu secara manual.
* **Pendekatan ML:** Anda memberikan ribuan contoh email spam dan non-spam kepada model ML. Model akan belajar sendiri kata-kata atau pola mana yang paling sering muncul di email spam. Jika spammer mengganti taktik, model bisa beradaptasi dengan mempelajari data baru.

### Contoh Kode: Bedanya Aturan vs. Belajar

Kode berikut hanya ilustrasi konseptual, tidak menjalankan model ML.

In [None]:
# Pendekatan Tradisional (Aturan Eksplisit)
def filter_spam_tradisional(email_subject):
    """Filter spam berdasarkan daftar kata kunci."""
    kata_kunci_spam = ["gratis", "promo", "diskon besar"]
    for kata in kata_kunci_spam:
        if kata in email_subject.lower():
            return "Ini adalah SPAM"
    return "Ini BUKAN spam"

# Contoh penggunaan
print(f"Email 1: 'Dapatkan diskon besar!' -> {filter_spam_tradisional('Dapatkan diskon besar!')}")
print(f"Email 2: 'Jadwal rapat besok' -> {filter_spam_tradisional('Jadwal rapat besok')}")

# Pendekatan ML (Konsep)
# 1. Kumpulkan ribuan email dan labelnya (spam/bukan spam)
# 2. Pilih sebuah algoritma (misalnya, Naive Bayes atau SVM)
# 3. "Latih" algoritma tersebut dengan data yang sudah dikumpulkan
# 4. Model yang sudah terlatih kini bisa memprediksi email baru
# (Kita akan coba kode nyatanya di bagian selanjutnya)

## 2. Tipe-Tipe Sistem Machine Learning

Sistem ML dapat dikategorikan berdasarkan beberapa kriteria.

### a. Berdasarkan Supervisi Manusia

#### Supervised Learning (Pembelajaran Terarah)

Ini adalah jenis ML yang paling umum. Anda melatih model dengan data yang sudah diberi **label** atau jawaban yang benar. Tujuannya adalah agar model bisa memprediksi label untuk data baru yang belum pernah dilihat.

* **Klasifikasi (Classification):** Memprediksi kategori. Contoh: filter spam (spam/bukan spam), deteksi tumor (ganas/jinak).
* **Regresi (Regression):** Memprediksi nilai numerik. Contoh: memprediksi harga rumah berdasarkan luasnya, memprediksi suhu besok.

In [None]:
# Contoh Supervised Learning: Regresi dengan Scikit-Learn
from sklearn.linear_model import LinearRegression
import numpy as np

# Data: Luas rumah (fitur) dan Harga rumah (label)
# Fitur (X) harus dalam format 2D, Label (y) dalam 1D
X = np.array([[50], [70], [100], [120]]) # Luas dalam m^2
y = np.array([500, 750, 1100, 1300])    # Harga dalam juta Rupiah

# 1. Pilih model
model_regresi = LinearRegression()

# 2. Latih model dengan data ber-label
model_regresi.fit(X, y)

# 3. Buat prediksi untuk data baru
luas_rumah_baru = np.array([[80]]) # Rumah seluas 80 m^2
prediksi_harga = model_regresi.predict(luas_rumah_baru)

print(f"Prediksi harga untuk rumah seluas 80 m^2 adalah: {prediksi_harga[0]:.2f} juta Rupiah")

#### Unsupervised Learning (Pembelajaran Tak Terarah)
Di sini, data yang Anda gunakan **tidak memiliki label**. Model mencoba menemukan pola atau struktur tersembunyi dalam data dengan sendirinya.

* **Klastering (Clustering):** Mengelompokkan data yang mirip. Contoh: segmentasi pelanggan berdasarkan perilaku belanja.
* **Deteksi Anomali (Anomaly Detection):** Menemukan data yang aneh atau tidak biasa. Contoh: deteksi transaksi kartu kredit penipuan.
* **Pengurangan Dimensi (Dimensionality Reduction):** Menyederhanakan data dengan mengurangi jumlah fitur tanpa kehilangan banyak informasi.

In [None]:
# Contoh Unsupervised Learning: Klastering dengan Scikit-Learn
from sklearn.cluster import KMeans
import numpy as np

# Data: Kunjungan pelanggan (tanpa label)
# Fitur: [jumlah pembelian, total nilai belanja]
X = np.array([
    [5, 500], [10, 1100], [6, 650],  # Cluster 1: Pelanggan loyal
    [20, 250], [25, 300], [22, 280], # Cluster 2: Pelanggan hemat
    [8, 1200], [2, 300]
])

# 1. Pilih model (misalnya, kita ingin 2 kelompok pelanggan)
model_klaster = KMeans(n_clusters=2, random_state=42)

# 2. Latih model dengan data tanpa label
model_klaster.fit(X)

# 3. Lihat hasil pengelompokan (label yang dibuat oleh model)
print(f"Label cluster untuk setiap pelanggan: {model_klaster.labels_}")

# Prediksi cluster untuk pelanggan baru
pelanggan_baru = np.array([[7, 700]])
prediksi_cluster = model_klaster.predict(pelanggan_baru)
print(f"Pelanggan baru masuk ke cluster: {prediksi_cluster[0]}")

#### Reinforcement Learning (Pembelajaran Penguatan)
Ini adalah jenis pembelajaran yang sangat berbeda. Sebuah **agen** belajar dengan berinteraksi dalam sebuah **lingkungan**. Agen melakukan **aksi** dan menerima **reward** (hadiah) atau **penalty** (hukuman). Tujuannya adalah memaksimalkan total reward.
Contoh: robot yang belajar berjalan, AI yang bermain catur atau Go, sistem pemanas yang belajar menghemat energi.

### b. Berdasarkan Cara Belajar

#### Batch Learning (Offline Learning)
Model dilatih menggunakan semua data yang tersedia sekaligus. Ini bisa memakan waktu dan sumber daya. Setelah dilatih, model diluncurkan ke produksi dan tidak belajar lagi. Untuk membuatnya belajar data baru, Anda harus melatih ulang model dari awal dengan dataset penuh (data lama + data baru).

#### Online Learning
Model dilatih secara bertahap (inkremental), baik satu per satu data atau dalam kelompok kecil (mini-batch). Ini bagus untuk sistem yang perlu beradaptasi dengan perubahan data secara cepat atau untuk dataset yang sangat besar dan tidak muat di memori.

In [None]:
# Simulasi Online Learning dengan Scikit-Learn
from sklearn.linear_model import SGDRegressor
import numpy as np

# Model yang mendukung pembelajaran inkremental
model_online = SGDRegressor()

# Data datang secara bertahap
X1, y1 = np.array([[50]]), np.array([500])
X2, y2 = np.array([[70]]), np.array([750])

# Latih pada data pertama
model_online.partial_fit(X1, y1.ravel())
print("Prediksi setelah data 1:", model_online.predict([[80]]))

# Latih pada data kedua (melanjutkan dari sebelumnya)
model_online.partial_fit(X2, y2.ravel())
print("Prediksi setelah data 2:", model_online.predict([[80]]))

### c. Berdasarkan Cara Generalisasi

#### Instance-Based Learning
Sistem ini belajar dengan cara menghafal contoh-contoh data. Saat prediksi dibutuhkan, ia membandingkan data baru dengan data yang dihafal menggunakan **ukuran kemiripan** dan membuat prediksi berdasarkan contoh yang paling mirip.

In [None]:
# Contoh Instance-Based Learning: K-Nearest Neighbors (KNN)
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

# Data: [tinggi, berat] dan label (0: normal, 1: obesitas)
X = np.array([[170, 60], [175, 65], [160, 80], [165, 85]])
y = np.array([0, 0, 1, 1])

model_knn = KNeighborsClassifier(n_neighbors=3)
model_knn.fit(X, y)

# Data baru: tinggi 172, berat 82
data_baru = np.array([[172, 82]])

# Prediksi berdasarkan 3 tetangga terdekat
prediksi = model_knn.predict(data_baru)
print(f"Prediksi untuk data baru [172, 82] adalah: {'Obesitas' if prediksi[0] == 1 else 'Normal'}")

#### Model-Based Learning
Sistem ini membangun sebuah **model** (representasi matematis) dari data latih. Saat prediksi dibutuhkan, ia menggunakan model ini untuk membuat prediksi. Tujuannya adalah menggeneralisasi dengan baik ke data baru.

In [None]:
# Contoh Model-Based Learning: Linear Regression (yang sudah kita coba)
# Model Linear Regression di atas tidak menghafal data,
# melainkan membangun sebuah model (persamaan garis y = mx + c).
# Ia menemukan nilai m (slope) dan c (intercept) terbaik.

# Bobot (model) yang dipelajari:
slope = model_regresi.coef_
intercept = model_regresi.intercept_

print(f"Model yang dipelajari: harga = {slope[0]:.2f} * luas + {intercept:.2f}")

# Prediksi dibuat menggunakan rumus ini, bukan dengan membandingkan data.

## 3. Tantangan Utama dalam Machine Learning


### a. "Bad Data" - Masalah pada Data

* **Jumlah Data yang Tidak Cukup:** Algoritma ML butuh banyak data untuk bisa bekerja dengan baik. Untuk masalah kompleks, bisa butuh jutaan contoh.
* **Data yang Tidak Representatif:** Jika data latih Anda tidak mencerminkan data yang akan dihadapi di dunia nyata, model tidak akan bisa generalisasi dengan baik. Ini disebut *sampling bias*.
* **Data Berkualitas Buruk:** Data yang penuh error, *outlier*, dan noise akan menyulitkan model untuk mendeteksi pola yang sebenarnya.
* **Fitur yang Tidak Relevan:** Pepatah "sampah masuk, sampah keluar" berlaku di sini. Jika data latih penuh dengan fitur yang tidak relevan, model akan sulit belajar. Proses memilih fitur yang baik disebut *feature engineering*.

### b. "Bad Algorithm" - Masalah pada Algoritma

#### Overfitting (Terlalu Pas)
Model bekerja sangat baik pada data latih, tetapi performanya buruk pada data baru. Ini terjadi ketika model terlalu kompleks relatif terhadap jumlah dan kebisingan data, sehingga ia akhirnya menghafal data latih beserta noise-nya.

#### Underfitting (Kurang Pas)
Model terlalu sederhana untuk mempelajari struktur data. Performanya buruk baik di data latih maupun data baru. Ini terjadi karena model tidak cukup kuat untuk menangkap pola yang ada.

### Contoh Kode: Overfitting dan Underfitting

Kita akan menggunakan `PolynomialFeatures` untuk menunjukkan ini. Garis lurus (derajat 1) akan *underfit*, sedangkan polinomial derajat tinggi akan *overfit*.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Data kuadratik dengan noise
np.random.seed(42)
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)

plt.scatter(X, y, s=10)
plt.title("Data Asli")
plt.show()

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

# Model Underfitting (garis lurus)
model_underfit = make_pipeline(PolynomialFeatures(degree=1), LinearRegression())
model_underfit.fit(X, y)

# Model Overfitting (polinomial derajat tinggi)
model_overfit = make_pipeline(PolynomialFeatures(degree=30), LinearRegression())
model_overfit.fit(X, y)

# Model yang "pas"
model_goodfit = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())
model_goodfit.fit(X, y)

# Plot hasil
X_new = np.linspace(-3, 3, 100).reshape(100, 1)
y_under = model_underfit.predict(X_new)
y_over = model_overfit.predict(X_new)
y_good = model_goodfit.predict(X_new)

plt.scatter(X, y, s=10)
plt.plot(X_new, y_under, 'r-', label="Underfitting (Derajat 1)")
plt.plot(X_new, y_over, 'g-', label="Overfitting (Derajat 30)")
plt.plot(X_new, y_good, 'b-', label="Good Fit (Derajat 2)")
plt.legend()
plt.ylim(top=12)
plt.show()

**Analisis Plot:**
* **Merah (Underfitting):** Garis lurus terlalu sederhana untuk menangkap pola melengkung dari data.
* **Hijau (Overfitting):** Garis yang berliku-liku ini mencoba melewati setiap titik data, termasuk noise. Ia akan sangat buruk jika diberi data baru.
* **Biru (Good Fit):** Garis ini menangkap tren umum dari data tanpa harus menghafal noise.

## 4. Testing dan Validasi

Bagaimana kita tahu seberapa baik sebuah model akan bekerja pada data baru? Jawabannya adalah dengan menguji.

Cara terbaik adalah membagi data Anda menjadi dua set: **training set** (untuk melatih model) dan **test set** (untuk menguji model). Error pada test set disebut *generalization error* dan memberikan estimasi seberapa baik performa model Anda di dunia nyata.

### Contoh Kode: Membagi Data

In [None]:
from sklearn.model_selection import train_test_split

# Misalkan kita punya data X dan y yang lebih besar
X_full = 6 * np.random.rand(200, 1) - 3
y_full = 0.5 * X_full**2 + X_full + 2 + np.random.randn(200, 1)

# Bagi data: 80% untuk training, 20% untuk testing
X_train, X_test, y_train, y_test = train_test_split(X_full, y_full, test_size=0.2, random_state=42)

print(f"Jumlah data training: {len(X_train)}")
print(f"Jumlah data testing: {len(X_test)}")

# Sekarang Anda akan melatih model HANYA pada X_train dan y_train,
# lalu mengujinya pada X_test dan y_test.
# Anda TIDAK PERNAH boleh melihat test set selama proses pengembangan model.