# Chapter 1: The Machine Learning Landscape

Bab ini membahas gambaran umum mengenai Machine Learning, mulai dari definisi dasar, alasan penggunaan, jenis-jenis sistem Machine Learning, hingga tantangan utama dalam pengembangan model.

Chapter ini berfungsi sebagai fondasi konseptual. Tujuannya bukan untuk mendalami algoritma secara matematis, melainkan untuk membangun cara berpikir yang benar tentang bagaimana sistem Machine Learning bekerja, bagaimana mereka belajar dari data, serta apa saja kesalahan umum yang perlu dihindari sebelum masuk ke tahap implementasi yang lebih kompleks.

## 1. Apa itu Machine Learning?

Machine Learning dapat dipahami sebagai pendekatan pemrograman di mana komputer meningkatkan performanya pada suatu tugas melalui pengalaman berupa data, tanpa perlu diprogram dengan aturan eksplisit.

Perbedaan utama dengan pemrograman tradisional adalah:
- Pada pemrograman tradisional, aturan ditulis secara manual
- Pada Machine Learning, aturan dipelajari secara otomatis dari data

Dengan kata lain, fokus utama Machine Learning adalah *learning from data*, bukan *coding rules*.

## 2. Mengapa Menggunakan Machine Learning?

Machine Learning digunakan ketika:
- Masalah terlalu kompleks untuk ditangani dengan aturan manual
- Tidak ada algoritma eksplisit yang diketahui
- Pola data berubah seiring waktu
- Kita ingin mengekstraksi pengetahuan dari data dalam jumlah besar

Contoh yang sering digunakan adalah spam filter. Pendekatan berbasis aturan akan sulit dipelihara karena pola spam terus berubah. Sebaliknya, sistem Machine Learning dapat beradaptasi secara otomatis dengan data baru.

![](Figure/figure1.2.png)

## 3. Contoh Penerapan Machine Learning 

Machine Learning digunakan dalam berbagai domain, antara lain:
- Klasifikasi gambar
- Pemrosesan bahasa alami
- Sistem rekomendasi
- Deteksi anomali
- Prediksi nilai numerik

Ragam aplikasi ini menunjukkan bahwa Machine Learning bukan satu teknik tunggal, melainkan kumpulan pendekatan yang dapat disesuaikan dengan karakteristik masalah.

## 4. Jenis-Jenis Sistem Machine Learning 

### 4.1 Supervised Learning

![](Figure/figure1.5.png)

Supervised Learning adalah jenis Machine Learning di mana data latih sudah dilengkapi dengan label atau jawaban yang benar. Model belajar dengan cara memetakan hubungan antara input dan output berdasarkan contoh-contoh tersebut.

Pendekatan ini banyak digunakan karena relatif mudah dipahami dan dievaluasi. Contoh paling umum dari supervised learning adalah klasifikasi dan regresi. Pada klasifikasi, model bertugas menentukan kelas dari sebuah data, misalnya email spam atau bukan spam. Pada regresi, model memprediksi nilai kontinu, seperti harga rumah atau suhu udara.

Supervised learning sangat efektif ketika data berlabel tersedia dalam jumlah cukup dan representatif.

---

### 4.2 Unsupervised Learning

![](Figure/figure1.7.png)

Berbeda dengan supervised learning, unsupervised learning bekerja dengan data yang tidak memiliki label. Tujuan utama dari pendekatan ini adalah menemukan struktur atau pola tersembunyi dalam data.

Contoh umum dari unsupervised learning adalah clustering, di mana data dikelompokkan berdasarkan kemiripan, serta dimensionality reduction, yang bertujuan menyederhanakan data tanpa kehilangan terlalu banyak informasi.

Unsupervised learning sering digunakan pada tahap eksplorasi data, ketika kita belum mengetahui struktur atau kategori yang ada di dalam dataset.

---

### 4.3 Semi-Supervised Learning

!![](Figure/figure1.11.png)

Semi-supervised learning merupakan pendekatan yang berada di antara supervised dan unsupervised learning. Pada pendekatan ini, hanya sebagian kecil data yang memiliki label, sementara sebagian besar data tidak berlabel.

Pendekatan ini sangat berguna dalam situasi nyata, di mana proses pelabelan data memerlukan waktu dan biaya yang besar. Dengan memanfaatkan data tidak berlabel, model tetap dapat meningkatkan performanya meskipun jumlah data berlabel terbatas.

---

### 4.4 Reinforcement Learning

![](Figure/figure1.12.png)
Reinforcement Learning merupakan pendekatan yang sangat berbeda dibandingkan supervised dan unsupervised learning. Pada Reinforcement Learning, sebuah agen belajar melalui interaksi langsung dengan lingkungan.

Agen akan melakukan aksi tertentu, menerima reward atau punishment, lalu menyesuaikan strateginya agar memperoleh reward maksimal dalam jangka panjang. Pendekatan ini banyak digunakan pada bidang robotika, game, dan sistem pengambilan keputusan otomatis.


## 5. Batch Learning vs Online Learning

Batch learning melatih model menggunakan seluruh dataset sekaligus dan tidak belajar setelah deployment.

Online learning melatih model secara bertahap seiring data baru datang, sehingga lebih adaptif terhadap perubahan data.

## 6. Instance-Based vs Model-Based Learning

Instance-based learning menyimpan data latih dan melakukan prediksi berdasarkan kemiripan.

Model-based learning membangun model matematis dari data dan menggunakan model tersebut untuk prediksi.

## 7. Contoh Model-Based Learning: GDP vs Life Satisfaction

Bagian ini mereproduksi contoh *model-based learning* dari buku yang menggunakan regresi linear untuk memodelkan hubungan antara GDP per kapita dan tingkat kepuasan hidup suatu negara.

Tujuan utama dari contoh ini bukan untuk menghasilkan prediksi yang benar secara absolut, melainkan untuk memperlihatkan bagaimana sebuah model Machine Learning dibangun, dilatih, dan digunakan untuk melakukan prediksi.

Contoh ini juga menunjukkan bahwa Machine Learning sering kali digunakan untuk menangkap tren global dari data yang bersifat tidak sempurna dan penuh variasi.


In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn.linear_model

# Load the data
oecd_bli = pd.read_csv("oecd_bli_2015.csv", thousands=',')
gdp_per_capita = pd.read_csv(
    "gdp_per_capita.csv",
    thousands=',',
    delimiter='\t',
    encoding='latin1',
    na_values="n/a"
)

# Prepare the data
country_stats = prepare_country_stats(oecd_bli, gdp_per_capita)
X = np.c_[country_stats["GDP per capita"]]
y = np.c_[country_stats["Life satisfaction"]]

# Visualize the data
country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction')
plt.show()

# Select a linear model
model = sklearn.linear_model.LinearRegression()

# Train the model
model.fit(X, y)

# Make a prediction for Cyprus
X_new = [[22587]]
print(model.predict(X_new))

### Interpretasi

Kode di atas menunjukkan alur kerja Machine Learning secara lengkap:
1. Memuat dan menyiapkan data
2. Memvisualisasikan hubungan antar variabel
3. Memilih model
4. Melatih model
5. Melakukan prediksi

Regresi linear digunakan sebagai contoh sederhana untuk menunjukkan bagaimana model mempelajari pola global dari data, bukan hanya menghafal contoh.

## 8. Tantangan Utama Machine Learning

Tantangan utama dalam Machine Learning meliputi:
- Data latih tidak cukup
- Data tidak representatif
- Data berkualitas rendah
- Overfitting
- Underfitting

Bab ini menekankan bahwa keberhasilan Machine Learning sering kali lebih ditentukan oleh kualitas data daripada kompleksitas algoritma.

## 9. Training, Validation, and Test Sets

Evaluasi model dilakukan dengan membagi data menjadi training set, validation set, dan test set.

Validation set digunakan untuk memilih model dan hyperparameter, sedangkan test set digunakan untuk mengukur performa akhir secara objektif.

## 10. No Free Lunch Theorem

Tidak ada satu algoritma yang selalu terbaik untuk semua masalah.

Setiap model membawa asumsi tertentu terhadap data. Oleh karena itu, pemilihan model harus dilakukan melalui evaluasi empiris, bukan asumsi semata.

## Closing Summary

Chapter 1 membangun pemahaman dasar mengenai Machine Learning, mulai dari definisi hingga tantangan praktis.

Bab ini mempersiapkan pembaca untuk bab-bab selanjutnya yang akan membahas proses Machine Learning secara lebih teknis dan mendalam, termasuk pengolahan data, pemodelan, dan evaluasi sistem secara end-to-end.