<a href="https://colab.research.google.com/github/fadhilahmad11/Hands-on-Machine-Learning-with-Scikit-Learn-TensorFlow-Tugas-Machine-LearningW8-W16/blob/main/Chapter_01_The_Machine_Learning_Landscape.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 1: The Machine Learning Landscape
---
## Pendahuluan

Laporan ini disusun untuk memenuhi tugas perbaikan nilai pada mata kuliah *Machine Learning and Deep Learning*.Laporan ini akan berfokus pada penjelasan teoretis dari Bab 1 buku "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" oleh Aurélien Géron.Bab ini tidak berfokus pada implementasi kode, melainkan pada pemahaman konseptual dan lanskap umum dari Machine Learning (ML).Tujuannya adalah untuk membangun fondasi pemahaman yang kuat mengenai apa itu Machine Learning, mengapa ia penting, berbagai jenis sistem ML, tantangan utama yang dihadapi, serta alur kerja proyek ML pada umumnya.

## Pembahasan Teoretis Chapter 1

### 1. Apa Itu Machine Learning?
*Machine Learning* (ML) adalah ilmu yang memprogram komputer agar dapat belajar dari data.Berbeda dengan pemrograman tradisional di mana kita menulis aturan eksplisit, ML memungkinkan sistem untuk belajar secara mandiri dari pola yang ada pada data.
Definisi yang lebih formal dikemukakan oleh Tom Mitchell (1997): "Sebuah program komputer dikatakan belajar dari pengalaman E sehubungan dengan beberapa tugas T dan ukuran kinerja P, jika kinerjanya pada T, yang diukur dengan P, meningkat dengan pengalaman E.".
Sebagai contoh, sebuah *spam filter* adalah program ML:
***Tugas (T):** Menandai email baru sebagai spam atau bukan.
***Pengalaman (E):** Data latih yang berisi contoh email spam dan non-spam ("ham").
***Kinerja (P):** Rasio email yang diklasifikasikan dengan benar (akurasi).

### 2. Mengapa Menggunakan Machine Learning?

Penggunaan ML sangat bermanfaat untuk beberapa jenis masalah:
***Masalah Kompleks Tanpa Solusi Algoritmik:** Untuk masalah yang terlalu rumit untuk pendekatan pemrograman tradisional, atau yang tidak memiliki algoritma yang diketahui, teknik ML terbaik mungkin dapat menemukan solusi.Contohnya adalah pengenalan suara (*speech recognition*).
***Masalah yang Memerlukan Banyak Aturan Manual:** ML dapat menyederhanakan kode dan seringkali berkinerja lebih baik daripada sistem berbasis aturan yang panjang dan kompleks.Contoh klasiknya adalah *spam filter*, yang dapat beradaptasi dengan trik-trik baru dari *spammer* secara otomatis tanpa perlu menulis ulang aturan secara manual.
***Lingkungan yang Fluktuatif:** Sistem ML dapat beradaptasi dengan data baru secara mandiri, membuatnya ideal untuk lingkungan yang terus berubah.
***Mendapatkan Wawasan dari Data:** ML dapat membantu manusia memahami pola-pola yang tidak terlihat dalam data dalam jumlah besar, sebuah proses yang dikenal sebagai *data mining*.

### 3. Jenis-Jenis Sistem Machine Learning
Sistem ML dapat diklasifikasikan berdasarkan beberapa kriteria utama:

#### **Berdasarkan Supervisi Pelatihan:**
***Supervised Learning:** Algoritma diberikan data latih yang sudah memiliki label atau solusi yang diinginkan.Tugas paling umum adalah **klasifikasi** (seperti *spam filter*) dan **regresi** (memprediksi nilai numerik, seperti harga rumah).
***Unsupervised Learning:** Data latih yang diberikan tidak memiliki label.Sistem mencoba belajar tanpa "guru".Tugas utamanya meliputi **clustering** (mengelompokkan data serupa), **anomaly detection** (mendeteksi transaksi aneh), **visualization and dimensionality reduction** (menyederhanakan data tanpa kehilangan banyak informasi), dan **association rule learning** (menemukan hubungan antar atribut).
***Semisupervised Learning:** Algoritma ini menangani data yang sebagian besar tidak berlabel, dengan hanya sebagian kecil data yang berlabel.Contohnya adalah Google Photos, yang mengelompokkan wajah secara otomatis (bagian *unsupervised*) dan kemudian hanya membutuhkan satu label per orang dari pengguna untuk menamai semua foto (bagian *supervised*).
***Reinforcement Learning:** Sistem yang disebut *agent* belajar dengan mengamati lingkungan, memilih dan melakukan tindakan, dan sebagai imbalannya menerima *rewards* (penghargaan) atau *penalties* (hukuman).Tujuannya adalah untuk mempelajari strategi terbaik (*policy*) untuk mendapatkan *reward* terbesar dari waktu ke waktu.

#### **Berdasarkan Kemampuan Belajar Inkremental:**
***Batch Learning:** Sistem dilatih menggunakan semua data yang tersedia sekaligus (*offline*).Ia tidak dapat belajar secara bertahap.Untuk belajar dari data baru, sistem harus dilatih ulang dari awal dengan data set lengkap.
***Online Learning:** Sistem dilatih secara bertahap dengan memberinya data secara sekuensial, baik satu per satu atau dalam kelompok kecil yang disebut *mini-batches*.Ini sangat berguna untuk sistem yang perlu beradaptasi dengan cepat atau dilatih pada dataset yang sangat besar yang tidak muat dalam memori (*out-of-core learning*).

#### **Berdasarkan Cara Generalisasi:**
***Instance-Based Learning:** Sistem mempelajari contoh-contoh data latih dengan "menghafalnya".Ketika dihadapkan pada instance baru, ia menggunakan ukuran kesamaan untuk membandingkannya dengan contoh yang telah dipelajari untuk membuat prediksi.
***Model-Based Learning:** Sistem ini membangun sebuah model prediktif dari contoh-contoh data latih, kemudian menggunakan model tersebut untuk membuat prediksi.Ini adalah pendekatan yang paling umum, di mana alur kerjanya meliputi pemilihan model, melatihnya pada data latih (yaitu, algoritma mencari parameter model yang meminimalkan *cost function*), dan akhirnya menerapkannya untuk membuat prediksi pada kasus baru (*inference*).

### 4. Tantangan Utama dalam Machine Learning
Terdapat dua hal utama yang bisa salah dalam proyek ML: "algoritma yang buruk" dan "data yang buruk".

***Kuantitas Data Latih yang Tidak Cukup:** Sebagian besar algoritma ML membutuhkan banyak data untuk dapat bekerja dengan baik.Untuk masalah kompleks, mungkin diperlukan jutaan contoh.
***Data Latih yang Tidak Representatif:** Data latih harus mewakili kasus-kasus baru yang ingin digeneralisasi. Jika tidak, model yang dilatih tidak akan membuat prediksi yang akurat.Hal ini bisa terjadi karena *sampling noise* (data non-representatif akibat kebetulan pada sampel kecil) atau *sampling bias* (metode sampling yang cacat).
***Kualitas Data yang Buruk:** Jika data latih penuh dengan error, *outlier*, atau *noise*, akan sulit bagi sistem untuk mendeteksi pola yang mendasarinya.Membersihkan data adalah bagian penting dari pekerjaan seorang *data scientist*.
***Fitur yang Tidak Relevan:** Sistem hanya akan mampu belajar jika data latih berisi cukup banyak fitur yang relevan dan tidak terlalu banyak yang tidak relevan.Proses ini disebut *feature engineering*, yang mencakup *feature selection* dan *feature extraction*.
***Overfitting:** Terjadi ketika model bekerja sangat baik pada data latih, tetapi tidak dapat menggeneralisasi dengan baik pada data baru.Hal ini terjadi jika model terlalu kompleks relatif terhadap jumlah dan tingkat *noise* pada data latih.Solusinya adalah dengan menyederhanakan model, mengumpulkan lebih banyak data, atau mengurangi *noise*.Membatasi model untuk membuatnya lebih sederhana disebut **regularization**.
* **Underfitting:** Ini adalah kebalikan dari *overfitting*.Terjadi ketika model terlalu sederhana untuk mempelajari struktur data yang mendasarinya.Akibatnya, prediksi tidak akurat, bahkan pada data latih.Solusinya adalah dengan memilih model yang lebih kuat, merekayasa fitur yang lebih baik, atau mengurangi batasan pada model.

### 5. Pengujian dan Validasi

Setelah melatih sebuah model, penting untuk mengevaluasi seberapa baik ia dapat menggeneralisasi ke data baru.
***Training Set & Test Set:** Cara standar adalah dengan membagi data menjadi dua set: **training set** untuk melatih model, dan **test set** untuk mengujinya.Error pada *test set* disebut *generalization error* dan memberikan perkiraan tentang kinerja model pada data yang belum pernah dilihatnya.
***Validation Set:** Ketika perlu memilih di antara beberapa model atau menyetel *hyperparameter*, menggunakan *test set* dapat menyebabkan *overfitting* pada *test set* itu sendiri.Solusi umumnya adalah dengan menyisihkan sebagian dari *training set* menjadi **validation set** (atau *dev set*).Model-model kandidat dilatih pada *training set* yang lebih kecil dan dievaluasi pada *validation set*.Model terbaik kemudian dilatih kembali pada *training set* penuh (termasuk *validation set*) sebelum akhirnya dievaluasi sekali pada *test set*.