<a href="https://colab.research.google.com/github/Abi-Lowkey/Introduction-to-Machine-Learning-with-Python-Books/blob/main/BAB%202/BAB_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Bab 2: Supervised Learning**

**1. Tujuan**

Bab ini membahas secara mendalam pembelajaran terawasi, termasuk algoritma Bab ini bertujuan untuk memberikan pemahaman yang mendalam tentang pembelajaran terawasi (supervised learning), yang merupakan salah satu pendekatan utama dalam pembelajaran mesin. Fokus utama bab ini adalah pada algoritma-algoritma populer seperti k-Nearest Neighbors (k-NN), model linear (linear models), dan pohon keputusan (decision trees), serta penerapannya dalam berbagai kasus nyata. Selain itu, bab ini juga mengupas konsep-konsep fundamental yang sangat penting dalam proses pengembangan model, seperti overfitting (model terlalu kompleks sehingga mengikuti data latih secara berlebihan) dan underfitting (model terlalu sederhana sehingga gagal menangkap pola dari data). Tujuan akhirnya adalah membantu pembaca memahami cara memilih algoritma yang tepat dan menghindari jebakan umum dalam pengembangan model pembelajaran mesin.

2. Implementasi Kode

In [1]:
# Import fungsi dan modul yang dibutuhkan dari scikit-learn

# Fungsi load_iris digunakan untuk memuat dataset Iris, yang merupakan dataset klasik
# yang sering digunakan untuk masalah klasifikasi dalam pembelajaran mesin.
from sklearn.datasets import load_iris

# Fungsi train_test_split digunakan untuk membagi dataset menjadi data latih (training)
# dan data uji (testing) secara acak. Hal ini penting untuk mengevaluasi kinerja model
# secara objektif pada data yang belum pernah dilihat oleh model.
from sklearn.model_selection import train_test_split

# KNeighborsClassifier adalah algoritma k-Nearest Neighbors (k-NN) untuk klasifikasi.
# Algoritma ini memprediksi kelas suatu data berdasarkan kedekatan data tersebut
# dengan sejumlah k tetangga terdekat di ruang fitur.
from sklearn.neighbors import KNeighborsClassifier


In [2]:
# Memuat dataset Iris menggunakan fungsi load_iris() dari scikit-learn.
# Dataset Iris berisi data tentang tiga spesies bunga dengan fitur panjang dan lebar kelopak serta mahkota.
iris = load_iris()

# Membagi dataset menjadi data latih (X_train, y_train) dan data uji (X_test, y_test).
# X_train dan y_train adalah data yang digunakan untuk melatih model.
# X_test dan y_test adalah data yang digunakan untuk menguji model setelah pelatihan.
# random_state=0 memastikan pembagian data tetap konsisten setiap kali kode dijalankan.
X_train, X_test, y_train, y_test = train_test_split(
    iris['data'], iris['target'], random_state=0
)


In [3]:
# Membuat model k-Nearest Neighbors (k-NN) dengan jumlah tetangga terdekat (k) = 3
# Artinya, model akan memprediksi label berdasarkan 3 tetangga terdekat dalam ruang fitur.
knn = KNeighborsClassifier(n_neighbors=3)

# Melatih model k-NN menggunakan data latih (X_train dan y_train).
# Proses ini akan memungkinkan model mempelajari pola hubungan antara fitur (X_train) dan label (y_train).
knn.fit(X_train, y_train)


In [4]:
# Mengevaluasi model k-NN dengan mengukur akurasi pada data uji (X_test dan y_test).
# Metode .score() menghitung proporsi prediksi yang benar (akurasi) dibandingkan dengan label asli.
accuracy = knn.score(X_test, y_test)

# Menampilkan akurasi model k-NN pada data uji.
# Ini memberikan gambaran seberapa baik model dapat menggeneralisasi dari data latih ke data yang belum pernah dilihat sebelumnya.
print("Akurasi k-NN:", accuracy)


Akurasi k-NN: 0.9736842105263158


**2.2 Logistic Regression (Regresi Logistik)**

In [5]:
# Mengimpor kelas LogisticRegression dari library scikit-learn.
# LogisticRegression adalah algoritma pembelajaran mesin untuk klasifikasi yang menggunakan model regresi logistik.
# Algoritma ini digunakan untuk memprediksi probabilitas suatu kelas dalam masalah klasifikasi biner atau multi-kelas.
from sklearn.linear_model import LogisticRegression


In [6]:
# Membuat model regresi logistik dengan parameter max_iter=200.
# max_iter=200 menentukan jumlah maksimum iterasi yang digunakan oleh algoritma
# untuk menemukan solusi konvergen. Ini berguna untuk masalah yang lebih kompleks
# yang mungkin memerlukan lebih banyak iterasi untuk konvergen.
logreg = LogisticRegression(max_iter=200)

# Melatih model regresi logistik menggunakan data latih (X_train dan y_train).
# Proses ini memungkinkan model untuk mempelajari hubungan antara fitur dan label
# dengan meminimalkan fungsi kehilangan (loss function) untuk menghasilkan prediksi yang baik.
logreg.fit(X_train, y_train)


In [7]:
# Mengevaluasi model regresi logistik dengan menghitung akurasi pada data uji (X_test dan y_test).
# Fungsi .score() akan membandingkan hasil prediksi dengan label asli untuk menghitung akurasi.
accuracy = logreg.score(X_test, y_test)

# Menampilkan akurasi model regresi logistik pada data uji.
# Ini memberikan gambaran seberapa baik model dalam menggeneralisasi dan memprediksi label untuk data baru yang belum pernah dilihat sebelumnya.
print("Akurasi Logistic Regression:", accuracy)


Akurasi Logistic Regression: 0.9736842105263158


**2.3 Decision Tree (Pohon Keputusan)**

In [8]:
# Mengimpor kelas DecisionTreeClassifier dari library scikit-learn.
# DecisionTreeClassifier adalah algoritma pembelajaran mesin yang membangun model klasifikasi menggunakan pohon keputusan.
# Algoritma ini bekerja dengan membagi data berdasarkan fitur untuk membuat keputusan yang paling optimal di setiap langkah.
# Pohon keputusan sangat mudah dipahami dan diinterpretasikan.
from sklearn.tree import DecisionTreeClassifier


In [9]:
# Membuat model pohon keputusan (Decision Tree) dengan parameter max_depth=3.
# max_depth=3 membatasi kedalaman pohon keputusan agar tidak terlalu dalam, yang membantu mencegah overfitting.
# random_state=0 memastikan hasil yang konsisten setiap kali kode dijalankan (untuk reprodusibilitas).
tree = DecisionTreeClassifier(max_depth=3, random_state=0)

# Melatih model pohon keputusan menggunakan data latih (X_train dan y_train).
# Proses ini akan membangun pohon keputusan dengan memilih fitur yang terbaik untuk membagi data pada setiap level pohon.
tree.fit(X_train, y_train)


In [10]:
# Mengevaluasi model pohon keputusan dengan menghitung akurasi pada data uji (X_test dan y_test).
# Fungsi .score() akan membandingkan hasil prediksi dari model dengan label asli pada data uji untuk menghitung akurasi.
accuracy = tree.score(X_test, y_test)

# Menampilkan akurasi model pohon keputusan pada data uji.
# Ini memberikan gambaran tentang seberapa baik model dalam menggeneralisasi dan memprediksi label untuk data yang belum pernah dilihat sebelumnya.
print("Akurasi Decision Tree:", accuracy)


Akurasi Decision Tree: 0.9736842105263158


 2.4 Support Vector Machine (SVM)

In [11]:
# Mengimpor kelas Support Vector Classifier (SVC) dari library scikit-learn.
# SVC adalah algoritma klasifikasi yang menggunakan konsep Support Vector Machine (SVM).
# SVM berusaha menemukan hyperplane terbaik yang memisahkan kelas-kelas dalam ruang fitur.
# SVC digunakan untuk klasifikasi biner maupun multi-kelas, dengan kemampuan untuk menangani data non-linear menggunakan kernel.
from sklearn.svm import SVC


In [12]:
# Membuat model Support Vector Machine (SVM) dengan kernel linear.
# Kernel linear berarti model akan mencoba mencari hyperplane linear yang memisahkan kelas-kelas dalam ruang fitur.
# Kernel ini cocok digunakan ketika data dapat dipisahkan dengan garis lurus (linear separability).
svm = SVC(kernel='linear')

# Melatih model SVM dengan data latih (X_train dan y_train).
# Proses ini melibatkan pencarian hyperplane terbaik yang memisahkan data berdasarkan kelas-kelas yang ada.
svm.fit(X_train, y_train)


In [13]:
# Mengevaluasi model SVM dengan menghitung akurasi pada data uji (X_test dan y_test).
# Fungsi .score() menghitung seberapa baik model dapat memprediksi label dengan membandingkan hasil prediksi terhadap label asli pada data uji.
accuracy = svm.score(X_test, y_test)

# Menampilkan akurasi model SVM pada data uji.
# Ini menunjukkan seberapa baik model SVM dengan kernel linear dalam menggeneralisasi pada data yang belum pernah dilihat sebelumnya.
print("Akurasi SVM:", accuracy)


Akurasi SVM: 0.9736842105263158


### 3.1 Konsep Dasar Supervised Learning
Supervised learning adalah metode pembelajaran di mana model dilatih dengan menggunakan data yang sudah memiliki label yang diketahui. Data ini terdiri dari pasangan input-output, di mana input berupa fitur atau variabel yang digunakan untuk membuat prediksi, dan output berupa label atau kategori yang ingin diprediksi. Tujuan dari supervised learning adalah untuk membangun model yang dapat memprediksi label pada data yang belum terlihat sebelumnya, dengan cara mempelajari pola yang ada dalam data pelatihan.

### 3.2 Overfitting dan Underfitting
- **Overfitting**: Overfitting terjadi ketika model terlalu kompleks, misalnya dengan banyaknya parameter atau kedalaman pohon keputusan yang tinggi. Model akan "menghapal" data pelatihan dengan sangat baik, tetapi tidak dapat menggeneralisasi dengan baik pada data uji yang baru. Hal ini sering menyebabkan akurasi yang sangat tinggi pada data pelatihan tetapi rendah pada data uji.
  
- **Underfitting**: Underfitting terjadi ketika model terlalu sederhana atau tidak cukup kompleks untuk menangkap pola-pola penting dalam data. Model gagal mempelajari hubungan antara input dan output dengan baik, yang mengakibatkan prediksi yang buruk, baik pada data pelatihan maupun data uji.

### 3.3 Model-Model yang Dibahas
- **k-NN (k-Nearest Neighbors)**: Algoritma ini bekerja dengan mencari k tetangga terdekat dari data yang akan diprediksi dalam ruang fitur. Prediksi dilakukan berdasarkan mayoritas label dari tetangga tersebut. k-NN cocok digunakan untuk dataset kecil dan sederhana karena tidak memerlukan pelatihan eksplisit dan hasilnya sangat bergantung pada ukuran dan distribusi data.

- **Logistic Regression**: Logistic Regression adalah model klasifikasi yang menggunakan fungsi logistik untuk memetakan output ke dalam nilai probabilitas. Model ini efektif dalam klasifikasi biner, dan bekerja dengan baik jika hubungan antara fitur dan label dapat dijelaskan dengan garis linear.

- **Decision Tree**: Decision Tree adalah model yang membagi data menjadi subset berdasarkan fitur tertentu untuk memudahkan klasifikasi. Proses pembagian data ini berlanjut hingga pohon keputusan mencapai kedalaman yang diinginkan atau kriteria penghentian lainnya. Meskipun fleksibel dan mudah dipahami, decision tree rentan terhadap overfitting, terutama pada data dengan banyak fitur.

- **SVM (Support Vector Machine)**: SVM adalah algoritma yang mencari hyperplane terbaik untuk memisahkan kelas dalam ruang fitur. SVM sangat efektif dalam menangani data yang kompleks dan memiliki margin pemisahan yang jelas antar kelas, meskipun dalam kasus data non-linear, SVM dapat menggunakan kernel untuk meningkatkan fleksibilitas model.

### 4. Insight & Ringkasan
- **Keunggulan dan Kekurangan Algoritma Supervised Learning**:
  - **k-NN** cocok digunakan untuk dataset kecil dengan struktur yang sederhana dan dapat berfungsi dengan baik pada masalah klasifikasi yang tidak memerlukan pelatihan model yang kompleks.
  - **Logistic Regression** efektif untuk dataset dengan hubungan linear antara fitur dan label, serta sangat efisien untuk masalah klasifikasi biner.
  - **Decision Tree** menawarkan fleksibilitas dalam menangani data dengan berbagai bentuk dan jenis fitur, tetapi dapat rentan terhadap overfitting jika tidak dibatasi kedalamannya.
  - **SVM** sangat kuat dalam menangani data dengan pemisahan kelas yang kompleks, dan dapat bekerja dengan baik meskipun data tidak linear dengan menggunakan kernel yang sesuai.

- **Pemilihan Algoritma**: Pemilihan algoritma yang tepat sangat bergantung pada sifat data yang dimiliki, ukuran dataset, dan kompleksitas hubungan antar fitur dan label. Kebutuhan aplikasi juga memainkan peran penting dalam menentukan algoritma yang paling sesuai, misalnya, kecepatan eksekusi, interpretabilitas model, dan kemampuan untuk menangani data yang besar.