<a href="https://colab.research.google.com/github/Abi-Lowkey/Introduction-to-Machine-Learning-with-Python-Books/blob/main/BAB%206/Bab_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Bab 6: Algorithm Chains and Pipelines**

## **1. Tujuan**  
Bab ini menjelaskan cara merangkai berbagai langkah preprocessing data dan penerapan model machine learning ke dalam satu alur kerja terintegrasi menggunakan **pipeline**. Dengan pipeline, seluruh proses mulai dari transformasi data hingga pelatihan model dapat dilakukan secara otomatis, konsisten, dan efisien. Hal ini tidak hanya menyederhanakan workflow, tetapi juga membantu mengurangi risiko kesalahan akibat langkah preprocessing yang terpisah-pisah atau tidak konsisten. Pipeline sangat berguna untuk mengelola data yang kompleks dan memungkinkan replikasi proses dengan mudah pada dataset baru.

## 2. Implementasi Kode
### 2.1 Membuat Pipeline

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# Membuat pipeline dengan scaler untuk normalisasi data dan SVM sebagai model klasifikasi
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Langkah pertama: Normalisasi data menggunakan StandardScaler
    ('svm', SVC(kernel='linear'))  # Langkah kedua: Model SVM dengan kernel linear
])

# Data sederhana yang diubah dengan X berisi 2 fitur dan y berisi label kelas
X = [[5.1, 3.5], [4.9, 3.0], [6.2, 2.8], [5.8, 2.7]]  # Contoh data fitur (misalnya panjang dan lebar sepal)
y = [0, 0, 1, 1]  # Label kelas, di mana 0 dan 1 mewakili dua kategori

# Melatih pipeline pada data X dan y
pipeline.fit(X, y)  # Pipeline secara otomatis menjalankan scaler pada data sebelum melatih model
print("Model berhasil dilatih dengan pipeline.")  # Output bahwa pipeline telah berhasil dibuat dan digunakan


Model berhasil dilatih dengan pipeline.


In [6]:
from sklearn.model_selection import GridSearchCV  # Mengimpor GridSearchCV dari sklearn.model_selection untuk mencari kombinasi hyperparameter terbaik dengan cross-validation

# Parameter grid untuk pipeline  # Mendefinisikan ruang pencarian untuk hyperparameter dalam pipeline
param_grid = {
    'svm__C': [0.1, 1, 10],  # Parameter C adalah parameter regularisasi dalam model SVM yang mengontrol kompleksitas model. Nilai kecil (misalnya 0.1) akan membuat model lebih sederhana, sementara nilai besar (misalnya 10) membuat model lebih kompleks.
    'svm__gamma': [0.1, 1, 10]  # Parameter gamma mengontrol seberapa besar pengaruh data latih terhadap keputusan model. Nilai kecil (misalnya 0.1) memberikan pengaruh yang lebih luas, sedangkan nilai besar (misalnya 10) membuat model lebih sensitif terhadap data latih.
}


In [8]:
# Grid search dengan pipeline  # Menggunakan GridSearchCV untuk mencari hyperparameter terbaik dalam pipeline dengan cross-validation
grid = GridSearchCV(pipeline, param_grid, cv=2)  # Mengubah cv menjadi 2 atau lebih kecil dari jumlah sampel data
grid.fit(X, y)  # Melatih grid search dengan data X dan target y untuk mencari kombinasi hyperparameter terbaik

# Menampilkan hasil grid search  # Menampilkan parameter terbaik yang ditemukan dan skor cross-validation terbaik
print("Best parameters:", grid.best_params_)  # Mencetak parameter terbaik yang dipilih GridSearchCV
print("Best cross-validation score:", grid.best_score_)  # Mencetak skor validasi silang terbaik untuk parameter terbaik

Best parameters: {'svm__C': 0.1, 'svm__gamma': 0.1}
Best cross-validation score: 1.0


## **3. Penjelasan Teoritis**
- **Pipeline**: Merupakan konsep yang sangat berguna dalam machine learning karena memungkinkan untuk menggabungkan semua langkah yang diperlukan (seperti preprocessing, pemodelan, dan evaluasi) ke dalam satu objek yang terintegrasi. Hal ini memungkinkan kita untuk menjaga alur kerja tetap konsisten dan terstruktur. Dengan menggunakan pipeline, Anda dapat memastikan bahwa setiap langkah diproses dengan cara yang sama, baik pada data training maupun testing. Ini juga mengurangi kemungkinan terjadinya kebocoran data dari data testing ke data training, karena pipeline menangani proses-proses tersebut dengan urutan yang benar.
  
- **Parameter Grid dalam Pipeline**: Ketika menggunakan GridSearchCV dalam pipeline, kita harus menggunakan penamaan tahap untuk merujuk ke parameter model atau preprocessing yang ingin dicari nilainya. Misalnya, pada `svm__C` dan `svm__gamma`, "svm" merujuk pada tahap SVM dalam pipeline, dan `C` serta `gamma` adalah parameter dari model SVM yang ingin kita optimalkan. GridSearchCV secara otomatis akan mencoba berbagai kombinasi parameter yang kita tentukan dalam `param_grid` dan memilih yang terbaik berdasarkan evaluasi cross-validation.

- **Keuntungan Pipeline**:
  - **Mengurangi duplikasi kode**: Semua langkah, mulai dari preprocessing hingga modeling, dapat digabungkan dalam satu pipeline, mengurangi kebutuhan untuk menulis kode yang berulang untuk preprocessing data pada setiap langkah.
  - **Memastikan data test tidak terkontaminasi preprocessing dari data training**: Salah satu risiko dalam machine learning adalah data test yang bisa saja terpengaruh oleh data training jika langkah preprocessing tidak dilakukan dengan benar. Pipeline memastikan bahwa data test tidak akan terpengaruh oleh proses preprocessing pada data training, sehingga model tetap dapat diuji dengan cara yang valid.

## 4. Insight & Ringkasan
- **Pipeline** mempermudah pengelolaan langkah preprocessing dan model dalam satu workflow, membuat seluruh proses menjadi lebih efisien dan terstruktur.
- **Menggunakan GridSearch dengan pipeline** meningkatkan efisiensi dalam mencari hyperparameter terbaik karena GridSearchCV akan bekerja dengan baik di dalam pipeline, memanfaatkan evaluasi cross-validation secara otomatis.
- Bab ini mengajarkan cara membangun alur kerja yang lebih bersih dan mudah untuk dikelola dalam proyek machine learning, di mana setiap tahap diatur dengan baik untuk menghasilkan model yang optimal dan terhindar dari kesalahan dalam pengolahan data.