# Pertemuan 14 - Arsitektur Model Machine Learning

## Capaian Pembelajaran
> Mampu merancang arsitektur model machine learning yang paling sesuai dengan kebutuhan spesifik, termasuk pemilihan fitur, algoritma, dan parameter yang optimal.

## Pokok Bahasan
1. Arsitektur Machine Learning
2. Teknik Pemilihan Fitur
3. Teknik Pemilihan Algoritma
4. Teknik Evaluasi
5. Optimasi Parameter
6. Dasar Deployment

## 1. Arsitektur Machine Learning
Arsitektur machine learning mencakup desain dan struktur sistem yang mengelola aliran data, pemrosesan, dan prediksi dari model machine learning. Berikut adalah penjelasan tentang arsitektur machine learning secara umum:

#### 1.1. Pengumpulan Data
Proses ini melibatkan pengumpulan data dari berbagai sumber, seperti database, file, API, atau streaming data. Data ini harus relevan dengan masalah yang ingin diselesaikan dan berkualitas tinggi.

#### 1.2. Pra-Pemrosesan Data
Data yang dikumpulkan biasanya memerlukan pra-pemrosesan sebelum dapat digunakan untuk pelatihan model. Langkah-langkah pra-pemrosesan meliputi:
- Pembersihan Data: Menghapus atau memperbaiki data yang hilang, duplikat, atau tidak konsisten.
- Transformasi Data: Normalisasi atau standarisasi fitur untuk memastikan skala data konsisten.
- Pengkodean Data Kategorikal: Mengonversi fitur kategorikal menjadi format numerik.
- Pembagian Data: Membagi data menjadi subset pelatihan, validasi, dan pengujian.

#### 1.3. Pemilihan Model
Memilih algoritma machine learning yang sesuai berdasarkan jenis masalah (klasifikasi, regresi, clustering, dll.) dan kriteria pemilihan model (kinerja, kecepatan, interpretabilitas, dll.).

#### 1.4. Pelatihan Model
Melatih model dengan menggunakan data pelatihan. Selama pelatihan, model belajar untuk mengidentifikasi pola dalam data. Proses ini melibatkan:
- Optimasi: Menggunakan algoritma optimisasi seperti Gradient Descent untuk memperbarui parameter model.
- Validasi: Menggunakan data validasi untuk menghindari overfitting dan memilih hyperparameter terbaik.

#### 1.5. Evaluasi Model
Setelah pelatihan, model diuji menggunakan data pengujian untuk mengevaluasi kinerjanya. Metrik evaluasi yang umum termasuk akurasi, precision, recall, F1-score, dan AUC-ROC untuk masalah klasifikasi, serta mean squared error (MSE) dan R² untuk regresi.

#### 1.6. Tuning Hyperparameter
Menyesuaikan hyperparameter model untuk meningkatkan kinerja. Ini sering dilakukan dengan teknik seperti grid search atau random search.

#### 1.7. Deploy dan Integrasi
Mengimplementasikan model ke lingkungan produksi, di mana model dapat digunakan untuk prediksi dengan data baru. Ini melibatkan integrasi model dengan sistem yang ada, serta pengaturan pipeline otomatis untuk inferensi.

#### 1.8. Monitoring dan Pemeliharaan
Memantau kinerja model di lingkungan produksi dan melakukan pembaruan atau retrain model secara berkala untuk memastikan bahwa model tetap relevan dan akurat.

___

##### Arsitektur Machine Learning Berbasis Deep Learning
##### Arsitektur Jaringan Saraf
- Jaringan Saraf Feedforward: Termasuk layer input, hidden layers, dan output layer. Data mengalir dalam satu arah dari input ke output.
- Jaringan Saraf Konvolusi (CNN): Digunakan terutama untuk pengolahan citra dan video, mengintegrasikan layer konvolusi, pooling, dan fully connected layers.
- Jaringan Saraf Rekuren (RNN): Digunakan untuk data sekuensial, seperti teks dan time series, dengan kemampuan untuk menangkap ketergantungan temporal.
- Transformers: Arsitektur yang populer untuk pemrosesan bahasa alami (NLP), menggunakan mekanisme perhatian (attention) untuk menangkap hubungan antar kata dalam kalimat.

##### Pipeline Deep Learning
- Preprocessing: Melakukan transformasi data khusus untuk deep learning, seperti augmentasi citra.
- Training: Menggunakan teknik khusus seperti backpropagation untuk melatih jaringan saraf dengan data besar.
- Evaluation: Metrik evaluasi khusus untuk deep learning, termasuk loss function yang relevan dengan task (cross-entropy untuk klasifikasi, MSE untuk regresi).
- Deployment: Mengintegrasikan model deep learning ke dalam aplikasi dengan efisiensi dan skalabilitas.

##### Arsitektur Machine Learning dalam Skala Besar
- Data Pipeline: Mengelola aliran data besar dengan menggunakan alat dan platform seperti Apache Kafka, Apache Spark, dan Google Dataflow.
- Training dan Inferensi di Cloud: Menggunakan layanan cloud seperti AWS SageMaker, Google AI Platform, dan Azure Machine Learning untuk pelatihan dan inferensi skala besar dengan dukungan GPU/TPU.
- Model Management: Mengelola versi model, metadata, dan artefak model menggunakan platform seperti MLflow, DVC, atau ModelDB.
- Scalability dan Distributed Training: Memanfaatkan teknik pelatihan terdistribusi dan parallel untuk mempercepat pelatihan model pada dataset besar dan infrastruktur komputasi besar.

Arsitektur machine learning yang efektif mengintegrasikan semua elemen ini, dari pengumpulan data hingga deployment dan pemeliharaan, untuk membangun sistem yang kuat dan skalabel yang dapat memberikan wawasan dan prediksi yang berharga.
___

## 2. Teknik Pemilihan Fitur
Pemilihan fitur (feature selection) adalah proses penting dalam machine learning yang bertujuan untuk memilih subset fitur yang paling relevan dari data untuk digunakan dalam membangun model. Teknik pemilihan fitur membantu meningkatkan kinerja model, mengurangi overfitting, dan mengurangi waktu pelatihan. Berikut adalah berbagai teknik pemilihan fitur yang sering digunakan:


#### a. Filter Methods
Filter methods menilai fitur secara individual dan memilih fitur berdasarkan metrik statistik. Teknik ini tidak melibatkan model pembelajaran mesin.
- Chi-Square Test: Mengukur ketergantungan antara fitur dan label target. Fitur yang memiliki nilai chi-square tinggi dianggap lebih relevan.
- Mutual Information: Mengukur seberapa besar ketergantungan informasi antara fitur dan label target. Fitur dengan mutual information tinggi dianggap lebih informatif.
- Correlation Coefficient: Mengukur kekuatan hubungan linier antara fitur dan label target. Fitur dengan korelasi tinggi dianggap lebih penting.
- ANOVA F-Value: Untuk fitur numerik dengan label kategorikal, ANOVA F-test mengukur variasi antar kelompok dibandingkan dengan variasi dalam kelompok.


#### b. Wrapper Methods
Wrapper methods menggunakan model pembelajaran mesin untuk menilai subset fitur. Ini melibatkan pelatihan model berulang kali dengan berbagai subset fitur.
- Forward Selection: Memulai dengan fitur kosong dan menambahkan fitur satu per satu yang paling meningkatkan kinerja model. Proses ini berhenti ketika penambahan fitur tidak meningkatkan kinerja secara signifikan.
- Backward Elimination: Memulai dengan semua fitur dan secara iteratif menghapus fitur yang paling sedikit mempengaruhi kinerja model. Proses ini berhenti ketika menghapus fitur mulai menurunkan kinerja model.
- Recursive Feature Elimination (RFE): Menggunakan model pembelajaran mesin untuk menghapus fitur yang kurang penting secara iteratif hingga mencapai jumlah fitur yang diinginkan.


#### c. Embedded Methods
Embedded methods mengintegrasikan pemilihan fitur sebagai bagian dari proses pelatihan model. Teknik ini sering melibatkan model yang secara otomatis memilih fitur yang relevan selama pelatihan.
- Lasso Regression (L1 Regularization): Menggunakan regularisasi L1 untuk memaksa beberapa koefisien fitur menjadi nol, sehingga secara otomatis memilih fitur yang lebih relevan.
- Decision Trees and Random Forests: Menggunakan pentingnya fitur yang dihitung berdasarkan bagaimana fitur membagi data pada node dalam pohon keputusan. Fitur yang sering digunakan untuk membuat pembagian signifikan dianggap lebih penting.
- Gradient Boosting Machines (GBM): Mengukur pentingnya fitur berdasarkan kontribusi fitur terhadap pengurangan kesalahan model dalam proses boosting.


#### Dimensionality Reduction
Teknik ini mengurangi jumlah fitur dengan mentransformasi data ke dalam dimensi yang lebih rendah, biasanya dengan menjaga informasi sebanyak mungkin.
- Principal Component Analysis (PCA): Mengurangi dimensi data dengan mentransformasikan fitur asli ke dalam komponen utama yang memiliki variansi terbesar. PCA menghasilkan fitur baru yang merupakan kombinasi linier dari fitur asli.
- Linear Discriminant Analysis (LDA): Mengurangi dimensi dengan memaksimalkan pemisahan antar kelas dalam data. LDA mencari kombinasi fitur yang memaksimalkan variansi antar kelas dan meminimalkan variansi dalam kelas.
- t-Distributed Stochastic Neighbor Embedding (t-SNE): Mengurangi dimensi data dengan mempertahankan struktur lokal data. Ini berguna untuk visualisasi data dengan dimensi tinggi.

#### Feature Engineering
Feature engineering melibatkan penciptaan fitur baru yang dapat lebih baik mewakili informasi dalam data.
- Interaction Terms: Membuat fitur baru yang merupakan hasil perkalian dari fitur yang ada untuk menangkap hubungan interaksi antara fitur.
- Polynomial Features: Membuat fitur baru dengan mengkuadratkan atau mengalikan fitur yang ada untuk menangkap hubungan non-linier.
- Binning: Mengelompokkan nilai fitur kontinu ke dalam bin diskret untuk menangkap informasi yang terlewatkan oleh model.


#### Domain Knowledge
Memanfaatkan pengetahuan domain untuk memilih fitur yang dianggap relevan berdasarkan pemahaman mendalam tentang masalah yang sedang dipecahkan.
- Expert Input: Mengandalkan ahli domain untuk memberikan wawasan tentang fitur mana yang dianggap penting.
- Manual Selection: Memilih fitur berdasarkan pengetahuan dan pengalaman dalam bidang yang relevan.

Teknik pemilihan fitur yang tepat bergantung pada jenis data, tujuan model, dan algoritma yang digunakan. Kombinasi dari beberapa teknik sering kali memberikan hasil terbaik dalam mengidentifikasi fitur yang paling relevan dan meningkatkan kinerja model machine learning.
___

## 3. Teknik Pemilihan Algoritma
Pemilihan algoritma dalam machine learning memerlukan pertimbangan yang lebih spesifik dibandingkan pemilihan algoritma pada umumnya. Berikut adalah beberapa teknik dan faktor yang perlu diperhatikan dalam pemilihan algoritma machine learning:

#### a. Tipe Masalah
Klasifikasi: Untuk masalah di mana tujuan utamanya adalah mengelompokkan data ke dalam kategori yang telah ditentukan, seperti Logistic Regression, Decision Trees, Random Forests, atau Support Vector Machines (SVM). Regresi: Untuk masalah di mana tujuan utamanya adalah memprediksi nilai numerik, seperti Linear Regression, Ridge Regression, atau Lasso. Clustering: Untuk mengelompokkan data yang tidak berlabel, seperti K-Means, DBSCAN, atau Hierarchical Clustering. Dimensionality Reduction: Untuk mengurangi jumlah fitur dalam data, seperti Principal Component Analysis (PCA) atau t-Distributed Stochastic Neighbor Embedding (t-SNE).

### b. Ukuran dan Jenis Data
Jumlah Data: Beberapa algoritma lebih cocok untuk dataset besar, seperti Neural Networks atau Gradient Boosting Machines. Algoritma lain seperti K-Nearest Neighbors (KNN) mungkin tidak efisien pada dataset yang sangat besar. Dimensionalitas: Data dengan banyak fitur mungkin memerlukan algoritma yang dapat menangani dimensi tinggi, seperti SVM dengan kernel trik atau Random Forest yang dapat menangani fitur yang tidak relevan. Data yang Hilang: Algoritma seperti Random Forest atau KNN dapat menangani data yang hilang lebih baik daripada algoritma lain seperti SVM.

### c. Kompleksitas Model
Model yang Sederhana: Algoritma seperti Linear Regression atau Logistic Regression mudah diinterpretasi dan diimplementasikan Model yang Kompleks: Algoritma seperti Neural Networks atau Gradient Boosting Machines dapat menangani hubungan yang lebih kompleks dalam data, tetapi sering kali lebih sulit diinterpretasi.

### d. Waktu dan Sumber Daya Komputasi
Training Time: Beberapa algoritma membutuhkan waktu pelatihan yang lama, seperti Neural Networks atau SVM dengan kernel yang kompleks. Inference Time: Untuk aplikasi yang membutuhkan prediksi cepat, seperti dalam sistem real-time, algoritma seperti Logistic Regression atau Decision Trees mungkin lebih sesuai. Ketersediaan Hardware: Algoritma seperti Neural Networks memerlukan hardware khusus seperti GPU untuk mempercepat training.

### e. Overfitting dan Generalisasi
Overfitting: Algoritma seperti Decision Trees atau Neural Networks rentan terhadap overfitting. Teknik seperti cross-validation, regularisasi, dan pruning dapat membantu mengurangi overfitting. Generalization: Algoritma seperti Random Forest atau SVM cenderung memiliki generalisasi yang baik jika di-tuning dengan benar.

### f. Interpretabilitas Model
High Interpretability: Algoritma seperti Linear Regression, Logistic Regression, dan Decision Trees mudah diinterpretasi dan dijelaskan kepada non-teknis. Low Interpretability: Algoritma seperti Neural Networks atau ensemble methods seperti Random Forests dan Gradient Boosting Machines lebih sulit diinterpretasi.

### g. Sifat Data
Linear vs Non-Linear: Untuk data yang memiliki hubungan linear, algoritma seperti Linear Regression atau SVM dengan kernel linear cocok. Untuk hubungan non-linear, Neural Networks atau SVM dengan kernel non-linear bisa lebih efektif. Outliers and Noise: Algoritma seperti Robust Regression atau Tree-based methods dapat lebih baik dalam mengatasi outliers dan noise dalam data.

### h. Cross-validation and Hyperparameter Tuning
Cross-Validation: Teknik seperti k-fold cross-validation digunakan untuk mengevaluasi performa model secara keseluruhan dan memastikan bahwa model tidak overfit. Hyperparameter Tuning: Algoritma seperti Grid Search atau Random Search digunakan untuk menemukan kombinasi hyperparameter yang optimal untuk model.

### i. Use Case Spesifik
Image Recognition: Convolutional Neural Networks (CNNs) sangat cocok untuk data gambar. Sequential Data: Recurrent Neural Networks (RNNs) atau Long Short-Term Memory (LSTM) cocok untuk data berurutan seperti teks atau data waktu.
___

## 4. Teknik Evaluasi
Teknik evaluasi dalam machine learning adalah langkah penting untuk menilai kinerja model dan memastikan bahwa model tersebut akan bekerja dengan baik pada data baru yang belum pernah dilihat sebelumnya. Berikut beberapa teknik evaluasi yang umum digunakan:

### a. Train-Test Split
Deskripsi: Memisahkan dataset menjadi dua bagian: data pelatihan dan data pengujian. Model dilatih pada data pelatihan dan dievaluasi pada data pengujian. Kelebihan: Sederhana dan cepat. Kekurangan: Hasil evaluasi bisa bergantung pada bagaimana data dipisahkan.

### b. Cross-Validation
#### K-Fold Cross-Validation
Deskripsi: Membagi data menjadi k bagian (folds), melatih model pada k-1 folds, dan menguji pada 1 fold yang tersisa. Proses ini diulang k kali, setiap fold digunakan sebagai data pengujian sekali. Kelebihan: Mengurangi ketergantungan pada satu set data pengujian, memberikan estimasi kinerja yang lebih stabil. Kekurangan: Lebih memakan waktu dan sumber daya komputasi.

#### Stratified K-Fold Cross-Validation
Deskripsi: Mirip dengan k-fold, tetapi membagi data sehingga setiap fold memiliki distribusi kelas yang sama. Kelebihan: Lebih baik untuk dataset yang tidak seimbang.

### c. Leave-One-Out Cross-Validation (LOOCV)
Deskripsi: Setiap data poin digunakan sebagai data pengujian satu kali, sementara sisanya digunakan sebagai data pelatihan. Kelebihan: Menggunakan maksimal data untuk pelatihan. Kekurangan: Sangat memakan waktu dan sumber daya komputasi.

### d. Bootstrap Sampling
Deskripsi: Mengambil sampel dengan penggantian dari dataset untuk membuat beberapa set data pelatihan, dan menguji model pada data yang tidak termasuk dalam sampel. Kelebihan: Berguna untuk mengestimasi variabilitas model. Kekurangan: Dapat memerlukan banyak sampel untuk estimasi yang baik.

### e. Holdout Method
Deskripsi: Dataset dibagi menjadi tiga bagian: training set, validation set, dan test set. Model dilatih pada training set, di-tuning pada validation set, dan dievaluasi pada test set. Kelebihan: Memberikan cara untuk men-tune hyperparameter sebelum evaluasi akhir. Kekurangan: Membutuhkan lebih banyak data untuk membagi menjadi tiga set.

### f. Time Series Cross-Validation
Deskripsi: Teknik khusus untuk data time series di mana data dibagi berdasarkan waktu untuk memastikan bahwa data pengujian selalu lebih baru daripada data pelatihan. Kelebihan: Menghormati urutan temporal data. Kekurangan: Bisa lebih rumit untuk diterapkan.

### g. Hyperparameter Tuning dan Model Selection
Grid Search: Mencari kombinasi hyperparameter terbaik dengan mencoba setiap kemungkinan kombinasi. Random Search: Mencari kombinasi hyperparameter terbaik dengan mencoba kombinasi secara acak. Bayesian Optimization: Mencari kombinasi hyperparameter terbaik dengan pendekatan probabilistik.


## 5. Optimasi Parameter
Optimasi parameter (juga dikenal sebagai tuning hyperparameter) adalah proses penting dalam machine learning yang bertujuan untuk menemukan set parameter yang optimal untuk model sehingga kinerjanya dapat ditingkatkan. Berikut adalah beberapa metode umum yang digunakan untuk optimasi parameter:

1. Grid Search: Mencari kombinasi optimal dari hyperparameter dengan mencoba setiap kombinasi dalam ruang parameter yang telah ditentukan.
2. Random Search: Memilih kombinasi hyperparameter secara acak dalam ruang pencarian yang telah ditentukan.
3. Bayesian Optimization: Menggunakan metode probabilistik untuk memilih kombinasi hyperparameter berdasarkan kinerja sebelumnya.
4. Hyperband: Metode optimasi hyperparameter yang efisien dengan menggunakan teknik early-stopping.
5. genetic Algorithms: Menggunakan prinsip evolusi dan seleksi alam untuk mencari kombinasi hyperparameter yang optimal.
6. Simulated Annealing: Menggunakan prinsip fisika dari annealing untuk menemukan kombinasi hyperparameter yang optimal.
7. Tree-structured Parzen Estimator (TPE): Menggunakan model probabilistik berbasis pohon untuk mencari kombinasi hyperparameter yang optimal.

## 6. Dasar-dasar Deployment
Deployment adalah proses mengeluarkan aplikasi atau sistem dari lingkungan pengembangan ke lingkungan produksi di mana aplikasi tersebut dapat diakses dan digunakan oleh pengguna akhir. Berikut adalah dasar-dasar yang perlu dipahami dalam proses deployment:

### Persiapan Lingkungan
Deployment machine learning melibatkan membawa model yang telah dilatih dan dioptimalkan ke dalam lingkungan produksi di mana ia dapat digunakan untuk membuat prediksi pada data baru. Proses ini mencakup beberapa langkah dan pertimbangan khusus. Berikut adalah langkah-langkah dasar dalam deployment machine learning:

#### a. Persiapan Model
Model Training: Melatih model menggunakan data pelatihan yang tersedia dan menyimpan model yang terlatih. Model Serialization: Menyimpan model yang telah dilatih dalam format yang dapat di-load kembali, seperti menggunakan pickle di Python atau format HDF5 untuk Keras/TensorFlow.

#### b. Environment Setup
Dependencies: Mengidentifikasi dan menginstal semua dependensi yang diperlukan untuk menjalankan model, termasuk library machine learning (misalnya, TensorFlow, PyTorch), preprocessing tools (misalnya, pandas, scikit-learn), dan runtime (misalnya, Python). Virtual Environments: Menggunakan virtual environments atau container (misalnya, Docker) untuk mengisolasi dan mengelola dependensi.

#### c. Model Serving
REST APIs: Menyediakan model sebagai layanan web dengan API menggunakan framework seperti Flask, FastAPI, atau Django. Ini memungkinkan aplikasi lain untuk mengirim data dan menerima prediksi melalui permintaan HTTP. Model Server: Menggunakan alat khusus untuk serving model seperti TensorFlow Serving, TorchServe, atau MLflow. Alat ini dirancang untuk mengelola dan mengoptimalkan serving model machine learning. Batch Processing: Untuk prediksi dalam jumlah besar, batch processing dapat digunakan, di mana data dikumpulkan dan diproses sekaligus, misalnya menggunakan Apache Spark.

#### d. Scalability and Performance
Horizontal Scaling: Menambah lebih banyak instance server untuk menangani beban yang meningkat. Load Balancing: Menggunakan load balancer untuk mendistribusikan lalu lintas ke berbagai instance server secara efisien. Caching: Mengimplementasikan caching untuk menyimpan hasil prediksi yang sering diminta untuk mengurangi beban komputasi.

#### e. Monitoring and Logging
Model Monitoring: Mengawasi kinerja model di produksi untuk mendeteksi degradasi performa, bias, atau drift data. Alat seperti Prometheus dan Grafana dapat digunakan untuk monitoring. Logging: Menyimpan log prediksi, kesalahan, dan metrik kinerja untuk analisis dan pemecahan masalah. Alat seperti ELK Stack (Elasticsearch, Logstash, Kibana) atau Splunk sering digunakan.

#### f. Security and Compliance
Data Privacy: Memastikan data pengguna dilindungi dan sesuai dengan regulasi seperti GDPR. Authentication and Authorization: Mengamankan API dengan mekanisme otentikasi dan otorisasi seperti OAuth. Model Security: Melindungi model dari serangan seperti model inversion dan membership inference.

___

### Contoh Deployment dengan Flask dan Docker
Berikut adalah contoh sederhana tentang bagaimana meng-deploy model machine learning menggunakan Flask dan Docker:

In [None]:
# Langkah 1: Membuat API dengan Flask
from flask import Flask, request, jsonify
import pickle

# Load model
with open('model.pkl', 'rb') as f:
    model = pickle.load(f)

app = Flask(__name__)

@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json(force=True)
    prediction = model.predict([data['features']])
    return jsonify({'prediction': prediction[0]})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)


Deployment machine learning mencakup berbagai aspek teknis dan non-teknis, mulai dari persiapan model hingga monitoring di produksi. Dengan pemahaman dan penerapan yang tepat dari konsep-konsep ini, proses deployment dapat dilakukan secara efisien dan aman.