# Pertemuan 09 - Optimalisasi Kinerja Model Machine Learning




## 🔧 1. Definisi, Dampak, dan Pentingnya Optimalisasi Model

### 📌 Definisi
Optimalisasi model adalah proses penyesuaian parameter & hyperparameter untuk memaksimalkan kinerja model machine learning dalam hal akurasi, efisiensi, dan generalisasi.

### 💡 Dampak Positif Optimalisasi Model
✅ Akurasi meningkat: Model jadi lebih presisi dalam klasifikasi/prediksi.

✅ Kesalahan berkurang: Mengurangi false positive/negative.

✅ Efisiensi komputasi: Waktu training/inference lebih cepat.

### 🔥 Kenapa Optimalisasi Itu Penting?
🛠️ Menjamin keandalan model dalam menghadapi data baru.

🌍 Membantu model bertahan di kondisi data dunia nyata (misalnya imbalanced dataset, noise).

🧠 Mendukung pengambilan keputusan berbasis data yang lebih baik.

### 🧪 2. Hyperparameter Tuning
Hyperparameter adalah konfigurasi yang ditentukan sebelum training (contoh: n_estimators, max_depth, learning_rate).

⚙️ Kenapa perlu dituning?
🔺 Akurasi meningkat

🧠 Menghindari overfitting & underfitting

⚡ Efisiensi komputasi meningkat

### 📊 3. Grid Search
Mencoba setiap kombinasi hyperparameter dari grid yang didefinisikan.


In [17]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# 1. Load data
data = load_iris()
X = data.data
y = data.target

# 2. Bagi data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Definisikan model dan parameter grid
model = RandomForestClassifier()
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30]
}

# 4. Lakukan Grid Search
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 5. Cetak hasil terbaik
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)


Best Parameters: {'max_depth': None, 'n_estimators': 200}
Best Score: 0.9583333333333334


✅ Kelebihan: Menjamin hasil optimal dalam ruang pencarian

❌ Kekurangan: Lambat jika kombinasi terlalu banyak

### 🎲 4. Random Search

Mencoba kombinasi secara acak dari distribusi yang ditentukan.

In [18]:
from sklearn.model_selection import RandomizedSearchCV

model = RandomForestClassifier()
param_dist = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'bootstrap': [True, False]
}

random_search = RandomizedSearchCV(model, param_distributions=param_dist, n_iter=10, cv=5, scoring='accuracy')
random_search.fit(X_train, y_train)

print("Best Parameters:", random_search.best_params_)
print("Best Score:", random_search.best_score_)


Best Parameters: {'n_estimators': 100, 'max_depth': None, 'bootstrap': True}
Best Score: 0.95


✅ Lebih efisien waktu dibanding grid search

❌ Tidak selalu menemukan kombinasi paling optimal

### 🧠 5. Bayesian Optimization
Menggunakan pendekatan probabilistik (misalnya Gaussian Process) untuk memilih hyperparameter terbaik berdasarkan histori hasil.

In [19]:
from skopt import BayesSearchCV
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
param_dist = {
    'n_estimators': (50, 200),
    'max_depth': (10, 30),
    'bootstrap': [True, False]
}

bayes_search = BayesSearchCV(model, search_spaces=param_dist, n_iter=10, cv=5, scoring='accuracy')
bayes_search.fit(X_train, y_train)

print("Best Parameters:", bayes_search.best_params_)
print("Best Score:", bayes_search.best_score_)


Best Parameters: OrderedDict({'bootstrap': False, 'max_depth': 16, 'n_estimators': 75})
Best Score: 0.95


✅ Lebih efisien dan cerdas dibanding grid/random

❌ Butuh pemahaman statistik yang lebih dalam

### 🧹 6. Feature Selection
Memilih fitur yang paling relevan agar model lebih sederhana dan akurat.

#### 🎯 Tujuan:
Meningkatkan akurasi

Mengurangi overfitting

Mempercepat training

Meningkatkan interpretabilitas

#### 📊 a. Filter Methods
Memilih fitur berdasar nilai statistik sebelum pelatihan model.

In [20]:
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.datasets import load_iris
import pandas as pd

data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

selector = SelectKBest(score_func=chi2, k=2)
X_new = selector.fit_transform(X, y)

print("Selected features:", X.columns[selector.get_support()].tolist())


Selected features: ['petal length (cm)', 'petal width (cm)']


Contoh metrik:

Chi-Square

Correlation

Mutual Information

### 🔁 b. Wrapper Methods
Menggunakan model untuk mengukur kinerja subset fitur.

In [21]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(max_iter=1000)
rfe = RFE(model, n_features_to_select=2)
fit = rfe.fit(X, y)

print("Selected features:", fit.support_)
print("Feature ranking:", fit.ranking_)


Selected features: [False False  True  True]
Feature ranking: [3 2 1 1]


Metode umum:

Recursive Feature Elimination (RFE)

Forward Selection

Backward Elimination

### 🧩 c. Embedded Methods
Seleksi fitur langsung saat pelatihan model.

In [22]:
from sklearn.linear_model import Lasso
from sklearn.datasets import load_iris
import pandas as pd

data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

lasso = Lasso(alpha=0.01)
lasso.fit(X, y)

selected_features = X.columns[(lasso.coef_ != 0)]
print("Selected features:", selected_features.tolist())


Selected features: ['sepal length (cm)', 'petal length (cm)', 'petal width (cm)']


Contoh:

Lasso (L1 Regularization)

Decision Tree Feature Importance

### c. Embedded Methods (lanjutan)
Contoh Implementasi (Lasso Regression):

In [23]:
from sklearn.linear_model import Lasso
from sklearn.datasets import load_iris
import pandas as pd

# Load dataset
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# Lasso Regression
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)

# Menampilkan fitur yang dipilih (koefisien tidak nol)
selected_features = X.columns[lasso.coef_ != 0].tolist()
print("Selected features by Lasso:", selected_features)


Selected features by Lasso: ['petal length (cm)']


Contoh Implementasi (Decision Tree Feature Importance):

In [24]:
from sklearn.ensemble import RandomForestClassifier

# Fit model
model = RandomForestClassifier()
model.fit(X, y)

# Menampilkan pentingnya fitur
feature_importances = pd.Series(model.feature_importances_, index=X.columns)
selected_features = feature_importances[feature_importances > 0.1].index.tolist()

print("Selected features by Decision Tree:", selected_features)
print("Feature importances:\n", feature_importances.sort_values(ascending=False))


Selected features by Decision Tree: ['sepal length (cm)', 'petal length (cm)', 'petal width (cm)']
Feature importances:
 petal width (cm)     0.448792
petal length (cm)    0.420400
sepal length (cm)    0.101328
sepal width (cm)     0.029481
dtype: float64


### 7. Feature Extraction
Feature extraction adalah proses mengubah data asli menjadi representasi fitur baru yang lebih relevan dan informatif. Berbeda dengan feature selection yang memilih subset dari fitur yang ada, feature extraction menciptakan fitur baru berdasarkan data yang ada.

### Tujuan:
Mengungkap struktur tersembunyi dari data

Mengurangi dimensi data (dengan mempertahankan informasi penting)

Meningkatkan kinerja model

### Teknik Populer:
Principal Component Analysis (PCA)

Linear Discriminant Analysis (LDA)

t-SNE (untuk visualisasi)

Autoencoder (dalam deep learning)

### Contoh Implementasi (PCA):

In [25]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Standarisasi data
X_scaled = StandardScaler().fit_transform(X)

# PCA untuk 2 komponen utama
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Explained Variance Ratio:", pca.explained_variance_ratio_)


Explained Variance Ratio: [0.72962445 0.22850762]


### 8. Polynomial Features
Polynomial Features adalah metode feature engineering yang membuat fitur baru berdasarkan kombinasi polinomial dari fitur yang ada. Ini berguna untuk model linier agar dapat menangkap hubungan non-linier dalam data.

### Contoh:
Jika kita memiliki fitur x, maka polynomial degree 2 akan menghasilkan:

- 1 (bias)

- x

- x²

### Contoh Implementasi:

In [26]:
from sklearn.preprocessing import PolynomialFeatures

# Polynomial Features degree 2
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)

print("Original number of features:", X.shape[1])
print("Number of features after Polynomial:", X_poly.shape[1])


Original number of features: 4
Number of features after Polynomial: 14


## Penutup
Optimalisasi model adalah kunci dalam membuat model machine learning yang akurat, efisien, dan handal. Dengan kombinasi dari hyperparameter tuning, feature selection, dan feature engineering seperti polynomial features, kita bisa meningkatkan performa prediksi sekaligus menjaga efisiensi komputasi.