# Pertemuan 07 - Analisis dan Pemilihan Pendekatan Machine Learning

##### Aryanahta Putra_22346002

## contoh Programnya: 



## A. Teknik Evaluasi Model


####  K-Fold Cross-Validation 
1.🌀 K-Fold Cross-Validation

📌 Pengertian:
Metode untuk mengevaluasi model machine learning dengan cara membagi data jadi beberapa bagian (fold).

Contoh: Kalau K=5, maka data dibagi jadi 5 bagian:

4 bagian untuk training

1 bagian untuk testing

Proses ini diulang sebanyak 5 kali (setiap bagian pernah jadi test set)

🎯 Tujuan:
Agar evaluasi model lebih akurat dan tidak bias karena diuji dari berbagai sudut.
#### kodenya:

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Load data
data = load_iris()
X = data.data      # Fitur
y = data.target    # Label

# Model dan evaluasi
model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print(f"Accuracy: {np.mean(scores):.2f} (+/- {np.std(scores):.2f})")


Accuracy: 0.96 (+/- 0.03)


### Confusion Matrix
2.📊 Confusion Matrix

📌 Pengertian:
Tabel yang menunjukkan hasil prediksi vs data asli dalam klasifikasi. Biasa dipakai untuk mengevaluasi model klasifikasi.

🧠 Format:

Prediksi Positif	Prediksi Negatif
Asli Positif	True Positive (TP)	False Negative (FN)
Asli Negatif	False Positive (FP)	True Negative (TN)
📌 Istilah penting:
TP: Prediksi benar → Positif

TN: Prediksi benar → Negatif

FP: Salah prediksi, harusnya negatif tapi dikira positif (false alarm)

FN: Salah prediksi, harusnya positif tapi dikira negatif (missed)


```python
from sklearn.metrics import confusion_matrix

# Prediksi
y_pred = model.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)


## B. Pendekatan Evaluasi
#### Grid Search
3.🛠️ Grid Search

📌 Pengertian:
Metode untuk mencari kombinasi parameter terbaik untuk model machine learning dengan cara mencoba semua kombinasi yang mungkin.

🧪 Contoh:
Misal kita mau cari kombinasi terbaik:

n_estimators: 100, 200

max_depth: 5, 10

Grid Search akan mencoba semua:

(100, 5)

(100, 10)

(200, 5)

(200, 10)

✅ Tujuan:
Meningkatkan performa model dengan tuning hyperparameter secara sistematis.

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# 1. Load data
data = load_iris()
X = data.data
y = data.target

# 2. Bagi data jadi train dan test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Definisikan model dan parameter grid
model = RandomForestClassifier()
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30]
}

# 4. Grid Search
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 5. Tampilkan hasil
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)


Best Parameters: {'max_depth': None, 'n_estimators': 50}
Best Score: 0.95


### Random Search
4.🎲 Random Search

📌 Pengertian:
Alternatif dari Grid Search. Tapi dia tidak mencoba semua kombinasi, melainkan memilih kombinasi secara acak dari parameter yang tersedia.

🟡 Kelebihan:
Lebih cepat dari Grid Search

Cocok kalau kombinasi terlalu banyak dan kamu mau hasil cepat

In [8]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier

# 1. Load dataset
data = load_iris()
X = data.data
y = data.target

# 2. Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Definisikan model dan parameter distribusi
model = RandomForestClassifier()
param_dist = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'bootstrap': [True, False]
}

# 4. Random Search
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dist, n_iter=10, cv=5, scoring='accuracy')
random_search.fit(X_train, y_train)

# 5. Cetak hasil
print("Best Parameters:", random_search.best_params_)
print("Best Score:", random_search.best_score_)


Best Parameters: {'n_estimators': 200, 'max_depth': 30, 'bootstrap': True}
Best Score: 0.95



### Studi Kasus
##### Klasifikasi Teks:
- Studi Kasus: Mengklasifikasikan email sebagai spam atau tidak spam.
- Pendekatan: Menggunakan Grid Search untuk mengatur parameter seperti alpha pada Naive Bayes dan C pada SVM untuk mendapatkan model terbaik.
- Hasil: Meningkatkan akurasi klasifikasi dengan optimasi parameter.

##### Prediksi Harga Rumah:
- Studi Kasus: Memprediksi harga rumah berdasarkan fitur seperti ukuran, lokasi, dan tahun bangunan.
- Pendekatan: Menggunakan Random Search untuk mengoptimalkan parameter pada model random forest dan gradient boosting.
- Hasil: Mengurangi kesalahan prediksi (MAE, RMSE) dengan menemukan kombinasi parameter yang optimal.

### ✅ 1. Klasifikasi Teks – Spam vs Non-Spam (dengan Grid Search)
Menggunakan:

Dataset: Contoh dataset dari sklearn.datasets (jika tidak punya dataset spam asli)

Model: Multinomial Naive Bayes & SVM

Optimasi: GridSearchCV untuk alpha (NB) dan C (SVM)

In [17]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report

# Load dataset: kita ambil 2 kategori untuk simulasi spam vs non-spam
data = fetch_20newsgroups(subset='train', categories=['sci.crypt', 'rec.sport.baseball'])
X = data.data
y = data.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline + Grid Search (Naive Bayes)
pipeline_nb = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', MultinomialNB())
])

param_grid_nb = {
    'tfidf__max_df': [0.7, 1.0],
    'clf__alpha': [0.1, 1.0, 10.0]
}

grid_nb = GridSearchCV(pipeline_nb, param_grid_nb, cv=5, scoring='accuracy')
grid_nb.fit(X_train, y_train)

print("Best Params (NB):", grid_nb.best_params_)
print("Best Score (NB):", grid_nb.best_score_)
print("Classification Report (NB):\n", classification_report(y_test, grid_nb.predict(X_test)))


Best Params (NB): {'clf__alpha': 0.1, 'tfidf__max_df': 0.7}
Best Score (NB): 0.9968531275833563
Classification Report (NB):
               precision    recall  f1-score   support

           0       1.00      0.99      1.00       111
           1       0.99      1.00      1.00       128

    accuracy                           1.00       239
   macro avg       1.00      1.00      1.00       239
weighted avg       1.00      1.00      1.00       239



🔍 Studi Kasus: Klasifikasi Spam vs Non-Spam
Bayangkan kita memiliki sekumpulan email atau pesan teks, dan kita ingin membedakan mana yang merupakan spam dan mana yang bukan spam. Ini merupakan masalah klasifikasi biner yang umum di dunia nyata, dan bisa dipecahkan menggunakan Natural Language Processing (NLP) dan Machine Learning.

🎯 Tujuan Program
Program ini bertujuan untuk:

Mengambil data teks dari dua kategori (misalnya: 'sci.crypt' dan 'rec.sport.baseball') sebagai simulasi dari spam dan non-spam.

Memproses teks menggunakan TF-IDF Vectorization.

Melatih model Naive Bayes untuk klasifikasi teks.

Melakukan tuning parameter menggunakan GridSearchCV untuk mencari kombinasi terbaik.

Menguji model pada data uji dan melihat performa klasifikasinya.

🛠️ Penjelasan Komponen Program
1. fetch_20newsgroups
Digunakan untuk mengambil dataset teks dari internet. Dataset ini berisi berita dari berbagai topik. Di sini kita ambil dua kategori sebagai simulasi spam dan non-spam.

2. TfidfVectorizer
Mengubah teks menjadi angka yang bisa diproses oleh model. TF-IDF menghitung seberapa penting sebuah kata dalam dokumen dibandingkan seluruh koleksi dokumen.

3. MultinomialNB
Model Naive Bayes yang sering digunakan untuk teks karena efektif dan cepat.

4. Pipeline
Menyatukan preprocessing dan model training menjadi satu alur agar mudah dikombinasikan dalam GridSearchCV.

5. GridSearchCV
Digunakan untuk mencari kombinasi parameter terbaik (seperti alpha untuk Naive Bayes, atau max_df untuk vectorizer) melalui validasi silang (cross-validation).

📈 Output yang Diharapkan
Output dari program ini akan berupa:

Parameter terbaik hasil pencarian grid (misalnya: {'tfidf__max_df': 0.7, 'clf__alpha': 1.0}).

Skor akurasi tertinggi saat validasi silang pada data pelatihan (misalnya: 0.92).

Laporan klasifikasi pada data uji, termasuk metrik seperti precision, recall, dan f1-score untuk masing-masing kelas.

📚 Kesimpulan

Program ini adalah contoh penerapan nyata dari teknik klasifikasi teks. Dengan kombinasi preprocessing teks (TF-IDF), model prediktif (Naive Bayes), dan optimasi hyperparameter (GridSearchCV), kita bisa membangun sistem klasifikasi yang cukup akurat.

In [13]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# Load data
data = fetch_california_housing()
X = data.data
y = data.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Model dan parameter
model_rf = RandomForestRegressor()
param_dist_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

random_search_rf = RandomizedSearchCV(model_rf, param_distributions=param_dist_rf, n_iter=10, cv=5, scoring='neg_root_mean_squared_error', random_state=42)
random_search_rf.fit(X_train, y_train)

# Evaluasi
y_pred = random_search_rf.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("Best Parameters (RF):", random_search_rf.best_params_)
print(f"Test RMSE (RF): {rmse:.2f}")


Best Parameters (RF): {'n_estimators': 100, 'min_samples_split': 5, 'max_depth': 30}
Test RMSE (RF): 0.50


🏡 Studi Kasus: Prediksi Harga Rumah

📘 Latar Belakang

Permasalahan ini berkaitan dengan bagaimana kita bisa memprediksi harga rumah berdasarkan sejumlah fitur atau karakteristik seperti:

Ukuran rumah (jumlah kamar, jumlah tempat tidur)

Lokasi geografis (latitude, longitude)

Usia bangunan

Jumlah penduduk sekitar

dan lain-lain.

Ini adalah masalah regresi karena nilai yang diprediksi (harga rumah) adalah angka kontinu, bukan klasifikasi.

🎯 Tujuan Program

Tujuan dari program ini adalah:

Memuat dan mempersiapkan dataset rumah dari California.

Melatih model Random Forest Regressor untuk memprediksi harga rumah.

Menggunakan Randomized Search CV untuk mencari kombinasi parameter terbaik secara efisien.

Mengevaluasi kinerja model berdasarkan Root Mean Squared Error (RMSE).

📚 Kesimpulan

Program ini menunjukkan cara membangun sistem prediksi harga rumah yang akurat dan efisien. Dengan menggunakan teknik Random Search, kita bisa mengeksplor berbagai parameter tanpa harus mencoba semuanya secara manual, seperti pada Grid Search.

Cocok digunakan dalam sistem real-estate, pricing recommendation, atau financial analytics.