# **Belajar Supervised Learning**
## Pengenalan Supervised Learning
- Dalam *SuperVised Learning*, kita melatih model dengan data yang telah diberi label.

## Kali ini kita akan mempelajari salah satu dari supervised learning yaitu **Klasifikasi**


In [2]:
# Import library yang diperlukan
import numpy as np # untuk operasi numerik
import pandas as pd # untuk manipulasi data
from sklearn.model_selection import train_test_split # untuk membagi dataset
from sklearn.preprocessing import StandardScaler # untuk normalisasi data
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report #untuk evaluasi model
from sklearn.linear_model import LogisticRegression # Model Regresi Logistik
from sklearn.tree import DecisionTreeClassifier # model pohon keputusan(Decision Tree)
from sklearn.ensemble import RandomForestClassifier # model hutan acak(random forest)

### Muat Dataset

In [4]:
# muat dataset kedalam projek
from sklearn.datasets import load_iris

# muat dataset iris
data = load_iris()
X = data.data # fitur dataset
y = data.target # label dataset

## Memahami Dataset

In [5]:
# Buat DataFrame dari data dan label
df = pd.DataFrame(X, columns=data.feature_names)
df['species'] = y # Tambahkan label ke DataFrame
print(df.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   species  
0        0  
1        0  
2        0  
3        0  
4        0  


## Pembagian data
pisahkan data menjadi data pelatihan (training) dan data pengujian (testing)

In [6]:
# Bagi data menjadi data pelatihan (80%) dan data pengujian (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=41)

## Pra-Pemrosesan Data
**Normalisasi atau Standarisasi**
*Standarisasi* data penting untuk model yang sensitif terhadap skala fitur

In [7]:
# Inisialisasi scaler
scaler = StandardScaler()

# Fit scaler dengan data pelatihan dan transformasikan data pelatihan
X_train = scaler.fit_transform(X_train)

# Transformasikan data pengujian dengan scaler yang sama
X_test = scaler.transform(X_test)

## Penjelasan:

- StandardScaler mengubah fitur agar memiliki rata-rata 0 dan deviasi standar 1.
- fit_transform pada data pelatihan dan transform pada data pengujian memastikan konsistensi.

## Pilih dan Latih Model


In [8]:
# Note
# Pilih salah satu algoritma klasifikasi model yang cocok

# Logistic Regression
model = LogisticRegression()

# Decision Tree
# model = DecisionTreeClassifier()

# Random Forest
# model = RandomForestClassifier()

# Latih model dengan data pelatihan
model.fit(X_train, y_train)

## Evaluasi Model

In [12]:
# Prediksi
y_pred = model.predict(X_test)

# Evaluasi akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f'Akurasi: {accuracy}\n')

# Hitung Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)
print(f'Confusion Matrix:\n{conf_matrix}\n')

# Hitung Classification Report
class_report = classification_report(y_test, y_pred)
print(f'Classification Report:\n{class_report}')

Akurasi: 0.9

Confusion Matrix:
[[ 9  0  0]
 [ 0 10  1]
 [ 0  2  8]]

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.83      0.91      0.87        11
           2       0.89      0.80      0.84        10

    accuracy                           0.90        30
   macro avg       0.91      0.90      0.90        30
weighted avg       0.90      0.90      0.90        30



## Penjelasan:

- predict menghasilkan prediksi untuk data pengujian.
- accuracy_score mengukur akurasi model.
- confusion_matrix menunjukkan perbandingan antara label prediksi dan label sebenarnya.
- classification_report memberikan metrik detail seperti precision, recall, dan F1 score.

## Penyesuaian Hyperparameter
**Grid Search untuk Penyesuaian Hyperparameter**

In [14]:
from sklearn.model_selection import GridSearchCV

# Tentukan grid hyperparameter
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20]
}

# Inisialisasi GridSearchCV dengan model Random Forest
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)

# Latih GridSearchCV
grid_search.fit(X_train, y_train)

# Tampilkan parameter terbaik
best_params = grid_search.best_params_
print(f'Best Parameters: {best_params}')


Best Parameters: {'max_depth': None, 'n_estimators': 50}


## Testing

In [18]:
# Data baru untuk prediksi
new_data = np.array([[5.1, 3.5, 1.4, 0.2]])

# Normalisasi data baru
new_data = scaler.transform(new_data)

# Prediksi kelas data baru
prediction = model.predict(new_data)[0]  # Ambil prediksi pertama

# Mapping label prediksi ke nama kelas
class_names = {0: 'Setosa', 1: 'Versicolor', 2: 'Virginica'}
predicted_class = class_names.get(prediction, 'Unknown')

# Menampilkan hasil prediksi
print(f'Prediksi Kelas: {predicted_class}')


Prediksi Kelas: Setosa


## Eksport Model

In [20]:
import joblib

# Simpan model ke file
joblib.dump(model, 'model_klasifikasi_iris.pkl')

['model_klasifikasi_iris.pkl']