# **Evaluasi Model**

## **Confusion Matrix**

Confusion Matrix adalah tabel yang digunakan untuk mengevaluasi kinerja model klasifikasi dengan membandingkan nilai prediksi model dengan nilai aktual/ground truth. Ini sangat berguna pada masalah klasifikasi biner (dua kelas), misalnya “positif” vs “negatif”.

Confusion matrix standar untuk kasus biner berbentuk:

|                  | Prediksi Positif | Prediksi Negatif |
|------------------|------------------|------------------|
| **Aktual Positif** | TP (True Positive) | FN (False Negative) |
| **Aktual Negatif** | FP (False Positive) | TN (True Negative) |

Definisi tiap elemen:

- TP: Model memprediksi positif dan benar positif.

- TN: Model memprediksi negatif dan benar negatif.

- FP: Model memprediksi positif tapi sebenarnya negatif (error tipe I).

- FN: Model memprediksi negatif tapi sebenarnya positif (error tipe II).


## **Metrik Evaluasi**

### **1. Akurasi (Accuracy)**

Akurasi adalah metrik evaluasi yang mengukur seberapa baik model membuat prediksi yang benar dari total prediksi yang dilakukan. Dalam konteks klasifikasi, akurasi memberikan gambaran mengenai seberapa sering model memprediksi kelas yang benar, baik itu kelas positif maupun negatif.

Accuracy didefinisikan sebagai:

$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$


Dengan mengetahui akurasi, kita dapat menilai sejauh mana model berhasil dalam melakukan klasifikasi. Namun, perlu diingat kembali bahwa akurasi mungkin tidak selalu menjadi metrik terbaik, terutama ketika data tidak seimbang atau ketika ada biaya yang berbeda untuk kesalahan jenis yang berbeda (seperti False Positive dan False Negative). Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti presisi, recall, dan F1 score dalam mengukur kinerja model.

### **2. Presisi (Precision)**

Presisi adalah metrik evaluasi yang mengukur seberapa baik model membuat prediksi yang benar untuk kelas positif dari total prediksi positif yang dilakukan. Dalam konteks klasifikasi, presisi memberikan gambaran mengenai seberapa sering model memprediksi kelas positif dengan benar, di antara semua prediksi positif yang dibuat oleh model.

Untuk menghitung presisi, kita bisa menggunakan rumus matematika berikut:


$$
\text{Precision} = \frac{TP}{TP + FP}
$$

Dengan mengetahui presisi, kita dapat menilai sejauh mana model berhasil dalam melakukan klasifikasi yang lebih fokus pada kelas positif dan mengurangi kesalahan jenis False Positive. Namun, perlu diingat bahwa presisi saja mungkin tidak selalu menjadi metrik terbaik, terutama ketika kita perlu mempertimbangkan kinerja model dalam mengklasifikasikan kelas negatif juga. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti recall dan F1 score dalam mengukur kinerja model.


### **3. Sensitivitas (Recall)**

Sensitivitas (Recall) adalah metrik evaluasi yang menggambarkan seberapa baik suatu model dalam mengidentifikasi kelas positif dengan benar. Sebagai analogi, bayangkan kita sedang mencari jarum di tumpukan jerami. Recall menggambarkan seberapa baik kita menemukan semua jarum yang ada di tumpukan tersebut. Jika kita menemukan 6 dari 10 dari jarum ditumpukan Jerami tersebut, artinya kita masih melewatkan 4 jarum yang belum ditemukan.

Untuk menghitung nilai Recall, kita dapat menggunakan persamaan matematika berikut:

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

Kelebihan dari Recall adalah bahwa metrik ini fokus pada mengurangi kesalahan False Negative, sehingga kita bisa memastikan bahwa sebanyak mungkin review positif diidentifikasi dengan benar. Namun, perlu diingat bahwa Recall saja mungkin tidak selalu menjadi metrik evaluasi terbaik, terutama ketika kita perlu mempertimbangkan kinerja model dalam mengklasifikasikan kelas negatif juga. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti Presisi dan F1 Score dalam mengukur kinerja model.

### **4. F1-Score**

F1 Score merupakan metrik evaluasi yang mencerminkan keseimbangan antara Presisi (Precision) dan Sensitivitas (Recall). Nilai F1 Score akan memberikan informasi tentang seberapa baik model kita dalam menggabungkan kemampuan Presisi dan Sensitivitas, sehingga kita bisa memahami seberapa efektif model kita dalam mengklasifikasikan data target secara akurat.

Untuk menghitung F1 Score, kita menggunakan rumus matematika berikut:


$$
\text{F1-Score} =
2 \times \frac{\text{Precision} \times \text{Recall}}
{\text{Precision} + \text{Recall}}
$$

Kelebihan dari F1 Score adalah metrik ini mempertimbangkan kedua aspek kinerja model (Presisi dan Sensitivitas) dalam satu angka, sehingga kita bisa mendapatkan gambaran yang lebih lengkap tentang kinerja model. Namun, perlu diingat bahwa F1 Score mungkin tidak selalu menjadi metrik evaluasi terbaik dalam semua situasi, terutama jika kita ingin fokus pada kinerja model dalam mengklasifikasikan salah satu kelas saja. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti Presisi dan Sensitivitas dalam mengukur kinerja model.

# **Latihan**

Lengkapi kode evaluasi model berikut untuk menghitung akurasi, classification report, dan confusion matrix.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms, models
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [2]:
# 1. Load Dataset dengan Augmentasi untuk Training
transform_train = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

In [3]:
trainset = datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform_train)
testset = datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform_test)
trainloader = DataLoader(trainset, batch_size=32, shuffle=True)
testloader = DataLoader(testset, batch_size=32, shuffle=False)

100%|██████████| 26.4M/26.4M [00:02<00:00, 11.3MB/s]
100%|██████████| 29.5k/29.5k [00:00<00:00, 189kB/s]
100%|██████████| 4.42M/4.42M [00:01<00:00, 3.60MB/s]
100%|██████████| 5.15k/5.15k [00:00<00:00, 14.5MB/s]


In [4]:
# 2. Load
model = models.resnet18(pretrained=False)
model.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)
model.fc = nn.Linear(model.fc.in_features, 10)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)



In [5]:
# 3. Setup Training
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4)

for epoch in range(5):
    model.train()
    running_loss_train = 0.0
    all_train_preds = []
    all_train_labels = []

    for inputs, labels in trainloader:
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss_train += loss.item()

        _, preds = torch.max(outputs, 1)
        all_train_preds.extend(preds.cpu().numpy())
        all_train_labels.extend(labels.cpu().numpy())

    train_acc = accuracy_score(all_train_labels, all_train_preds)
    avg_loss_train = running_loss_train / len(trainloader)
    model.eval()
    running_loss_val = 0.0
    all_val_preds = []
    all_val_labels = []

    with torch.no_grad():
        for inputs, labels in testloader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            running_loss_val += loss.item()

            _, preds = torch.max(outputs, 1)
            all_val_preds.extend(preds.cpu().numpy())
            all_val_labels.extend(labels.cpu().numpy())

    val_acc = accuracy_score(all_val_labels, all_val_preds)
    avg_loss_val = running_loss_val / len(testloader)
    print(f'Epoch [{epoch+1}/5], Loss Train: {avg_loss_train:.4f}, Acc Train: {train_acc:.2%}, '
          f'Loss Val: {avg_loss_val:.4f}, Acc Val: {val_acc:.2%}')

Epoch [1/5], Loss Train: 0.5333, Acc Train: 80.62%, Loss Val: 0.4223, Acc Val: 85.03%
Epoch [2/5], Loss Train: 0.3992, Acc Train: 85.43%, Loss Val: 0.3692, Acc Val: 86.67%
Epoch [3/5], Loss Train: 0.3622, Acc Train: 86.89%, Loss Val: 0.3341, Acc Val: 87.31%
Epoch [4/5], Loss Train: 0.3420, Acc Train: 87.52%, Loss Val: 0.3386, Acc Val: 87.25%
Epoch [5/5], Loss Train: 0.3227, Acc Train: 87.98%, Loss Val: 0.3208, Acc Val: 88.52%


In [None]:
# 4. Evaluasi Model
model.eval()
all_preds = []
all_labels = []

with torch.no_grad():
    for inputs, labels in testloader:
        inputs, labels = inputs.to(device), labels.to(device)
        outputs = model(inputs)
        _, preds = torch.max(outputs, 1)
        all_preds.extend(preds.cpu().numpy())
        all_labels.extend(labels.cpu().numpy())

# ———————————————————————————————————————————————————————————————
# MELENGKAPI EVALUASI MODEL
# ———————————————————————————————————————————————————————————————

# 1: Menghitung akurasi keseluruhan

# lengkapi codingan

print(f"Akurasi Keseluruhan: {acc:.4f}")

# 2: Menampilkan classification report
from sklearn.metrics import classification_report

target_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
                'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

# lengkapi codingan

print("\nClassification Report:")
print(report)

# 3: Menampilkan confusion matrix
from sklearn.metrics import confusion_matrix

# lengkapi codingan

print("\nConfusion Matrix:")
print(cm)
