<img src="../images/jomblo.png" width=400 />

# Objective
Menentukan status seseorang apakah jomblo atau pacaran berdasarkan jumlah mantan dan tinggi badan.

# Sample Dataset

In [1]:
import pandas as pd

status = {
    "tinggi": [158, 170, 183, 155, 163, 180, 158, 178],
    "mantan": [3, 6, 1, 5, 10, 2, 2, 7],
    "status": ["jomblo", "jomblo", "pacaran", "pacaran", "jomblo", "pacaran", "jomblo", "pacaran"]
}

status_df = pd.DataFrame(status)
status_df

Unnamed: 0,tinggi,mantan,status
0,158,3,jomblo
1,170,6,jomblo
2,183,1,pacaran
3,155,5,pacaran
4,163,10,jomblo
5,180,2,pacaran
6,158,2,jomblo
7,178,7,pacaran


# Visualize Data

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
for status, data in status_df.groupby('status'):
    ax.scatter(data["tinggi"], data["mantan"], label=status)
    
plt.legend(loc='upper left')
plt.xlim(140, 190)
plt.ylim(0, 12)
plt.title("Sebaran Data Tinggi Badan, Jumlah Mantan dan Status")
plt.xlabel("Tinggi Badan (cm)")
plt.ylabel("Jumlah Mantan")
plt.grid(True)
plt.show()

# Preprocessing Dataset

## Split features and target

In [None]:
import numpy as np

X_train = np.array(status_df[["tinggi", "mantan"]])
y_train = np.array(status_df["status"])

print(f"X_train:\n{X_train}\n")
print(f"y_train:\n{y_train}")

## Label Binarizer

In [None]:
from sklearn.preprocessing import LabelBinarizer

binarizer = LabelBinarizer()
y_train = binarizer.fit_transform(y_train)
print(f"New y_train:\n{y_train}")

In [None]:
y_train = y_train.flatten()

# KNN (K-Nearest Neighbors) Classification Model
- Melakukan klasifikasi dengan cara menghitung *distance* antara *datapoint* baru dengan *datapoint-datapoint* terdekat yang ada disekitar *datapoint* yang diprediksi kelasnya.
- Salah satu cara menghitung *distance* dapat menggunakan *Euclidean Distance*.
- Jumlah tetangga (*neighbors*) terdekat yang dihitung ditentukan sebelumnya.
- Setelah itu divoting untuk menentukan *datapoint* baru masuk ke kelas yang mana.

## Train Model

In [None]:
from sklearn.neighbors import KNeighborsClassifier

K = 3
knn_model = KNeighborsClassifier(n_neighbors=K)
knn_model.fit(X_train, y_train);

## Predict with Trained Model

In [None]:
tinggi_badan_gebetan = 170
jumlah_mantan_gebetan = 1

tinggi_badan_aku = 165
jumlah_mantan_aku = 1 

X_new = np.array([[tinggi_badan_gebetan, jumlah_mantan_gebetan],
                  [tinggi_badan_aku, jumlah_mantan_aku]])
X_new

In [None]:
y_new = knn_model.predict(X_new)
y_new

In [None]:
binarizer.inverse_transform(y_new)

## Visualize KNN Model

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
for status, data in status_df.groupby('status'):
    ax.scatter(data["tinggi"], data["mantan"], label=status)

plt.scatter(tinggi_badan_aku,
            jumlah_mantan_aku,
            marker="^",
            color="green",
            label="aku (jomblo)")

plt.text(tinggi_badan_aku, jumlah_mantan_aku, 'aku', horizontalalignment='right')

plt.scatter(tinggi_badan_gebetan,
            jumlah_mantan_gebetan,
            marker="s",
            color="yellow",
            label="gebetan (pacaran)")

plt.text(tinggi_badan_gebetan, jumlah_mantan_gebetan, 'gebetan')


plt.legend(loc='upper left')
plt.xlim(140, 190)
plt.ylim(0, 12)
plt.title("Sebaran Data Tinggi Badan, Jumlah Mantan dan Status")
plt.xlabel("Tinggi Badan (cm)")
plt.ylabel("Jumlah Mantan")
plt.grid(True)
plt.show()

## Distance Calculation (Euclidean Distance)
$distance = \sqrt{(t_1 - t_2)^2 + (b_1 - b_2)^2}$

### Aku

In [None]:
aku = np.array([tinggi_badan_aku, jumlah_mantan_aku])
aku

In [None]:
from scipy.spatial.distance import euclidean

distance_aku = [euclidean(aku, d) for d in X_train]
distance_aku

In [None]:
status_df["distance"] = distance_aku
status_df.sort_values(["distance"])

### Gebetan

In [None]:
gebetan = np.array([tinggi_badan_gebetan, jumlah_mantan_gebetan])
gebetan

In [None]:
distance_gebetan = [euclidean(gebetan, d) for d in X_train]
distance_gebetan

In [None]:
status_df["distance"] = distance_gebetan
status_df.sort_values(["distance"])

# Evaluate Model

## Testing Set

In [None]:
X_test = np.array([[150, 1],
                  [167, 4],
                  [180, 2],
                  [155, 5]])

y_test = np.array(["jomblo", "pacaran", "pacaran", "jomblo"])
y_test = binarizer.fit_transform(y_test)
print(f"X_test:\n{X_test}\n")
print(f"y_test:\n{y_test}")

## Predict with test dataset

In [None]:
y_pred = knn_model.predict(X_test)

In [None]:
y_pred

In [None]:
binarizer.inverse_transform(y_pred)

# Metrics Evaluation

## Confusion Matrix
- Menjelaskan seberapa besar kebingungan modell dalam melakukan prediksi yang direpresentasikan dengan TP (*True Positive*), TN (*True Negative*), FP (*False Positive*), dan FN (*False Negative*).
- *True Positive* adalah model memprediksi positif dan secara actual benar-benar positif. Prediksi model dengan keadaan sebenarnya sesuai dalam hal ini positif.
- *True Negative* adalah model memprediksi negatif dan secara actual benar-benar negatif. Prediksi model dengan keadaan sebenarnya sesuai dalam hal ini negatif.
- *False Positive* adalah model memprediksi positif, tetapi kenyatannya negatif. Prediksi model dengan keadaan sebenarnya tidak sesuai dalam hal ini seharusnya negatif.
- *False Negative* adalah model memprediksi negatif, tetapi kenyatannya positif. Prediksi model dengan keadaan sebenarnya tidak sesuai dalam hal ini seharusnya positif.

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

confusion_matrix = confusion_matrix(y_test, y_pred)
print(f"- FP (True Positive)  : {confusion_matrix[1, 1]}")
print(f"- FP (False Positive) : {confusion_matrix[0, 1]}")
print(f"- TN (True Negative)  : {confusion_matrix[0, 0]}")
print(f"- FN (False Negative) : {confusion_matrix[1, 0]}")

In [None]:
disp = ConfusionMatrixDisplay(confusion_matrix=confusion_matrix, display_labels=knn_model.classes_)
disp.plot()
plt.xlabel("Predict")
plt.ylabel("Actual")
plt.xticks([0, 1], ["Jomblo", "Pacaran"])
plt.yticks([0, 1], ["Jomblo", "Pacaran"])
plt.show()

## Accuracy
- *Accuracy* adalah persentase model memprediksi dengan benar untuk setiap kelas.
- Kekurangan: apabila jumlah *dataset* setiap *class* tidak seimbang, maka hasil akurasi tidak adil.

- $accuracy = \frac{TP\ +\ TN}{TP\ +\ TN\ +\ FP\ +\ FN}$

In [None]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

## Precision
- Dari data yang diprediksi positif, berapa banyak yang benar.
- Digunakan apabila evaluasi fokus untuk menurunkan FP (*False Positive*).
- $precision = \frac{TP}{TP\ +\ FP}$

In [None]:
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)
print(f"Precision: {precision}")

## Recall
- Istilah lainnya adalah *Sensitivity*.
- Dari data yang berlabel positif, berapa banyak yang diprediksi benar oleh model.
- Digunakan apabila evaluasi fokus untuk menurunkan FN (*False Negative*).
- $recall = \frac{TP}{TP\ +\ FN}$

In [None]:
from sklearn.metrics import recall_score

recall = recall_score(y_test, y_pred)
print(f"Precision: {recall}")

## F1-Score
- Nilai hramonik antara Precision dan Recall.
- $F1 = 2 \times \frac{Precision\ \times\ Recall}{Precision\ +\ Recall}$

In [None]:
from sklearn.metrics import f1_score

f1_score= f1_score(y_test, y_pred)
print(f"F1: {f1_score}")

## Classification Report
Memaparkan laporan berupa metrik evaluasi dalam bentuk tabel. Informasi yang disajikan lebih lengkap untuk setiap *class* yang diprediksi.

In [None]:
from sklearn.metrics import classification_report

classification_report = classification_report(y_test, y_pred)
print(f"Classification Report:\n{classification_report}")

## Matthews Correlation Coefficient (MCC)
- Metrik evaluasi yang dikhususkan untuk kasus *binary* dan *multiclass classification*.
- $MCC = \frac{TP\ \times\ TN\ +\ FP\ \times\ FN}{ \sqrt{ (TP\ +\ FP)\ \times\ (TP\ +\ FN)\ \times\ (TN\ +\ FP)\ \times\ (TN\ +\ FN)}}$

In [None]:
from sklearn.metrics import matthews_corrcoef

mcc = matthews_corrcoef(y_test, y_pred)
print(f"MCC: {mcc}")