# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from google.colab import drive
drive.mount('/content/drive')

import warnings
warnings.filterwarnings('ignore')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [10]:
data = '/content/drive/MyDrive/BMLP/clustered_data1.csv'
df = pd.read_csv(data)

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [37]:
from sklearn.model_selection import train_test_split

X = df

y = df['status_type']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42, stratify=y)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [34]:
# from sklearn.neural_network import MLPClassifier
# from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# # Initialize the Neural Network model (MLPClassifier)
# nn_model = MLPClassifier(hidden_layer_sizes=(100,), random_state=42, max_iter=1000)

# # Train the model
# nn_model.fit(X_train, y_train)

# # Predict on the test data
# y_pred = nn_model.predict(X_test)

**Neural Network (MLPClassifier)**

Algoritma Neural Network yang digunakan dalam kode di atas adalah Multilayer Perceptron (MLP). MLP adalah salah satu tipe dari jaringan saraf buatan yang digunakan untuk klasifikasi, regresi, dan banyak aplikasi pembelajaran mesin lainnya. Model MLPClassifier diimplementasikan melalui kelas MLPClassifier yang tersedia dalam pustaka sklearn.neural_network.

Struktur Model:


*   Lapisan Input: Lapisan pertama adalah lapisan input yang menerima data fitur
dari dataset. Setiap fitur dalam dataset menjadi neuron di lapisan ini. MLPClassifier bekerja dengan menganggap fitur-fitur ini sebagai vektor input untuk jaringan saraf.
*   Lapisan Tersembunyi: MLP memiliki satu atau lebih lapisan tersembunyi yang ada di antara lapisan input dan lapisan output. Setiap neuron di lapisan tersembunyi menerima bobot (weight) dari neuron di lapisan sebelumnya. Dalam kode ini, model menggunakan satu lapisan tersembunyi dengan 100 neuron (ditentukan oleh parameter hidden_layer_sizes=(100,)). Jumlah neuron dalam lapisan tersembunyi dapat diubah tergantung pada kompleksitas masalah. Setiap neuron pada lapisan tersembunyi menghitung sebuah fungsi aktivasi, yang kemudian diteruskan ke lapisan berikutnya. Fungsi aktivasi yang digunakan di sini adalah ReLU (Rectified Linear Unit) secara default, yang membantu jaringan belajar dari data dengan menangani masalah vanishing gradient lebih baik dibandingkan dengan fungsi aktivasi lainnya.
*   Lapisan Output: Lapisan terakhir adalah lapisan output yang menghasilkan hasil prediksi. Setiap neuron di lapisan output mewakili sebuah kelas dalam masalah klasifikasi. Dalam hal ini, MLPClassifier secara otomatis menangani jumlah kelas sesuai dengan label target y yang ada dalam dataset.

Proses Pembelajaran (Training):
*   Proses Pelatihan (Training) dimulai dengan inisialisasi bobot (weights) secara acak.
*   Model akan memperbarui bobot-bobot tersebut selama iterasi untuk meminimalkan kesalahan atau loss. Dalam hal ini, loss function yang digunakan adalah log-loss atau cross-entropy loss, yang mengukur perbedaan antara prediksi model dan label sebenarnya.
*   Proses pembaruan bobot dilakukan menggunakan algoritma backpropagation bersama dengan teknik optimisasi seperti Stochastic Gradient Descent (SGD) atau Adam (tergantung implementasi).
*   Dalam kode ini, max_iter=1000 mengatur batas jumlah iterasi pembelajaran, yang menunjukkan berapa banyak kali algoritma akan memperbarui bobot selama proses pelatihan. Jika model belum konvergen setelah 1000 iterasi, maka pelatihan akan berhenti.

Proses Pengujian (Testing):
Setelah model dilatih dengan data pelatihan, model diuji dengan data uji (test data) menggunakan metode predict(). Model menghasilkan prediksi kelas untuk setiap sampel pada data uji, yang kemudian dibandingkan dengan nilai aktualnya (y_test).

In [38]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Initialize the Logistic Regression model
log_reg_model = LogisticRegression(random_state=42, max_iter=1000)

# Train the model
log_reg_model.fit(X_train, y_train)

# Predict on the test data
y_pred = log_reg_model.predict(X_test)

**Logistic Regression**

adalah algoritma klasifikasi yang digunakan untuk memprediksi probabilitas suatu kelas, biasanya untuk masalah klasifikasi biner (dua kelas). Meskipun namanya mengandung kata "regression," Logistic Regression adalah metode yang digunakan untuk klasifikasi, bukan regresi. Model ini digunakan untuk memetakan hubungan antara variabel independen (fitur) dengan variabel dependen (kelas target) dalam bentuk probabilitas. Logistic Regression bekerja dengan mengaplikasikan fungsi sigmoid (atau logistik) pada hasil perkalian antara fitur dan bobot model. Fungsi sigmoid ini mengubah output menjadi nilai antara 0 dan 1, yang kemudian dapat diperlakukan sebagai probabilitas untuk suatu kelas.

Proses Pelatihan:

*   Pelatihan Model: Pada proses pelatihan, Logistic Regression mengestimasi bobot (weights) yang meminimalkan log-loss atau cross-entropy loss, yang mengukur seberapa baik model memprediksi probabilitas yang sesuai dengan kelas sebenarnya.
*   Optimisasi: Biasanya, proses ini dilakukan menggunakan gradient descent atau varian dari algoritma ini untuk memperbarui bobot model secara iteratif. max_iter=1000 dalam kode ini mengindikasikan jumlah maksimum iterasi untuk optimisasi.

Prediksi dan Evaluasi:
Setelah pelatihan selesai, model dapat digunakan untuk membuat prediksi pada data uji. Model mengoutputkan nilai probabilitas untuk setiap kelas, dan kelas dengan probabilitas tertinggi dipilih sebagai prediksi.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [36]:
# # Evaluate Model Neural Network
# accuracy = accuracy_score(y_test, y_pred)
# print(f"Accuracy: {accuracy:.2f}")

# # Detailed evaluation
# print("\nClassification Report:")
# print(classification_report(y_test, y_pred))

# print("\nConfusion Matrix:")
# print(confusion_matrix(y_test, y_pred))

Accuracy: 0.97

Classification Report:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00        25
           1       0.98      0.99      0.99      1715
           2       1.00      0.66      0.80       146
           3       0.95      1.00      0.98       934

    accuracy                           0.97      2820
   macro avg       0.73      0.66      0.69      2820
weighted avg       0.96      0.97      0.96      2820


Confusion Matrix:
[[   0   25    0    0]
 [   0 1706    0    9]
 [   0   13   97   36]
 [   0    1    0  933]]


In [39]:
# Evaluate Model Logistic Regression
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# Detailed evaluation
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.99

Classification Report:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00        25
           1       0.98      1.00      0.99      1715
           2       0.96      1.00      0.98       146
           3       1.00      0.99      1.00       934

    accuracy                           0.99      2820
   macro avg       0.74      0.75      0.74      2820
weighted avg       0.98      0.99      0.98      2820


Confusion Matrix:
[[   0   25    0    0]
 [   0 1714    1    0]
 [   0    0  146    0]
 [   0    2    5  927]]


Neural Network (MLPClassifier):


*   Model Neural Network menunjukkan akurasi yang sangat tinggi yaitu 97%, dengan kinerja yang sangat baik dalam memprediksi kelas 1 dan kelas 3. Pada kelas 3, model mencapai recall 1.00, menunjukkan bahwa ia sangat efektif dalam mengenali kelas ini. Kelas 2 juga diprediksi dengan cukup baik, dengan f1-score 0.80.

Logistic Regression:


*   Logistic Regression menghasilkan akurasi 99%, lebih tinggi dibandingkan Neural Network. Model ini juga sangat baik dalam memprediksi kelas 1 dan kelas 3, dengan f1-score 0.99 pada kelas 1 dan f1-score 1.00 pada kelas 3. Precision dan recall untuk kelas 2 juga sangat baik, dengan f1-score 0.98.


Kesimpulan:

Logistic Regression unggul dalam hal akurasi keseluruhan dan stabilitas klasifikasi pada kelas yang lebih terwakili, tetapi kedua model (Neural Network dan Logistic Regression) menghadapi tantangan dalam memprediksi kelas 0. Meskipun kedua model bekerja sangat baik untuk kelas 1, 2, dan 3, langkah-langkah lebih lanjut seperti penyesuaian bobot kelas atau teknik sampling mungkin diperlukan untuk menangani masalah ketidakseimbangan kelas ini secara lebih efektif.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Model Neural Network (MLPClassifier):

Kelemahan:

*   Precision dan Recall rendah untuk Kelas 0: Model gagal mengklasifikasikan kelas 0 dengan baik, dengan precision, recall, dan f1-score yang sangat rendah (0.00). Ini menunjukkan masalah serius dalam mendeteksi kelas ini, kemungkinan akibat ketidakseimbangan kelas yang ekstrem, di mana kelas 0 sangat sedikit dibandingkan kelas lainnya.
*   Kelas 2: Meskipun kinerja model pada kelas 2 lebih baik daripada Logistic Regression, recall yang rendah (0.66) menunjukkan bahwa model masih kesulitan dalam mengidentifikasi kelas ini dengan benar.

Overfitting atau Underfitting:
Model menunjukkan akurasi yang sangat tinggi (97%) secara keseluruhan, tetapi masalah pada kelas 0 mengindikasikan bahwa model mungkin tidak dapat menangani ketidakseimbangan kelas dengan baik. Kemungkinan underfitting pada kelas yang lebih jarang terjadi, terutama kelas 0, yang membuat model gagal mempelajari pola-pola penting di kelas tersebut.

Model Logistic Regression:

Kelemahan:

*   Precision dan Recall rendah untuk Kelas 0: Sama seperti Neural Network, Logistic Regression juga menunjukkan hasil yang sangat buruk dalam mengklasifikasikan kelas 0, dengan precision dan recall yang 0.00. Ini menunjukkan masalah ketidakseimbangan kelas yang serupa.
*   Kelas 1 dan 3 sangat dominan: Logistic Regression sangat baik dalam memprediksi kelas 1 dan 3, tetapi ini dapat menjadi indikasi bahwa model lebih fokus pada kelas-kelas yang lebih banyak, dan kesulitan dengan kelas-kelas minoritas.

Overfitting atau Underfitting:

Kemungkinan Overfitting pada kelas-kelas dominan seperti kelas 1 dan 3. Meskipun akurasi keseluruhan sangat tinggi (99%), model menunjukkan high precision dan recall pada kelas yang lebih banyak. Hal ini mungkin menunjukkan bahwa model terlalu terfokus pada kelas dominan dan tidak cukup mempelajari kelas-kelas yang jarang.

Kesimpulan Umum dan Tindakan Lanjutan:

Kedua model, baik Neural Network maupun Logistic Regression, menunjukkan akurasi yang tinggi secara keseluruhan, tetapi keduanya mengalami kesulitan dalam mengklasifikasikan kelas 0, yang kemungkinan besar disebabkan oleh ketidakseimbangan kelas dalam dataset. Untuk mengatasi masalah ini, disarankan untuk mengumpulkan data tambahan, terutama untuk kelas minoritas, serta menggunakan strategi penyeimbangan kelas seperti oversampling atau penyesuaian bobot kelas. Selain itu, pengujian lebih lanjut dengan algoritma lain yang lebih toleran terhadap ketidakseimbangan kelas, seperti Random Forest atau XGBoost, dapat membantu meningkatkan kinerja model pada kelas-kelas minoritas.