<a href="https://colab.research.google.com/github/NaufalYogaPratama/submission-ml-basics/blob/main/%5BKlasifikasi%5D_Submission_Akhir_BMLP_Naufal_Yoga_Pratama.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, mean_squared_error, classification_report

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/NaufalYogaPratama/submission-ml-basics/main/ship_performance_clustered.csv")
df.head()

Unnamed: 0,Ship_Type,Route_Type,Engine_Type,Maintenance_Status,Speed_Over_Ground_knots,Engine_Power_kW,Distance_Traveled_nm,Draft_meters,Weather_Condition,Cargo_Weight_tons,Operational_Cost_USD,Revenue_per_Voyage_USD,Turnaround_Time_hours,Efficiency_nm_per_kWh,Seasonal_Impact_Score,Weekly_Voyage_Count,Average_Load_Percentage,cluster
0,Container Ship,Short-haul,Heavy Fuel Oil (HFO),Critical,12.597558,2062.983982,1030.943616,14.132284,Moderate,1959.017882,483832.35454,292183.273104,25.867077,1.455179,1.415653,1,93.769249,3
1,Fish Carrier,Short-haul,Steam Turbine,Good,10.38758,1796.057415,1060.486382,14.653083,Rough,162.394712,483388.000509,883765.78736,63.248196,0.290361,0.885648,6,93.895372,6
2,Container Ship,Long-haul,Diesel,Fair,20.749747,1648.556685,658.874144,7.199261,Moderate,178.040917,448543.404044,394018.746904,49.41815,0.499595,1.405813,9,96.218244,4
3,Bulk Carrier,Transoceanic,Steam Turbine,Fair,21.055102,915.261795,1126.822519,11.789063,Moderate,1737.385346,261349.605449,87551.375175,22.40911,0.702906,1.370704,1,66.193698,5
4,Fish Carrier,Transoceanic,Diesel,Fair,13.742777,1089.721803,1445.281159,9.727833,Moderate,260.595103,287718.37516,676121.459632,64.158231,1.331343,0.583383,8,80.008581,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [None]:
# Drop kolom cluster untuk mendapatkan fitur (X) dan target (y)
X = df.drop('cluster', axis=1)  # Fitur
y = df['cluster']  # Target (label cluster)

# Pilih semua fitur kategorikal
categorical_features = ['Ship_Type', 'Route_Type', 'Engine_Type', 'Maintenance_Status', 'Weather_Condition']

# One-Hot Encoding untuk semua fitur kategorikal
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
encoded_data = encoder.fit_transform(X[categorical_features])
encoded_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(categorical_features))

# Gabungkan encoded_df dengan X dan drop kolom kategorikal asli
X = X.drop(categorical_features, axis=1)
X = pd.concat([X, encoded_df], axis=1)

# Standarisasi fitur numerik agar model lebih stabil
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Data splitting (setelah encoding dan scaling)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [None]:
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

**Logistic Regression** dipilih karena kesederhanaan, efisiensi, kemampuan multi-kelas, ketahanan terhadap *outlier*, dan keandalannya. Algoritma ini mudah diinterpretasi, cocok untuk dataset `ship_performance_clustered` yang relatif besar, dan sesuai dengan tujuan proyek untuk mengelompokkan kapal ke dalam beberapa *cluster* kinerja berdasarkan fitur seperti kecepatan dan jenis mesin. Kinerja yang baik dan kemudahan implementasi semakin memperkuat alasan pemilihannya sebagai model klasifikasi dalam proyek ini.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [None]:
# Evaluasi model
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred) * 100
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)

In [None]:
# Akurasi
print(f'Accuracy: {accuracy}%')

Accuracy: 97.44525547445255%


In [None]:
# Mean-Squared-Error
print(f'MSE: {mse}')

MSE: 0.5638686131386861


In [None]:
# RMSE
print(f'RMSE: {rmse}')

RMSE: 0.7509118544401108


In [None]:
# Confusion Matrix
print(f"Confusion Matrix:\n{cm}")

Confusion Matrix:
[[47  0  0  0  0  0  0  1  0]
 [ 0 64  0  0  0  0  0  0  0]
 [ 0  0 59  0  0  1  1  0  0]
 [ 0  0  0 55  0  0  0  3  0]
 [ 0  0  0  0 59  0  0  0  1]
 [ 0  0  1  0  0 59  0  0  0]
 [ 0  0  0  0  0  0 59  0  0]
 [ 0  0  0  1  0  0  0 58  0]
 [ 0  2  0  0  3  0  0  0 74]]


In [None]:
# Laporan dari masing-masing klasifikasi
print(f'Laporan klasifikasi:\n {report}')

Laporan klasifikasi:
               precision    recall  f1-score   support

           0       1.00      0.98      0.99        48
           1       0.97      1.00      0.98        64
           2       0.98      0.97      0.98        61
           3       0.98      0.95      0.96        58
           4       0.95      0.98      0.97        60
           5       0.98      0.98      0.98        60
           6       0.98      1.00      0.99        59
           7       0.94      0.98      0.96        59
           8       0.99      0.94      0.96        79

    accuracy                           0.97       548
   macro avg       0.98      0.98      0.98       548
weighted avg       0.97      0.97      0.97       548



## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

# Analisis Model Klasifikasi

Model klasifikasi yang dilatih menggunakan data yang telah di-cluster menunjukkan performa yang sangat baik. Berikut analisisnya berdasarkan metrik evaluasi yang digunakan:

## 1. Akurasi

Model mencapai akurasi sebesar **97.44%**. Ini menunjukkan bahwa model mampu mengklasifikasikan data dengan benar hampir 98% dari waktu. Tingkat akurasi yang tinggi ini mengindikasikan bahwa model telah mempelajari pola dalam data dengan baik dan dapat memprediksi label cluster dengan akurat.

## 2. Mean Squared Error (MSE) dan Root Mean Squared Error (RMSE)

Nilai **MSE** dan **RMSE** yang rendah, yaitu **0.56** dan **0.75**, menunjukkan bahwa error prediksi model relatif kecil. Hal ini semakin memperkuat bahwa model memiliki performa yang baik dalam memprediksi label cluster.

## 3. Confusion Matrix

Confusion matrix memberikan gambaran detail tentang kinerja model dalam mengklasifikasikan setiap cluster. Diagonal utama confusion matrix menunjukkan jumlah data point yang diklasifikasikan dengan benar (**True Positives**) untuk setiap cluster.

| Cluster | True Positive |
|---------|---------------|
| 0       | 47            |
| 1       | 64            |
| 2       | 59            |
| 3       | 55            |
| 4       | 59            |
| 5       | 59            |
| 6       | 59            |
| 7       | 58            |
| 8       | 74            |

Dari confusion matrix, terlihat bahwa sebagian besar data point diklasifikasikan dengan benar, yang sesuai dengan akurasi yang tinggi. Hanya beberapa data point yang salah klasifikasi, yang ditunjukkan oleh elemen di luar diagonal utama.

## 4. Laporan Klasifikasi

Laporan klasifikasi memberikan metrik **presisi**, **recall**, dan **F1-score** untuk setiap cluster.

| Cluster | Precision | Recall | F1-score | Support |
|---------|-----------|--------|----------|---------|
| 0       | 1.00      | 0.98   | 0.99     | 48      |
| 1       | 0.97      | 1.00   | 0.98     | 64      |
| 2       | 0.98      | 0.97   | 0.98     | 61      |
| 3       | 0.98      | 0.95   | 0.96     | 58      |
| 4       | 0.95      | 0.98   | 0.97     | 60      |
| 5       | 0.98      | 0.98   | 0.98     | 60      |
| 6       | 0.98      | 1.00   | 0.99     | 59      |
| 7       | 0.94      | 0.98   | 0.96     | 59      |
| 8       | 0.99      | 0.94   | 0.96     | 79      |

|          | Precision | Recall | F1-score | Support |
|----------|-----------|--------|----------|---------|
| accuracy |           |        |          | 0.97    | 548     |
| macro avg| 0.98      | 0.98   | 0.98     | 548     |
| weighted avg| 0.97   | 0.97   | 0.97     | 548     |

Dari laporan klasifikasi, terlihat bahwa model memiliki **presisi**, **recall**, dan **F1-score** yang tinggi untuk sebagian besar cluster, yang menunjukkan performa yang baik. Nilai-nilai ini mendekati 1, yang mengindikasikan bahwa model mampu mengklasifikasikan data dengan akurat dan konsisten.

## Kesimpulan

Secara keseluruhan, model klasifikasi menunjukkan performa yang sangat baik dalam mengklasifikasikan data yang telah di-cluster. Akurasi yang tinggi, MSE dan RMSE yang rendah, serta presisi, recall, dan F1-score yang tinggi menunjukkan bahwa model dapat memprediksi label cluster dengan akurat.

Meskipun demikian, penting untuk diingat bahwa evaluasi model harus dilakukan dengan hati-hati dan mempertimbangkan konteks data dan tujuan analisis. Kamu mungkin perlu melakukan analisis lebih lanjut, seperti visualisasi hasil clustering dan interpretasi karakteristik cluster, untuk mendapatkan pemahaman yang lebih lengkap tentang performa model.