# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
#Type your code here
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
#Memuat Dataset hasil clustering
df = pd.read_csv('Ship_Performance_Clustering_Result.csv')
df.head()

Unnamed: 0,Speed_Over_Ground_knots,Engine_Power_kW,Distance_Traveled_nm,Draft_meters,Cargo_Weight_tons,Operational_Cost_USD,Revenue_per_Voyage_USD,Turnaround_Time_hours,Efficiency_nm_per_kWh,Seasonal_Impact_Score,Weekly_Voyage_Count,Average_Load_Percentage,Ship_Type,Route_Type,Engine_Type,Maintenance_Status,Weather_Condition,Cluster
0,12.597558,2062.983982,1030.943616,14.132284,1959.017882,483832.35454,292183.273104,25.867077,1.455179,1.415653,1.0,93.769249,Container Ship,Long-haul,Heavy Fuel Oil (HFO),Critical,Moderate,3
1,10.38758,1796.057415,1060.486382,14.653083,162.394712,483388.000509,883765.78736,63.248196,0.290361,0.885648,6.0,93.895372,Fish Carrier,Short-haul,Steam Turbine,Good,Rough,0
2,20.749747,1648.556685,658.874144,7.199261,178.040917,448543.404044,394018.746904,49.41815,0.499595,1.405813,9.0,96.218244,Container Ship,Long-haul,Diesel,Fair,Moderate,3
3,21.055102,915.261795,1126.822519,11.789063,1737.385346,261349.605449,87551.375175,22.40911,0.702906,1.370704,1.0,66.193698,Bulk Carrier,Transoceanic,Steam Turbine,Fair,Moderate,1
4,13.742777,1089.721803,1445.281159,9.727833,260.595103,287718.37516,676121.459632,64.158231,1.331343,0.583383,8.0,80.008581,Fish Carrier,Transoceanic,Diesel,Fair,Moderate,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

Mengubah data kategorikal menjadi numerik

In [3]:
#Label Encoding all categorical data

label_encoder = LabelEncoder()
categorical_cols = df.select_dtypes(include='object').columns.tolist()
for col in categorical_cols:
    df[col] = label_encoder.fit_transform(df[col])
df.head()


Unnamed: 0,Speed_Over_Ground_knots,Engine_Power_kW,Distance_Traveled_nm,Draft_meters,Cargo_Weight_tons,Operational_Cost_USD,Revenue_per_Voyage_USD,Turnaround_Time_hours,Efficiency_nm_per_kWh,Seasonal_Impact_Score,Weekly_Voyage_Count,Average_Load_Percentage,Ship_Type,Route_Type,Engine_Type,Maintenance_Status,Weather_Condition,Cluster
0,12.597558,2062.983982,1030.943616,14.132284,1959.017882,483832.35454,292183.273104,25.867077,1.455179,1.415653,1.0,93.769249,1,1,1,0,1,3
1,10.38758,1796.057415,1060.486382,14.653083,162.394712,483388.000509,883765.78736,63.248196,0.290361,0.885648,6.0,93.895372,2,2,2,2,2,0
2,20.749747,1648.556685,658.874144,7.199261,178.040917,448543.404044,394018.746904,49.41815,0.499595,1.405813,9.0,96.218244,1,1,0,1,1,3
3,21.055102,915.261795,1126.822519,11.789063,1737.385346,261349.605449,87551.375175,22.40911,0.702906,1.370704,1.0,66.193698,0,3,2,1,1,1
4,13.742777,1089.721803,1445.281159,9.727833,260.595103,287718.37516,676121.459632,64.158231,1.331343,0.583383,8.0,80.008581,2,3,0,1,1,0


In [4]:
#Splitting Dataset
X = df.drop(columns='Cluster')
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:

print(f"Training set shape: X_train={X_train.shape}, y_train={y_train.shape}")
print(f"Test set shape: X_test={X_test.shape}, y_test={y_test.shape}")

Training set shape: X_train=(2188, 17), y_train=(2188,)
Test set shape: X_test=(548, 17), y_test=(548,)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [6]:
#Membangun model klasifikasi dengan K-Nearest Neighbors
from sklearn.tree import DecisionTreeClassifier


knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
dt = DecisionTreeClassifier().fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

Saya menggunakan algoritma KNN ,Decision Tree dan Random Forest dalam membangun model klasifikasi dimana KNN merupakan 
algoritma yang membuat data menentukan jarak dari setiap tetangga nya dengan jumlah N yang telah ditentukan
sebelumnya
Decision Tree merupakan algoritma dengan memilih kategori dengan percabangan dimana ada 3 komponen yaitu root node node dan leaf node
random Forest merupakan algoritma dengan memanfaatkan beberapa decision tree yang mengklasifikasikan
kategori dengan menggunakan leaf and node 

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [7]:
#Type your code here
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix

def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    
    # Periksa apakah klasifikasi biner atau multi-kelas
    average_type = 'binary' if len(set(y_test)) == 2 else 'macro'

    results = {
        'Confusion Matrix': cm,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': precision_score(y_test, y_pred, average=average_type, zero_division=0),
        'Recall': recall_score(y_test, y_pred, average=average_type, zero_division=0),
        'F1-Score': f1_score(y_test, y_pred, average=average_type)
    }
    return results

 
# Mengevaluasi setiap model dan mengumpulkan hasilnya
results = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, X_test, y_test),
    'Random Forest (RF)': evaluate_model(rf, X_test, y_test),
    'Decision Tree (DT)': evaluate_model(dt, X_test, y_test),
}
 
# Buat DataFrame untuk meringkas hasil
summary_df = pd.DataFrame(columns=['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score'])
 
# Isi DataFrame dengan hasil
rows = []
for model_name, metrics in results.items():
    rows.append({
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    })
 
 
# Konversi daftar kamus ke DataFrame
summary_df = pd.DataFrame(rows)
 
# Tampilkan DataFrame
print(summary_df)

                       Model  Accuracy  Precision    Recall  F1-Score
0  K-Nearest Neighbors (KNN)  0.246350   0.257012  0.254633  0.246557
1         Random Forest (RF)  1.000000   1.000000  1.000000  1.000000
2         Decision Tree (DT)  0.994526   0.993717  0.994560  0.994096


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

Tanpa normalisasi, KNN memiliki akurasi sangat rendah (28.83%) karena perbedaan skala fitur yang besar membuat perhitungan jarak tidak optimal.
Random Forest dan Decision Tree unggul dalam akurasi dan F1 Score karena lebih robust terhadap perbedaan skala fitur

Model terbaik untuk Data ini adalah Random Forest

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [8]:
#Kita akan menggunakan RandomizedSearchCV untuk mencari parameter terbaik
from sklearn.model_selection import RandomizedSearchCV
param_dist = {
    'n_estimators': [50, 100, 200, 300, 500],
    'max_depth': [None, 10, 20, 30, 50],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['sqrt', 'log2', None]
}

rf = RandomForestClassifier(random_state=42)

random_search = RandomizedSearchCV(estimator=rf,
    param_distributions=param_dist,
    n_iter=10,  # Jumlah kombinasi yang diuji
    cv=5,  # 5-fold cross-validation
    scoring='accuracy',
    n_jobs=-1,  # Gunakan semua core CPU
    random_state=42)
random_search.fit(X_train, y_train)


# Tampilkan hyperparameter terbaik dan akurasi terbaik
print("Best Parameters:", random_search.best_params_)
print("Best Accuracy:", random_search.best_score_)

# Gunakan model terbaik untuk prediksi
best_rf = random_search.best_estimator_
y_pred = best_rf.predict(X_test)


Best Parameters: {'n_estimators': 100, 'min_samples_split': 5, 'min_samples_leaf': 4, 'max_features': None, 'max_depth': 20}
Best Accuracy: 0.9972571392746309


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [9]:
#Type your code here
y_pred = best_rf.predict(X_test)

# Evaluasi model
from sklearn.metrics import accuracy_score, confusion_matrix

print("Final Accuracy on Test Set:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Final Accuracy on Test Set: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       101
           1       1.00      1.00      1.00       132
           2       1.00      1.00      1.00       141
           3       1.00      1.00      1.00       174

    accuracy                           1.00       548
   macro avg       1.00      1.00      1.00       548
weighted avg       1.00      1.00      1.00       548



## **e. Analisis Hasil Evaluasi Model Klasifikasi**


1. Hasil evaluasi dari model RF sebelum hypertuning dan sesudah meningkat karena sebelumnya
hasil tersebut sekitar dengan rata-rata 0.98 sedangkan setelah di Tuning model meningkat menjadi
0.99 secara keseluruhan
2. Secara keseluruhan model Random Forest merupakan model yang terbaik dari 3 model yang telah
dicoba sebelumnya dengan nilai 0.98 sebelum di Tuning dan 0.99 setelah di HyperParamater Tuning
3. Saran selanjutnya dengan mencoba KNN dengan menormalisasikan dan scaling data numerik karena
hal tersebut merupakan penyebab model KNN rendah pada percobaan pertama