<a href="https://colab.research.google.com/github/Zkeera/machine-learning-dasar/blob/main/%5BKlasifikasi%5D_Submission_Akhir_BMLP_Mohammad_Taqi_Ashiddiqi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/Zkeera/machine-learning-dasar/refs/heads/main/dataset/hasil_clustering.csv')
df.head()

Unnamed: 0,Sex,Length,Diameter,Height,WholeWeight,ShuckedWeight,VisceraWeight,ShellWeight,Rings,Cluster,PCA1,PCA2
0,2,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15,2,-2.110091,1.594195
1,2,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7,2,-3.815715,1.561967
2,0,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9,0,-0.316949,-1.831632
3,2,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10,0,-1.443636,1.598885
4,1,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7,2,-4.107279,-0.152592


In [3]:
print(df.isnull().sum())
print(df.dtypes)

if 'Sex' in df.columns:
    df['Sex'] = df['Sex'].map({'M': 0, 'F': 1, 'I': 2})


Sex              0
Length           0
Diameter         0
Height           0
WholeWeight      0
ShuckedWeight    0
VisceraWeight    0
ShellWeight      0
Rings            0
Cluster          0
PCA1             0
PCA2             0
dtype: int64
Sex                int64
Length           float64
Diameter         float64
Height           float64
WholeWeight      float64
ShuckedWeight    float64
VisceraWeight    float64
ShellWeight      float64
Rings              int64
Cluster            int64
PCA1             float64
PCA2             float64
dtype: object


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
X = df.drop(columns=['Cluster'])
y = df['Cluster']

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [6]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

Random Forest adalah salah satu algoritma ensemble learning yang kuat dan populer dalam machine learning. Ia bekerja dengan membentuk sekumpulan pohon keputusan (decision trees) yang dilatih secara independen pada subset acak dari data.

Hasil prediksi dari masing-masing pohon kemudian digabungkan menggunakan voting (untuk klasifikasi) atau rata-rata (untuk regresi), sehingga menghasilkan model yang lebih stabil, akurat, dan tahan terhadap overfitting dibandingkan model pohon tunggal.

In [7]:
y_pred = model.predict(X_test)

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [8]:
# Confusion Matrix
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

# Classification Report
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

# Accuracy
print("\nAccuracy Score:")
print(accuracy_score(y_test, y_pred))

Confusion Matrix:
[[364   4   0]
 [  6 236   0]
 [  0   0 226]]

Classification Report:
              precision    recall  f1-score   support

           0       0.98      0.99      0.99       368
           1       0.98      0.98      0.98       242
           2       1.00      1.00      1.00       226

    accuracy                           0.99       836
   macro avg       0.99      0.99      0.99       836
weighted avg       0.99      0.99      0.99       836


Accuracy Score:
0.9880382775119617


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

### Export File CSV

In [9]:
# Simpan hasil prediksi ke file CSV
hasil = X_test.copy()
hasil['Actual'] = y_test.values
hasil['Predicted'] = y_pred
hasil.to_csv('hasil_klasifikasi.csv', index=False)
print("Hasil klasifikasi disimpan ke hasil_klasifikasi.csv")

Hasil klasifikasi disimpan ke hasil_klasifikasi.csv


In [10]:
from google.colab import files
files.download('hasil_klasifikasi.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Dalam proyek ini, tidak dilakukan tuning hyperparameter terhadap model klasifikasi Random Forest. Model digunakan dengan parameter default dari RandomForestClassifier, sehingga hasil evaluasi yang diperoleh mencerminkan performa dasar dari algoritma tanpa optimasi tambahan.

Karena tuning belum dilakukan, belum ada perbandingan langsung terhadap peningkatan akurasi atau metrik lain. Namun, hasil evaluasi ini bisa dijadikan baseline untuk pengujian lanjutan di masa depan jika tuning dilakukan.

### 1. Identifikasi Kelemahan Model
Dari evaluasi menggunakan classification report dan confusion matrix, dapat diidentifikasi beberapa potensi kelemahan model:

- Precision atau recall yang rendah untuk kelas tertentu menunjukkan bahwa model masih kesulitan dalam membedakan beberapa kategori. Hal ini bisa terjadi karena:

- Jumlah data di kelas tersebut terlalu sedikit (class imbalance).

- Ciri (fitur) antar kelas terlalu mirip atau tidak cukup informatif.

- Overfitting atau underfitting belum sepenuhnya terdeteksi karena tuning belum dilakukan. Namun, jika terdapat selisih besar antara performa pada data training dan testing, bisa jadi tanda awal overfitting.

- Akurasi keseluruhan masih bisa ditingkatkan, mengingat belum ada proses optimasi model.

### 2. Rekomendasi Tindakan Lanjutan
Berdasarkan temuan di atas, berikut beberapa langkah yang dapat direkomendasikan:

- Lakukan tuning hyperparameter untuk meningkatkan performa model, misalnya dengan GridSearchCV atau RandomizedSearchCV.

- Coba algoritma lain seperti:

 - Gradient Boosting (misalnya XGBoost, LightGBM)

 - Support Vector Machine (SVM)

 - K-Nearest Neighbors (KNN)

- Analisis feature importance dari model Random Forest untuk mengetahui fitur mana yang paling berpengaruh terhadap prediksi.

- Tangani ketidakseimbangan kelas, jika ditemukan, dengan teknik seperti SMOTE atau undersampling.

- Kumpulkan data tambahan jika dataset yang digunakan masih terbatas, terutama untuk kelas minoritas.

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.