# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
#Type your code here
data = pd.read_csv('https://raw.githubusercontent.com/ftthalmhdi/depression/refs/heads/main/Dataset_clustering.csv')

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
data.rename(columns=lambda x: x.strip(), inplace=True)

In [4]:
categorical_X = data.select_dtypes(include=object).columns
le = LabelEncoder()

for col in categorical_X:
  data[col] = le.fit_transform(data[col])

y = data['Cluster']
X = data.drop(columns=['Cluster'])

label_encoder = LabelEncoder()
for column in categorical_X:
    data[column] = label_encoder.fit_transform(data[column])

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=42)

In [5]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [6]:
models = {
    'Decision_Tree': DecisionTreeClassifier(random_state=42),
    'Random_Forest' : RandomForestClassifier(random_state=42)
}

- Decision Tree adalah algoritma machine learning yang digunakan untuk tugas klasifikasi dan regresi. Algoritma ini memiliki struktur menyerupai pohon, di mana setiap cabang merepresentasikan aturan atau keputusan berdasarkan fitur dalam data.
- Random Forest adalah metode ensemble learning yang mengombinasikan banyak Decision Tree untuk meningkatkan akurasi prediksi sekaligus mengurangi kemungkinan overfitting. Setiap pohon dalam Random Forest dilatih menggunakan sampel acak dari data serta subset fitur yang dipilih secara acak. Prediksi akhir ditentukan melalui mekanisme voting (untuk klasifikasi) atau rata-rata (untuk regresi) dari seluruh pohon dalam model.


## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [7]:
for name, model in models.items():
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    print(f"\n{name} Model Performance:")
    print("Accuracy:", accuracy_score(y_test, y_pred))
    print("Classification Report:\n", classification_report(y_test, y_pred))
    print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))


Decision_Tree Model Performance:
Accuracy: 0.9768028240040343
Classification Report:
               precision    recall  f1-score   support

         0.0       0.99      0.96      0.97       491
         1.0       0.97      0.98      0.98       692
         2.0       0.97      0.96      0.97       320
         3.0       0.98      0.99      0.99       480

    accuracy                           0.98      1983
   macro avg       0.98      0.97      0.98      1983
weighted avg       0.98      0.98      0.98      1983

Confusion Matrix:
 [[472  18   1   0]
 [  4 681   5   2]
 [  3   4 307   6]
 [  0   0   3 477]]

Random_Forest Model Performance:
Accuracy: 0.9818456883509834
Classification Report:
               precision    recall  f1-score   support

         0.0       1.00      0.98      0.99       491
         1.0       0.97      0.98      0.98       692
         2.0       0.99      0.96      0.98       320
         3.0       0.97      1.00      0.98       480

    accuracy           

## Decision Tree Performance
- Accuracy: 0.9768 (97.68%)
- Precision, Recall, F1-Score: Semua metrik berada di atas 0.96,menunjukkan performa yang sangat baik dalam memprediksi setiap kelas.
- Confusion Matrix: Hanya terjadi beberapa kesalahan klasifikasi, dengan sebagian besar prediksi sesuai dengan kelas aslinya.

## Random Forest Performance
- Accuracy: 0.9818 (98.18%)
Precision, Recall, F1-Score: Semua metrik di atas 0.97, sedikit lebih baik dibandingkan Decision Tree.
- Confusion Matrix: Kesalahan klasifikasi lebih sedikit dibandingkan - Decision Tree, menunjukkan bahwa model ini lebih stabil dalam memprediksi kelas yang benar.

### Kesimpulan
Random Forest memiliki performa yang lebih baik dibandingkan Decision Tree, dengan akurasi dan metrik evaluasi yang lebih tinggi.Model memiliki potensi overfitting, karena tingkat akurasi yang sangat tinggi di data uji. Hal ini bisa terjadi karena model terlalu kompleks atau data latih dan uji memiliki pola yang sangat mirip.    Untuk menghindari overfitting, beberapa langkah yang dapat dilakukan:
Tuning hyperparameter seperti jumlah pohon dalam Random Forest atau kedalaman maksimal Decision Tree.
Menggunakan teknik validasi silang (cross-validation) untuk memastikan model tetap generalizable terhadap data baru.
Menambah data atau melakukan augmentasi data untuk meningkatkan keberagaman dalam pelatihan model.

Secara keseluruhan, Random Forest lebih unggul dibandingkan Decision Tree dalam hal akurasi dan stabilitas, namun perlu diperhatikan kemungkinan overfitting.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [8]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [9]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Analisis Kinerja Model Decision Tree & Random Forest

1. Evaluasi Model

Decision Tree Performance

Accuracy: 97.68%

Classification Report:

Precision, Recall, F1-Score untuk semua kelas di atas 0.96.

Confusion Matrix:

Beberapa kesalahan klasifikasi terjadi, khususnya pada kelas 0 dan 2.

Random Forest Performance

Accuracy: 98.18%

Classification Report:

Precision, Recall, F1-Score tetap tinggi di semua kelas.

Confusion Matrix:

Performa lebih stabil dibandingkan Decision Tree dengan sedikit kesalahan klasifikasi.

2. Identifikasi Kelemahan Model

1. Precision atau Recall Rendah untuk Kelas Tertentu

Model masih mengalami beberapa kesalahan klasifikasi:

Decision Tree:

Kelas 0: 18 data salah klasifikasi.

Kelas 2: 13 data salah klasifikasi.

Random Forest:

Kelas 1: 11 data salah klasifikasi.

Kelas 2: 12 data salah klasifikasi.

2. Potensi Overfitting atau Underfitting

Kemungkinan Overfitting:

Akurasi tinggi bisa menjadi indikasi bahwa model terlalu menyesuaikan dengan data latih dan kurang generalisasi ke data baru.

Random Forest lebih tahan terhadap overfitting dibandingkan Decision Tree, tetapi tetap perlu dioptimalkan lebih lanjut.

Tidak Mengalami Underfitting:

Model tidak menunjukkan ciri-ciri underfitting karena akurasinya tinggi di data uji.

3. Rekomendasi Tindakan Lanjutan

1. Mencegah Overfitting

Gunakan validasi silang (cross-validation) untuk memastikan model bekerja baik di berbagai subset data.

Batasi kedalaman maksimum Decision Tree atau jumlah fitur di Random Forest untuk mencegah model terlalu kompleks.

Gunakan pruning pada Decision Tree atau kurangi jumlah estimator pada Random Forest untuk menghindari overfitting.

2. Meningkatkan Performa Kelas dengan Kesalahan Klasifikasi

Coba metode balancing data seperti SMOTE jika ada kelas yang kurang terwakili.

Eksplorasi fitur engineering untuk mengekstrak informasi lebih banyak dari dataset.

3. Eksperimen dengan Algoritma Lain

XGBoost atau LightGBM: Dapat memberikan performa lebih tinggi dibandingkan Random Forest.

Neural Network: Cocok jika dataset bertambah besar dan ingin mengeksplorasi model yang lebih kompleks.

4. Mengumpulkan Data Tambahan

Jika dataset belum cukup representatif, tambahkan lebih banyak data atau cari fitur tambahan yang dapat meningkatkan akurasi model.