# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [14]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [15]:
data = pd.read_csv('hasil_cluster.csv')
df = pd.DataFrame(data)  # Pastikan data sudah dalam bentuk DataFrame


In [16]:
data

Unnamed: 0,User_ID,Age,Gender,Social_Media_Hours,Exercise_Hours,Sleep_Hours,Screen_Time_Hours,Survey_Stress_Score,Wearable_Stress_Score,Support_System,Academic_Performance
0,1,16,0,9.654486,2.458001,5.198926,8.158189,3,0.288962,2,1
1,2,17,1,9.158143,0.392095,8.866097,5.151993,5,0.409446,2,2
2,3,15,1,5.028755,0.520119,4.943095,9.209325,2,0.423837,2,3
3,4,17,0,7.951103,1.022630,5.262773,9.823658,5,0.666021,2,0
4,5,17,0,1.357459,1.225462,6.196080,11.338990,5,0.928060,0,3
...,...,...,...,...,...,...,...,...,...,...,...
4995,4996,14,1,0.088148,1.003339,8.684888,5.922202,1,0.750205,2,0
4996,4997,15,0,7.161276,1.024644,5.312684,10.224924,4,0.427209,2,1
4997,4998,14,1,3.444383,2.877972,9.227726,4.059322,4,0.002893,0,2
4998,4999,18,0,7.866525,2.395839,4.317831,10.657076,2,0.612063,0,0


### standarisasi dan normalisasi data

In [29]:
# Identifikasi kolom numerik (kecuali User_ID)
numerical_cols = [ "Social_Media_Hours", "Exercise_Hours", "Sleep_Hours", 
                  "Screen_Time_Hours", "Wearable_Stress_Score"]

# Normalisasi dengan MinMaxScaler
minmax_scaler = MinMaxScaler()
df_normalized = data.copy()
df_normalized[numerical_cols] = minmax_scaler.fit_transform(df_normalized[numerical_cols])

scaler = StandardScaler()
df_normalized[numerical_cols] = scaler.fit_transform(df_normalized[numerical_cols])

df_normalized

Unnamed: 0,User_ID,Age,Gender,Social_Media_Hours,Exercise_Hours,Sleep_Hours,Screen_Time_Hours,Survey_Stress_Score,Wearable_Stress_Score,Support_System,Academic_Performance
0,1,16,0,1.654869,1.098356,-1.079212,0.377898,3,-0.716698,2,1
1,2,17,1,1.480936,-1.265659,1.050340,-0.664759,5,-0.300863,2,2
2,3,15,1,0.033878,-1.119161,-1.227774,0.742471,2,-0.251193,2,3
3,4,17,0,1.057954,-0.544139,-1.042135,0.955543,5,0.584673,2,0
4,5,17,0,-1.252652,-0.312038,-0.500157,1.481115,5,1.489070,0,3
...,...,...,...,...,...,...,...,...,...,...,...
4995,4996,14,1,-1.697456,-0.566213,0.945111,-0.397623,1,0.875225,2,0
4996,4997,15,0,0.781176,-0.541833,-1.013151,1.094717,4,-0.239558,2,1
4997,4998,14,1,-0.521333,1.578928,1.260341,-1.043737,4,-1.704030,0,2
4998,4999,18,0,1.028315,1.027224,-1.590870,1.244603,2,0.398445,0,0


In [30]:
df_normalized.describe()

Unnamed: 0,User_ID,Age,Gender,Social_Media_Hours,Exercise_Hours,Sleep_Hours,Screen_Time_Hours,Survey_Stress_Score,Wearable_Stress_Score,Support_System,Academic_Performance
count,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0
mean,2500.5,15.4932,0.4944,1.591616e-16,3.621992e-16,9.947598e-18,-9.379164e-17,3.0158,8.597567000000001e-17,1.0038,1.5246
std,1443.520003,1.715151,0.500019,1.0001,1.0001,1.0001,1.0001,1.414762,1.0001,0.821414,1.122696
min,1.0,13.0,0.0,-1.728161,-1.713792,-1.774556,-1.757817,1.0,-1.713663,0.0,0.0
25%,1250.75,14.0,0.0,-0.8616812,-0.8739244,-0.8394315,-0.8651143,2.0,-0.8697591,0.0,1.0
50%,2500.5,16.0,0.0,-0.01188112,-0.0168431,0.00668045,0.01746281,3.0,0.01306696,1.0,2.0
75%,3750.25,17.0,1.0,0.8540365,0.8901944,0.8490174,0.8524209,4.0,0.8742702,2.0,3.0
max,5000.0,18.0,1.0,1.774214,1.718307,1.708358,1.710034,5.0,1.736714,2.0,3.0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [32]:

# Pastikan ada kolom fitur dan label (misalnya label ada di kolom terakhir)
X = df_normalized.iloc[:, :-1]  # Semua kolom kecuali yang terakhir (fitur)
y = df_normalized.iloc[:, -1]   # Kolom terakhir sebagai target (label)

# Split data menjadi training dan testing set (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [35]:
X_train,y_train

(      User_ID  Age  Gender  Social_Media_Hours  Exercise_Hours  Sleep_Hours  \
 4227     4228   18       1           -0.816489        0.648863    -0.933247   
 4676     4677   15       0            1.069818        0.828819    -0.093557   
 800       801   17       1           -0.382630       -0.560331     0.500229   
 3671     3672   14       1           -0.021699       -1.576617     0.353184   
 4193     4194   15       0            0.227862       -0.160173     1.344918   
 ...       ...  ...     ...                 ...             ...          ...   
 4426     4427   18       1            0.170561       -0.888908     0.959235   
 466       467   13       1            1.202264        1.360853    -1.704882   
 3092     3093   17       1            1.111649       -0.844072     1.139890   
 3772     3773   16       0           -0.399655       -0.165357    -0.631886   
 860       861   16       1           -0.604800       -1.460425    -0.397341   
 
       Screen_Time_Hours  Survey_Stres

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

pada tahap ini saya menggunakan algoritma SVM untuk mengklasifikasikan datanya


In [None]:
svm_model = SVC(kernel='linear', C=1.0, gamma='scale', random_state=42)

# Training model
svm_model.fit(X_train, y_train)

# prediksi pada data uji
y_pred = svm_model.predict(X_test)

#evaluasi akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model SVM: {accuracy:.2f}")


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [None]:
#Type your code here

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.