# Regresi Linear dengan Stochastic Gradient Descent (SGD)

### Blok 1: Impor Pustaka
Blok ini hanya berisi semua pustaka yang kita perlukan.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time

### Blok 2: Memuat dan Membersihkan Data
Kita memuat dataset, mendefinisikan fungsi untuk memperbaiki kolom 'CGPA', dan membersihkan nilai yang hilang.

In [None]:
print("Memuat dan membersihkan data...")
data = pd.read_csv('Dataset.csv', delimiter=';')

def convert_cgpa(val):
    if isinstance(val, str) and '-' in val:
        low, high = val.split('-')
        return (float(low) + float(high)) / 2
    try:
        return float(val)
    except (ValueError, TypeError):
        return np.nan

data['CGPA'] = data['CGPA'].apply(convert_cgpa)
data = data.dropna(subset=['CGPA'])
print("Pembersihan data selesai.\n")

### Blok 3: Memisahkan Fitur (X) dan Target (y)
Di blok ini, kita memilih kolom mana yang akan menjadi fitur input dan mana yang menjadi target prediksi.

In [None]:
print("Memisahkan fitur dan target...")
X = data[['Age', 'Depression', 'Anxiety', 'PanicAttack', 'SeekTreatment']].astype(float).values
y = data['CGPA'].values
print(f"Bentuk X: {X.shape}")
print(f"Bentuk y: {y.shape}\n")

### Blok 4: Normalisasi dan Penambahan Bias
Fitur X dinormalisasi agar training lebih stabil, dan kolom bias ditambahkan untuk intercept.

In [None]:
print("Normalisasi fitur dan menambah bias...")
X = (X - X.mean(axis=0)) / X.std(axis=0)

X = np.c_[np.ones(X.shape[0]), X]
print(f"Bentuk X setelah diproses: {X.shape}\n")

### Blok 5: Inisialisasi Hyperparameter
Semua pengaturan untuk model, seperti learning rate, epoch, dan bobot awal, diatur di sini.

In [None]:
print("Inisialisasi hyperparameter...")
lr = 0.01
epochs = 1000
m, n = X.shape
w = np.zeros(n)
print(f"Learning Rate: {lr}")
print(f"Epochs: {epochs}\n")

### Blok 6: Proses Training Model
Ini adalah blok inti di mana algoritma SGD dijalankan untuk melatih model.

In [None]:
print("Memulai training model...")
start_time = time.time()

for epoch in range(epochs):
    for i in range(m):
        idx = np.random.randint(0, m)
        xi = X[idx]
        yi = y[idx]
        y_pred = np.dot(xi, w)
        error = y_pred - yi
        gradient = xi * error
        w -= lr * gradient

end_time = time.time()
training_duration = end_time - start_time
print(f"Training selesai dalam {training_duration:.4f} detik.\n")

### Blok 7: Evaluasi Model
Setelah training, kita evaluasi hasilnya dengan menghitung Mean Squared Error (MSE).

In [None]:
print("Evaluasi model...")
y_pred_all = X.dot(w)
mse = np.mean((y - y_pred_all)**2)
print('Bobot akhir (w):', w)
print('Mean Squared Error (MSE):', mse, "\n")

### Blok 8: Visualisasi Hasil
Terakhir, kita buat plot untuk membandingkan secara visual antara nilai aktual dan nilai prediksi.

In [None]:
print("Menampilkan plot hasil...")
plt.figure(figsize=(10, 6))
plt.scatter(y, y_pred_all, alpha=0.7, edgecolors='k', label='Aktual vs. Prediksi')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2, label='Garis Ideal')
plt.title('Perbandingan CGPA Aktual vs. Prediksi')
plt.xlabel('CGPA Aktual')
plt.ylabel('CGPA Prediksi')
plt.legend()
plt.grid(True)
plt.show()