# Linear Regression from scratch


In [19]:
import numpy as np
import pandas as pd

# Memuat data
data = pd.read_csv('/content/Salary_Data.csv')
data.head(5)

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


In [25]:
# Memisahkan fitur (X) dan target (y)
X = data['YearsExperience'].values.reshape(-1, 1)
y = data['Salary'].values.reshape(-1, 1)

# Menambahkan bias term (nilai 1) ke matriks fitur
X_b = np.c_[np.ones((X.shape[0], 1)), X]

# Inisialisasi parameter theta secara acak
theta = np.random.randn(2, 1)
learning_rate = 0.01
num_iterations = 1000

In [26]:
import numpy as np

# Fungsi untuk memprediksi output dengan menggunakan regresi linier
def predict(X, theta):
    # Menghitung hasil perkalian matriks antara X (fitur) dan theta (parameter)
    return np.dot(X, theta)

# Fungsi untuk mengoptimasi parameter theta dengan Gradient Descent
def gradient_descent(X, y, theta, learning_rate, num_iterations):
    m = len(y)  # Jumlah data training
    for i in range(num_iterations):
        predictions = np.dot(X, theta)        # Menghitung prediksi dari model
        error = predictions - y        # Menghitung error (selisih antara prediksi dan nilai sebenarnya)
        gradients = (1/m) * np.dot(X.T, error)        # Menghitung gradien (turunan dari fungsi biaya)
        theta = theta - learning_rate * gradients        # Memperbarui nilai theta dengan mengurangi hasil perkalian learning rate dan gradien

    return theta

# Fungsi untuk menghitung Mean Squared Error (MSE)
def mean_squared_error(y_true, y_pred):
    return np.mean((y_true - y_pred) ** 2) # Menghitung rata-rata dari kuadrat selisih antara nilai sebenarnya dan prediksi

# Fungsi untuk menghitung R-squared (R²) sebagai ukuran evaluasi model
def r_squared(y_true, y_pred):
    ss_res = np.sum((y_true - y_pred) ** 2)     # Menghitung jumlah kuadrat residu (SS_res)
    ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)    # Menghitung jumlah kuadrat total (SS_tot)

    return 1 - (ss_res / ss_tot)     # Menghitung nilai R²


In [27]:
# Optimasi parameter dengan gradient descent
theta_optimized = gradient_descent(X_b, y, theta, learning_rate, num_iterations)

# Menggunakan parameter yang telah dioptimasi untuk melakukan prediksi
y_pred = predict(X_b, theta_optimized)

# Evaluasi model dengan MSE dan R²
mse = mean_squared_error(y, y_pred)
r2 = r_squared(y, y_pred)

print("Parameter theta yang dioptimasi:")
print(theta_optimized)
print("\nMean Squared Error (MSE):", mse)
print("R-squared (R²):", r2)

Parameter theta yang dioptimasi:
[[22920.54254103]
 [ 9876.10429543]]

Mean Squared Error (MSE): 33053675.543968517
R-squared (R²): 0.9545028091768369
