Terlebih dahulu panggil pustaka yang akan kita gunakan. Kita akan memakai 3 pustaka, yakni:
- **numpy** (Untuk melakukan proses komputasi vektor numerik pada dataset dan implementasi algoritme)
- **matplotlib** (Untuk visualisasi proses berjalannya algoritme)
- **sklearn** (Hanya digunakan untuk memanggil dataset yang akan kita proses)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston

Sekarang panggil dataset regresi dengan perintah `load_boston`

In [None]:
dataset = load_boston()

Selanjutnya kita pisah dataset yang sudah dipanggil di atas berdasarkan **feature** dan **label**. Feature akan kita masukkan variabel `X` dan label kita masukan ke variabel `y`. Ubah dimensi label dengan menambahkan perintah `[:,np.newaxis]`. Karena vektor kolom dan vektor baris berbeda dalam Aljabar Linear.

Namun, di numpy hanya ada array n-dimensi dan tidak ada konsep untuk vektor baris dan kolom. Maka digunakan array bentuk *(n, 1)* untuk meniru vektor kolom dan *(1, n)* untuk vektor baris. Bentuk nilai label dapat menggunakan *(n, )* sebagai bentuk vektor kolom bentuk *(n, 1)* dengan menambahkan sumbu secara eksplisit, bila digunakan sekali.

In [None]:
X = dataset.data
y = dataset.target[:,np.newaxis]

print("Total dataset yang digunakan adalah: {}".format(X.shape[0]))

*Mean Squared Error (MSE)* akan diterapkan sebagai *cost function*. 
Variabel `h` untuk memasukkan nilai hasil pemetaan dari *input* `X` ke *output* `y`.

*Inner product* dari *features* diambil dengan parameter `(X @ params)`, perintah tersebut secara eksplisit menyatakan bahwa 
regresi linier akan digunakan untuk memproses hipotesis.

In [None]:
def compute_cost(X, y, params):
    n_samples = len(y)
    h = X @ params
    return (1/(2*n_samples))*np.sum((h-y)**2)

Selanjutnya algoritme *gradient descent* akan diimplementasikan. Parameter `n_inters` menunjukkan jumlah iterasi dari *gradient descent*. Nilai *cost* yang dihasilkan oleh *cost function* pada setiap iterasi akan disimpan pada variabel `J_history` yang sudah didefinisikan sebagai *numpy array*.

*Update rule* ditentukan dengan *script* berikut:
`(1/n_samples) * X.T @ (X @ params - y)`

Sesudai dengan `partial derivative` dari `cost function`. Jadi, variabel `params` akan menyimpan nilai parameter yang diperbarui sesuai dengan aturan di atas.

In [None]:
def gradient_descent(X, y, params, learning_rate, n_iters):
    n_samples = len(y)
    J_history = np.zeros((n_iters,1))

    for i in range(n_iters):
        params = params - (learning_rate/n_samples) * X.T @ (X @ params - y) 
        J_history[i] = compute_cost(X, y, params)

    return (J_history, params)

Sebelum menjalankan algoritme *gradient descent* pada *dataset*, terlebih dahulu terapkan normalisasi pada data.
Normalisasi sering dilakukan sebagai bagian persiapan data di setiap proses *machine learning*. Kali ini normalisasi yang dilakukan yakni *rescaling* nilai pada rentang `[0,1]` demi meningkatkan akurasi sekaligus untuk menurunkan nilai *cost/error*. Selain itu nilai parameter pada variabel `params` diset menjadi *zeros*.

In [None]:
n_samples = len(y)

mu = np.mean(X, 0)
sigma = np.std(X, 0)

X = (X-mu) / sigma

X = np.hstack((np.ones((n_samples,1)),X))
n_features = np.size(X,1)
params = np.zeros((n_features,1))

Yak! Algoritme sudah dijalankan, terlihat nilai `cost` menurun drastis dari 296 menjadi 11. Fungsi gradient_descent mengembalikan nilai parameter yang optimal. Nah sekarang nilai tersebut dapat digunakan untuk memprediksi nilai target baru.

In [None]:
n_iters = 1500
learning_rate = 0.01

initial_cost = compute_cost(X, y, params)

print("Nilai cost awal adalah: ", initial_cost, "\n")

(J_history, optimal_params) = gradient_descent(X, y, params, learning_rate, n_iters)

print("Data parameter yang optimal: \n", optimal_params, "\n")

print("Nilai cost akhir: ", J_history[-1])

plt.plot(range(len(J_history)), J_history, 'r')

plt.title("Grafik Konvergensi Cost Function")
plt.xlabel("Jumlah Iterasi")
plt.ylabel("Nilai Cost")
plt.show()