In [21]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from numpy.linalg import inv

In [22]:
data = pd.read_csv('california_housing_train.csv')
num_cols = data.shape[1]
num_rows = data.shape[0]




In [23]:
# Chuẩn hóa dữ liệu: scale dữ liệu, format kích thước dữ liệu
normalized_data_dict = {}
for i in range(num_cols-1):
    column_name = data.columns[i]
    column_data = data[column_name]
    normalized_data = (column_data - np.mean(column_data))/ np.std(column_data) # type: ignore
    normalized_data_dict[column_name] = normalized_data

X = pd.DataFrame(normalized_data_dict)
X = np.hstack((np.ones((num_rows, 1)), X))
Y = data[data.columns[-1]].values



In [24]:
# Hàm Gradient descent
def gradient_descent(X, y, theta, alpha, iteration):
    m = len(y)
    J_history = np.zeros((iteration, 1))

    for i in tqdm(range(iteration)):
        theta = theta - (alpha/m) * (X.T @ (X @ theta - y))
        J_history[i] = compute_cost(X, y, theta)
        # print('Đang train iteration thứ :',i+1)

    return theta, J_history

# Hàm tính Cost J 
def compute_cost(X, y, theta):
    m = len(y)
    J = (1/(2*m)) * np.sum((X @ theta - y)**2)
    return J

# Khởi tạo giá trị theta ,learning rate(alpha) và số vòng lặp
theta = np.zeros((X.shape[1], 1))
learning_rates = [0.001, 0.003, 0.009, 0.01]
colors = ['blue', 'green', 'red', 'purple']
iteration = 30

# Chạy Gradient Descent
for i, alpha in enumerate(learning_rates):
    theta, J_history = gradient_descent(X, Y, theta, alpha, iteration)
    plt.plot(J_history, color=colors[i], label=f'Learning rate: {alpha}')

# Vẽ biểu đồ J ở các giá trị learning rate khác nhau sau khi chạy hết các vòng lặp.
# plt.plot(range(len(J_history)), J_history,color = 'black')
plt.title('Tác động của số lượng vòng lặp và các giá trị của learning rate vào hàm cost')
plt.xlabel('Iteration')
plt.ylabel('Cost')
plt.legend()
plt.show()

# Hàm tính theta bằng phương pháp normal equation
def normal_equation(X, y):
    return np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

# Kiểm chứng theta bằng phương pháp normal equation
theta_ne = normal_equation(X, Y)
print(f'Theta from gradient descent: {theta}')
print(f'Theta from normal equation: {theta_ne}')

100%|██████████| 30/30 [01:17<00:00,  2.57s/it]
100%|██████████| 30/30 [01:14<00:00,  2.50s/it]
100%|██████████| 30/30 [01:11<00:00,  2.39s/it]
 30%|███       | 9/30 [00:21<00:50,  2.40s/it]