In [5]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Завантаження даних
file_path = 'Housing.csv'
data = pd.read_csv(file_path)

# Вибір необхідних колонок
X = data[['area', 'bedrooms', 'bathrooms']].values
y = data['price'].values

# Нормалізація даних
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_b_scaled = np.c_[np.ones((X_scaled.shape[0], 1)), X_scaled]

# Функція гіпотези лінійної регресії
def hypothesis(X, w):
    return np.dot(X, w)

# Функція обчислення функції втрат
def compute_cost(X, y, w):
    m = len(y)
    h = hypothesis(X, w)
    return (1/(2*m)) * np.dot((h - y).T, (h - y))

# Один крок градієнтного спуску
def gradient_descent_step(X, y, w, learning_rate):
    m = len(y)
    h = hypothesis(X, w)
    gradient = (1/m) * np.dot(X.T, (h - y))
    w = w - learning_rate * gradient
    return w

# Знайдення параметрів за допомогою градієнтного спуску
def train_linear_regression(X, y, learning_rate=0.01, num_iterations=1000):
    m, n = X.shape
    w = np.zeros(n)
    for i in range(num_iterations):
        w = gradient_descent_step(X, y, w, learning_rate)
        if i % 100 == 0:
            cost = compute_cost(X, y, w)
            print(f"Iteration {i}: Cost {cost}")
    return w

# Знайдення параметрів за допомогою аналітичного рішення
def normal_equation(X, y):
    return np.linalg.inv(X.T @ X) @ X.T @ y

# Розділення даних на тренувальні та тестові набори
X_train_scaled, X_test_scaled, y_train, y_test = train_test_split(X_b_scaled, y, test_size=0.2, random_state=42)

# Навчання за допомогою градієнтного спуску
w_gd_scaled = train_linear_regression(X_train_scaled, y_train, learning_rate=0.01)

# Навчання за допомогою аналітичного рішення
w_ne_scaled = normal_equation(X_train_scaled, y_train)

print("Parameters from Gradient Descent (Scaled):", w_gd_scaled)
print("Parameters from Normal Equation (Scaled):", w_ne_scaled)

Iteration 0: Cost 12379166654624.395
Iteration 100: Cost 2321154738873.716
Iteration 200: Cost 990694110149.273
Iteration 300: Cost 810246111103.337
Iteration 400: Cost 784937999790.8076
Iteration 500: Cost 781161352088.9807
Iteration 600: Cost 780531519185.5842
Iteration 700: Cost 780407936749.1641
Iteration 800: Cost 780379021698.3749
Iteration 900: Cost 780371256936.3574
Parameters from Gradient Descent (Scaled): [4735984.71577788  749235.16862595  266720.60655308  712571.98860448]
Parameters from Normal Equation (Scaled): [4736303.16152965  749023.05142651  265604.85843734  714016.44847748]
