In [2]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

file_path = "Housing.csv"
data = pd.read_csv(file_path)
data = pd.get_dummies(data, columns=["mainroad", "guestroom", "basement", "hotwaterheating", "airconditioning", "prefarea", "furnishingstatus"], drop_first=True)

X_raw = data.drop("price", axis=1).values.astype(float)
y = data["price"].values.astype(float)

X_raw = np.nan_to_num(X_raw)
y = np.nan_to_num(y)

scaler = StandardScaler()
X_raw_scaled = scaler.fit_transform(X_raw)

X = np.hstack([np.ones((X_raw.shape[0], 1)), X_raw])

#обчислення передбачень лінійної регресії
def hypothesis(X, w):
    return np.dot(X, w)

#обчислення функції втрат
def compute_loss(X, y, w):
    y_pred = hypothesis(X, w)
    return np.mean((y_pred - y) ** 2)

#один крок градієнтного спуску
def gradient_step(X, y, w, learning_rate):
    y_pred = hypothesis(X, w)
    gradient = (2 / X.shape[0]) * np.dot(X.T, (y_pred - y))
    w -= learning_rate * gradient
    return w

#параметри w для датасету
def analytical_solution(X, y):
    return np.linalg.pinv(X.T @ X) @ X.T @ y

w = np.zeros(X.shape[1], dtype=float)
learning_rate = 0.0001
n_iterations = 10
for i in range(n_iterations):
    w = gradient_step(X, y, w, learning_rate)
print("Параметри, знайдені градієнтним спуском:", w)

# 2. Аналітичне рішення
w_analytical = analytical_solution(X, y)
print("Параметри, знайдені аналітично:", w_analytical)

# 3. LinearRegression із scikit-learn
model = LinearRegression()
model.fit(X_raw, y)
print("Параметри моделі scikit-learn:", np.hstack([model.intercept_, model.coef_]))

Параметри, знайдені градієнтним спуском: [-1.27292228e+37 -7.71802738e+40 -3.83439271e+37 -1.68941878e+37
 -2.33727601e+37 -1.04568363e+37 -1.14699431e+37 -2.55311821e+36
 -4.58229255e+36 -5.73563167e+35 -4.57113250e+36 -3.52291786e+36
 -5.31815867e+36 -3.79989557e+36]
Параметри, знайдені аналітично: [ 4.27716938e+04  2.44139386e+02  1.14787560e+05  9.87668107e+05
  4.50848003e+05  2.77107101e+05  4.21272589e+05  3.00525860e+05
  3.50106904e+05  8.55447145e+05  8.64958311e+05  6.51543800e+05
 -4.63446200e+04 -4.11234386e+05]
Параметри моделі scikit-learn: [ 4.27716939e+04  2.44139386e+02  1.14787560e+05  9.87668107e+05
  4.50848003e+05  2.77107101e+05  4.21272589e+05  3.00525860e+05
  3.50106904e+05  8.55447145e+05  8.64958311e+05  6.51543800e+05
 -4.63446200e+04 -4.11234386e+05]
