In [2]:
import numpy as np
import pandas as pd

Функція гіпотези лінійної регресії у векторному вигляді

In [3]:
def hypothesis(X, w):
    return X @ w

Функція для обчислення функції втрат у векторному вигляді

In [4]:
def loss(X, y, w):
    m = len(y)
    errors = hypothesis(X, w) - y
    return (1/(2*m)) * (errors.T @ errors)

Один крок градієнтного спуску

In [5]:
def gradient_step(X, y, w, alpha):
    m = len(y)
    errors = hypothesis(X, w) - y
    gradient = (1/m) * (X.T @ errors)
    return w - alpha * gradient

Завантажуємо дані

In [6]:
url = "https://drive.google.com/uc?id=1-rAa4XT4_fI0dOBlMNuE6a7jB0wln_Qo"
df = pd.read_csv(url)

df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


Беремо потрібні колонки

In [7]:
X = df[["area", "bathrooms", "bedrooms"]].values
y = df["price"].values.reshape(-1, 1)

Проводимо нормалізацію

In [8]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Додаємо стовпчик 1 для w0

In [9]:
X_train = np.hstack([np.ones((X_scaled.shape[0], 1)), X_scaled])

Виконуємо градієнтний спуск

In [10]:
w = np.zeros((X_train.shape[1], 1))
alpha = 0.01
epochs = 2000

for i in range(epochs):
    w = gradient_step(X_train, y, w, alpha)

In [11]:
print("Параметри w (градієнтний спуск):")
print(w)

Параметри w (градієнтний спуск):
[[4766729.2388224 ]
 [ 821214.21655634]
 [ 695807.93135737]
 [ 299984.13076566]]


Аналітичне рішення

In [12]:
X_ne = X_train
y_ne = y

w_analytic = np.linalg.inv(X_ne.T @ X_ne) @ (X_ne.T @ y_ne)

print("Аналітичне рішення:")
print(w_analytic)

Аналітичне рішення:
[[4766729.24770642]
 [ 821214.14349519]
 [ 695808.52272538]
 [ 299983.57107963]]


Перевірка значень за допомогою sklearn

In [14]:
from sklearn.linear_model import LinearRegression

linreg = LinearRegression()
linreg.fit(X_scaled, y)

print("sklearn коефіцієнти:", linreg.coef_)
print("sklearn w0:", linreg.intercept_)

sklearn коефіцієнти: [[821214.14349519 695808.52272537 299983.57107963]]
sklearn w0: [4766729.24770642]
