In [45]:
import numpy as np
import pandas as pd

In [46]:
# функція гіпотези лінійної регресії у векторному вигляді

def hypothesis(w, X):
  return X@w


In [47]:
# функція для обчислення функції втрат у векторному вигляді

def mean_square_error(y_true, y_predicted):

    return np.sum((y_true-y_predicted)**2/(len(y_true)))

In [48]:
# реалізація кроку градієнтного спуску

def gradient_descent(X, y, w, iterations=1000, learning_rate=0.001, stopping_threshold=0.0000001):
    n = float(len(X))
    previous_cost = None

    for i in range(iterations):
        y_pred = X @ w
        cost = mean_square_error(y, y_pred)

        if previous_cost is not None and abs(previous_cost - cost) <= stopping_threshold:
            break
        previous_cost = cost

        gradient = -2 * X.T @ (y - y_pred) / n
        w -= learning_rate * gradient

    return w


In [49]:
# найкращі параметри w для датасету прогнозуючу ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень

df = pd.read_csv("Housing.csv")
X = df[['area', 'bedrooms', 'bathrooms']].values
y = df["price"].values

mean = np.mean(X, axis=0)
std = np.std(X, axis=0)
X_normalized = (X - mean) / std

w = np.zeros(X_normalized.shape[1])

gradient_w = gradient_descent(X_normalized, y, w, iterations=1000, learning_rate=0.01)
print("Best parameters w:", gradient_w)


Best parameters w: [821214.21404292 299984.10905677 695807.95407458]


In [50]:
# найкращі параметри w для датасету прогнозуючу ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень (аналітичне рішення)

analytical_w = np.linalg.inv(
    X_normalized.T @ X_normalized) @ (X_normalized.T @ y)

analytical_w


array([821214.14349519, 299983.57107963, 695808.52272537])

In [52]:
# порівняйте отримані результати

difference = gradient_w - analytical_w
difference

array([ 0.07054774,  0.53797714, -0.56865078])