Дане домашнє завдання буде повністю пов'язане з лінійною регресією та її реалізацією. Отож розіб'ємо наше домашнє завдання на декілька частин:

1. Hапишіть функцію гіпотези лінійної регресії у векторному вигляді;
2. Cтворіть функцію для обчислення функції втрат у векторному вигляді;
3. Реалізуйте один крок градієнтного спуску;
4. Знайдіть найкращі параметри 𝑤 для датасету прогнозуючу ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень;
5. Знайдіть ці ж параметри за допомогою аналітичного рішення;
6. Порівняйте отримані результати.

In [13]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler

def hypothesis(X, w):
    return np.dot(X, w)

def compute_cost(X, y, w):
    m = len(y)
    predictions = hypothesis(X, w)
    cost = (1 / (2 * m)) * np.sum((predictions - y) ** 2)
    return cost

def gradient_descent_step(X, y, w, alpha):
    m = len(y)
    predictions = hypothesis(X, w)
    gradient = np.dot(X.T, (predictions - y)) / m
    w = w - alpha * gradient
    return w

def linear_regression(X, y, alpha, iterations):
    n = X.shape[1]
    w = np.zeros(n)
    for i in range(iterations):
        w = gradient_descent_step(X, y, w, alpha)
        if i % 100 == 0:
            cost = compute_cost(X, y, w)
            print(f"Iteration {i}: Cost {cost}")
    return w

def analytical_solution(X, y):
    return np.linalg.inv(X.T @ X) @ X.T @ y

# Завантаження даних
data = pd.read_csv('Housing.csv')

# Припускаємо, що назви колонок у файлі: 'Area', 'Bathrooms', 'Bedrooms', 'Price'
X = data[['area', 'bathrooms', 'bedrooms']].values
y = data['price'].values

# Нормалізація даних
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Додавання стовпця одиниць для вільного члена
X = np.concatenate([np.ones((X.shape[0], 1)), X], axis=1)

# Налаштування параметрів
alpha = 0.001  # Зменшуємо швидкість навчання
iterations = 1000

# Знаходження оптимальних параметрів
w = linear_regression(X, y, alpha, iterations)
print(f"Optimal parameters (Gradient Descent): {w}")

# Знаходження параметрів аналітично
w_analytical = analytical_solution(X, y)
print(f"Optimal parameters (Analytical): {w_analytical}")

# Порівняння отриманих результатів
print(f"Gradient descent parameters: {w}")
print(f"Analytical solution parameters: {w_analytical}")


Iteration 0: Cost 13081800066065.04
Iteration 100: Cost 10817014592080.506
Iteration 200: Cost 8977425815685.707
Iteration 300: Cost 7482137521554.628
Iteration 400: Cost 6265909489352.89
Iteration 500: Cost 5276062521197.249
Iteration 600: Cost 4470011018932.831
Iteration 700: Cost 3813292145064.912
Iteration 800: Cost 3277988792662.085
Iteration 900: Cost 2841465519634.4927
Optimal parameters (Gradient Descent): [3014024.71220283  568187.7437134   510593.80112541  312295.38296115]
Optimal parameters (Analytical): [4766729.24770642  821214.14349519  695808.52272538  299983.57107963]
Gradient descent parameters: [3014024.71220283  568187.7437134   510593.80112541  312295.38296115]
Analytical solution parameters: [4766729.24770642  821214.14349519  695808.52272538  299983.57107963]
