In [11]:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import random
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

In [3]:
df = pd.read_csv('Housing.csv')
df.head()  # Відображення перших п'яти рядків датасету

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


In [4]:
df.tail()  # Відображення останніх п'яти рядків датасету

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
540,1820000,3000,2,1,1,yes,no,yes,no,no,2,no,unfurnished
541,1767150,2400,3,1,1,no,no,no,no,no,0,no,semi-furnished
542,1750000,3620,2,1,1,yes,no,no,no,no,0,no,unfurnished
543,1750000,2910,3,1,1,no,no,no,no,no,0,no,furnished
544,1750000,3850,3,1,2,yes,no,no,no,no,0,no,unfurnished




*   напишіть функцію гіпотези лінійної регресії у векторному вигляді;




Лінійна регресія моделює лінійну залежність між вхідними ознаками та вихідними значеннями за допомогою рівняння:
ℎ
(
𝑋
)
=
𝑋
⋅
𝑤

де:

𝑋
 — матриця вхідних ознак (дизайнерська матриця).
𝑤
 — вектор вагових коефіцієнтів (параметри моделі).
ℎ
(
𝑋
)
 — вектор передбачуваних значень.

In [5]:
"""
    Функція гіпотези лінійної регресії у векторному вигляді.

    Параметри:
    X : Матриця вхідних даних (m x n), де m - кількість зразків, n - кількість ознак.
    w : Вектор ваг (n, 1).

    Повертає:
    Вектор передбачених значень (m, 1).
    """
def hypothesis(X: np.array, w: np.array) -> np.array:
  return np.dot(X, w)



*   створіть функцію для обчислення функції втрат у векторному вигляді;




In [14]:
def loss_function(X: np.array, y: np.array, w: np.array) -> float:
    m = y.shape[0]  # Количество примеров
    return np.sum(np.square(hypothesis(X, w) - y)) / (2 * m)




*   реалізуйте один крок градієнтного спуску;




In [15]:
def gradient_step(X: np.array, y: np.array, w: np.array, learning_rate: float) -> np.array:
    m = y.shape[0]
    delta = hypothesis(X, w) - y
    step = np.dot(X.T, delta) / m
    return w - learning_rate * step



*   знайдіть найкращі параметри
𝑤
⃗
  для датасету прогнозуючу ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень;




In [8]:
df = df[['price', 'area', 'bedrooms', 'bathrooms']]
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms
0,13300000,7420,4,2
1,12250000,8960,4,4
2,12250000,9960,3,2
3,12215000,7500,4,2
4,11410000,7420,4,1


In [16]:
def gradient(X: np.array, y: np.array, learning_rate: float, num_iter: int, eps: float) -> tuple:
    w = np.zeros(X.shape[1])  # Инициализация весов с размерностью (количество признаков,)
    loss = loss_function(X, y, w)
    loss_history = [loss]

    for _ in range(num_iter):
        w = gradient_step(X, y, w, learning_rate)
        loss = loss_function(X, y, w)
        if abs(loss - loss_history[-1]) < eps:
            loss_history.append(loss)
            break
        loss_history.append(loss)

    return w, loss_history

In [18]:
X = df[['area', 'bedrooms', 'bathrooms']].values  # Вхідні дані
y = df['price'].values
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
learning_rate = 0.01
num_iter = 5000
eps = 0.001


weights_gd, loss_history_gd = gradient(X_scaled, y, learning_rate, num_iter, eps)
print("Weights after gradient descent:", weights_gd)

Weights after gradient descent: [821214.22291022 299984.18209156 695807.87736433]




*   знайдіть ці ж параметри за допомогою аналітичного рішення;




In [19]:

# Аналітичне рішення для знаходження оптимальних параметрів
def analytical_solution(X, y):
    """
    Функція для обчислення оптимальних ваг з допомогою аналітичного рішення (нормальні рівняння).

    Параметри:
    X (numpy.ndarray): Матриця вхідних даних (m x n).
    y (numpy.ndarray): Вектор істинних значень (m,).

    Повертає:
    numpy.ndarray: Вектор оптимальних ваг.
    """
    X_transpose = X.T  # Транспонування матриці X
    w = np.linalg.inv(X_transpose @ X) @ X_transpose @ y  # Нормальні рівняння
    return w

# Обчислення ваг аналітично
weights_analytical = analytical_solution(X_scaled, y)
print("Аналитичні ваги:", weights_analytical)

Аналитичні ваги: [821214.14349519 299983.57107963 695808.52272537]




*   порівняйте отримані результати.




Градієнтний спуск: Ефективно працює, результати дуже близькі до аналітичних, що підтверджує правильність реалізації алгоритму.

Аналітичне рішення: Надає точні результати завдяки прямому вирішенню нормальних рівнянь.

Малі відмінності можуть бути викликані числовими погрішностями або тим, що градієнтний спуск може потребувати більше ітерацій або іншого коефіцієнта навчання для досягнення більш точного результату.

В цілому, реалізація градієнтного спуску виконана успішно, і результати узгоджуються з аналітичним рішенням.

In [24]:
regressor = LinearRegression().fit(X_scaled, y)
w = regressor.coef_
w0 = regressor.intercept_
print('Для нормализованных данных')
print(f'Перехват = {w0}\nВеса = {w}')

Для нормализованных данных
Перехват = 4766729.247706422
Веса = [821214.14349519 299983.57107963 695808.52272537]
