<a href="https://colab.research.google.com/github/Viktoriia-kama/ML_hw4-hw16/blob/main/HW6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np

def linear_regression_hypothesis(theta, x):
    """
    Гіпотеза лінійної регресії.

    Параметри:
    theta (numpy.ndarray): Вектор параметрів розмірності (n+1, 1), де n - кількість ознак,
                           theta[0] - зсув (вільний член), theta[1:] - ваги ознак.
    x (numpy.ndarray): Вектор ознак розмірності (n+1, 1), включаючи x[0] = 1 для врахування зсуву.

    Повертає:
    float: Прогнозоване значення за гіпотезою лінійної регресії.
    """
    return np.dot(theta, x)


In [2]:
def compute_loss(theta, X, y):
    """
    Обчислення функції втрат для лінійної регресії.

    Параметри:
    theta (numpy.ndarray): Вектор параметрів розмірності (n+1, 1), де n - кількість ознак,
                           theta[0] - зсув (вільний член), theta[1:] - ваги ознак.
    X (numpy.ndarray): Матриця ознак розмірності (m, n+1), де m - кількість зразків,
                       n - кількість ознак, X[:,0] містить всі значення зсуву (вільного члена).
    y (numpy.ndarray): Вектор цільових значень розмірності (m, 1).

    Повертає:
    float: Значення функції втрат для заданих параметрів.
    """
    m = len(y)
    # Обчислюємо прогнозовані значення за гіпотезою лінійної регресії
    predictions = np.dot(X, theta)
    # Обчислюємо різницю між прогнозами та реальними значеннями
    errors = predictions - y
    # Обчислюємо суму квадратів помилок та ділимо на подвоєне число зразків
    loss = np.sum(errors ** 2) / (2 * m)
    return loss


In [None]:
import numpy as np

def gradient_descent_step(theta, X, y, learning_rate):
    """
    Виконує один крок градієнтного спуску для оновлення параметрів.

    Параметри:
    theta (numpy.ndarray): Вектор параметрів розмірності (n+1, 1), де n - кількість ознак,
                           theta[0] - зсув (вільний член), theta[1:] - ваги ознак.
    X (numpy.ndarray): Матриця ознак розмірності (m, n+1), де m - кількість зразків,
                       n - кількість ознак, X[:,0] містить всі значення зсуву (вільного члена).
    y (numpy.ndarray): Вектор цільових значень розмірності (m, 1).
    learning_rate (float): Коефіцієнт навчання.

    Повертає:
    numpy.ndarray: Оновлений вектор параметрів після виконання одного кроку градієнтного спуску.
    """
    m = len(y)
    # Обчислюємо прогнозовані значення за гіпотезою лінійної регресії
    predictions = np.dot(X, theta)
    # Обчислюємо різницю між прогнозами та реальними значеннями
    errors = predictions - y
    # Обчислюємо градієнт функції втрат
    gradient = np.dot(X.T, errors) / m
    # Оновлюємо параметри згідно з градієнтним спуском
    theta -= learning_rate * gradient
    return theta


In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Зчитуємо дані з CSV-файлу
data = pd.read_csv('Housing.csv')

# Переглянемо перші кілька рядків даних
print(data.head())

# Визначимо функції для гіпотези, функції втрат та одного кроку градієнтного спуску
def linear_regression_hypothesis(theta, X):
    return np.dot(X, theta)

def compute_loss(theta, X, y):
    m = len(y)
    predictions = linear_regression_hypothesis(theta, X)
    errors = predictions - y
    loss = np.sum(errors ** 2) / (2 * m)
    return loss

def gradient_descent_step(theta, X, y, learning_rate):
    m = len(y)
    predictions = linear_regression_hypothesis(theta, X)
    errors = predictions - y
    gradient = np.dot(X.T, errors) / m
    theta -= learning_rate * gradient
    return theta

# Підготовка даних
X = data[['area', 'bathrooms', 'bedrooms']].values
y = data['price'].values.reshape(-1, 1)

# Нормалізація ознак
X_mean = np.mean(X, axis=0)
X_std = np.std(X, axis=0)
X_norm = (X - X_mean) / X_std

# Додавання стовпця з одиницями для врахування зсуву
m = len(y)
X_with_bias = np.column_stack([np.ones((m, 1)), X_norm])

# Ініціалізація параметрів
theta = np.zeros((X_with_bias.shape[1], 1))

# Параметри градієнтного спуску
learning_rate = 0.01
num_iterations = 1000

# Градієнтний спуск
for i in range(num_iterations):
    theta = gradient_descent_step(theta, X_with_bias, y, learning_rate)

# Виведемо знайдені параметри
print("Оптимальні параметри theta:")
print(theta)


      price  area  bedrooms  bathrooms  stories mainroad guestroom basement  \
0  13300000  7420         4          2        3      yes        no       no   
1  12250000  8960         4          4        4      yes        no       no   
2  12250000  9960         3          2        2      yes        no      yes   
3  12215000  7500         4          2        2      yes        no      yes   
4  11410000  7420         4          1        2      yes       yes      yes   

  hotwaterheating airconditioning  parking prefarea furnishingstatus  
0              no             yes        2      yes        furnished  
1              no             yes        3       no        furnished  
2              no              no        2      yes   semi-furnished  
3              no             yes        3      yes        furnished  
4              no             yes        2       no        furnished  
Оптимальні параметри theta:
[[4766523.46205873]
 [ 821199.26709864]
 [ 695515.99623791]
 [ 300296.2

In [6]:
# Використання аналітичного рішення
theta_analytical = np.dot(np.dot(np.linalg.inv(np.dot(X_with_bias.T, X_with_bias)), X_with_bias.T), y)

# Виведемо знайдені параметри
print("Оптимальні параметри theta за допомогою аналітичного рішення:")
print(theta_analytical)


Оптимальні параметри theta за допомогою аналітичного рішення:
[[4766729.24770642]
 [ 821214.14349519]
 [ 695808.52272538]
 [ 299983.57107963]]


In [11]:
from sklearn.linear_model import LinearRegression

# Навчання моделі лінійної регресії за допомогою бібліотеки scikit-learn
model = LinearRegression()
model.fit(X_with_bias, y)

# Отримання параметрів моделі
theta_sklearn = np.concatenate((model.intercept_.reshape(-1, 1), model.coef_.reshape(-1, 1)))

# Виведемо параметри, знайдені за допомогою scikit-learn
print("Параметри theta за допомогою scikit-learn:")
print(theta_sklearn)

# Перетворення розмірності параметрів theta_sklearn
theta_sklearn_reshaped = theta_sklearn[:-1].reshape(-1, 1)

# Прогнозування цін за допомогою моделі scikit-learn
predictions_sklearn = model.predict(X_with_bias)

# Прогнозування цін за допомогою ручної моделі
predictions_manual = linear_regression_hypothesis(theta_sklearn_reshaped, X_with_bias)

# Порівняння результатів
print("\nПерші 5 прогнозів за допомогою scikit-learn:")
print(predictions_sklearn[:5])
print("\nПерші 5 прогнозів за допомогою власної реалізації:")
print(predictions_manual[:5])

# Порівняння результатів функції втрат
loss_sklearn = compute_loss(theta_sklearn_reshaped, X_with_bias, y)
loss_manual = compute_loss(theta, X_with_bias, y)
print("\nСередньоквадратична помилка за допомогою scikit-learn:", loss_sklearn)
print("Середньоквадратична помилка за допомогою власної реалізації:", loss_manual)

Параметри theta за допомогою scikit-learn:
[[4766729.24770642]
 [      0.        ]
 [ 821214.14349519]
 [ 695808.52272537]
 [ 299983.57107963]]

Перші 5 прогнозів за допомогою scikit-learn:
[[ 7036627.15462756]
 [10392020.79073061]
 [ 7591864.51496454]
 [ 7066928.17491437]
 [ 5650577.65683656]]

Перші 5 прогнозів за допомогою власної реалізації:
[[ 6910852.30508533]
 [10182566.90470552]
 [ 5967237.80748714]
 [ 6910852.30508533]
 [ 5274995.00527523]]

Середньоквадратична помилка за допомогою scikit-learn: 1268221591524.8154
Середньоквадратична помилка за допомогою власної реалізації: 895585103885.1149
