In [26]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [27]:
# напишіть функцію гіпотези лінійної регресії у векторному вигляді;
def h(X, w):
    return np.dot(X, w)

In [28]:
# створіть функцію для обчислення функції втрат у векторному вигляді;
def loss_function(X, y, w):
    return np.square(h(X, w) - y).sum() / (2 * len(X))

In [29]:
# реалізуйте один крок градієнтного спуску;
def grad_w(X, y, w):
    m = len(X)
    h = np.dot(X, w)
    gradient = np.dot(X.T, (h - y)) / m
    return gradient

In [30]:
def grad_step(w, grad_w, learning_rate=0.001):
    return w - learning_rate * grad_w


In [31]:
def gradient_descent(X, y, w, num_iter=10000, learning_rate=0.001, epsilon=0.0000001):
    loss_history = []

    for i in range(num_iter):
        grad_w = calculate_gradient(X, y, w)
        w = update_weights(w, grad_w, learning_rate)

        loss = loss_function(X, y, w)
        loss_history.append(loss)

        if i > 0 and abs(loss - loss_history[-2]) < epsilon:
            break

    return w, loss_history

def calculate_gradient(X, y, w):
    return np.dot(X.T, (np.dot(X, w) - y)) / len(X)

def update_weights(w, grad_w, learning_rate):
    return w - learning_rate * grad_w



In [32]:
# знайдіть найкращі параметри {w} для датасету прогнозуючи ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень:
df = pd.read_csv("Housing.csv")
norm_df = pd.DataFrame()

def normalization(data):
    return (data - data.mean()) / data.std()

norm_df["price"] = normalization(df["price"])
norm_df["area"] = normalization(df["area"])
norm_df["bathrooms"] = normalization(df["bathrooms"])
norm_df["bedrooms"] = normalization(df["bedrooms"])
X = norm_df[['area', 'bathrooms', 'bedrooms']].values
X = np.hstack((np.ones((X.shape[0], 1)), X))
y = norm_df["price"].values.reshape(-1, 1)

n = X.shape[1]
w_initial = np.zeros((n, 1))
w_best, loss_history = gradient_descent(X, y, w_initial, num_iter=10000, learning_rate=0.001)

best_loss = loss_history[-1]
print('The best values w: ', w_best.flatten())
print('The best values of the loss function: ', best_loss)

The best values w:  [2.74890406e-16 4.32630011e-01 3.65462058e-01 1.69814157e-01]
The best values of the loss function:  0.25605342833253486


In [33]:
#знайдіть ці ж параметри за допомогою аналітичного рішення:
analitical_w = np.dot(np.dot(np.linalg.inv(np.dot(X.T, X)), X.T), y)
analitical_loss = loss_function(X, y, analitical_w)
print('The best analitical w: ', analitical_w.flatten())
print('The best analitical loss function: ', analitical_loss)

The best analitical w:  [-3.03142927e-16  4.39452085e-01  3.72344423e-01  1.60528660e-01]
The best analitical loss function:  0.2559879006532141


In [35]:
# порівняйте отримані результати.
best_values = best_loss
best_analytical = analytical_loss

a = round(best_values, 4)
b = round(best_analytical, 4)

if a > b:
    print(f"The value of best_values_of_loss_function ({a}) is greater than the value of best_analytical_loss_function ({b})")
elif a < b:
    print(f"The value of best_values_of_loss_function ({a}) is less than the value of best_analytical_loss_function ({b})")
else:
    print(f"The value of best_values_of_loss_function ({a}) is equal to the value of best_analytical_loss_function ({b})")


The value of best_values_of_loss_function (0.2561) is greater than the value of best_analytical_loss_function (0.256)
