# Лінійна регресія

In [12]:
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

In [13]:
df = pd.read_csv('Housing.csv')

In [14]:
df.replace({'yes': 1, 'no': 0}, inplace=True)
df.replace({'furnished': 0, 'semi-furnished': 1, 'unfurnished': 2}, inplace=True)
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,1,0,0,0,1,2,1,0
1,12250000,8960,4,4,4,1,0,0,0,1,3,0,0
2,12250000,9960,3,2,2,1,0,1,0,0,2,1,1
3,12215000,7500,4,2,2,1,0,1,0,1,3,1,0
4,11410000,7420,4,1,2,1,1,1,0,1,2,0,0


Завдання: знайдіть найкращі параметри $\vec{w}$ для датасету прогнозуючу ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень.

In [15]:
df_selected = df[['price','area', 'bedrooms', 'bathrooms']] # Selecting chosen parameters

In [16]:
normalize = lambda data: (data - data.mean()) / data.std() # mean normalization
df_selected_normalized = df_selected.apply(normalize)
df_selected_normalized.head()

Unnamed: 0,price,area,bedrooms,bathrooms
0,4.562174,1.045766,1.402131,1.420507
1,4.000809,1.755397,1.402131,5.400847
2,4.000809,2.216196,0.047235,1.420507
3,3.982096,1.08263,1.402131,1.420507
4,3.551716,1.045766,1.402131,-0.569663


In [17]:
X = df_selected_normalized[['area', 'bedrooms', 'bathrooms']] # Chosen Characteristics (x or inputs)
Y = df_selected_normalized['price'] # Chosen Target (y or targets)

- напишіть функцію гіпотези лінійної регресії у векторному вигляді;
- створіть функцію для обчислення функції втрат у векторному вигляді;
- реалізуйте один крок градієнтного спуску.

In [18]:
def linear_model(inputs, weights):
    return  inputs @ weights

def calculate_loss(predicted_values, actual_values):
    return (1 / (2 * len(actual_values))) * np.sum(np.square(predicted_values - actual_values))

def calculate_gradient(inputs, targets, weights):
    predicted_values = linear_model(inputs, weights)
    gradient_value = inputs.T @ (predicted_values - targets) / len(targets)
    error = calculate_loss(predicted_values, targets)
    return gradient_value, error

def gradient_descent(inputs, targets, initial_weights, learning_rate = 0.01, num_iterations = 2000):
    best_error = np.inf
    best_weights = initial_weights.copy()
    for _ in range(num_iterations):
        gradient_value, current_error = calculate_gradient(inputs, targets, initial_weights)
        initial_weights -= learning_rate * gradient_value
        if current_error < best_error:
            best_error = current_error
            best_weights = initial_weights.copy()         
    return best_weights

## Calculation

In [19]:
w = np.zeros(X.shape[1])
calculated_weights = gradient_descent(X, Y, w)
calculated_weights.index = [0,1,2]

знайдіть ці ж параметри за допомогою аналітичного рішення

In [20]:
analytical = np.linalg.inv(X.T @ X) @ X.T @ Y # Generalized inverse

scikit learn linear model (for reference)

In [21]:
model = LinearRegression()
model.fit(X, Y)
coefficients = pd.Series(model.coef_)

## Summary

In [22]:
summary = pd.DataFrame({'Linear hypothesis':calculated_weights, 'Analytical solution': analytical, 'Lin Regression (scikit)': coefficients})
summary.index = ['area', 'bedrooms', 'bathrooms']
summary

Unnamed: 0,Linear hypothesis,Analytical solution,Lin Regression (scikit)
area,0.439452,0.439452,0.439452
bedrooms,0.160529,0.160529,0.160529
bathrooms,0.372344,0.372344,0.372344
