In [353]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

In [354]:
data = pd.read_csv("Housing.csv")

In [355]:
X = data[['area', 'bathrooms', 'bedrooms']].values
y = data['price'].values

In [356]:
X

array([[7420,    2,    4],
       [8960,    4,    4],
       [9960,    2,    3],
       ...,
       [3620,    1,    2],
       [2910,    1,    3],
       [3850,    1,    3]], dtype=int64)

In [357]:
y

array([13300000, 12250000, 12250000, 12215000, 11410000, 10850000,
       10150000, 10150000,  9870000,  9800000,  9800000,  9681000,
        9310000,  9240000,  9240000,  9100000,  9100000,  8960000,
        8890000,  8855000,  8750000,  8680000,  8645000,  8645000,
        8575000,  8540000,  8463000,  8400000,  8400000,  8400000,
        8400000,  8400000,  8295000,  8190000,  8120000,  8080940,
        8043000,  7980000,  7962500,  7910000,  7875000,  7840000,
        7700000,  7700000,  7560000,  7560000,  7525000,  7490000,
        7455000,  7420000,  7420000,  7420000,  7350000,  7350000,
        7350000,  7350000,  7343000,  7245000,  7210000,  7210000,
        7140000,  7070000,  7070000,  7035000,  7000000,  6930000,
        6930000,  6895000,  6860000,  6790000,  6790000,  6755000,
        6720000,  6685000,  6650000,  6650000,  6650000,  6650000,
        6650000,  6650000,  6629000,  6615000,  6615000,  6580000,
        6510000,  6510000,  6510000,  6475000,  6475000,  6440

In [358]:
def hypothesis(X, w):
    return np.dot(X, w)

In [359]:
def mse(y_true, y_pred):
    result = np.mean((y_true - y_pred) ** 2)
    print(result)
    return result

In [360]:
def gradient_step(X, y, w, lr):
    y_pred = hypothesis(X, w)
    error = y_pred - y

    gradient = (1 / len(y)) * np.dot(X.T, error)
    
    w -= lr * gradient
    return w

In [361]:
def linear_regression(X, y, iterations=1000, lr=0.001):
   
    # X_b = np.c_[np.ones((X.shape[0], 1)), X]
    w = np.zeros(X.shape[1])

    for i in range(iterations):
        w = gradient_step(X, y, w, lr)
        print(w)
        

    return w

In [362]:
def analytical_solution(X, y):
    return np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

In [363]:
def sklearn_regression(X, y):
    model = LinearRegression()
    model.fit(X, y)
    return model.coef_, model.intercept_

In [364]:
X_mean = np.mean(X, axis=0)
X_std = np.std(X, axis=0)
X_normalized = (X - X_mean) / X_std

y_mean = np.mean(y)
y_std = np.std(y)
y_normalized = (y - y_mean) / y_std

# Градієнтний спуск
w_gd = linear_regression(X_normalized, y_normalized, iterations=10000, lr=0.001)

# Аналітичне рішення
w_analytic = analytical_solution(X_normalized, y_normalized)

# scikit-learn
w_sklearn, intercept_sklearn = sklearn_regression(X_normalized, y_normalized)

print(f'Градієнтний спуск: {w_gd}')
print(f'Аналітичне рішення: {w_analytic}')
print(f'scikit-learn: {w_sklearn}, intercept: {intercept_sklearn}')

[0.000536   0.00051755 0.00036649]
[0.0010713  0.00103433 0.00073235]
[0.00160592 0.00155036 0.00109756]
[0.00213984 0.00206564 0.00146213]
[0.00267308 0.00258015 0.00182607]
[0.00320562 0.00309392 0.00218936]
[0.00373748 0.00360693 0.00255202]
[0.00426866 0.00411919 0.00291405]
[0.00479914 0.0046307  0.00327544]
[0.00532895 0.00514146 0.0036362 ]
[0.00585807 0.00565147 0.00399633]
[0.0063865  0.00616073 0.00435582]
[0.00691426 0.00666925 0.00471469]
[0.00744133 0.00717702 0.00507292]
[0.00796773 0.00768405 0.00543053]
[0.00849344 0.00819034 0.00578751]
[0.00901848 0.00869588 0.00614386]
[0.00954284 0.00920069 0.00649959]
[0.01006653 0.00970475 0.0068547 ]
[0.01058954 0.01020808 0.00720918]
[0.01111187 0.01071067 0.00756304]
[0.01163353 0.01121252 0.00791628]
[0.01215452 0.01171364 0.00826889]
[0.01267484 0.01221402 0.00862089]
[0.01319448 0.01271367 0.00897228]
[0.01371346 0.01321259 0.00932304]
[0.01423177 0.01371078 0.00967319]
[0.0147494  0.01420824 0.01002272]
[0.01526638 0.014704

In [365]:
print("NaN в X:", np.isnan(X).any())
print("Безмежні в X:", np.isinf(X).any())
print("NaN в y:", np.isnan(y).any())
print("Безмежні в y:", np.isinf(y).any())

NaN в X: False
Безмежні в X: False
NaN в y: False
Безмежні в y: False


In [366]:
print("Розмір X:", X.shape)
print("Розмір y:", y.shape)

Розмір X: (545, 3)
Розмір y: (545,)


In [367]:
print("Статистика X:")
print("Середнє:", np.mean(X, axis=0))
print("Стандартне відхилення:", np.std(X, axis=0))
print("Мінімум:", np.min(X, axis=0))
print("Максимум:", np.max(X, axis=0))

print("Статистика y:")
print("Середнє:", np.mean(y))
print("Стандартне відхилення:", np.std(y))
print("Мінімум:", np.min(y))
print("Максимум:", np.max(y))

Статистика X:
Середнє: [5.15054128e+03 1.28623853e+00 2.96513761e+00]
Стандартне відхилення: [2.16814915e+03 5.02008423e-01 7.37386427e-01]
Мінімум: [1650    1    1]
Максимум: [16200     4     6]
Статистика y:
Середнє: 4766729.247706422
Стандартне відхилення: 1868722.8281312082
Мінімум: 1750000
Максимум: 13300000
