In [423]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

housing = pd.read_csv("data/Housing.csv")
housing.columns = ["price", "area", "bedrooms", "bathrooms", "stories", "mainroad", "guestroom", "basement", "hotwaterheating", "airconditioning", "parking", "prefarea", "furnishingstatus"]


Przygtowanie danych

In [424]:
X_df = pd.DataFrame(np.ones(len(housing.index)), columns=["ones"])
X_df["area"] = housing["area"]
X_df["bedrooms"] = housing["bedrooms"]
X_df["bathrooms"] = housing["bathrooms"]
X = X_df.values
y = housing["price"].values
# W = np.array([1, 1, 1, 1])
W = np.array([-173171.6080000028, 3.78762754e+02, 4.06820034e+05, 1.38604950e+06])
alfa = 0.000000001

Funkcja hipotezy regresji liniowej w postaci wektorowej

In [425]:
# TEORIA
# X = np.array([
#     [1, "x11", "...", "x1n"],
#     [1, "x21", "...", "x2n"],
#     [1, "...", "...", "..."],
#     [1, "xm1", "...", "xmn"]
# ])
# W = np.array([
#     ["w0", "w1", "...", "wn"],
# ]).T
# h_x = np.dot(X, W)

In [426]:
def regression_hypothesis(X, W):
    h_x = np.dot(X, W)
    return h_x

Funkcja obliczająca funkcję straty w postaci wektorowej

In [427]:
def loss_function(y_pred, y):
    m = len(y)
    loss = (1/(2*m)) * np.sum((y_pred - y)**2)
    return loss

Obliczanie gradientu

In [428]:
def gradient_descent(X, W, y, alfa):
    m = len(y)
    y_pred = regression_hypothesis(X, W)
    errors = y_pred - y
    gradient = (1/m) * np.dot(X.T, errors)
    W = W - alfa * gradient
    return W

Implementacja jednego kroku iteracji zejścia gradientowego

In [429]:
loss_0 = loss_function(regression_hypothesis(X, W), y)
W = gradient_descent(X, W, y, alfa)
loss_1 = loss_function(regression_hypothesis(X, W), y)
print(W)
print(loss_1)

if loss_1 < loss_0:
    print(f"Funkcja straty maleje dla alfa = {alfa}.")
elif loss_1 > loss_0:
    print(f"Funkcja straty wzrasta dla alfa = {alfa}.")
else:
    print(f"Funkcja straty pozostaje bez zmian dla alfa = {alfa}.")

[-1.73171608e+05  3.78762754e+02  4.06820034e+05  1.38604950e+06]
895585024988.6595
Funkcja straty pozostaje bez zmian dla alfa = 1e-09.


Ile potrzeba iteracji, aby osiągnąć minimum?

In [430]:
iteration = 0
while True:
    loss_0 = loss_function(regression_hypothesis(X, W), y)
    W = gradient_descent(X, W, y, alfa)
    loss_1 = loss_function(regression_hypothesis(X, W), y)
    iteration += 1
    if loss_1 == loss_0:
        print(f"Potrzebne jest wykonanie {iteration} iteracji.")
        break
    if iteration > 1000000:
        print(f"Potrzebne jest wykonanie ponad 1000000 iteracji.")
        break

Potrzebne jest wykonanie 4 iteracji.


Rozwiązanie analityczne

In [431]:
X_tr = X.T
W = np.dot(np.linalg.inv(np.dot(X_tr, X)), np.dot(X_tr, y))
print(W)
loss = loss_function(regression_hypothesis(X, W), y)
print(loss)

[-1.73171608e+05  3.78762754e+02  4.06820034e+05  1.38604950e+06]
895585024988.6597


Rozwiązanie przy użyciu biblioteki sklearn

In [432]:
W = np.array([-1.73171608e+05, 3.78762754e+02, 4.06820034e+05, 1.38604950e+06])
y = np.dot(X, W)
regressor = LinearRegression().fit(X, y)
print(regressor.predict(np.array([[1, 7500, 3, 2]])))
print("Współczynnik nachylenia:", regressor.coef_)
print("Wyraz wolny:", regressor.intercept_)

[6660108.149]
Współczynnik nachylenia: [0.00000000e+00 3.78762754e+02 4.06820034e+05 1.38604950e+06]
Wyraz wolny: -173171.6080000028
