<a href="https://colab.research.google.com/github/jakubtwalczak/dsbootcampudemy/blob/main/6_Uczenie_maszynowe/2_Regresja_liniowa_wprowadzenie_metryki.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wprowadzenie.

Regresja liniowa to metoda statystyczna, która pozwala przewidzieć wartość jednej zmiennej ciągłej na podstawie wartości innej zmiennej. Polega na znalezieniu prostej linii, która najlepiej opisuje zależność między tymi zmiennymi.

Importujemy biblioteki, które najbardziej przydadzą się do dalszej pracy.

In [1]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# Generowanie danych.

Teraz wygenerujmy dane. Będzie to 100 próbek z rozkładu normalnego o wartości oczekiwanej 100 i odchyleniu standardowym 20.

In [2]:
y_true = 100 + 20 * np.random.randn(100)
y_true

array([107.52347456, 122.56611061, 102.83809728, 113.52101395,
        72.05436747,  72.83482651,  80.53617139, 102.22590178,
        96.64989458,  89.50961216, 110.13432549, 103.67459547,
        73.16911387,  87.55569099, 100.14652176, 115.25870844,
        71.70497178, 127.60881859, 107.93707537,  66.5212696 ,
        84.90376591, 108.76210014, 109.83390732, 102.4505222 ,
       119.26639687, 112.36463408, 117.92731135, 117.79046397,
        95.63302115, 122.00790274,  82.65324207, 126.69917882,
        88.3012426 ,  88.36225023,  94.17353333,  96.26690204,
        67.80402852,  82.50201043,  61.26849436, 127.92480085,
        96.90632057, 114.29466308,  61.86873064, 142.0186528 ,
       108.36533973, 111.78649163, 127.01537153,  83.86234244,
       112.68117454,  71.51587769,  88.20630657,  99.4943907 ,
       128.91843797,  85.87456616, 107.40203548, 104.06353028,
       116.80967003, 101.42247983, 117.41140534, 118.71590324,
       118.18491673, 118.6825283 ,  76.07516939,  94.95

Dla zmiennej y_pred - naszych fikcyjnych predykcji - dodamy trochę szumu, odchylenie wyniesie 10x rozkład normalny.

In [3]:
y_pred = y_true + 10 * np.random.randn(100)
y_pred

array([102.50654732, 103.69680887, 109.03439818,  97.12560228,
        63.24598766,  75.30001754,  91.59423654, 108.49939199,
       109.74452003,  57.83766712, 110.88128075, 101.48311453,
        78.82099376,  93.86503604, 105.49919676, 115.47017653,
        34.39725311, 124.51936176, 113.17314931,  72.95232098,
        69.3504765 , 107.60769916, 102.1804324 ,  85.91394078,
       127.03879991, 113.98771663, 120.5444429 , 124.37891664,
        99.47118975, 135.57903066,  76.11694886, 116.5647742 ,
        90.10222036,  88.88872262,  85.96521807,  89.96501342,
        57.87795801,  80.47197088,  70.88693604, 130.98641127,
        78.03952606, 103.34335473,  50.16861329, 148.2729289 ,
        99.53662888, 117.30405556, 132.61222991,  75.35193507,
       130.0278644 ,  75.81298197, 104.01821751,  97.57571337,
       129.23744618,  92.89973505, 114.81574862, 103.37133407,
       111.74703784, 120.5112304 , 108.42686968, 120.66180681,
       108.04937396, 125.60093666,  63.87593489, 108.25

Na podstawie tych wyników stworzymy ramkę danych. W jednej kolumnie znajdą się wartości "prawdziwe", w drugiej "przewidziane", dodamy też błąd - różnicę między nimi w trzeciej kolumnie. Wartość błędu jest prosta w interpretacji - jeśli jest większa od 0, to model przeszacował wartość, jeżeli mniejsza, nie doszacował.

In [4]:
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results['error'] = results['y_true'] - results['y_pred']
results

Unnamed: 0,y_true,y_pred,error
0,107.523475,102.506547,5.016927
1,122.566111,103.696809,18.869302
2,102.838097,109.034398,-6.196301
3,113.521014,97.125602,16.395412
4,72.054367,63.245988,8.808380
...,...,...,...
95,108.549175,118.201392,-9.652217
96,128.093032,114.285275,13.807757
97,115.100963,96.902699,18.198264
98,52.399444,62.042843,-9.643399


# Interpretacja graficzna.

Przy pomocy poniższej funkcji tworzącej wykres punktowy z linią regresji możemy łatwo interpretować wyniki. Na osi X mamy wartości prawdziwe, na osi Y - przewidywane. To, jak daleko od linii leżą punkty, określa nam błąd w przewidywaniach. Naszym zadaniem jest minimalizacja błędu.

In [5]:
def plot_regression_results(y_true, y_pred):
    results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
    min = results[['y_true', 'y_pred']].min().min()
    max = results[['y_true', 'y_pred']].max().max()

    fig = go.Figure(data=[go.Scatter(x=results['y_true'], y=results['y_pred'], mode='markers'),
                    go.Scatter(x=[min, max], y=[min, max])],
                    layout=go.Layout(showlegend=False, width=800, height=500,
                                     xaxis_title='y_true',
                                     yaxis_title='y_pred',
                                     title='Regression results'))
    fig.show()
plot_regression_results(y_true, y_pred)

Stworzymy jeszcze jeden wykres - histogram do zbadania rozkładu błędów. W tym celu stworzymy jeszcze jedną ramkę danych wygenerowanych.

In [6]:
y_true = 100 + 20 * np.random.randn(2000)
y_pred = y_true + 10 * np.random.randn(2000)
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results['error'] = results['y_true'] - results['y_pred']

px.histogram(results, x='error', nbins=50, width=800)

Histogram ten przypomina rozkład normalny. Realnie może się jednak okazać, że histogram jest lewo- lub prawoskośny. Jeżeli więcej wartości jest po stronie prawej, wówczas będzie to oznaczać, że model przeszacowuje wartości, w przeciwnym wypadku - nie doszacowuje. Optymalnie byłoby, gdyby wartości były skupione blisko zera, jednak musimy też uważać na zbytnie dopasowanie modelu.

# Średni błąd bezwględny - Mean Absolute Error.

Wzór:
$$MAE = \frac{1}{n}\sum_{i=1}^{n}|y_{true} - y_{pred}|$$

Jest to więc suma wartości bezwzględnych wszystkich błędów (różnic między wartością prawdziwą a predykowaną) podzielona przez liczbę rekordów.

In [7]:
def mean_absolute_error(y_true, y_pred):
    return abs(y_true - y_pred).sum() / len(y_true)

mean_absolute_error(y_true, y_pred)

7.828068633956382

Oczywiście implementacja powyżej jest jedynie treningowa. W praktyce będziemy korzystać z gotowej funkcji z biblioteki Scikit-learn.

In [8]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true, y_pred)

7.828068633956382

# Średni błąd kwadratowy - Mean Squared Error.

Wzór:
$$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_{true} - y_{pred})^{2}$$

W wypadku tej metryki, zamiast dodawać wartości absolutne błędów, dodajemy ich kwadraty przed dzieleniem. Powoduje to, że większe błędy są bardziej "karane" za niedopasowanie.

In [9]:
def mean_squared_error(y_true, y_pred):
    return ((y_true - y_pred) ** 2).sum() / len(y_true)

mean_squared_error(y_true, y_pred)

96.30957611991315

Również i ta metryka znajduje się w bibliotece Scikit-learn.

In [10]:
from sklearn.metrics import mean_squared_error

mean_squared_error(y_true, y_pred)

96.30957611991315

# Pierwiastek średniego błędu kwadratowego - Root MSE.

Wzór:
$$RMSE = \sqrt{MSE}$$

In [11]:
def root_mean_squared_error(y_true, y_pred):
    return np.sqrt(((y_true - y_pred) ** 2).sum() / len(y_true))

root_mean_squared_error(y_true, y_pred)

9.813744245695073

Tej metryki nie mamy zaimplementowanej w Scikit-learn, ale możemy ją łatwo obliczyć, dysponując MSE.

In [12]:
np.sqrt(mean_squared_error(y_true, y_pred))

9.813744245695073

# Błąd maksymalny - Max Error.

Wzór:
$$ME = max(|y\_true - y\_pred|)$$

Prosta metryka - jest to najwyższa wartość absolutna błędu.

In [13]:
def max_error(y_true, y_pred):
    return abs(y_true - y_pred).max()

max_error(y_true, y_pred)

33.342561218965415

In [14]:
from sklearn.metrics import max_error

max_error(y_true, y_pred)

33.342561218965415

# Współczynnik determinacji - ${R^2}$.

Wzór:
$$R2\_score = 1 - \frac{\sum_{i=1}^{N}(y_{true} - y_{pred})^{2}}{\sum_{i=1}^{N}(y_{true} - \overline{y_{true}})^{2}}$$

Oblicza się go, odejmując od 1 iloraz sumy kwadratów błędów i sumy kwadratów odchyleń od średniej.

Informuje on o tym, jaka część zmienności (wariancji) zmiennej objaśnianej w próbie pokrywa się z korelacjami ze zmiennymi zawartymi w modelu. Jest on więc miarą stopnia, w jakim model pasuje do próby.

Jest to domyślna metryka, którą Scikit-learn używa do ewaluacji modeli; im bliżej wartości 1, tym lepszy wynik regresji. Możemy ją znaleźć w tej bibliotece, ale najpierw zdefiniujmy sobie ją samodzielnie.

In [15]:
def r2_score(y_true, y_pred):
    numerator = ((y_true - y_pred) ** 2).sum()
    denominator = ((y_true - y_true.mean()) ** 2).sum()
    try:
        r2 = 1 - numerator / denominator
    except ZeroDivisionError:
        print('Dzielenie przez zero')
    return r2

r2_score(y_true, y_pred)

0.7631192702917797

In [16]:
from sklearn.metrics import r2_score

r2_score(y_true, y_pred)

0.7631192702917797