# Linearna regresija

Jedan od prvih algoritama za nalaženje trenda među podacima je ***Linearna regresija***. Ovaj algoritam nadgledanog učenja, unatoč postojanju nekolicine kvalitetnijih algoritama u istoj oblasti, uglavnom zbog svoje jednostavnosti nalazi široku primjenu u praksi.

Trend podataka je, grubo rečeno, patern po kom se podaci ponavljaju za dati input. Npr. ukoliko primijetimo da se cijena neke konkretne tipe auta (npr. BMW m3 e46) smanjuje sa brojem pređenih kilometara, kažemo da je cijena te tipe auta opadajućeg trenda u odnosu na input **broj pređenih kilometara**. Recimo još da smo se domogli stvarnih podataka u kojima imamo informaciju o različitim cijenama date tipe auta za respektivan broj pređenih kilometara. Analizom parova (broj pređenih kilometara, cijena auta) možemo "izračunati" i na koji način cijena auta ovisi o broju pređenih kilometara. Konkretno u ovom slučaju možemo izračunati kojom "brzinom" opada cijena auta rastom broja pređenih kilometara. Na taj način kažemo da smo izračunali (ili često rečeno, uhvatili) trend po kojim se cijena auta mijenja u odnosu na broj pređenih kilometara i time možemo za bilo koji broj pređenih kilometara, o kom nemamo informaciju u skupu podataka kog smo se domogli, izračunati (uglavnom aproksimativno) cijenu auta. Ovaj način aproksimativnog računanja nekog podatka se naziva **predikcijom** datog podatka, a **način** kojim "računamo" isti se naziva **modelom predikcije** ili **modelom učenja** ili **modelom mašinskog učenja**. Tako da možemo kazati da je **regresija** upravo jedan model mašinskog učenja i to tačnije, model **nadgledanog** mašinskog učenja. Proces kroz koji smo "izračunali" zavisnost između ulaznih i izlaznih podataka modela, konkretno u primjeru iznad, između cijene auta i broja pređenih kilometara, se naziva **treningom** ili **obučavanjem** modela nad datim skupom podataka, a dati skup podataka, **trening skupom** podataka.

Prisjetimo se (sa predavanja) da je element trening skupa, bilo kog modela nadgeldanog mašinskog učenja, formata ($\overline{x}$, $\overline{y}$) gdje $\overline{x}$ odgovara ulaznom, a $\overline{y}$ izlaznom podatku modela. *Svaki model nadgledanog mašinskog učenja, u suštini, nije ništa do jedna **funkcija** koja prima određene podatke kao input i na osnovu tih podataka računa i vraća neki rezultat.*

Recimo da imamo na raspolaganju sljedeći trening skup: {(10000, 31000), (400000, 19000), (5000, 32000), (0, 40000), (1000, 33000), (100000, 26000), (50000, 29000), (50, 35000), (20000, 30000), (200000, 20000)}, gdje u svakom elementu skupa $(x, y)$, $x$ odgovara pređenom broju kilometara, a $y$ cijeni nekog auta. Smjestimo dati trening skup u niz `car_mileage_vs_value_data_set`:

In [1]:
from typing import List, Tuple

car_mileage_vs_value_data_set: List[List[int]] = [
    (10000, 31000), (400000, 19000), (5000, 32000), (0, 40000),
    (1000, 33000), (100000, 26000), (50000, 29000), (50, 35000),
    (20000, 30000), (200000, 20000)]

Konvertujmo dati niz u *numpy* niz radi lakše manipulacije istim:

In [2]:
import numpy as np

car_mileage_vs_value_data_set: np.ndarray = np.array(car_mileage_vs_value_data_set)

Iscrtajmo dati trening skup uz napomene ispod:
1. Koristimo biblioteku za vizualizaciju `plotly`.
2. Naredba `ply.init_notebook_mode(connected=True)` daje do znanja biblioteci Plotly da se sva iscrtavanja vrše u Jupyter Notebook okruženju.
2. `car_mileage_vs_value_data_set` je sada dvodimenzionalni *numpy* niz.
3. `car_mileage_vs_value_data_set.T` vraća transponovanu matricu `car_mileage_vs_value_data_set`.
4. `car_mileage_vs_value_data_set.T[0]` je jednodimenzionalni niz vrijednosti pređenih kilometara auta.
5. `car_mileage_vs_value_data_set.T[1]` je jednodimenzionalni niz vrijednosti cijena auta.
6. `go.Scatter()` formira objekat iz biblioteke Plotly koji čuva informaciju u podacima koje treba iscrtati kao i o formatu iscrtavanja istih.
7. Slično je i sa `go.Layout()`. Formira se objekat koji čuva informaciju o formatu iscrtavanja plana (layout-a) cijelog plota (bez podataka).
8. Objekat `go.Figure` objedinjuje informacije u *Scatter* i *Layout* objektu i naredba *ply.iplot()* vrši samo iscrtavanje.
9. `typehint` se po konvenciji ne koristi kod instanciranja klasa.

In [4]:
import plotly.offline as ply
import plotly.graph_objs as go

ply.init_notebook_mode(connected=True)

car_mileages: np.ndarray = car_mileage_vs_value_data_set.T[0]
car_values: np.ndarray = car_mileage_vs_value_data_set.T[1]

plot_data = go.Scatter(x=car_mileages, 
                       y=car_values, 
                       mode='markers',
                       marker=dict(color='black'))

layout = go.Layout(xaxis=dict(ticks='', showticklabels=True,
                              zeroline=False),
                   yaxis=dict(ticks='', showticklabels=True,
                              zeroline=False),
                   showlegend=False, hovermode='closest')

figure = go.Figure(data=[plot_data], layout=layout)

ply.iplot(figure)

Intuitivno, na navedenom primjeru, ideja linearne regresije je sadržana u pronalasku prave $p: y = m_1\cdot x + m_0$ takve da je vrijednost funkcije greške date prave nad datim trening skupom što manja *(pogledati poglavlje o Regresionoj analizi u profesorovoj skripti za više informacija u funkcijama greške)*. Koristiti ćemo *mean squared error* kao funkciju greške. Dakle želimo da pronađemo parametre $m_1$ i $m_2$ takve da vrijednost $\frac{1}{|\chi|}\cdot\sum_{(x, y) \in \chi}{(m_1\cdot x + m_0 - y)^2}$ bude što manja, gdje je $\chi$ naš trening skup. Drugim riječima, želimo da pronađemo položaj prave $p$ takav da je, za sve parove $(x_i, y_i)$ trening skupa, (kumulativno) odstupanje vrijednosti $m_1\cdot x_i + m_0$ od $y_i$ što manja.

Kada pronađemo takve parametre, nazovimo ih $m_1^*$ i $m_0^*$, to jeste pravu $p^*: y = m_1^*\cdot x + m_0^*$, možemo za bilo koji input, broj pređenih kilometara, aproksimativno izračunati cijenu koju bi jedno takvo auto moglo imati, jednostavno uvrstivši željeni broj pređenih kilometara $x$ u izraz $m_1^*\cdot x + m_0^*$. Drugim riječima, cijena auta se kreće po pravoj $p^*$ u odnosu na broj pređenih kilometara. U posljednjoj rečenici se oslikava i glavna osobina jednodimenzionalne linearne regresije (tj. linearne regresije sa samo jednim inputom, kao u našem primjeru  (kasnije ćemo se upoznati i sa višedimenzionalnom regresijom), a to je da **vrijednost output-a se kreće po pravoj $p*$ u odnosu na input i to postavljenoj u takav položaj da minimizira kumulativnu grešku (odstupanje) u odnosu na dati trening skup**.

Na primjeru ispod se nalazi navedena prava $p^*$ izračunata kroz gotovi modul `linear_model` biblioteke **sklearn**. Ne zamarajmo se toliko samom bibliotekom **sklearn** i njenim metodama sada, ali obratimo pažnju na to kako računamo *Mean squared error*.

In [5]:
from sklearn import linear_model

# np.expand_dims(a, axis=1) for input of a = [1, 2, 3] returns [[1], [2], [3]]
# This expanded format of np array is required for an input to linear_model.LinearRegression.fit method
# as well as for linear_model.LinearRegression.predict method
expanded_car_mileages: np.ndarray = np.expand_dims(car_mileages, axis=1)

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training set
regr.fit(expanded_car_mileages, car_values)

# The mean squared error
sklearn_mse: float = np.mean((regr.predict(expanded_car_mileages) - car_values) ** 2)
print(f'Mean squared error: {sklearn_mse}')

linear_regression_line = go.Scatter(x=car_mileages, 
                                    y=regr.predict(expanded_car_mileages),
                                    mode='lines',
                                    line=dict(color='blue', width=3))

figure = go.Figure(data=[plot_data, linear_regression_line], layout=layout)

ply.iplot(figure)

Mean squared error: 10080774.695512509


Sada ukoliko bismo željeli da procijenimo vrijednost auta koju bi isto moglo imati na kilometražama od 150000km, 250000km i 300000km, dovoljno je da izračunamo visinu prave za date inpute:

In [6]:
test_mileages: np.ndarray = np.array([150000, 250000, 300000])
expanded_test_mileages: np.ndarray = np.expand_dims(test_mileages, axis=1)
approximated_values: np.ndarray = regr.predict(expanded_test_mileages)

for mileage, value in zip(test_mileages, approximated_values):
    print(f'Mileage: {mileage} -> Value: {round(value)}')

Mileage: 150000 -> Value: 26463.0
Mileage: 250000 -> Value: 22209.0
Mileage: 300000 -> Value: 20082.0


Nameće se pitanje, na koji način možemo pronaći jednu takvu pravu $p^*$, tj. takve parametre $m_0^*$ i $m_1^*$ (bez korištenja nekih eksternih biblioteka).

Jedna ideja bi mogla da bude da parametrima $m_0$ i $m_1$ dodijelimo neke nasumične vrijednosti, izračunamo *MSE (Mean Squared Error)* koji formiraju dati parametri nad našim trening skupom i da onda povećavamo/smanjujemo $m_0$ i $m_1$ sve dok se *MSE* smanjuje. Ilustracije radi, pogledajmo kako bi mogla izgledati jedna ovakva procedura.

Najprije definišimo vrijednost koju ćemo dodavati ili oduzimati od parametara $m_0$ i $m_1$.

In [7]:
step_size: float = 0.1

Zatim instancirajmo parametre $m_0$ i $m_1$ nekim nasumičnim vrijednostima.

In [8]:
from random import random

m_0, m_1 = random(), random()

Izračunajmo *MSE* za date parametre i naš trening skup. Potrebno nam je najprije nekoliko pomoćnih funkcija.

In [9]:
from functools import partial

def calculate_line_height(x: float, k: float, n: float) -> float:
    """
    Returns:
        Hight of line y = k*x + n for given k, x and n parameters.
    """
    return k * x + n

def calculate_linear_regression_mse(
    training_set: np.ndarray, m_0: float, m_1: float) -> float:
    """
    Returns:
        Mean squared error produced on top of provided training set,
        using linear regression y = m_1*x + m_0
    """
    inputs: np.ndarray = training_set.T[0]
    outputs: np.ndarray = training_set.T[1]
    linear_regression_predict: Callable[[float], float] = partial(
        calculate_line_height, k=m_1, n=m_0)
    
    predictions: np.ndarray = linear_regression_predict(inputs)
    squared_errors = (predictions - outputs) ** 2
    
    return np.mean(squared_errors)

In [10]:
mse: float = calculate_linear_regression_mse(
    training_set=car_mileage_vs_value_data_set,
    m_0=m_0,
    m_1=m_1)

initial_mse: float = mse
print(f'Initial MSE: {initial_mse}')

Initial MSE: 17566311244.997627


Sada pustimo da se $m_0$ i $m_1$ povećavaju ili smanjuju za korak veličine `step_size` sve dok se *MSE* smanjuje.

In [11]:
print('Calculating ... takes up to one minute')

while True:
    for step_sign_0, step_sign_1 in [(0, 1), (0, -1), (1, 0), (-1, 0)]:
        updated_parameters = (
            m_0 + step_size * step_sign_0, m_1 + step_size * step_sign_1)
        new_mse = calculate_linear_regression_mse(
            car_mileage_vs_value_data_set, *updated_parameters)
        
        if new_mse < mse:
            m_0, m_1 = updated_parameters
            break
    
    if new_mse < mse:
        mse = new_mse
        continue
    
    break

print(f'Initial mse: {initial_mse}')
print(f'Optimized mse: {mse}')
print(f'sklearn optimized mse {sklearn_mse}')
print(f'New params: m_0 = {m_0}, m_1 = {m_1}')

Calculating ... takes up to one minute
Initial mse: 17566311244.997627
Optimized mse: 11302502.217573397
sklearn optimized mse 10080774.695512509
New params: m_0 = 32137.374850793884, m_1 = -0.033552394859316576


Uporedite *MSE* dobijen na ovaj način sa optimalnim *MSE*-om kog smo dobili prethodno korišteći `sklearn` biblioteku.
Šta možete zaključiti?

*Opaska: Metod koji smo koristili za nalazak pseudo-optimalnih parametara $m_0$ i $m_1$ se zove First Choice Hill Climbing i zapravo je izuzetno popularan u oblasti Metaheuristika. Metaheuristka je oblast koja se bavi izučavanjem metoda za nalaženje pseudo-optimalnih rješenja optimizacionih problema. Ona se prožima kroz oblast Mašinskog Učenja u cjelosti, ali njeno detaljnije izučavanje izlazi iz domena ovog predmeta.*

Iscrtajmo pravu koju smo upravo pronašli First Choice Hill Climbing metodom.

In [12]:
fchc_linear_regression_line = go.Scatter(x=car_mileages, 
                                         y=calculate_line_height(x=car_mileages, k=m_1, n=m_0),
                                         mode='lines',
                                         line=dict(color='red', width=3))

figure = go.Figure(data=[plot_data,
                         linear_regression_line,
                         fchc_linear_regression_line],
                   layout=layout)

ply.iplot(figure)

Plava prava odgovara linearnoj regresiji izračunatoj koristeći biblioteku `sklearn`, a crvena odgovara linearnoj regresiji izračunatoj koristeći našu *First Choice Hill Climbing* (FCHC) metaheurisku.

*Pitanje za razmišljanje: Zašto se crvena linija ne poklapa sa plavom? Tj. zašto naša metaheuristika nije pronašla najbolje rješenje?*

FCHC je prilično primitivna metaheuristika. Postoje metaheuristike mnogo jačeg kalibra sa kojima bismo sigurno dobili bolje rezultate. Srećom, optimalna prava linearne regresije se može pronaći bez ijedne metaheuristike i to koristeći isključivo kalkulus.

Prisjetimo se da želimo da pronađemo parametre $m_0, m_1 \in \mathbb{R}$ za koje je naš *Mean Squared Error* $ MSE(m_0, m_1) = \frac{1}{|\chi|}\cdot\sum_{(x, y) \in \chi}{(m_1\cdot x + m_0 - y)^2}$ najmanji mogući. Drugim riječima, želimo da pronađemo minimum površi $MSE(m_0, m_1)$ u zavisnosti od parametara $m_0$ i $m_1$. Prisjetimo li se kalkulusa više promjenjivih, sjetiti ćemo se da se jedan takav ekstrem površi može relativno lahko izračunati. Naime, pokazuje se da $MSE(m_0, m_1)$ dostiže minimum za $$m_1=\frac{\overline{\overline{y}} - \overline{y}}{\overline{\overline{x}} - \overline{x}}$$ $$m_0=\overline{y} - m_1\cdot \overline{x}$$ gdje je $$\overline{\overline{y}} = \frac{m_1'}{N\cdot\overline{x}}$$ $$\overline{\overline{x}} = \frac{m_0'}{N\cdot\overline{x}}$$ $$\overline{x} = \frac{\sum_{(x, y) \in \chi}{x}}{N}$$ $$\overline{y} = \frac{\sum_{(x, y) \in \chi}{y}}{N}$$ a $$m_0' = \sum_{(x, y) \in \chi}{x^2}$$ $$m_1' = \sum_{(x, y) \in \chi}{x\cdot y}$$ *Detaljan račun za nalazak parametara $m_0$ i $m_1$ se nalazi u poglavlju Regresiona analiza u profesorovoj skripti.*

Sada našu linearnu regresiju možemo direktno implementirati kao:

In [12]:
assert len(car_mileages) == len(car_values), 'Invalid train/labels size'
training_set_size: int = len(car_values)


m_0_ = np.sum(car_mileages ** 2)
m_1_ = np.dot(car_mileages, car_values)
    
x_ = np.mean(car_mileages)
y_ = np.mean(car_values)
    
x__ = m_0_ / training_set_size / x_
y__ = m_1_ / training_set_size / x_

m_1: float = (y__ - y_) / (x__ - x_)
m_0: float = y_ - m_1 * x_
    
print(f'm_0 = {m_0}')
print(f'm_1 = {m_1}')
print(f'MSE: {calculate_linear_regression_mse(training_set=car_mileage_vs_value_data_set, m_0=m_0, m_1=m_1)}')

m_0 = 32843.87614493818
m_1 = -0.04254024737533463
MSE: 10080774.695512515


Iscrtajmo linearnu regresiju koju formiraju novopronađeni parametri $m_0$ i $m_1$:

In [13]:
calculus_linear_regression_line = go.Scatter(x=car_mileages, 
                                             y=calculate_line_height(x=car_mileages, k=m_1, n=m_0),
                                             mode='lines',
                                             line=dict(color='green', width=3))

figure = go.Figure(data=[plot_data,
                         linear_regression_line,
                         fchc_linear_regression_line,
                         calculus_linear_regression_line],
                   layout=layout)

ply.iplot(figure)

Zelena linija preklapa plavu, što potvrđuje da biblioteka `sklearn` također nalazi optimalnu linearnu regresiju.

Postoje trenutci u praksi kada nam je potrebna brza, ali dovoljno dobra analiza podataka (tačnije analiza trenda podataka). Npr. prilikom pisanja poslovnih prijedloga ili POC-a *(Proof of concept)* projekata (i to ne nužno samo Data Science projekata). Zatim često je potreba plitka analiza podataka prije nego li se odlučimo za korištenje nekog kompleksnijeg algoritma nadgledanog učenja itd. Linearna regresija je uglavnom najpopularniji alat u navedenim situacijama i kao takva, neizostavan alat svakog ko se iole dotiče neke statističke analize podataka.