# Linaerna regresija

**Linearna regresija** predstavlja problem nalaženja linearne veze između nezavisne promenljive $x$ i zavisne promenljive $y$. Ukoliko je promenljiva $x$ skalar, radi se o prostoj linearnoj regresiji, a ako je promenljiva $x$ vektor, reč je o linearnoj regresiji za funkciju više promenljivih. U oba slučaja, pretpostavka je da je zavisna promenljiva $y$ skalar.

**Prosta linearna regresija** predstavlja nalaženje linearne veze između parova skalara $(x_i, y_i)$, $1 \le i \le n$. Veza je data linearnom funkcijom $f(x) = \beta_0 + \beta_1 x$ po parametrima $\beta_0$ i $\beta_1$ gde su $\beta_0$ i $\beta_1$ parametri koje treba odrediti. Ako je $X=[x_1, \dots, x_n]$ i $Y=[y_1, \dots, y_n]$, izraz se može zapisati u matričnom obliku kao $\begin{bmatrix}1&X\end{bmatrix} \cdot \begin{bmatrix}\beta_0\\\beta_1\end{bmatrix} = Y$, gde je $\begin{bmatrix}1&X\end{bmatrix}$ matrica čija se prva kolona sastoji samo od jedinica, a druga kolona je vektor $X$.

**Linearna regresija za funkciju više promenljivih** predstavlja nalaženje linearne veze između parova vektora i skalara $(X_i, y_i)$, $1 \le i \le n$. Veza je data linearnom funkcijom $f(x_1,\dots,x_m) = \beta_0 + \beta_1 x_1 + \dots + \beta_m x_m$ po parametrima $\beta_0, \dots, \beta_m$ gde su $\beta_0, \dots, \beta_m$ parametri koje treba odrediti. Izraz se može zapisati u matričnom obliku kao $\begin{bmatrix}1&X_1&\cdots&X_m\end{bmatrix} \cdot \begin{bmatrix}\beta_0\\ \vdots \\ \beta_m\end{bmatrix} = Y$, gde je $Y=[y_1, \dots, y_n]$, $\begin{bmatrix}1&X_1&\cdots&X_m\end{bmatrix}$ matrica čija se prva kolona sastoji samo od jedinica, a ostale kolone su redom vektori $X_1,\dots,X_m$. 

Sistem jednačina $\begin{bmatrix}1&X\end{bmatrix} \cdot \begin{bmatrix}\beta_0\\\beta_1\end{bmatrix} = Y$ kod proste linearne regresije, odnosno $\begin{bmatrix}1&X_1&\cdots&X_m\end{bmatrix} \cdot \begin{bmatrix}\beta_0\\ \vdots \\ \beta_m\end{bmatrix} = Y$ kod linearne regresije za funkciju više promenljivih, se najčešće rešava **metodom najmanjih kvadrata**. Takav sistem u praksi obično ima više jednačina nego promenljivih i najčešće nema egzaktno rešenje.

Ako sistem napišemo u obliku $A\beta = Y$, njegovo rešavanje predstavlja nalaženje onog vektora $\beta$ za koji je vrednost izraza $||Y - \beta A||_2^2$ najmanja. Ovde je sa $||a||_2 = \sqrt{a_1^2 + a_2^2 + \dots + a_n^2}$ označena 2-norma vektora $a = (a_1, a_2, \dots, a_n)$. Rešenje je dato u obliku $\beta=(A^{T}A)^{-1}A^{T}Y$, gde se matrica $(A^{T}A)^{-1}A^{T}$ se naziva pseudoinverz matrice $A$.

U slučaju proste linearne regresije, može se pokazati da je $$\beta_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}$$ i $\beta_0 = \bar{y} - \beta_1 \bar{x}$, gde je $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ aritmetička sredina nezavisnih, a $\bar{y} = \frac{1}{n} \sum_{i=1}^n y_i$ zavisnih promenljivih.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Za rešavanje zadataka linerne regresije mogu se iskoristiti funkcije koje smo upoznali do sada.

**Scikit-learn** je Python biblioteka namenjena mašinskom učenje. U njoj su implementirani mnogobrojni algoritmi klasifikacije, regresije i grupisanja. Na ovoj [adresi](https://scikit-learn.org/stable/) možete istražiti sve funkcionalnosti biblioteke, a mi ćemo se u daljem radu usredsrediti na linearne modele dostupne kroz `linear_model` paket. 

In [2]:
from sklearn import linear_model

**Primer:** 
Neka je potrebno naći linearnu vezu između parova nezavisnih i zavisnih promenljivih: $(0, 1.2)$, $(0.5, 2.05)$, $(1, 2.9)$ i $(-0.5,0.1)$:

Najpre se kreira objekat klase `LinearRegression`. Prikazani argumenti funkcije `fit` su matrica $X$ sa kolonama koje predstavljaju vektore nezavisnih promenljivih i vektor $y$ čije koordinate predstavljaju zavisne promenljive. Nakon poziva funkcije, niz `coef_` predstavlja koeficijente, a `intercept_` slobodni član linearne regresije. Funkcijom `predict` se mogu predvideti vrednosti linearne regresije za odgovarajuće unose. U primeru se može videti razlika između predviđenih vrednosti `reg.predict(X)` i stvarnih vrednosti `y`.

**Ocena greške** linearne regresije se može odrediti na više načina:

* Mean absolute error (MAE) je prosečna apsolutna razlika između stvarne i predviđene vrednosti, $\text{MAE} = \frac{1}{n}\sum_{i=1}^n{|\hat{y_i}-y_i|}$.

* Mean squared error (MSE) je jednaka prosečnom kvadratu razlike između stvarne i predviđene vrednosti, $\text{MSE} = \frac{1}{n} \sum_{i=1}^{n}{(\hat{y_i} - y_i)^2}$. Naziva se još i residual square sum (RSS).

* $R^2$ je jednaka $R^2= 1 - \frac{RSS}{TSS}$, gde je $TSS = \sum_{i=1}^{n} {(y_i-\overline{y})^2}$ ukupna suma kvadrata razlike između stvarne i predviđene vrednosti (total sum of squares). Što je vrednost bliža jedinici, greška je manja.

U nastavku će kroz primer reklamiranja na TV-u, radiju i novinama, biti prikazano na koji način se linearna regresija može iskoristiti za kreiranje modela koji predviđa količinu prodaje. Biće prikazane i neke dosetke za rad sa modelima mašinskog učenja (kroz primer linearne regresije). 

**Zadatak.** Svaki red u ulaznom CSV fajlu sadrži informacije o cenama u hiljadama dolara reklamnih usluga na određenom tržištu. Prva kolona se odnosi na cene reklamiranja na televiziji, druga na radiju, a treća u novinama. Četvrta kolona se odnosi na ukupnu prodaju proizvoda koji su se reklamirali na datim medijima. Kreirati linearni model koji predviđa prodaju na osnovu cena reklamiranja.

**Rešenje.** Osnovne informacije o podacima iz CSV fajla:

Izvucimo potrebne podatke i proverimo da li postoji linearna zavisnost između svakog načina reklamiranja ponaosob i prodaje:

Zaključujemo da je linearna zavisnost prodaje od reklamiranja na TV-u najveća, a najmanja od reklamiranja u novinama. 

Ocena greške:

In [10]:
from sklearn import metrics

Kod ovakvog modeliranja, može se dogoditi da se problem previše prilagodi skupu podataka nad kojim je istreniran, pa da se lošije ponaša na nekom skupu podataka koji prethodno nije bio testiran (overfitting). Zbog toga je poželjno podeliti skup podataka na skup za treniranje i skup za testiranje. 

Različitim podelama polaznog skupa na skup za treniranje i skup za tesiranje se dobijaju modeli u kojima figurišu drugi parametri. Potreban nam je mehanizam kojim (u opštem slučaju) možemo da upoređujemo modele sa ciljem odabira najboljeg modela. Tome nam služi **unakrsna validacija** (cross validation).

Kod unakrsne validacije se polazni skup particioniše na $k$ delova (gde je $k$ unapred izabrani parametar). Model se trenira na svih $k-1$ podskupova odjednom, a testira na preostalom podskupu. Proces se ponavlja $k$ puta, pri čemu se u svakoj iteraciji koristi drugačiji skup za testiranje.