# Linearna regresija - uvod

## Jednostavna linearna regresija

Je statistički metod koji omogućava proučavanje veze između dve kontinualne promenljive.

Prva promenljiva, $x$, se naziva **nezavisna promeljiva**. Druga promenljiva, $y$ se naziva **zavisna promenljiva**.

Jednostavna linearna regresija ima pridev "jednostavna" zato što ima samo jednu nezavisnu promenljivu $x$.
Postoji i višestruka linearna regresija, koja se odnosni na linearnu regresiju sa više nezavisnih promenljivih $x_1, x_2,...x_n$.

---
Pre opisa same linearne regresije, važno je napomenuti kakve veze/zavisnosti između promenljivih su od interesa.

**Deterministička (funkcionalna) zavisnost** nam nije od interesa jer njom možemo odrediti **tačnu** vrednost zavisne promenljive $y$ na osnovu vrednosti nezavise promenljive $x$. Primer: konvertovanje mernih jedinica temperature između stepeni celzijusa i farenhajta:

$ \text{Fahr} = \frac{9}{5} * \text{Cels} + 32 $

![](img/celcius_fahr_plot.gif)

Znajući temperaturu u stepenima Celzijusa, možemo iskoristiti prethodnu jednačinu da **tačno** odredimo temperaturu u Farenhajtima. Još primera determinističke zavisnosti:

* $ \text{obim} = 2 \pi * \text{poluprecnik} $
* Omov zakon: $ \text{I} = \frac{V}{R} $
* Hukov zakon: $ \text{F} = -\text{k}\text{x} $


Za svaku od ovih determinističkih zavisnosti, jednačina tačno opisuje odnos dve promenljive. Ne razmatramo determinističke veze, već  **statističku zavisnost**, gde veza između dve promenljive nije savršeno tačna.

Primer statističke zavisnosti je određivanje stope smrtnosti od raka kože (broj smrti na 10 miliona ljudi) na osnovu geografske širine centra svake od 49 država u SAD ([skincancer.csv](data/skincancer.csv))

Može se pretpostaviti da u zemljama koje su severnije, ljudi su manje izloženi sunčevoj svetlosti i štetnim uticajima sunčevih zraka (UV zračenja) i samim tim bi rizik smrti od raka kože trebao biti manji. Dole prikazani grafik podržava takvu hipotezu - vidi se negativna linerna zavisnost između geografske širine i stope smrtnosti od raka kože, ali ova veza nije savršeno linearna. Dakle, ovo je statistička zavisnost, a ne deterministička.

![](img/scatterplot_skin_cancer.png)

Još neki primeri statističke zavisnosti mogu biti:

* Visina i težina ljudi - uglavnom očekujemo da su više osobe teže, ali ne mora nužno biti tako
* Kapacitet pluća i količina konzumiranih cigara tokom života - kako se količina konzumiranih cigara povećava, očekuje se smanjenje kapaciteta pluća
* Broj ljudi u prostoriji i temperatura/vlažnost prostorije
* Količina uloženog truda tokom studiranja (kako ovo izmeriti?) i prolaznost / prosek ocena

---


## Koja je "najpogodnija linija"?

Pošto je neophodno pronaći neku linearu zavisnost između dve promenljive, nameće se pitanje koja je to najpogodnija linija koji opisuje tu zavisnost? U principu, zanima nas da pronađemo liniju $ \hat{y} = a x + b $ koja na najbolji način opisuje date podatke. Podaci su dati kao:

* $ x_i $ - vrednost nezavisne promenljive za svako merenje $i$,
* $ y_i $ - vrednost zavisne promenljive za svako merenje $i$,
* $ \hat{y}_i $ - *predviđena* vrednost zavisne promenljive za svako merenje $i$.

Očigledno je da će se $ y_i $ i $ \hat{y}_i $ razlikovati u određenoj meri (u nekim merenjima manje u nekim merenjima više), ali je potrebno *u proseku* smanjiti ovu razliku. Jednostavna linearna regresija je postupak koji pronalazi najpogodniju liniju koja opisuje zadate podatke $ x_i $ i $ y_i $, minimizujući grešku predikcije $ e_i = y_i - \hat{y}_i $.


## Metod najmanjih kvadrata

Linija koja najbolje "fituje" (od eng. *fit* - pristajati) podatke će biti ona linija koja najbolje odgovara podacima, tj. najbolje opisuje vezu između nezavisne $x$ i zavisne promenljive $y$.
Najbolje fitovana linija ima najmanju grešku predikcije za svako merenje $i$.

Jedan od metoda za pronalaženje ovakve linije je **metod najmanjih kvadrata** (eng. *OLS - Ordinary Least Squares*). Ovaj metod minimizuje sumu kvadrata grešaka predikcije (*SSE - Sum of Squares Error*). SSE je metrika koja govori koliko dobro data linija opisuje podatke.

* Jednačina linije koja najbolje "fituje" je: $ \hat{y} = a x + b $. Gde je *a* je nagib linije (*slope*) i *b* odsečak na y-osi (*intercept*).
* Potrebno je odrediti vrednosti *a* i *b* tako da je suma kvadratnih grešaka predikcije što manja.
* Dakle, potrebno je pronaći *a* i *b* koji minimizuju: 

$$ SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2 = \sum_{i=1}^{n}(y_i - a x_i - b)^2 $$


Kako bismo pronašli *a* i *b* koje minimizuju *SSE*, pronaći ćemo parcijalne izvode od *SSE* u odnosu na *a* i *b* i izjednačiti ih sa nulom, i rešiti ih za *a* i *b*:
$ \frac{\partial SSE}{\partial a} = 0 $,  $ \frac{\partial SSE}{\partial b} = 0 $

Rešenje:

$$
a = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}=\frac{Cov(x,y)}{Var(x)}
$$


$$
b = {1 \over n } \sum_{i=1}^{n} (y_i - a x_i) = \bar{y} - a \bar{x}
$$


Pronalaskom koeficijenata $a$ i $b$, dobijamo jednačinu prave koja ima najmanju SSE metriku.

---



##### Zadaci

**TODO 1**: Implementirati jednostavu linearnu regresiju. Ulazi parametri su liste/vektori *x* i *y*, koji predstavljaju podatke, a povratne vrednosti su *slope* i *intercept* koji predstavlju nagib i presečnu tačku linije koja najbolje "fituje" podatke. Fajl [linreg_simple.py](src/linreg_simple.py) -> funkcija `fit(x, y)`.

**TODO 2**: Implementirati predviđanje vrednosti y na osnovu jednog podatka x koristeci nagib i presek. Fajl [linreg_simple.py](src/linreg_simple.py) -> funkcija `predict(x, slope, intercept)`.

**TODO 3**: Izvršiti linearnu regresiju na primeru predviđanja stope smrtnosti od raka kože na osnovu geografske širine američkih država.
* Učitati datoteku *data/skincancer.csv* i implementirati primenu linearne regresije u Python fajlu [todo3.py](src/todo3.py).
* Iscrati grafik za ovaj slučaj.
* Probati linearnu regresiju nad ovim istim skupom podataka, ali da se umesto geografske širine koristi geografska dužina.
Napomena: Neophodno je instalirati biblioteke sa komandom: `pip install -r requirements.txt`

**TODO 4**: Primer iz **TODO 3** rešiti pomoću [scikit-learn](https://scikit-learn.org) biblioteke u fajlu [todo4.py](src/todo4.py).

`Scikit-learn` je *open-source* Python biblioteka, koja predstavlja jednostavan i efikasan alat za mašinsko učenje i analizu podataka. Ova biblioteka sadrži implementiran razne algoritme i primere za njihovu primenu.


#### Višestruka linearna regresija
Za razliku od jednostavne linearne regresije koja koristi samo jednu prediktorsku promenljivu *x*, višestruka linearna regresija podrazumeva korišćenje dve ili više prediktorskih promenljivih. Na prethodnom primeru, mogli bismo dodati: kako zavisi stopa smrtnosti od raka kože u odnosu na geografsku širinu države **i** cene kreme za sunčanje, prosečne plate, klime?

Višestruka linearna regresija je odličan alat za otkrivanje interesantnih zavisnosti između podataka, koje možda nisu nisu očigledne na prvi pogled.

U opštem obliku, višestruka linearna regresija podrazumeva jednačinu:
$ \hat{y} = a + b_1x_1 + b_2x_2 + ... + b_px_p $, gde je neophodno pronaći parametre *a* i *b* na isti način kao kod jednostavne linearne regresije - minimizacijom sume kvadratnih grešaka predikcije $ SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2 $.

Više i višestrukoj regresiji na narednim terminima.