<img src="vua.png">

# Linearna regresija

Strojno učenje možemo provoditi na dva osnovna načina:
- **nadzirano** učenje (engl. *supervised learning*)
- **nenadzirano** učenje (engl *unsupervised learning*)

Ako su nam poznati ulazni podaci i ciljne varijable tada se radi o nadziranom učenju prilikom kojeg koristimo **regresiju** za kontinuirane/brojčane vrijednosti ili **klasifikaciju** za diskretne/nebrojčane vrijednosti.

Ako želimo pronaći pravilnost u podacima i od modela očekujemo da sam otkrije vrijednosti ciljnih varijabli tada se radi o nenadziranom učenju prilikom kojeg između ostalog koristimo **klasifikaciju** (grupiranje, engl. *clustering*) i **smanjenje dimenzionalnosti** (engl. *dimensionality reduction*).

||kontinuirane varijable|kategoričke varijable|
|---|---|---|
|**nadzirano učenje**|**regresija**|klasifikacija|
|**nenadzirano učenje**|smanjenje dimenzionalnosti|klasteriranje|


Tema ovih vježbi je **linearna regresija** koju karakteriziraju sljedeće značajke:
- koristi se za rješavanje širokog spektra problema
- brza je
- jednostavna je za korištenje
- rezultati se lako interpretiraju
- služi kao osnova za mnoge druge metode


Za početak ćemo pripremiti neophodne biblioteke funkcija. Novi objekt koji dosad nije korišten u vježbama je **LinearRegression** iz biblioteke **sklearn** (više detalja možete pronaći na adresi http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

%matplotlib inline

Podatke ćemo preuzeti iz datoteke Oglasi.csv

In [None]:
# učitavanje sadržaja datoteke u Data Frame
df = pd.read_csv('Oglasi.csv', sep='|')
df.head()

Ulazne varijable su:
- **Televizija**: novčani iznos utrošen na oglašavanje na televiziji za jedan proizvod (u tisućama kuna)
- **Radio**: novčani iznos utrošen na oglašavanje na radiju
- **Novine**: novčani iznos utrošen na oglašavanje u novinama

Ciljna varijabla je:
- **Prodaja**: količina prodanih proizvoda (u tisućama prodanih jedinica)

In [None]:
# Koliko slučajeva sadrže ulazni podaci?
df.shape

Pogledajmo kako izgleda dijagram rasipanja (engl. *scatterplot*) za svaku od ulaznih varijabli u odnosu na ciljnu varijablu

In [None]:
# inicijalizacija 3 grafička prikaza u istom retku, sa zajedničkom ordinatom
fig, axs = plt.subplots(1, 3, sharey=True)
df.plot(kind='scatter', x='Televizija', y='Prodaja', ax=axs[0], figsize=(16, 8))
df.plot(kind='scatter', x='Radio', y='Prodaja', ax=axs[1])
df.plot(kind='scatter', x='Novine', y='Prodaja', ax=axs[2])

**Kako bismo u budućnosti trebali rasporediti sredstva (novac) za oglašavanje u tri promatrana medija?**

Da bismo dobili bolji uvid u problem i lakše došli do odgovora na postavljeno pitanje, postavit ćemo si nekoliko potpitanja:
1. Postoji li uopće zavisnost između kanala oglašavanja i prodaje?
2. Ako zavisnost postoji, koliko je jaka?
3. Koji kanal(i) oglašavanja povećava(ju) prodaju?
4. Koliko pojedini kanali oglašavanja utječu na prodaju?
5. Može li se predvidjeti prodaja ako znamo koliko je novaca uloženo u koji kanal oglašavanja?

U nastavku će biti opisane metode pronalaženja odgovora na ova pitanja korištenjem linearne regresije.

## Jednostavna linearna regresija

**Jednostavna linearna regresija** nam omogućuje kvantitativno predviđanje vrijednosti izlazne varijable na temelju **jedne** ulazne varijable. Matematički se bilježi na sljedeći način:

$$y = \beta_0 + \beta_1x$$

U osnovi se radi o jednadžbi pravca s koeficijentima $\beta_0$ i $\beta_1$, u kojoj $y$ predstavlja izlaznu varijablu, a $x$ ulaznu.

Kako bismo kreirali model, moramo "naučiti" vrijednosti koeficijenata $\beta_0$ i $\beta_1$, a potom naučene vrijednosti iskoristiti za predviđanje prodaje.

### Izračunavanje koeficijenata

Koeficijenti se određuju pomoću metode najmanjih kvadrata, odnosno pronalaženjem pravca koji ima najmanji zbroj kvadratnih odstupanja vrijednosti ulazne od vrijednosti izlazne varijable.

<img src="estimating_coefficients.png">

- crne točke predstavljaju vrijednosti varijabli (x = ulazna, y = izlazna)
- plavi pravac predstavlja pravac s najmanjim zbrojem kvadratnih odstupanja
- crvene linije predstavljaju udaljenost pojedinačnih vrijednosti od pravca s najmanjim zbrojem kvadratnih odstupanja

Odnos između ulaznih podataka i pravca možemo opisati i na sljedeći način:
- $\beta_0$ je presjecište pravca i ordinate (vrijednost $y$ ako je $x$=0, engl. *interception*)
- $\beta_1$ je koeficijent smjera pravca (omjer promjene $y$ i promjene $x$, engl. *slope*)

Na slici to izgleda ovako:

<img src="slope_intercept.png">

### Kreiranje modela

Sastavni dio **Anaconda** distribucije Pythona je paket **scikit-learn**. Služi za jednostavno kreiranje modela temeljenih na različitim metodama strojnog učenja.

U nastavku je primjer kôda za izračunavanje koeficijenata linearne regresije.

In [None]:
# X = DataFrame koji sadrži samo ulazne varijable
# y = niz koji sadrži samo izlaznu varijablu
X = df[['Televizija']]
y = df.Prodaja

# kreiranje instance modela
lm = LinearRegression()
# učenje
lm.fit(X, y)

# ispis koeficijenata linearne regresije
print(lm.intercept_)
print(lm.coef_)

### Interpretacija koeficijenata modela

**Koeficijent $\beta_1$** za polje **Televizija** interpretiramo na sljedeći način:
- Jedinica **povećanja budžeta za oglašavanje** putem televizije je povezana s **0,047537 jedinica povećanja prodaje**

ili 

- **Povećanje budžeta** za televizijsko oglašavanje **za 1.000 jedinica** je povezano s **povećanjem prodaje od 47,5 jedinica**

Ako je koeficijent $\beta_1$ **negativan**, to znači da je povećanje budžeta za oglašavanje povezano sa **smanjenjem prodaje**.

### Predviđanje pomoću modela

Pretpostavimo da smo na novom tržištu utrošili 50 novčanih jedinica na televizijsko oglašavanje i zanima nas koliko će to povećati prodaju.

$$y = \beta_0 + \beta_1x$$
$$y = 7.032594 + 0.047537 \times 50$$

In [None]:
# "ručni" izračun
7.032594 + (0.047537 * 50)

Dakle, izračunali smo da će se prodaja povećati za 9 jedinica proizvoda.

Osim ručno, predviđanje možemo elegantnije napraviti i pomoću prethodno kreirane instance modela:

In [None]:
lm.predict(50)

### Grafički prikaz pravca linearne regresije

Za početak, potrebno je odrediti **gornju i donju granicu grafičkog prikaza na ordinati**.

In [None]:
# kreiranje DataFramea s ulaznim varijablama (minimalna i maksimalna vrijednost budžeta za televizijsko oglašavanje)
X_minmax = pd.DataFrame({'Televizija': [df.Televizija.min(), df.Televizija.max()]})
X_minmax

Sljedeći korak je izračunati **predviđene vrijednosti prodaje** za taj minimum i maksimum pa kroz njih nacrtati pravac:

In [None]:
# predviđanje vrijednosti prodaje za minimalan i maksimalan iznos budžeta
prodaja_minmax = lm.predict(X_minmax)
prodaja_minmax

In [None]:
# crtanje svih ulaznih podataka
df.plot(kind='scatter', x='Televizija', y='Prodaja')

# pravac linearne regresije
plt.plot(X_minmax, prodaja_minmax, color='r', linewidth=2)

## Višestruka linearna regresija

Ako jednostavnu linearnu regresiju proširimo dodatnim ulaznim varijablama, ona postaje **višestruka linearna regresija** (engl. *multiple linear regression*):

$$y = \beta_0 + (\beta_1x_1) + ... + (\beta_nx_n)$$

Svaki $x$ predstavlja drugu varijablu, a svaka varijabla ima svoj koeficijent pa u tom slučaju vrijedi:

$$y = \beta_0 + (\beta_1 \times Televizija) + (\beta_2 \times Radio) + (\beta_3 \times Novine)$$

Izračunajmo koeficijente za sve ulazne varijable:

In [None]:
varijable = ['Televizija', 'Radio', 'Novine']
X = df[varijable]
y = df.Prodaja

# kreiranje instance modela
lm = LinearRegression()
# učenje
lm.fit(X, y)

# ispis koeficijenata linearne regresije
print(lm.intercept_)
list(zip(varijable, lm.coef_))

## Kategoričke varijable s dvije vrijednosti

U dosadašnjim primjerima su sve varijable bile numeričke, a u nastavku ćemo dodati i kategoričke varijable.

Dodajmo varijablu **Tržište** i slučajim izborom joj dodijelimo vrijednosti "**veliko**" i "**malo**":

In [None]:
# Kreiranje pseudoslučajnog niza brojeva
np.random.seed(6543210)
sluc_brojevi = np.random.rand(len(df))
veliki_brojevi = sluc_brojevi > 0.5

# Postavi svima vrijednost na 'malo' pa potom za sve vrijednosti veće od 0.5 na 'veliko'
df['Trziste'] = 'malo'
df.loc[veliki_brojevi, 'Trziste'] = 'veliko'
df.head()

Za **scikit-learn** vrijednosti svih varijabli moraju biti konvertirane u **numeričke**.

Ako varijabla ima samo dvije kategorije, onda jednostavno možemo kreirati *dummy varijable* koje reprezentiraju svaku od kategorija kao binarnu vrijednost:

In [None]:
# Kreiraj novi niz 'VelikoTrziste'
df['VelikoTrziste'] = df.Trziste.map({'malo':0, 'veliko':1})
df.head()

Ponovimo višestruku linearnu regresiju s uključenom novom varijablom **VelikoTrziste**:

In [None]:
varijable = ['Televizija', 'Radio', 'Novine', 'VelikoTrziste']
X = df[varijable]
y = df.Prodaja

lm = LinearRegression()
lm.fit(X, y)

print(lm.intercept_)
list(zip(varijable, lm.coef_))

Kako interpretiramo koeficijent za **VelikoTrziste**?

- Za zadani budžet radijskog, televizijskog i novinskog oglašavanja, veliko tržište je povezano s povećanjem prodaje od 34 jedinice proizvoda (u usporedbi s malim tržištem)

Što bi se dogodilo da smo umjesto varijable "**VelikoTrziste**" kreirali varijablu "**MaloTrziste**"?

In [None]:
# Kreiraj novi niz 'MaloTrziste'
df['MaloTrziste'] = df.Trziste.map({'malo':1, 'veliko':0})
df.head()

varijable = ['Televizija', 'Radio', 'Novine', 'VelikoTrziste', 'MaloTrziste']
X = df[varijable]
y = df.Prodaja

lm = LinearRegression()
lm.fit(X, y)

print(lm.intercept_)
list(zip(varijable, lm.coef_))

Kao što možemo vidjeti, **koeficijent je ostao isti, ali se promijenio predznak**, što znači da nije važno koju ćemo vrijednost izabrati za kreiranje *dummy varijable*, ali je moramo **pravilno interpretirati**.

## Kategoričke varijable s više od dvije vrijednosti

Kreirajmo novu varijablu **Područje** i dodijelimo joj vrijednosti **gradsko**, **prigradsko** i **ruralno**:

In [None]:
np.random.seed(123456)
sluc_brojevi = np.random.rand(len(df))
prigradska_podrucja = (sluc_brojevi > 0.33) & (sluc_brojevi < 0.66)
urbana_podrucja = sluc_brojevi > 0.66

df['Podrucje'] = 'ruralno'
df.loc[prigradska_podrucja, 'Podrucje'] = 'prigradsko'
df.loc[urbana_podrucja, 'Podrucje'] = 'urbano'
df.head()

Kao i u prethodnom primjeru s dvije vrijednosti varijable, i u ovom slučaju vrijednosti treba reprezentirati numerički, ali ne smijemo jednostavno kodirati nazive kao 0=ruralno, 1=prigradsko, 2=gradsko jer bismo time implicirali npr. stvarno nepostojeći redoslijed ili matematički netočan zaključak da dva prigradska područja vrijede kao jedno gradsko.

Umjesto toga ćemo kreirati još dvije *dummy varijable*:

In [None]:
# kreiranje dummy varijabli za prva dva od tri područja
podrucja_dummies = pd.get_dummies(df.Podrucje, prefix='Podrucje').iloc[:, 1:]

# spoji novokreirane stupce s postojećim DataFrameom (axis=0 označava retke, axis=1 označava stupce)
df = pd.concat([df, podrucja_dummies], axis=1)
df.head()

Kodiranje interpretiramo na sljedeći način:
- **ruralno** je kodirano kao podrucje_ruralno=1 i podrucje_urbano=0
- **prigradsko** je kodirano kao podrucje_ruralno=0 i podrucje_urbano=0
- **urbano** je kodirano kao podrucje_ruralno=0 i podrucje_urbano=1

Budući da dvije kreirane *dummy* varijable pokrivaju sve tri vrijednosti, treća nam nije potrebna (općenito, kod kategoričkih varijabli s $n$ vrijednosti, potrebno je kreirati $n-1$ *dummy* varijabli.

<br>
<div class="alert alert-info">
<b>Zadatak 1</b>
</div>

Samostalno kreirajte model za predviđanje prodaje na temelju budžeta za televiziju, radio, novine i **područja** te ispišite koeficijente linearne regresije za sve varijable.

In [None]:
# ovdje upišite kôd koji rješava zadatak



U sljedećoj ćeliji interpretirajte (tekstualno opišite) vrijednosti koeficijenata linearne regresije za sve ulazne varijable!

Ovdje upišite odgovor:





<br>
<div class="alert alert-info">
<b>Kraj zadatka 1</b>
</div>

**Završna napomena**

Ako varijabla ima kategoričke vrijednosti koje se mogu poredati u logičan vrijednosni niz (npr: **'ne slažem se', 'djelomično se ne slažem', 'nemam mišljenje', 'djelomično se slažem', 'slažem se'**), tada ipak, uvažavajući smisao, smijete kreirati samo jednu *dummy* varijablu koja će  vrijednosti reprezentirati numerički (npr. **1, 2, 3, 4, 5**).