# 4. Faktori
Pojam *faktor* se odnosi na statistički tip podataka koji zovemo kategorička varijabla.  
Kategoričke varijable pripadaju nekom skupu (klasi) sa ograničenim brojem kategorija (vrijednosti klase).  
Na primjer: `Muško`, `Žensko`  ili `Prošao ispit`, `Pao ispit`  
Faktor dobijemo tako da vektor konvertiramo funkcijom `factor()` 

_**Primjer:**_  
Imamo vektor `spol` koji ima 5 elemenata:  

In [17]:
spol_v <- c('musko', 'zensko', 'zensko', 'zensko', 'musko')
spol_v

Kada ga konvertiramo u faktor dobijemo 5 elemenata ali samo dvije vrijednosti klase (levels);

In [18]:
spol_f <- factor(spol_v)
spol_f

Kada govorimo o kategoričkim varijablama razlikujemo **nominalne** i **ordinalne** varijable.  
Za razliku od nominalnih koje su "obične" (spol, boja kose, vrsta životinje, ...) ordinalne varijable u sebi sadržavaju određenu hijerarhiju.  
Na primjer; "dobar", "loš", "zao",   
ili  "ponedjeljak", "utorak", "srijeda",   
ili "visok", "srednji", "nizak"<br><br>
Tu unutrašnju hijerarhiju možemo i zadati u faktoru.  
Na primjer:

In [19]:
temp_v <- c("visoka", "visoka", "srednja", "niska", "visoka")
temp_f <- factor(temp_v, order=TRUE, levels=c("niska", "srednja", "visoka"))
temp_f

To smo mogli napraviti i na sljedeći način:

In [20]:
temp_f <- factor(temp_v, order=T)
levels(temp_f)=c("niska", "srednja", "visoka")
temp_f

Pošto imamo hijerarhiju, tj. redoslijed u faktoru, možemo uspoređivati njegove elemente.  
Na primjer u faktoru `temp_f` pogledajmo njegov 3. i 4. element i onda provjerimo da li je 3. veći od 4.  

In [46]:
temp_f[3] 
temp_f[4]
temp_f[3]>temp_f[4]

I zaista, `srednja` jest veća od `niske`<br><br>
### Malo detaljnije o faktoru
Da bi dobili više detalja o nekom faktori koristimo funkciju `summary()`  
Ova funkcija će nam vratiti broj elemenata pojedine vrijednosti klase.  
Na primjer:

In [22]:
summary(temp_f)

_**Zadatak**_  
Napravite faktore od vektora `pon` i `uto`.  
`pon_v` ima vrijednosti `visoka`, `niska`, `visoka`, a   
`uto_v` ima vrijednosti `srednja`, `niska`,  `visoka`  
Pretvorite ih i faktore i usporedite ih

In [31]:
# Rješenje
pon_v <- c('visoka', 'niska', 'visoka')
uto_v <- c('srednja', 'niska', 'visoka')
hijerarhija_v <- c('niska', 'srednja', 'visoka')
pon_f <- factor(pon_v, order=T, levels=hijerarhija_v)
uto_f <- factor(uto_v, order=T, levels=hijerarhija_v)
pon_f > uto_f

Primjećujemo da je uspoređivao svaki element pojedinačno.

In [45]:
x <- factor(c("lijevo", "desno", "desno", "lijevo"), order=T, levels = c("lijevo", "sredina", "desno"))
x
x[1]>x[2]

###Broj razina faktora.
Razina može biti i više nego što ih je prikazano u faktoru, na primjer:

In [81]:
y <- factor(c("lijevo", "desno", "desno", "lijevo"), levels = c("lijevo", "sredina", "desno"))
y

Ako želimo saznati broj razina nekoga faktora, koristimo funkciju `length()`.

In [82]:
length(levels(y))

Da bi prikazali **korištene** razine nekog faktora korisititi ćemo `unique()`.


In [84]:
unique(y)
length(unique(y))

_**Zadatak**_  
Kreirajte uređeni faktor `red` s vrijednostima:  
'četvrti', 'prvi', 'drugi', 'četvrti', 'drugi', 'drugi'  
Usporedite drugi i treći član ovoga faktora.   
Koji je "veći"?  
Koji je veći ako usporedimo prvi i drugi član?


In [74]:
red<-factor(c('tri', 'jedan', 'dva', 'tri', 'dva','dva'), order=T)
red[2]>red[3]

Zaključujemo da je 'jedan' veći od 'dva'.  
Zašto?

Ispišite faktor.  
Koji je redoslijed (poredak, levels) klasa u njemu?  

In [66]:
red

Poredak klasa u vektoru (levels) je napravljen abecedno.  
Poredajte klase u ovom vektoru da odgovaraju stvarnosti.  

In [75]:
levels(red)=c('jedan', 'dva', 'tri')
red
red[2]>red[3]

Sada je 'jedan' manji od 'dva' što je u redu.

###Mijenjanje vrijednosti faktora.
U faktoru `red` izmijenite prvi član u 'jedan', a zatim ga ispišite.

In [86]:
red[1]='jedan'
red

Sada za šestog člana tog faktora postavite vrijednost 'četiri'.

In [88]:
red[6]='četiri'
red

Program će javiti grešku, ali će ipak izmijeniti 6. vrijednost faktora.  
No, neće ju promijeniti u vrijednost 'četiri' već u '\<NA>'.  
Faktoru možemo dodavati samo vrijednosti klase koje već postoje u njemu.  
Dakle, u faktor `red` trebamo dodati vrijednost klase 'četiri'.

In [96]:
levels(red)=c('jedan', 'dva', 'tri', 'četiri')
levels(red)

Mogli smo to napraviti i da postojećem faktoru samo dodamo još i 'četiri'.


In [98]:
levels(red)=c(levels(red), 'četiri')
levels(red)

Možemo primjetiti da dodavanjem već postojeće vrijednosti klase, nećemo dobiti grešku, ali se niti sam faktor neće promijeniti.

###Brojevi kao članovi faktora
Faktori mogu biti i u obliku brojeva, međutim sustav ih doživljava samo kao nazive kategorija te se s takvim brojevima ne mogu obavljati matematičke operacije.

In [109]:
brojevi=factor(c(7, 1, 5, 2, 4, 12))
brojevi

Probajte zbrojiti drugi i peti član faktora `z`.

In [110]:
brojevi[2]+brojevi[5]

“‘+’ not meaningful for factors”


To se ne može raditi s faktorima. Članovi faktora su samo instance klasa.
Da bi ih mogli korisiti kao brojeve, koristimo funkcije `as.numeric()` i `as.character()`.  
Na primjer ako uzmeno neki tekstualni vektor `c('1','5','2')` da bi pretvorili karaktere u brojeve, koristit ćemo `as.numeric(c('1','5','2')`.

In [116]:
a=c('1','5','2')
a[1]+a[2] #će javiti grešku

ERROR: ignored

In [117]:
a=c('1','5','2')
a<-as.numeric(a)
a[1]+a[2] #će raditi ispravno

_**Zadatak**_:  
Koristeći funkciju `as.numeric` pretvorite faktor _**brojevi**_ u vektor brojeva naziva _**br**_.  
A zatim zbrojite prva dva člana tog vektora.

In [112]:
br=as.numeric(brojevi)
br[1]+br[2]

Ovaj put nismo dobili grešku, ali nismo dobili niti točan rezultat.  
U čemu je stvar?  
Ispišite vektor _**br**_.  

In [113]:
br

Funkcija `as.numeric(neki_faktor)` nam vraća samo redne brojeve razina u redoslijedu u kojem se nalaze u faktoru.


Dakle, ovaj vektor prvo moramo pretvoriti u tekstualni, a zatimu u numerički.  
Zvuči komplicirano, ali to tako funkcionira. 

In [123]:
brojevi
br=as.character(brojevi)
br
br=as.numeric(br)
br
br[1]+br[2]