# Rdionica: priprema datoteke `podaci_upitnik.csv`

## Uvod - osnove jezika R

U ovom dijelu proći ćemo kroz osnove programskog jezika R. Obradit ćemo osnove njegove sintakse te tipove varijabli. Ovdje ćemo proći kroz neke jako bazične stvari. Većina "naprednijih" stvari provlačit će se kroz ostatak radionice.

### Osnovne matematičke operacije

Za početak, pogledat ćemo kako možemo izvršavati jednostavne naredbe direktno u R konzoli. Kad god u R konzolu unesemo naredbu koju R smatra valjanom te pritisnemo `Enter` (također poznat kao `Return`), R će u konzoli izbaciti rezultat izvršavanja te naredbe. Na primjer, ako u konzolu unesemo `2 + 2`, R će izbaciti rezultat te operacije.

In [1]:
2 + 2

Isto možemo napraviti s dijeljenjem (`/`), množenjem (`*`), oduzimanjem (`-`) i potenciranjem (`^`).

In [2]:
4 / 2

2 * 3

5 - 1

3^2

Poseban operator koji nekad zna biti koristan je *modulo* - `%%` - koji vraća cijelobrojni dio dijeljenja dvaju brojeva. Na primjer:

In [3]:
# (Linije koje sadrže komentare započinju sa znakom #. R ne interpretira te linije.)
# Obično dijeljenje:
5 / 2

# Modulo
5 %% 2

Naravno, kao i u pješačkoj matematici, i u R-u je potrebno paziti na grupiranje matematičkih izraza.

`x + y / z` je $ x + (y / z) $ je $ x + \frac{z}{y} $

`(x + y) / z` je $ (x + y) / z $ je $ \frac{x+y}{z} $.

### Funkcije

Sa samim matematičkim operacijama nećemo daleko doći. R ima i funkcije - operacije koje primaju parametre (eng. *argument*) i vraćaju neke vrijednosti.

Funkcije u R-u imaju opći oblik `funkcija(argument1, argument2, ... , argumentN)`. 

Prva funkcija koju ćemo pogledati, a koja nadopunjava matematičke operacije s kojima smo započeli je `sqrt`, kojom možemo dobiti korijen nekog broja.

In [4]:
sqrt(4)

Druga, koja se u R-u javlja **jako** često, je `c` (što je, prema Adleru [2012] skraćeno za *combine*). `c` uzima $N$ argumenata i spaja ih u **vektor**.

In [5]:
# navodnici su bitni! ali mogu biti jednostruki ili dvostruki, bitno je samo da je riječ omeđena jednakim parom
# nrp 'a' je oke, "a' nije oke, ali zato "a" je
c('patka', "krava", 'pile', "krumpir")

c(5, 4, 3, 2, 1)

Koristeći `c`, stvorili smo dva vektora. Vektori spadaju među osnovne strukture podataka u R-u. Vektori mogu sadržavati proizvoljan broj elemenata **istog tipa**. O tipovima ćemo pričati malo kasnije.

Sada ćemo se pozabaviti varijablama.

### Varijable

Kad god smo dosad izvršavali neke funkcije, baratali smo konkretnim vrijednostima (npr. `2 + 2`), a rezultati su ostali lebdjeti u eteru, nedostupni običnim ljudima.

Kako bismo mogli baratati proizovljnim vrijednostima te kako bismo rezultati izvukli iz etera, uvodimo **varijable**.

Varijablu imenujemo (eng. *declare*) tako što neki poluproizvoljan naziv spojimo s nekom vrijednosti, koristeći operator `<-`. Na pimjer:

In [6]:
a <- 2

Ako sad u konzolu unesemo `a`, konzola će nam vratiti vrijednost te varijable. Isti rezultat dobili bismo ako bismo `a` iskoristili kao argument `print` funkcije (`print(a)`).

In [7]:
a

Vrijednosti varijablama možemo pridavati (eng. *assign*) i koristeći znak `=` (razlikovati od `==`!), no to se **ne preporučuje**. Osim toga, vrijednosti možemo pridavati i s lijeva na desno, koristeći `->`:

In [8]:
3 -> b
b

Imena varijabli mogu sadržavati slova, brojeve, točke (`.`) i underscoreove (čija hrvatska imena ne znam; `_`). Imena varijabli ne mogu započinjati s točkom koju prati broj. Na primjer:

In [9]:
.3 <- 5

ERROR: Error in 0.3 <- 5: invalid (do_set) left-hand side to assignment


Također, imena varijabli ne mogu biti izrazi koji su rezervirani u samom programskom jeziku, kao što je `for` (koji se koristi za iniciranje petlji).

In [10]:
for <- 5

ERROR: Error in parse(text = x, srcfile = src): <text>:1:5: unexpected assignment
1: for <-
        ^


Funkcija koja zna biti zgodna kod imenovanja varijabli je `exists`, koja kao argument prima izraz u navodnicima (što je poznato kao **string**) te vraća `TRUE` ili `FALSE` ovisno o tom je li objekt istog imena pronađen ili ne.

In [11]:
# varijabla koju smo ranije stvorili
exists('a')

# ključna riječ, definirana u R-u, ne smijemo koristiti
exists('for')

# ključna riječ, definirana u R-u, ne smijemo koristiti
exists('if')

# ime koje nije iskorišteno
exists('maca')

Sad kad znamo kako varijablama pripisati vrijednosti, možemo spremiti vektore koje smo ranije napravili koristeći `c`. Neovisno o tome što *možemo* koristiti svašta za imena varijabli, trebali bismo se truditi imena učiniti smislenima. Dugoročno, to će nas poštedjeti puno mentalnog (a nekad i R-ovskog) napora. Također, savjetovao bih da izbjegavate korištenje "hrvatskih" znakova (č, ć, ž, š, đ) u svom kodu; korištenje tih znakova može izazvati snažne glavobolje.

In [12]:
domace_zivotinje_i_krumpir <- c('patka', 'krava', 'pile', 'krumpir')

brojevi.5.do.1 <- c(5, 4, 3, 2, 1)

Kao i kad smo varijabli `a` pripisali vrijednost `2`, ni sada ne dobivamo nikakav output u konzoli. Ali možemo koristiti `print` ili samo upisati ime varijable u konzolu kako bismo dobili njenu vrijednost.

In [13]:
print(domace_zivotinje_i_krumpir)

[1] "patka"   "krava"   "pile"    "krumpir"


In [14]:
brojevi.5.do.1

Sad kad smo svoje vektore pripisali varijablama, možemo dohvaćati pojedine vrijednosti iz njih. Na primjer, ako želimo dohvatiti prvu vrijednost iz vektora `domace_zivotinje_i_krumpir`, možemo učiniti ovo:

In [15]:
domace_zivotinje_i_krumpir[1]

`1` je, u ovom slučaju, **indeks**. U R-u, za razliku od većine drugih programskih jezika, indeksiranje započinje s `1`, a ne s `0`.

Za dohvaćanje trećeg elementa iz vektora `brojevi.5.do.1` izvršili bismo:

In [16]:
brojevi.5.do.1[3]

Zadnji element možemo dohvatiti pomoću funkcije `length`, koja vraća duljinu vektora, tj. broj elemenata koji se u njemu nalaze. Na primjer:

In [18]:
length(domace_zivotinje_i_krumpir)

Budući da broj elemenata ujedno označava i posljednji element, možemo učiniti sljedeće:

In [20]:
# dohvaćanje pomoću indeksa
domace_zivotinje_i_krumpir[4]

# dohvacanje pomocu funkcije length()
domace_zivotinje_i_krumpir[length(domace_zivotinje_i_krumpir)]

# iskoristit ćemo priliku i pokazati kako možemo usporediti dvije vrijednosti
domace_zivotinje_i_krumpir[4] == domace_zivotinje_i_krumpir[length(domace_zivotinje_i_krumpir)]

Ovo funkcionira jer evaluiranje, odnosno izvršavanje koda `length(domace_zivotinje_i_krumpir)` kao rezultat vraća brojku `4`.

Također, vidjeli smo da možemo koristiti `==` kako bismo provjerili jesu li dva objekta, odnosno dvije varijable jednake. Na primjer

In [21]:
2 + 2 == 4

4 == 4

4 == 5

Treba voditi računa o tome da su `==` i `=` **vrlo različiti**!

#### Tipovi varijabli

R razlikuje nekoliko osnovnih tipova podataka:
- `character` : "stringovi", tj. tekstualni podaci. Npr. `'patka'`
- `integer` : cijeli brojevi. Npr. `1`
- `numeric` : realni brojevi. Npr. `1.161`
- `logical` : logičke vrijednosti. Postoje ukupno dvije - `TRUE` (može se kratiti u `T`) i `FALSE` (može se kratiti u `F`)

Pogledat ćemo nekoliko primjera ovih tipova, te vidjeti kako možemo provjeriti kojeg je neka varijabla ili vrijednost tipa.

In [27]:
# character
'susjed'

# da bismo provjerili je li neka vrijednost character, koristimo is.character()
is.character('susjed')
is.character(domace_zivotinje_i_krumpir[4])
is.character(1)

Kod `integer` i `numeric` tipova postoje neke specifičnosti.

In [28]:
# integer
1

# za provjeravanje koristimo is.integer()
is.integer(1)

Pozivanje funkcije `is.integer()` s vrijednosti `1` vraća `FALSE`. To je zato jer R brojeve automatski sprema kao `numeric`.

In [29]:
# za provjeravanje je li broj numeric koristimo is.numeric()
is.numeric(1)

Kako bismo natjerali R da nam da `integer` vrijednost, možemo staviti `L` na kraj broja:

In [30]:
is.integer(1L)

Ovo je zgodno znati jer se može dogoditi da funkcija traži `integer`, ali odbija prihvatiti (recimo) `5` kao odgovarajuću vrijednost.

In [31]:
# na kraju, numeric
is.numeric(1.5115)

Za pisanje decimalnih brojeva **moramo koristiti točku**.

In [32]:
is.numeric(1,4141)

ERROR: Error in is.numeric(1, 4141): 2 arguments passed to 'is.numeric' which requires 1


In [33]:
1,5151 + 1

ERROR: Error in parse(text = x, srcfile = src): <text>:1:2: unexpected ','
1: 1,
     ^


Posljednji tip je `logical`:

In [34]:
TRUE == T
FALSE == F

is.logical(TRUE)

is.logical(F)

Za kraj, pogledat ćemo output različitih `is.` funkcija kad im damo razičite vrijednosti.

In [36]:
is.logical(1)

is.numeric(1L)

is.character(02918)

is.integer(151518)

Primjećujemo da se `1L` tretira i kao `numeric` tip.

In [37]:
is.integer(1L)

is.numeric(1L)

Isto ne vrijedi za, na primjer, `5.911`:

In [38]:
is.integer(5.911)

is.numeric(5.911)

Nakon upoznavanja s osnovnim tipovima vrijednosti i varijabli, pogledat ćemo osnovne strukture podataka.

### Strukture podataka

Strukture podataka su formati organiziranja, upravljanja i spremanja podataka koji omogućuju efikasno pristupanje podacima i njihovo modificiranje (https://en.wikipedia.org/wiki/Data_structure).

Već smo se upoznali s jednim tipom strukture podataka u R-u, a to je vektor. R ima nekoliko osnovnih struktura podataka. Ovdje ćemo proći kroz one koje se najčešće javljaju.

Za ponavljanje, stvorit ćemo novi vektor:

In [18]:
c('vektor', 'od', '4', 'elementa')

# možemo provjeriti je li neki objekt vektor koristeći is.vector
is.vector(c('vektor', 'od', '4', 'elementa'))

# funkcije za provjeravanje tipova varijabli možemo primijeniti i na vektore
is.character(c('vektor', 'od', '4', 'elementa'))

#### data.frame

`data.frame` je vjerojatno najvažnija osnovna struktura (ili barem ona s kojom ćete se najčešće družiti). On odgovara onom što možemo vidjeti u *Data viewu* SPSS-a - sastoji se od redova koji predstavljaju opažanja/sudionike/caseove i stupaca koji predstavljaju varijable. Može sadržavati varijable koje su različitih tipova (za razliku od nekih drugih struktura, koje žele gledati samo jedan tip podataka).

`data.frame` možemo stvoriti koristeći istoimenu funkciju:

In [3]:
data.frame('brojke' = c(1, 2, 3, 4, 5),
           'slova' = c('a', 'b', 'de', 'ce', 'fe'),
           'logike'= c(F, F, T, T, F))

brojke,slova,logike
1,a,False
2,b,False
3,de,True
4,ce,True
5,fe,False


Pri stvaranju novog `data.framea`, svi redovi moraju imati vrijednosti na svim stupcima jer će se R inače požaliti.

In [25]:
data.frame('brojke' = c(1, 2, 3, 4, 5),
           'slova' = c('a', 'b', 'de', 'ce', 'fe'),
           # maknuli smo zadnjji element (F) iz stupca 'logike'
           'logike'= c(F, F, T, T))

ERROR: Error in data.frame(brojke = c(1, 2, 3, 4, 5), slova = c("a", "b", "de", : arguments imply differing number of rows: 5, 4


Tome možemo doskočiti tako što ćemo eksplicitno neku vrijednost proglasiti nedostajućom, što činimo pomoću posebne vrijednosti `NA`:

In [26]:
data.frame('brojke' = c(1, 2, 3, 4, 5),
           'slova' = c('a', 'b', 'de', 'ce', 'fe'),
           # umjesto posljednjeg elementa u stupcu 'logike' stavili smo NA
           'logike'= c(F, F, T, T, NA))

brojke,slova,logike
1,a,False
2,b,False
3,de,True
4,ce,True
5,fe,


Proširit ćemo ovaj `data.frame` s još nekim vrijednostima te ga spremiti u varijablu `brojke_i_slova`:

In [59]:
brojke_i_slova <-
           # osim korištenjem funkcije c(), vektore brojeva možemo stavarati
           # i pomoću n:m
           data.frame('brojke' = 1:15,
           # pozivajući ugrađenu varijablu _letters_ možemo odabrati prvih 15
           # (malih) slova
           'slova' = letters[1:15],
           'logike'= c(F, F, T, T, NA))

brojke_i_slova

brojke,slova,logike
1,a,False
2,b,False
3,c,True
4,d,True
5,e,
6,f,False
7,g,False
8,h,True
9,i,True
10,j,


Primjećujemo da se vrijednosti iz stupca `logike` ponavljaju. To funkcionira zato što je broj redova `data.framea` djeljiv s brojem elemenata koje smo stavili u vektor `logike` pri definiranju `data.framea` (imamo 15 redova, a vektor `logike` ima 5 elemenata).

Sad kad smo proširili `brojke_i_slova`, pogledat ćemo kako možemo pristupati vrijednostima u `data.frameu`.

Elementima možemo pristupati korištenjem uglatih zagrada, kao i kod vektora. Pritom treba imati na umu da je `data.frame` **dvodimenzionalni objekt**, zbog čega traži **dva indeksa** odvojena zarezom - **prvi** se odnosi na **redove**, a **drugi** na **stupce**.

Ako jedan od indeksa izostavimo, ali stavimo zarez, R će vratiti sve elemente na odgovarajućem mjestu, odnosno vratit će sve redove ako izostavimo prvi indeks i sve stupce ako izostavimo drugi indeks.

In [51]:
# svi stupci prvog  reda
brojke_i_slova[1, ]

brojke,slova,logike
1,a,False


In [52]:
# svi redovi prvog stupca
brojke_i_slova[, 1]

Ovdje također možemo koristiti `n:m` sintaksu za dohvaćanje raspona vrijednosti. Na primjer, da bismo dohvatili prva tri reda i sve stupce `brojki_i_slova`, napravili bismo sljedeće:

In [54]:
# prva tri reda, svi stupci
brojke_i_slova[1:3, ]

brojke,slova,logike
1,a,False
2,b,False
3,c,True


Za dohvaćanje vrijednosti koje nisu uzastopne, možemo koristiti funkciju `c`, koju također možemo kombinirati s `n:m` sintaksom:

In [57]:
# prva tri reda i redovi 7 do 12, te stupci 1 i 3
brojke_i_slova[c(1:3, 7:12), c(1, 3)]

Unnamed: 0,brojke,logike
1,1,False
2,2,False
3,3,True
7,7,False
8,8,True
9,9,True
10,10,
11,11,False
12,12,False


Stupcima možemo pristupati i pomoću njihovih imena:

In [60]:
brojke_i_slova[1:3, c('logike', 'brojke')]

logike,brojke
False,1
False,2
True,3


Naposljetku, **jednom** određenom stupcu možemo pristupiti koristeći `$` operator:

In [70]:
brojke_i_slova$logike

## Reference

Adler, J. (2012). *R in a nutshell: A desktop quick reference*, 2. izdanje. O'Reilly Media, Inc.