# 6. Filtriranje, sortiranje i mijenjanje (mutate) podataka
### *gapminder* dataset
U ovoj vježbi koristit ćemo dva paketa:  
- `gapminder` - koji predstavlja skup podataka (dataset)
- `dplyr` - koji sadrži funkcije za manipuliranje podacima (`filter`, `arrange`, `mutate`, ...) <br>

Gapminder dataset je izvadak podataka dostupan na gapminder.org za 142 države (uključujući Hrvatsku), a paket osigurava vrijednosti  
očekivanog trajanja života, BDP-a po glavi stanovnika te broj stanovnika mjerenih svakih pet godina od 1952. do 2007. godine.  
U svakom slučaju vrlo interesantan skup za vježbanje.<br><br>
Na samom početku ćemo instalirati ta dva paketa: `gapminder` i `dplyr`

In [1]:
# Učitavamo pakete gapminder i dplyr
# Ukoliko ih nemamo u sustavu moramo ih instalirati naredbama
install.packages('gapminder')
install.packages('dplyr')

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



A, zatim ćemo ih učitati:

In [2]:
library(gapminder)
library(dplyr)


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




Pogledajmo sada prvih nekoliko zapisa `gapminder` dataseta: 

In [3]:
head(gapminder)

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>
Afghanistan,Asia,1952,28.801,8425333,779.4453
Afghanistan,Asia,1957,30.332,9240934,820.853
Afghanistan,Asia,1962,31.997,10267083,853.1007
Afghanistan,Asia,1967,34.02,11537966,836.1971
Afghanistan,Asia,1972,36.088,13079460,739.9811
Afghanistan,Asia,1977,38.438,14880372,786.1134


Iz ovog kratkog pregleda možemo vidjeti da baza sadrži 6 stupaca, tj varijabli.  
Ukoliko unesemo ime dataseta vidjeti ćemo sve podatke tj. 1704 redka (mjerenja, opservacije, opažanja).  
Nemamo toliko mjesta na ekranu, pa ćemo radije pogledati strukture naše baze.

In [4]:
str(gapminder)

tibble [1,704 × 6] (S3: tbl_df/tbl/data.frame)
 $ country  : Factor w/ 142 levels "Afghanistan",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ continent: Factor w/ 5 levels "Africa","Americas",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ year     : int [1:1704] 1952 1957 1962 1967 1972 1977 1982 1987 1992 1997 ...
 $ lifeExp  : num [1:1704] 28.8 30.3 32 34 36.1 ...
 $ pop      : int [1:1704] 8425333 9240934 10267083 11537966 13079460 14880372 12881816 13867957 16317921 22227415 ...
 $ gdpPercap: num [1:1704] 779 821 853 836 740 ...


## Filtriranje
Filtriranje ćemo često koristiti kod analize i vizualizacije podataka.  
U tu svrhu koristiti ćemo oznaku `%>%` (pipe) i funkciju `filter()` koja treba sadržavati neki kriterij.<br><br>
**Primjer:** Prikažite sva mjerenja iz 2007. godine.  
Primjećujete da se dvostruko "=" koristi za uspoređivanje.

In [5]:
gapminder %>% 
    filter(year==2007)

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>
Afghanistan,Asia,2007,43.828,31889923,974.5803
Albania,Europe,2007,76.423,3600523,5937.0295
Algeria,Africa,2007,72.301,33333216,6223.3675
Angola,Africa,2007,42.731,12420476,4797.2313
Argentina,Americas,2007,75.320,40301927,12779.3796
Australia,Oceania,2007,81.235,20434176,34435.3674
Austria,Europe,2007,79.829,8199783,36126.4927
Bahrain,Asia,2007,75.635,708573,29796.0483
Bangladesh,Asia,2007,64.062,150448339,1391.2538
Belgium,Europe,2007,79.441,10392226,33692.6051


### više kriterija u filteru...
Ukoliko želimo filtrirati bazu prema više kriterija, dovoljno ih je odvojiti zarezom.<br><br>
**Primjer:** Prikažite mjerenja za Hrvatsku nakon 1990. godine.

In [6]:
gapminder %>% 
    filter(country=='Croatia', year>1990)

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>
Croatia,Europe,1992,72.527,4494013,8447.795
Croatia,Europe,1997,73.68,4444595,9875.605
Croatia,Europe,2002,74.876,4481020,11628.389
Croatia,Europe,2007,75.748,4493312,14619.223


## Sortiranje
Da bi prikazali podatke željenim redoslijedom koristiti ćemo funkciju `arrange()`.  
Funkcija `arrange()` se koristi na sličan način kao i funkcija `filter()`.  
Dakle nakon imena dataseta i znaka pipe-a unesemo varijablu po kojoj želimo sortirati podatke.  
Osnovo sortiranje je *uzlazno* (od najmanjeg prema najvećem), no ukoliko želimo sortirati *silazno* moramo koristiti opciju `desc()`.<br><br>
**Primjer:** Sortirajte naš dataset prema broju stanovnika.

In [7]:
gapminder %>%
   arrange(pop)

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>
Sao Tome and Principe,Africa,1952,46.471,60011,879.5836
Sao Tome and Principe,Africa,1957,48.945,61325,860.7369
Djibouti,Africa,1952,34.812,63149,2669.5295
Sao Tome and Principe,Africa,1962,51.893,65345,1071.5511
Sao Tome and Principe,Africa,1967,54.425,70787,1384.8406
Djibouti,Africa,1957,37.328,71851,2864.9691
Sao Tome and Principe,Africa,1972,56.480,76595,1532.9853
Sao Tome and Principe,Africa,1977,58.550,86796,1737.5617
Djibouti,Africa,1962,39.693,89898,3020.9893
Sao Tome and Principe,Africa,1982,60.351,98593,1890.2181


## **Zadatak:**  
Prikažite sve države koje su 2007 godine imale više od 200 milijuna stanovnika.  
Rezultate sortirajte silazno prema nazivu države.  
Dakle, da bi kombinirali filtriranje i sortiranje potrebno ih je samo povezati pipe znakovima.

In [8]:
gapminder %>% 
    filter(year==2007, pop>200000000) %>% 
    arrange(desc(country))

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>
United States,Americas,2007,78.242,301139947,42951.653
Indonesia,Asia,2007,70.65,223547000,3540.652
India,Asia,2007,64.698,1110396331,2452.21
China,Asia,2007,72.961,1318683096,4959.115


## Mutate (kreiranje novog stupca ili mijenjanje podataka unutar postojećeg)
Da bi izmijenili podatke u postojećem stupcu, koristiti ćemo funkciju `mutate()`.<br><br>
**Primjer:** Prikažite dataset 'gapminder' tako da stupac 'pop' prikazuje broj stanovnika izražen u milijunima.  
(Drugim riječima podijelimo ga sa 1,000,000)

In [9]:
gapminder %>%
    mutate(pop=pop/1000000)

country,continent,year,lifeExp,pop,gdpPercap
<fct>,<fct>,<int>,<dbl>,<dbl>,<dbl>
Afghanistan,Asia,1952,28.801,8.425333,779.4453
Afghanistan,Asia,1957,30.332,9.240934,820.8530
Afghanistan,Asia,1962,31.997,10.267083,853.1007
Afghanistan,Asia,1967,34.020,11.537966,836.1971
Afghanistan,Asia,1972,36.088,13.079460,739.9811
Afghanistan,Asia,1977,38.438,14.880372,786.1134
Afghanistan,Asia,1982,39.854,12.881816,978.0114
Afghanistan,Asia,1987,40.822,13.867957,852.3959
Afghanistan,Asia,1992,41.674,16.317921,649.3414
Afghanistan,Asia,1997,41.763,22.227415,635.3414


Kao što vidite, opet koristimo pipe na našem datasetu.  
Dataset gapminder, zapravo nije izmijenjen, nego je samo kao takav ispisan na ekranu.  
Da bi zaista promijenili naš dataset moramo to napraviti na slijedeći način:  
``` R
gapminder <- gapminder %>% mutate(pop=pop/1000000)```

Dodavanje stupca u dataset.  
Ponekad ne želimo mijenjati postojeće podatke, već želimo dodati novi stupac koji ima izmijenjene podatke.<br><br>
**Primjer:** U dataset *gapminder* dodajte novi stupac 'pop_mil' koji će sadržavati broj stanovnika izražen u milijunima.

In [10]:
# Za prikaz dataseta sa dodanim stupcem
gapminder %>% mutate(pop_mil=pop/1000000)

# Da bi zaista promijenili dataset 'gapminder', koristiti ćemo slijedeću naredbu:
# gapminder <- gapminder %>% mutate(pop_mil=pop/1000000)


country,continent,year,lifeExp,pop,gdpPercap,pop_mil
<fct>,<fct>,<int>,<dbl>,<int>,<dbl>,<dbl>
Afghanistan,Asia,1952,28.801,8425333,779.4453,8.425333
Afghanistan,Asia,1957,30.332,9240934,820.8530,9.240934
Afghanistan,Asia,1962,31.997,10267083,853.1007,10.267083
Afghanistan,Asia,1967,34.020,11537966,836.1971,11.537966
Afghanistan,Asia,1972,36.088,13079460,739.9811,13.079460
Afghanistan,Asia,1977,38.438,14880372,786.1134,14.880372
Afghanistan,Asia,1982,39.854,12881816,978.0114,12.881816
Afghanistan,Asia,1987,40.822,13867957,852.3959,13.867957
Afghanistan,Asia,1992,41.674,16317921,649.3414,16.317921
Afghanistan,Asia,1997,41.763,22227415,635.3414,22.227415
