# 9. Sortiranje, filtriranje i analiza frekvencija

U ovoj lekciji ćemo govoriti o:
1. kako sortirati redove tablice;
2. kako filtrirati retke tablice koji zadovoljavaju neki kriterij; i
3. kako izvoditi analizu frekvencija na redovima tablice.

## 9.1. Sortiranje

Podsjetimo da sortiranje niza znači poredati članove po veličini. Poredati redove tablice znači preurediti redove tako da se vrijednosti u određenom stupcu razvrstavaju. Sada ćemo pokazati kako brzo sortirati tablice pomoću biblioteke _pandas_ . Prvo učitajmo biblioteku:

In [None]:
import pandas as pd

Pogledajte primjer koji smo već analizirali u prethodnim predavanjima:

In [2]:
studenti = [["Anne",    "f", 13, 46, 160],
            ["Ben",     "m", 14, 52, 165],
            ["Colin",   "m", 13, 47, 157],
            ["Diana",   "f", 15, 54, 165],
            ["Ethan",   "m", 15, 56, 163],
            ["Fred",    "m", 13, 45, 159],
            ["Gloria",  "f", 14, 49, 161],
            ["Hellen",  "f", 15, 52, 164],
            ["Ian",     "m", 15, 57, 167],
            ["Jane",    "f", 13, 45, 158],
            ["Kate",    "f", 14, 51, 162]]
studenti_df = pd.DataFrame(studenti)
studenti_df.columns=["Ime", "Spol", "Godine", "Težina", "Visina"]
studenti_ix=studenti_df.set_index("Ime")

Tablica izgleda ovako:

In [None]:
studenti_ix

Funkcija `sort_values` sortira redove tablice tako da se vrijednosti u određenom stupcu razvrstavaju. Naziv stupca koji želimo sortirati ponekad se naziva i kriterij sortiranja. Kriterij sortiranja određujemo pomoću opcije `by`:

In [None]:
studenti_by_height = studenti_ix.sort_values(by="Visina")
studenti_by_height

Zadani redoslijed _sortiranja je uzlazni_ , što znači da će se redovi tablice preurediti tako da se vrijednosti u stupcu "Visina" povećavaju. Ako tablicu želimo sortirati tako da prvi red sadrži najviše učenika, moramo pozvati funkciju dodatnom opcijom `ascending=False`:

In [None]:
studenti_by_height = studenti_ix.sort_values(by="Visina", ascending=False)
studenti_by_height

Na kraju, vizualizirajmo visinu i težinu učenika u razvrstanoj tablici (imajte na umu da je tablica sortirana po visini, ali to ne znači da su i ostali stupci poredani):

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(10,5))
plt.bar(studenti_by_height.index, studenti_by_height["Visina"], label="Visina")
plt.bar(studenti_by_height.index, studenti_by_height["Težina"], label="Težina")
plt.title("Visina i težina djece u grupi")
plt.legend()
plt.show()
plt.close()

## 9.2. Filtriranje podataka

Često moramo proći kroz tablicu i izdvojiti redove koji zadovoljavaju neki kriterij. Na primjer, ako se želimo fokusirati samo na podatke o ženama, možemo filtrirati te retke i spakirati ih u novu tablicu poput ove:

    djevojke = studenti_ix[studenti_ix.Spol == "f"]

In [None]:
djevojke = studenti_ix[studenti_ix.Spol == "f"]
djevojke

Na sličan način možemo izdvojiti svu djecu koja imaju preko 50 kg:

In [None]:
preko_50kg = studenti_ix[studenti_ix.Težina > 50]
preko_50kg

Također možemo kombinirati kriterije. Na primjer, ako se želimo fokusirati na dječake s najviše 55 kg, moramo kombinirati dva kriterija:

    Težina <= 55  i  Spol == "m".

Biblioteka `pandas` koristi simbol `&` za kombiniranje u slučajevima kada oba dva kriterija moraju biti zadovoljena:

In [None]:
dečki_55kg = studenti_ix[(studenti_ix.Težina <= 55) & (studenti_ix.Spol == "m")]
dečki_55kg

Vizualizirajmo visinu i težinu ovih dječaka:

In [None]:
plt.figure(figsize=(6,6))
plt.bar(dečki_55kg.index, dečki_55kg["Visina"], label="Visina")
plt.bar(dečki_55kg.index, dečki_55kg["Težina"], label="Težina")
plt.title("Visina i težina dječaka do 55 kg")
plt.legend()
plt.show()
plt.close()

## 9.3. Frekvencijska analiza

Podsjetimo, _analiza frekvencije_ svodi se na brojanje koliko se puta svaka vrijednost pojavi u nizu. Biblioteka `pandas` ima prikladnu funkciju `value_counts` koja nam može pomoći. Na primjer, brojmo dječake i djevojčice u gornjoj tablici:

In [None]:
studenti_ix["Spol"].value_counts()

Dakle, `value_counts` utvrdila je da u ovoj tablici postoji 6 redaka s "f" u stupcu "Spol" i 5 redaka s "m" u stupcu "Spol". Stoga je u grupi 6 djevojčica i 5 dječaka.

Kada je riječ o dobi učenika u grupi, imamo sljedeću situaciju:

In [None]:
studenti_ix["Godine"].value_counts()

4 učenika u dobi od 15 godina, 4 učenika u dobi od 13 godina i 3 učenika u dobi od 14 godina.

Rezultat funkcije `value_counts` možemo staviti u varijablu za daljnju upotrebu:

In [None]:
frekv = studenti_ix["Spol"].value_counts()
frekv

Jednostavno možemo dobiti predmete koji su identificirani u stupcu "Spol" i njihove učestalosti:

    frekv.index
    
daje listu predmeta, dok
    
    frekv.values

daje svoje frekvencije.

In [None]:
print("Vrijednosti koje se javljaju u koloni:", frekv.index)
print("Njihove frekvencije:", frekv.values)

Struktura skupine prema spolu može se prikazati ovako:

In [None]:
import matplotlib.pyplot as plt
frekv = studenti_ix["Spol"].value_counts()
plt.figure(figsize=(6,6))
plt.pie(frekv.values, labels=frekv.index)
plt.title("Popis struktura grupe")
plt.show()
plt.close()

Analogno, možemo vizualizirati strukturu skupine prema dobi:

In [None]:
frekv = studenti_ix["Godine"].value_counts()
plt.figure(figsize=(6,6))
plt.pie(frekv.values, labels=frekv.index)
plt.title("Struktura grupe po godinama")
plt.show()
plt.close()

Kao konačni primjer pronađite raspodjelu zemalja po kontinentima. Na sljedećem URL-u

    https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv
    
možete pronaći javno dostupan popis svih zemalja svijeta. Započnimo učitavanjem popisa u DataFrame:

In [None]:
countries = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
countries.head(5)

Broj zemalja po kontinentu sada se može lako odrediti:

In [None]:
countries["Region"].value_counts()

i vizualizirano:

In [None]:
by_continents = countries["Region"].value_counts()
plt.figure(figsize=(8,8))
plt.pie(by_continents.values, labels=by_continents.index)
plt.title("Broj država po kontinentima")
plt.show()
plt.close()

## 9.4. Zadaci

Zadatke riješite u Jupyteru.

**Zadatak 1.** Podaci datoteke _data/LongestRiversOfEurope.csv_ sadrži popis najdužih 25 rijeka Europe. Ova tablica sadrži pet stupaca:

- River = naziv rijeke,
- Length = duljina rijeke u km,
- Countries = niz sa svim zemljama kroz koje rijeka teče,
- Mouth = more/ocean/jezero u koje se ulijeva rijeka, i
- Via = "(izravno)" ako rijeka teče izravno u more/ocean/jezero; inače naziv rijeke kroz koju se ulijeva u more/ocean/jezero.

_(a)_ Učitajte datoteku u DataFrame, indeksirajte je u stupcu "River" i prikažite prvih nekoliko redaka tablice.

 
_(b)_ tablicu razvrstajte po duljini tako da se na vrhu nalazi najduža rijeka u Europi.

_(c)_ Koliko najdužih 25 rijeka Europe teče kroz Rusiju, koliko kroz Njemačku, a koliko kroz Lihtenštajn?

_(d)_ Za novu tablicu koja se sastoji samo od onih rijeka koja se ulijevaju izravno u more/ocean/jezero riješite se retka "Via" i tablicu upišite u podatke datoteke _data/FLowDirectly.csv_

**Zadatak 2.** Ovdje su nutritivne činjenice o nekoj morskoj hrani:

| Morski plodovi (100g) | Energetska vrijednost (kcal) | Ugljiko hidrati (g) | Proteini (g) | Masti (g) |
|--|--|--|--|--|
|Tuna|116|0|26|1|
|Hake|88|0|17.2|0.8|
|Trout|119|0|18|5|
|Salmon|116|0|20|3.5|
|Mackerel|205|0|19|14|
|Sardines|135|0|18|5|
|Hеrring|158|0|18|9|
|Cod|82|0|18|0.7|
|Catfish|95|0|16.4|2.8|
|Carp|127|0|17.6|5.6|
|Gilthead|115|0|16.5|5.5|
|Eel|184|0|18.4|11.7|
|Shrimp|106|1|20|2|
|Mussels|86|4|12|2|
|Prawns|71|1|13|1|
|Squid|92|3|15.6|1.3|
|Octopus|81|0|16.4|0.9|
|Lobster|112|0|20|1.5|

Ova se tablica može prikazati kao listu ovako:

In [None]:
# izvršite ovu ćeliju
morski_plodovi = [
  ["Tuna", 116, 0, 26, 1],
  ["Hake", 88, 0, 17.2, 0.8],
  ["Trout", 119, 0, 18, 5],
  ["Salmon", 116, 0, 20, 3.5],
  ["Mackerel", 205, 0, 19, 14],
  ["Sardines", 135, 0, 18, 5],
  ["Hеrring", 158, 0, 18, 9],
  ["Cod", 82, 0, 18, 0.7],
  ["Catfish", 95, 0, 16.4, 2.8],
  ["Carp", 127, 0, 17.6, 5.6],
  ["Gilthead", 115, 0, 16.5, 5.5],
  ["Eel", 184, 0, 18.4, 11.7],
  ["Shrimp", 106, 1, 20, 2],
  ["Mussels", 86, 4, 12, 2],
  ["Prawns", 71, 1, 13, 1],
  ["Squid", 92, 3, 15.6, 1.3],
  ["Octopus", 81, 0, 16.4, 0.9],
  ["Lobster", 112, 0, 20, 1.5]]

_(a)_ Pretvorite ovaj popis u DataFrame, kolumne na odgovarajući način i tablicu indeksirajte.

_(b)_ Tablicu razvrstajte po nutritivnim vrijednostima i vizualizirajte podatke koristeći grafikon.

_(c)_ Napravite frekvencijsku analizu ove tablice prema količini ugljikohidrata i vizualizirajte rezultate dobivenim grafikonom.

_(d)_ Stavite svu morsku hranu bez ugljikohidrata i manje od 10 g masti po 100 g u novu tablicu.

**Zadatak 3.** Na satu tjelesnog studenti su uvježbavali skokove u dalj. Svaki je student imao tri pokušaja, a podaci se prikupljaju u _LongJump.csv_ dostupno u podacima u mapi. Prvi red datoteke je zaglavlje.

_(a)_ Učitajte ovu datoteku u _DataFrame_.

_(b)_ Dodajte novi stupac "Max" u tablicu i za svakog učenika izračunajte najbolji skok.

_(c)_ Tablicu razvrstajte po "Max" i prikažite prvih pet redaka razvrstane tablice.

_(d)_ udaljite one studente koji su napravili barem jedan pogrešan skok. Prestupnici u skoku bilježe se kao 0.

**Zadatak 4.** Sljedeći popis sadrži neke osnovne podatke o grupi učenika: prezime, ime, ID učenika, razred koji pohađaju i prosjek ocjena:

In [None]:
student = [
    ["Peterson",    "Peter",   "0308003800019", "m", 8, 4.52],
    ["Janesdottir", "Jane",    "1210003805026", "f", 8, 5.00],
    ["Annesdottir", "Anne",    "1105004805019", "f", 7, 4.11],
    ["Verasdottir", "Vera",    "2901005705011", "f", 6, 5.00],
    ["Georgsson",   "George",  "1504005700012", "m", 6, 3.12],
    ["Michaelson",  "Michael", "1506004400056", "m", 7, 2.51],
    ["Michaelson",  "Peter",   "1506004400057", "m", 7, 2.48],
    ["Smith",       "Nathan",  "2109003800046", "m", 8, 3.58],
    ["Smith",       "Jane",    "2109003805021", "f", 8, 4.21]
]

_(a)_ Pretvorite ovo u _DataFrame_.

_(b)_ Vizualizirajte rodnu strukturu grupe pomoću pie chart.

_(c)_ Vizualizirajte dobnu strukturu grupe pomoću dijagrama torte (bazirajte se na analizi na razredu koji učenik pohađa).

_(d)_ Koji je stupac najbolji izbor za stupac indeksa?

_(e)_ Stavite sve učenike 8. razreda u novu tablicu.

_(f)_ Stavite sve dečke čija je prosječna ocjena manja od 4,50 u novu tablicu.

**Zadatak 5.** Na sljedećem URL-u:

    https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv

možete pronaći javno dostupnu tablicu s popisom svih zemalja svijeta i nekim parametrima gospodarskog razvoja svake zemlje. Tablica ima šest stupaca:

* country = država
* year = godina u kojoj su izračunati ekonomski parametri
* pop = populacija
* continent = kontinent
* lifeExp = životna dob
* gdpPercap = BDP po stanovniku

_(a)_ Učitajte ovu tablicu u _DataFrame_.

_(b)_ Stavite sve podatke koji se odnose na vašu zemlju u novu tablicu (koristite kriterij filtriranja kao što je ovaj: `table[table.country == "Hrvatska"]`) i upišite ih u datoteku.

_(c)_ Linearnom grafikonom prikaži promjenu životnog vijeka svoje zemlje u vremenu.

_(d)_ Promjenu BDP-a u vašoj zemlji prikažite pomoću grafikona.