# 7. Indeksiranje i prijenos tablice

U ovoj lekciji govoriti ćemo o:
1. kako indeksiranje tablice pruža fleksibilan pristup elementima tablice;
2. kako pristupiti vrstama i pojedinačnim lokacijama indeksiranje tablice
3. kako izračunati redove i stupce tablice; i
4. kako prenijeti tablicu.

## 7.1. Indeksiranje

Vidjeli smo da je rad sa stupovima DataFrame-a vrlo jednostavan, jer stupci imaju imena. Bilo bi jednako lako raditi s redovima DataFramea ako bismo imali način da nekako imenujemo redove. Postupak koji čini upravo to naziva se _indeksiranje tablice_.

Za indeksiranje tablice prvo moramo identificirati stupac ( _stupac za indeksiranje ili indeks_) tako da je svaki redak jedinstveno određen vrijednosti u stupcu za indeksiranje. Na primjer, u sljedećoj tablici

| __Ime__ | __Spol__ | __Godine (yrs)__ | __Težina (kg)__ | __Visina (cm)__ |
|---|---|---|---|---|
|     Anne | f | 13 | 46 | 160 |
|      Ben | m | 14 | 52 | 165 |
|    Colin | m | 13 | 47 | 157 |
|    Diana | f | 15 | 54 | 165 |
|    Ethan | m | 15 | 56 | 163 |
|     Fred | m | 13 | 45 | 159 |
|   Gloria | f | 14 | 49 | 161 |
|   Hellen | f | 15 | 52 | 164 |
|      Ian | m | 15 | 57 | 167 |
|     Jane | f | 13 | 45 | 158 |
|     Kate | f | 14 | 51 | 162 |

"Ime" je dobar kandidat za stupac indeksiranja, jer u ovoj tabeli vevery student ima jedinstveno ime (imajte na umu da u stvarnom životu to nije nužno slučaj). "Visina" nije dobar izbor, jer postoje dva učenika čija je visina 165; a isto vrijedi i za ostale stupce.

Funkcija `set_index` postavlja stupac indeksa tablice:

In [None]:
import pandas as pd
studenti = [["Anne",    "f", 13, 46, 160],
            ["Ben",     "m", 14, 52, 165],
            ["Colin",   "m", 13, 47, 157],
            ["Diana",   "f", 15, 54, 165],
            ["Ethan",   "m", 15, 56, 163],
            ["Fred",    "m", 13, 45, 159],
            ["Gloria",  "f", 14, 49, 161],
            ["Hellen",  "f", 15, 52, 164],
            ["Ian",     "m", 15, 57, 167],
            ["Jane",    "f", 13, 45, 158],
            ["Kate",    "f", 14, 51, 162]]
studenti_df = pd.DataFrame(studenti)
studenti_df.columns=["Ime", "Spol", "Godine", "Težina", "Visina"]

studenti_ix=studenti_df.set_index("Ime")

Nova tablica (`studenti_ix`) razlikuje se od stare (`studenti_df`) osamo po tome što su redovi tablice sada indeksirani imenima učenika. Evo neindeksidirane verzije tablice:

In [None]:
studenti_df

a ovdje je indeksirana inačica iste tablice:

In [None]:
studenti_ix

Kolona "Ime" i dalje je prisutan, ali sada ima poseban status. Ako pokušamo pristupiti njemu kao i prije nego što smo dobili pogrešku (izvješće o pogrešci je prilično dugo; nemojte se truditi pročitati ga pažljivo, samo se pomaknite prema dolje):

In [None]:
studenti_ix["Ime"]

Međutim, ona je tu kao _kolona indeksa_ :

In [None]:
studenti_ix.index

Vizualiziranje, recimo, visine učenika u grupi sada djeluje ovako:

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(10,5))
plt.bar(studenti_ix.index, studenti_ix["Visina"])
plt.title("Visina djece u grupi")
plt.show()
plt.close()

## 7.2. Pristup redovima i pojedinačnim ćelijama indeksirane tablice

_DataFrame_ je optimiziran za pružanje učinkovitog pristupa stupcima tablice. Međutim, u indeksiranom DataFrame-u lako je pristupiti redovima i ćelijama tablice koristeći funkciju `loc` (skraćeno za "location").

Možemo prikazati jedan red tablice ovako:

In [None]:
studenti_ix.loc["Ethan"]

ili raspon redaka poput ovoga:

In [None]:
studenti_ix.loc["Ethan":"Ian"]

Možemo se usredotočiti i na određenu značajku:

In [None]:
studenti_ix.loc["Ethan", "Visina"]

ili kako možemo dobiti informacije za visinu i težinu nekoliko djece:

In [None]:
studenti_ix.loc["Ethan":"Ian", "Težina":"Visina"]

## 7.3. Računanje kroz redove i stupce indeksirane tablice

U tablici ispod prikupili smo ocjene učenika koje smo već susreli u nekim predmetima (informatika, engleski, matematika, fizika, kemija i likovni):

In [None]:
ocjene = [["Anne",    5, 3, 5, 2, 4, 5],
         ["Ben",     5, 5, 5, 5, 5, 5],
         ["Colin",   4, 5, 3, 4, 5, 4],
         ["Diana",   5, 5, 5, 5, 5, 5],
         ["Ethan",   3, 4, 2, 3, 3, 4],
         ["Fred",    4, 5, 3, 4, 5, 4],
         ["Gloria",  3, 3, 3, 4, 2, 3],
         ["Hellen",  5, 5, 4, 5, 4, 5],
         ["Ian",     4, 5, 4, 4, 3, 5],
         ["Jane",    2, 2, 2, 2, 2, 5],
         ["Kate",    3, 4, 5, 4, 5, 5]]

Pretvorimo to u indeksirani DataFrame

In [None]:
ocjene_df = pd.DataFrame(ocjene)
ocjene_df.columns=["Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Kemija", "Likovni"]
ocjene_ix = ocjene_df.set_index("Ime")
ocjene_ix

Izračunavanje prosječne ocjene po predmetu je jednostavno: primjenjujemo `mean` na svaki stupac tablice:

In [None]:
for subj in ocjene_ix.columns:
    print(subj, "->", round(ocjene_ix[subj].mean(), 2))

Za izračunavanje prosječne ocjene po učeniku primijenit ćemo `mean` u redove tablice, kojima pristupamo koristeći `loc`. Kao zagrijavanje izračunajmo prosječnu ocjenu za Kate:

In [None]:
print("Kate-ine ocjene su:")
print(ocjene_ix.loc["Kate"])
print("Prosjek njezinih ocjena je:", round(ocjene_ix.loc["Kate"].mean(), 2))

Imena svih učenika smještena su u stupcu indeksa, tako da se prosječna ocjena svakog učenika u tablici može izračunati ovako:

In [None]:
for student in ocjene_ix.index:
    print(student, "->", round(ocjene_ix.loc[student].mean(), 2))

## 7.4. Prijenos tablice

_Prijenos tablice_ je operacija koja zamjenjuje redove i stupce tablice tako da se prvi red zamjenjuje prvim stupcem, drugi red zamjenjuje drugim stupcem i tako dalje. Kada transponirate indeksirani DataFrame, nazivi stupaca postaju indeksni redak nove tablice, dok indeksni redak daje imena stupaca u novoj tablici.

![Transpose](pics/DataFrame-T.jpg)

Podsjetimo da su DataFrames optimizirani za učinkovit pristup stupcima tablice. Stoga je prikladno prenijeti tablicu koja ima nekoliko vrlo dugih redova. Odvažno, ne trebamo transponirati tablicu da bismo mogli učinkovito raditi s njom (budući da `loc` daje pristup redovima tablice), tako da je prenošenje tablice stvar ukusa ili praktičnosti.

Za prijenos tablice samo primijenite `T` da biste dobili novu, pretočenu tablicu. Na primjer, podsjetimo to:

In [None]:
ocjene_ix

 Nakon prijenosa:

In [None]:
ocjene_tr = ocjene_ix.T

nova tablica izgleda ovako:

In [None]:
ocjene_tr

Provjerimo što se dogodilo s `index` i `columns`. U originalnoj tablici imamo:

In [None]:
ocjene_ix.index

In [None]:
ocjene_ix.columns

 dok u transponiranoj tablici imamo:

In [None]:
ocjene_tr.index

In [None]:
ocjene_tr.columns

Kao što smo već vidjeli, prosječna ocjena po predmetu može se lako izračunati:

In [None]:
for subj in ocjene_ix.columns:
    print(subj, "->", round(ocjene_ix[subj].mean(), 2))

Da bismo izračunali prosječne ocjene za svakog učenika, možemo koristiti `loc` mrežu da bismo pristupili redovima izvorne tablice, ali također možemo primijeniti istu logiku kao gore, ali u prenesenu tablicu:

In [None]:
for student in ocjene_tr.columns:
    print(student, "->", round(ocjene_tr[student].mean(), 2))

## 7.5. Zadaci

Zadatke riješite u Jupyteru.

**Zadatak 1.** Pogledajte pažljivo kod u nastavku, a zatim odgovorite na pitanja koja slijede:

In [None]:
import pandas as pd
studenti = [["Anne",    "f", 13, 46, 160],
            ["Ben",     "m", 14, 52, 165],
            ["Colin",   "m", 13, 47, 157],
            ["Diana",   "f", 15, 54, 165],
            ["Ethan",   "m", 15, 56, 163],
            ["Fred",    "m", 13, 45, 159],
            ["Gloria",  "f", 14, 49, 161],
            ["Hellen",  "f", 15, 52, 164],
            ["Ian",     "m", 15, 57, 167],
            ["Jane",    "f", 13, 45, 158],
            ["Kate",    "f", 14, 51, 162]]
studenti_df = pd.DataFrame(studenti)
studenti_df.columns=["Ime", "Spol", "Godine", "Težina", "Visina"]
studenti_ix=studenti_df.set_index("Ime")

temp_anomalije = pd.read_csv("data/TempAnomalies.csv", header=None)
temp_anomalije_tr = temp_anomalije.T
temp_anomalije_tr.columns = ["Godina", "Anomalije"]

1. Koja je razlika između `studenti_df` i `studenti_ix`?
2. Što znači `studenti_ix.index`?
3. Koja je vrijednost `studenti_ix.loc["Fred"]`?
4. Koja je vrijednost `studenti_ix.loc["Fred", "Visina"]`?
5. Koja je vrijednost `studenti_df.loc["Fred", "Visina"]`?
6. Što mislite, zašto smo primijenili `T` na `temp_anomalije`?
7. Koliko stupaca ima `temp_anomalije_tr`?

**Zadatak 2.** Ovo je pregled potrošnje obitelji tijekom jedne godine (u lokalnoj valuti):
  
  | Stavka | Jan | Feb | Mar | Apr | May | Jun | Jul | Aug | Sep | Oct | Nov | Dec |
  |--------|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
  | Stanarina             | 8,251 | 8,436 | 8,524 | 8,388 | 8,241 | 8,196 | 8,004 | 7,996 | 7,991 | 8,015 | 8,353 | 8,456 |
  | Struja      | 4,321 | 4,530 | 4,115 | 3,990 | 3,985 | 3,726 | 3,351 | 3,289 | 3,295 | 3,485 | 3,826 | 3,834 |
  | Telefon (fiksni) | 1,425 | 1,538 | 1,623 | 1,489 | 1,521 | 1,485 | 1,491 | 1,399 | 1,467 | 1,531 | 1,410 | 1,385 |
  | Telefon (mobitel)     | 2,181 | 2,235 | 2,073 | 1,951 | 1,989 | 1,945 | 3,017 | 2,638 | 2,171 | 1,831 | 1,926 | 1,833 |
  | TV i Internet  | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399  |
  | Prijevoz        | 1,830 | 1,830 | 1,830 | 1,830 | 1,950 | 1,950 | 1,450 | 1,450 | 1,950 | 1,950 | 2,050 | 2,050 |
  | Hrana             | 23,250 | 23,780 | 24,019 | 24,117 | 24,389 | 24,571 | 24,736 | 24,951 | 25,111 | 25,389 | 25,531 | 25,923 |
  | Ostalo             | 4,500 | 3,700 | 5,100 | 3,500 | 2,750 | 4,250 | 7,320 | 8,250 | 3,270 | 4,290 | 3,200 | 8,390 |

Ova tablica predstavljena kao lista izgleda ovako:

In [None]:
troškovi = [
  ["Stanarina", 8251, 8436, 8524, 8388, 8241, 8196, 8004, 7996, 7991, 8015, 8353, 8456],
  ["Struja", 4321, 4530, 4115, 3990, 3985, 3726, 3351, 3289, 3295, 3485, 3826, 3834],
  ["Telefon (fiksni)", 1425, 1538, 1623, 1489, 1521, 1485, 1491, 1399, 1467, 1531, 1410, 1385],
  ["Telefon (mobitel)", 2181, 2235, 2073, 1951, 1989, 1945, 3017, 2638, 2171, 1831, 1926, 1833],
  ["TV i Internet", 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399 ],
  ["Prijevoz", 1830, 1830, 1830, 1830, 1950, 1950, 1450, 1450, 1950, 1950, 2050, 2050],
  ["Hrana", 23250, 23780, 24019, 24117, 24389, 24571, 24736, 24951, 25111, 25389, 25531, 25923],
  ["Ostalo", 4500, 3700, 5100, 3500, 2750, 4250, 7320, 8250, 3270, 4290, 3200, 8390]
]

_(a)_ Pretvorite ovaj popis u _DataFrame_ i indeksirajte ga.

_(b)_ izračunajte prosječnu potrošnju ove obitelji po stavci (najamnina, električna energija itd.).

**Zadatak 3.** Pet skupina učenika sudjelovalo je u studentskoj anketi o njihovim omiljenim filmskim žanrovima. Svaki je student mogao glasati za točno jedan žanr. Rezultati ankete sažeti su u nastavku:

| Žanr | Group 1 | Group 2 | Group 3 | Group 4 | Group 5 |
|------|-----|-----|-----|-----|-----|
| Komedija | 4 | 3 | 5 | 2 | 3 |
| Horor | 1 | 0 | 2 | 1 | 6 |
| SF | 10 | 7 | 9 | 8 | 9 |
| Avantur | 4 | 3 | 4 | 2 | 2 |
| Povijsni | 1 | 0 | 2 | 0 | 0 |
| Romantika | 11 | 10 | 7 | 9 | 8 |

_(a)_ Pretvorite u DataFrame indeksiran po žanru.

_(b)_ izračunava se broj glasova po žanru.

_(c)_ Za svaku grupu izračunajte ukupan broj učenika koji su sudjelovali u istraživanju.

_(d)_ Koliki je ukupan broj učenika koji su sudjelovali na anketama?

**Zadatak 4.** Hranjivi podaci za određene proizvode navedeni su u donjoj tablici:

| Proizvodi (100g) | Energetska vrijednost (kcal) | Ugljiko hidrati (g) | Proteini (g) | Masti (g) |
|--|--|--|--|--|
| Raženi kruh | 250 | 48.2 | 8.4 | 1.0 |
| Bijeli kruh | 280 | 57.5 | 6.8 | 0.5 |
| Sirni namaz | 127 | 4.0 | 3.1 | 10.5 |
| Margarin | 532 | 4.6 | 3.2 | 1.5 |
| Jogurt | 48 | 4.7 | 4.0 | 3.3 |
| Mlijeko (2.8%) | 57 | 4.7 | 3.3 | 2.8 |
| Salama | 523 | 1.0 | 17.0 | 47.0 |
| Šunka | 268 | 0.0 | 25.5 | 18.4 |
| Pileća prsa | 110 | 0.0 | 23.1 | 1.2 |

U ćeliji ispod pretvorili smo ovu tablicu u _DataFrame_ indeksiran nazivom proizvoda:

In [None]:
proizvodi = pd.DataFrame([
    ["Raženi kruh", 250, 48.2, 8.4, 1.0],
    ["Bijeli kruh", 280, 57.5, 6.8, 0.5],
    ["Sirni namaz", 127, 4.0, 3.1, 10.5],
    ["Margarin", 532, 4.6, 3.2, 1.5],
    ["Jogurt", 48, 4.7, 4.0, 3.3],
    ["Mlijeko", 57, 4.7, 3.3, 2.8],
    ["Salama", 523, 1.0, 17.0, 47.0],
    ["Šunka", 268, 0.0, 25.5, 18.4],
    ["Pileća prsa", 110, 0.0, 23.1, 1.2]])
proizvodi.columns=["Proizvodi", "Engv", "Ugljh", "Prot", "Masti"]
proizvodi_ix = proizvodi.set_index("Proizvodi")

_(a)_ Mike je za doručak pojeo dva komada bijelog kruha i popio šalicu mlijeka. Na svakom komadu kruha bilo je malo namaza od sira i kriška šunke. Kolika je hranjiva vrijednost Mikeovog doručka (u kcalima) ako pretpostavimo da je svaki komad kruha težak 100 g, da se koristi 10h namaza po komadu kruha, da jedna kriška šunke teži 20 g i da šalica mlijeka sadrži 200 d mlijeka?

_(b)_ Koliko je masnoće bilo u Mikeovom doručku?

_(c)_ Vizualizirajte količinu ugljiko hidrata u tim proizvodima.

**Zadatak 5.** Temperaturna anomalija je broj koji nam govori koliko prosječna temperatura u određenoj godini odstupa od optimalne vrijednosti. Datoteka TempAnomalies.csv koja se nalazi u podacima mape sadrži temperaturne anomalije (u stupnjevima Celzija) za peroid 40 godina (1977-2017). Datoteka ima dva retka kao što je ova:

    1977,1978,1979,1980,1981,...
    0.22,0.14,0.15,0.3,0.37,...

_(a)_ Umetnite tablicu u _DataFrame_ (Napomena: tablica nema zaglavlje, pa vam je potrebno `header=None` opcije u vašem `read_scv`.)

_(b)_ Prenesite tablicu i nazovite dva stupca "Godina" i "Anomalije".

_(c)_ Indeksirajte tablicu.

_(d)_ Vizualizirajte temperaturne anomalije linijskim grafikonom.