# Predavanje 3
## Pandas

Numpy omogućava brz i lagan rad s doista homogenim skupinama podataka pravokutnog oblika u proizvoljnom broju dimenzija, ali često nam u stvarnom životu treba nešto malo drugačije. Obično radimo s *tablicama* (isključivo dvodimenzionalnim) podataka, čiji *stupci* jesu homogeni (u jednom stupcu su svi podaci istog tipa), ali međusobno nisu (dva stupca u istoj tablici mogu sadržavati podatke različitih tipova).

Također, tablica može imati nekakvo zaglavlje koje možemo shvatiti kao da stupci imaju *imena* pomoću kojih ih možemo dohvaćati iz tablice --- a obično ima i nekakvu metodu dohvaćanja podataka iz pojedinog retka, što možemo shvatiti kao da ima još jedan "stupac" zvan *indeks*, koji je zajednički svim stupcima u istoj tablici i time ih povezuje.

`pandas` u tu svrhu uvodi dvije klase:
* `Series` predstavlja imenovani i indeksirani stupac, odnosno neki spremnik podataka istog tipa koje možemo dohvatiti pomoću ključeva iz indeksa.
* `DataFrame` je skupina `Series`a, koje imaju različita imena i isti (zajednički) indeks.

In [1]:
import pandas as pd
df = pd.DataFrame([[1, 9, 2.6, 'riječ', 2+3j, pd.datetime(2020, 3, 22), True ], 
                   [3, 5, 4.7, 'nešto',   1j, pd.datetime(2020, 3, 20), False]],
            columns=['a', 'b', 'c', 'd', 'e', 'f', 'g'], index=['jedan', 'dva'])
df

  
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,a,b,c,d,e,f,g
jedan,1,9,2.6,riječ,2.000000+3.000000j,2020-03-22,True
dva,3,5,4.7,nešto,0.000000+1.000000j,2020-03-20,False


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, jedan to dva
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   a       2 non-null      int64         
 1   b       2 non-null      int64         
 2   c       2 non-null      float64       
 3   d       2 non-null      object        
 4   e       2 non-null      complex128    
 5   f       2 non-null      datetime64[ns]
 6   g       2 non-null      bool          
dtypes: bool(1), complex128(1), datetime64[ns](1), float64(1), int64(2), object(1)
memory usage: 130.0+ bytes


### Dohvaćanje podataka

Na https://www.hnb.hr/temeljne-funkcije/monetarna-politika/tecajna-lista/tecajna-lista kliknuti Pretraživanje, i odabrati:
* Mjesečni prosjeci
* Sve godine
* Svi mjeseci
* Sve (valute)
* Svi tečajevi
* JSON

te kliknuti "Preuzimanje". Datoteku raspakirati u tekući direktorij kao `ProsjeciMjesecni_2011-2020.json`.

Naravno, rijetko ćemo konstruirati `DataFrame` direktno u bilježnici kao što smo učinili gore. Puno češće (kao ovdje) podaci dolaze iz nekog vanjskog izvora. Pogledajmo koje funkcije `pandas` nudi za učitavanje podataka.

In [3]:
{metoda for metoda in dir(pd) if metoda.startswith('read_')}

{'read_clipboard',
 'read_csv',
 'read_excel',
 'read_feather',
 'read_fwf',
 'read_gbq',
 'read_hdf',
 'read_html',
 'read_json',
 'read_orc',
 'read_parquet',
 'read_pickle',
 'read_sas',
 'read_spss',
 'read_sql',
 'read_sql_query',
 'read_sql_table',
 'read_stata',
 'read_table'}

In [4]:
tečaj = pd.read_json('ProsjeciMjesecni_2011-2020.json', encoding='utf-8')
tečaj.info()

ValueError: Expected object or value

In [None]:
tečaj.head()

Vidimo listu stupaca. Mnoge od njih mogli bismo ljepše prikazati. Za početak pogledajmo stupac 'Mjesec'.

Primijetimo da se `DataFrame` ponaša kao obični prostor imena, koji sadrži stupce i dohvaća ih po imenima.

### Sređivanje datumâ

In [None]:
tečaj['Mjesec']

Dobili smo `Series`: vidimo da ima ime, `dtype` (kao Numpyjev vektor), a indeksiran je indeksom čitavog `DataFrame`a. U nedostatku pametnije ideje, Pandas retke indeksira s `range(broj_redaka)`, odnosno prirodnim brojevima počevši od 0.

In [None]:
hr_mjeseci = set(tečaj['Mjesec'])
hr_mjeseci

Dakle, imamo hrvatske nazive mjeseci. Ako bismo željeli to pretvoriti u datume, trebat će nam broj mjeseca. Python [zna](https://docs.python.org/3/library/calendar.html#calendar.month_name) hrvatske nazive za mjesece, samo trebamo prethodno [locale](https://en.wikipedia.org/wiki/Locale_(computer_software%29) podesiti na hrvatski. Nažalost, to se razlikuje ovisno o operacijskom sustavu. Nakon toga izgradimo rječnik koji preslikava nazive mjeseci u njihove redne brojeve.

In [None]:
import platform
import calendar
OS = platform.system()
print(OS)
if OS == 'Windows': hrvatski, ulazni, izlazni = 'Croatian_Croatia', 'latin1', 'cp1250'
elif OS == 'Linux': hrvatski, ulazni, izlazni = 'hr_HR.UTF8', 'utf-8', 'utf-8'

with calendar.different_locale(hrvatski):
    imena_mj = [ime_mjeseca.encode(ulazni).decode(izlazni).title()[:2]
                    for ime_mjeseca in calendar.month_name]
imena_mj

Ako gornja ćelija prijavi poruku o grešci, samo prekopirajte izlaz donje ćelije (rječnik) u ulaz nakon `mjesec_broj = `. Tako ćete hardkodirati hrvatske nazive mjeseci za kasniju upotrebu.

In [None]:
mjesec_broj = {hr_mjesec: imena_mj.index(hr_mjesec[:2]) for hr_mjesec in hr_mjeseci}
mjesec_broj

Sada možemo zamijeniti sve vrijednosti u stupcu `Mjesec` koristeći rječnik `mjesec_broj`. Parametar `inplace` služi tome da se zamjena obavi na licu mjesta, unutar samog dataframea `tečaj` (umjesto vraćanja novog dataframea).

In [None]:
tečaj.replace({'Mjesec': mjesec_broj}, inplace=True)
tečaj.head(3)

Sada napokon možemo stvoriti stupac 'Datum' (za dan u mjesecu fiksiramo `1`), te obrisati zasebne stupce za godinu i mjesec koji nam više ne trebaju.

In [None]:
tečaj['Datum'] = pd.to_datetime(dict(year=tečaj['Godina'], month=tečaj['Mjesec'], day=1))
del tečaj['Godina'], tečaj['Mjesec']
tečaj.head(3)

Umjesto beskorisnih rednih brojeva, stavimo datum kao indeks kojim možemo dohvaćati podatke.

In [None]:
tečaj.set_index('Datum', inplace=True)
tečaj.head(3)

### Države, valute i šifre

Sada se bacimo na stupce koji se odnose na valutu. Pretpostavljamo da postoji bijekcija (trijekcija?:) između sljedeća 3 stupca:

In [None]:
tečaj[['Država', 'Valuta', 'Šifra valute']].drop_duplicates()

Čini se da je doista tako (u pojedinim stupcima nema duplikata --- što ovdje možemo ustanoviti golim okom, ali kod kompliciranijih podataka, dobro je koristiti metodu `.duplicated`), jedino što [XDR](https://hr.wikipedia.org/wiki/Posebna_prava_vu%C4%8Denja) nema napisanu državu. Kako euro ima EMU, čini se logičnim XDRu staviti MMF. Šifra valute nam svakako više ne treba, jer je u bijekciji s valutom, a nema neku pametnu semantiku ionako.

`df.loc` je također prostor imena, ali po koordinatama "redak, stupac" (slično kao za `numpy.array`). Možemo koristiti razne trikove koje znamo iz Numpyja, kao što su maske (odmah dolje) i broadcastane operacije (niže dolje, kad budemo doista radili nešto s tečajevima kao realnim brojevima).

In [None]:
tečaj.loc[tečaj['Valuta'] == 'XDR', 'Država'] = 'MMF'
del tečaj['Šifra valute']
tečaj[['Država', 'Valuta']].drop_duplicates()

Državu zasad ostavimo, ljepše izgleda od troslovne skraćenice valute za kasniju vizualizaciju.

### Tečajevi kao brojevi

Nego, pogledajmo tri stupca sa samim tečajevima. 
* Prvo, maknimo podstring ` za devize` s kraja njihovih naziva. 
* Drugo, pretvorimo ih u brojeve --- samo prethodno moramo decimalni zarez zamijeniti decimalnom točkom (to također `locale` može, ali je komplicirano).
* I treće, pretvorimo ove retke što imaju `100` u stupcu `Jedinica`, u retke sa 100 puta manjim tečajevima.

In [None]:
def makni_za_devize(ime_stupca):
    višak = ' za devize'
    if ime_stupca.endswith(višak):
        rez = -len(višak)
        return ime_stupca[:rez]
    else: return ime_stupca
tečaj.rename(columns=makni_za_devize, inplace=True)

for vrsta in 'Kupovni', 'Prodajni', 'Srednji':
    tečaj[vrsta] = pd.to_numeric(tečaj[vrsta].str.replace(',', '.'))
    tečaj[vrsta] /= tečaj['Jedinica']
del tečaj['Jedinica']

tečaj.head()

### Srednji tečaj je dovoljan

In [None]:
%matplotlib inline
tečaj[tečaj['Valuta'] == 'EUR'].plot()

Iz grafa zaključujemo da su kupovni, srednji i prodajni tečajevi vrlo slični, te nam vjerojatno ne trebaju sva tri podatka (iz bilo kojeg možemo zaključiti ostala dva). Kako XDR nema kupovni i prodajni tečaj, želimo srednji tečaj proglasiti osnovnim, a kupovni i prodajni računati iz njega.

In [None]:
tečaj[tečaj['Valuta'] == 'XDR'].head()

Prva, relativno očita, hipoteza je da "srednji" tečaj doista znači sredinu, konkretno aritmetičku sredinu.

In [None]:
(tečaj[['Kupovni', 'Prodajni']].mean(axis=1) - tečaj['Srednji']).abs().max()

Odstupanje od $5\cdot10^{-7}$ je očito samo posljedica zaokruživanja (jer su tečajevi zaokruženi na 6 decimala).

Ipak, to nije dovoljno da rekonstruiramo i kupovni i prodajni tečaj iz srednjeg --- moramo ustanoviti kolika je razlika. Apsolutna razlika vjerojatno nema smisla, između ostalog jer su neki tečajevi bili dijeljeni sa 100. Pogledajmo relativnu razliku, odnosno omjer.

In [None]:
pd.DataFrame({vrsta: tečaj[vrsta] / tečaj['Srednji']
              for vrsta in ['Kupovni', 'Prodajni']}).describe()

std (standardna devijacija) od $<5\cdot10^{-7}$ pokazuje da su stupci zapravo konstantni. Vidimo da je razlika 0.3% u svakom smjeru: kupovni je 0.3% manji, a prodajni 0.3% veći od srednjeg. Iz toga slijedi da ih lako možemo rekonstruirati, te ih ne moramo pamtiti kao zasebne stupce u tablici.

In [None]:
(tečaj['Srednji']*1.003 - tečaj['Prodajni']).describe()

In [None]:
del tečaj['Prodajni'], tečaj['Kupovni']
tečaj.head()

### Grafovi

Pogledajmo primjer grafičkog prikaza: kretanje tečaja švicarskog franka kroz praćeno razdoblje. (Jasno se vidi ogromni skok početkom 2015. godine.)

In [None]:
tečaj.loc[tečaj['Valuta'] == 'CHF', 'Srednji'].plot()

Možemo napraviti i grafove za svaku pojedinu valutu. `df.groupby(stupac)` daje parove `(vrijednost, podokvir)`, gdje `podokvir` ima ostale stupce iz `df` (različite od `stupac`), i one retke u kojima `stupac` ima vrijednost `vrijednost`.

In [None]:
for država, podokvir in tečaj.groupby('Država'):
    podokvir.plot(title=država, legend=None)

### Odnos dviju stranih valuta

Da bismo pratili relativni tečaj dviju valuta od kojih nijedna nije kuna, potrebno je različite valute dobiti kao stupce (tada je njihov kvocijent relativni tečaj). Jednostavan način da se to učini je staviti valutu u indeks (maknut ćemo državu da nam ne smeta), i onda pozvati metodu `unstack`. Nažalost, neki retci su iz nekog razloga duplicirani (indeks ne inzistira na jedinstvenosti ključeva uvijek, samo kod nekih operacija -- a `unstack` je jedna od njih.

In [None]:
tečaj.set_index([tečaj.index, 'Valuta'], inplace=True)
del tečaj['Država']
tečaj = tečaj.loc[~tečaj.index.duplicated(), 'Srednji'].unstack('Valuta')
tečaj.head()

Sada možemo grafički prikazati recimo kretanje tečaja €/\$.

In [None]:
tečaj.columns

In [None]:
(tečaj['CHF'] / tečaj['USD']).plot()

## Domaća zadaća

Proučite malo podatke iz https://nyu.data-bootcamp.com/. Inspirirajte se za 1. zadaću.

Također, na njihovom Githubu (https://github.com/nyusterndatabootcamp/notebooks) ima dosta korisnih stvari.