# **Laboratorijska vježba 1**: Rukovanje podacima


> Znanost o podacima (engl. *data science*) područje je koje se bavi proučavanjem podataka korištenjem alata i tehnika za pronalaženje obrazaca, izvođenje smislenih informacija te donošenje odluka. Pri tome, podaci mogu potjecati iz različitih izvora te biti prikazani u različitim formatima.

> Uobičajeni slijed koraka koje provodi tipični podatkovni znanstvenik jest [1]:

1.   Prikupljanje podataka - ručni unos podataka, prijem signala i ekstrakcija podataka. Ova faza uključuje prikupljanje "sirovih" (engl. *raw*) strukturiranih i nestrukturiranih podataka.
2.  Rukovanje podacima - održavanje, skladištenje, čišćenje i predobrada podataka. Ova faza uključuje uzimanje neobrađenih podataka i njihovu transformaciju u oblik koji se može lakše koristiti.
3.  Opisivanje i sažimanje podataka - rudarenje podataka, grupiranje, modeliranje te sažimanje podataka. Ova faza uključuje uzimanje pripremljenih podataka i pronalaženje određenih obrazaca, raspona i pristranosti u njima s ciljem utvrđivanja njihove korisnosti u kasnijoj fazi analize.
4.  Analiza podataka - eksploratorna/potvrdna, prediktivna, regresijska te kvalitativna analiza. Ova faza je ključna faza u okviru znanosti o podacima, a uključuje izvođenje različitih tehnika za analizu podataka.
5.  Komunikacija zaključaka - izvješćivanje o podacima, vizualizacija podataka, poslovna inteligencija te donošenje odluka. U ovom posljednjem koraku analitičari pripremaju analize u lako čitljivim oblicima kao što su dijagrami, grafikoni i izvješća. 


> U ovoj laboratorijskoj vježbi pozabavit ćemo se rukovanjem podacima, kao drugim korakom koje uobičajeno provodi podatkovni znanstvenik. U tu svrhu korist ćemo biblioteke Pandas i NumPy te pripadajuće strukture podataka i funckionalnosti. 


---

# **Rukovanje podacima**

## **Modeli podataka u računalu**

> Model podataka jest apstraktni model koji definira kako su elementi u podacima organizirani te način njihova odnosa i značaja. Podaci u računalu najčešće su modelirani na neki od 4 načina:


1.   Ravni (engl. *flat*) model - svi entiteti su iste vrste, odnosno imaju iste atribute. Najčešći primjeri su *log* datoteke (npr. txt ili csv). 
2.   Relacijski model - sadrži različite vrste entiteta koji su povezani određenim vezama. Najčešći primjeri su SQL baze podataka te podaci prikazani u tablicama (npr. Excel).
3.   Model dokumenta - entiteti su hijerarhijski organizirani. Najčešći primjeri su XML i JSON formati podataka.  
4.   Mrežni model - entiteti su povezani u složenu mrežu. Najčešći primjeri su mape, društvene mreže i sl.


> Podaci često mogu doći u velikoj količini. Ako je moguće, uvijek se preporuča koristiti binarne formate za pohranjivanje podataka jer oni podržavaju razne ugnježđene strukture, različite razine provedbe sheme, kompresiju i slično. Primjeri takvih formata podataka jesu pickle za Python, Serializable za Javu Protocol Buffers, Avro te Parquet. 

# **Ciljevi rukovanja s podacima**

Ciljevi rukovanja s podacima u kontekstu znanosti o podacima mogu se gledati trojako:
*   esktrakcija i standardizacija sirovih podataka
*   kombiniranje podataka iz više izvora
*   čišćenje anomalija u podacima

Uobičajena strategija kojom se postiže ostvarivanje ovih ciljeva jest kombiniranje alata za automatsko čišćenje podataka s interaktivnim vizualizacijama. Očekivani ishod provođenja ovog koraka jest poboljšanje učinkovitosti dostupnih podataka. Drugim riječima, predobrađeni podaci bi trebali kvalitetnije opisivati danu problematiku od sirovih podataka.

# **Vrste problema s podacima**

Sirovi podaci u pravilu su zahvaćeni brojnim problemima koji otežavaju njihovu analizu te zahtijevaju prikladno rukovanje. Najčešći tipovi takvih problema jesu:
*   nedostajući podaci (engl. *missing data*)
*   netočni podaci (engl. *incorrect data*)
*   rubne vrijednosti/ekstremi (engl. *outliers*)
*   nedosljedni prikazi istih podataka
*   podaci koji su prikupilli ljudi (različito označavanje, shvaćanje ljestvica, oznaka,...)

Vizualizacijom podataka te izvođenjem osnovne statistike moguće je identificirati navedene probleme u podacima. Implementacijom različitih tehnika rukovanja podacima cilj je značajno smanjiti opseg ovih problema.

---

# **Uvod u biblioteku Pandas**

U ovoj laboratorijskoj vježbi upoznat ćemo se s osnovnim svojstvima biblioteke Pandas - brzom, moćnom, fleksibilnom te jednostavnom bibliotekom za analizu i manipulaciju podacima, izgrađenu na temelju programskog jezika Python. Pomoću ove biblioteke primijenit ćemo različite tehnike za rukovanje podacima. 

**Pandas** je biblioteka za programski jezik Python koja je pogodna za:
*   tablične podatke (primjerice, SQL ili Excel tablice)
*   uređene i neuređene vremenske serije
*   proizvoljne matrice s oznakama redataka i stupaca
*   bilo koji drugi oblik promatračkih/statističkih skupova podataka

Osnovna svojstva ove biblioteke jesu:
*   jednostavno rukovanje podacima koji nedostaju
*   promjenjivost veličine (stupci se mogu jednostavno umetati i brisati)
*   automatsko i eksplicitno poravnanje podataka 
*   fleksibilno grupiranje podataka
*   inteligentno rezanje na temelju oznaka, otmjeno indeksiranje te uzorkovanje
*   intuitivno spajanje te povezivanje podskupova podataka
*   fleksibilno preoblikovanje i okretanje skupova podataka
*   hijerarhijsko označavanje osi
*   robustni IO alati za učitavanje iz datoteka, Excel tablica, baza podataka te HDFS
*   razne tehnike za rukovanje vremenskim serijama

Biblioteka Pandas izgrađena je na vrhu biblioteke NumPy, što znači da je NumPy potreban za njezino korištenje. NumPy je uvelike korišten za implementaciju pandas podatkovnih objekata.

In [None]:
import pandas as pd
import numpy as np

# **Strukture podataka u biblioteci Pandas**

## **Serije**

**Serija** (engl. *Series*) je jedan vektor podataka (poput 1D polja u NumPy) s indeksom koji označava svaki element u vektoru. 

In [None]:
grades = pd.Series([2, 2, 1, 5])
grades

Ako indeks nije specificiran, kao indeks se dodjeljuje zadani niz cijelih brojeva. Vrijednosti serije pohranjene su kao NumPy niz, dok indeks predstavlja **Index** objekt u biblioteci Pandas.

In [None]:
grades.values

In [None]:
grades.index

Moguće je dodijeliti smislene oznake za indekse:

In [None]:
grades = pd.Series([2, 2, 1, 5], index=['Marko', 'Ana', 'Pero', 'Iva'])

grades

In [None]:
grades.index

Dodjeljene oznake mogu se koristiti za dohvaćanje vrijednosti iz serije, na nekoliko načina:

In [None]:
grades['Ana'] 

Moguće je i dalje koristiti pozicijsko indeksiranje:

In [None]:
grades[1]

Moguće je i naknadno dodijeliti smislene oznake za vrijednosti i indekse u seriji:

In [None]:
grades.name = 'grades'
grades.index.name = 'names'
grades

Matematičke funkcije iz biblioteke NumPy i druge operacije mogu se primijeniti na seriju bez gubitka strukture podataka.

In [None]:
grades = grades.apply(np.log)
grades

In [None]:
grades = grades.apply(lambda x:x**2 if x<1 else np.sqrt(x))
grades

In [None]:
grades[grades>0.5]

Serije se mogu promatrati kao uređena struktura ključ-vrijednost. Štoviše, moguće ih je stvoriti iz Python rječnika:

In [None]:
grades_dict = {'Marko': 2,
               'Ana': 2,
               'Pero': 1,
               'Iva': 5}

pd.Series(grades_dict)

Moguće je primijetiti da se serije stvaraju iz rječnika prema ključu. Ako seriji proslijedimo prilagođeni indeks koji ne postoji u rječniku, njegova vrijednost će se tretirati kao nedostajuća. Pandas koristi tip NaN (not a number) za nedostajuće vrijednosti. 

In [None]:
grades = pd.Series(grades_dict, index=['Marko', 'Ana', 'Luka', 'Iva'])

grades

Naknadno je vrlo jednostavno provjeriti postoje li nedostajuće vrijednosti u seriji, primjenom *isnull()* metode:

In [None]:
grades.isnull()

Bilo bi pogrešno zaključiti da su serije u biblioteci Pandas istovjetne rječnicima u programskom jeziku Python. Osim što dozvoljavaju pohranu ključ-vrijednost struktura, serije također dozvoljavaju pohranu nizova te skalara. Ako trebate pohraniti samo neke parove ključ-vrijednost, najelegantnije rješenje jest korištenje rječnika u Pythonu. Ako trebate izvršiti neku složenu manipulaciju nad takvom vrstom podataka, razmislite o korištenju serije u biblioteci Pandas. Popis dopuštenih metoda nad serijom može se pronaći u dokumentaciji biblioteke Pandas [[3]](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).


## **DataFrame**

U znanosti o podacima u pravilu želimo biti u mogućnosti pohranjivati, pregledavati i manipulirati podacima koji su multivarijatni, gdje za svaki indeks postoji više polja ili stupaca podataka (često različitih vrsta podataka).

**DataFrame** je tabularna struktura podataka koja sadrži više serija poput stupaca u tablici. Podaci se interno pohranjuju kao dvodimenzionalni objekt, ali nam DataFrame omogućuje predstavljanje i manipuliranje podacima više dimenzije. 

In [None]:
data = pd.DataFrame({'grade': [2, 2, 1, 5],
                     'name': ['Marko', 'Ana', 'Pero', 'Iva'],
                     'city': ['OS', 'ZG', 'RI', 'ST']
                     })

data

Moguće je primijetiti da je DataFrame sortiran prema nazivu stupca. Redoslijed možemo promijeniti tako da indeksiramo željenim redoslijedom:

In [None]:
data[['name', 'city', 'grade']]

DataFrame ima drugi indeks koji predstavlja stupce:

In [None]:
data.index

Atribut *dtypes* otkriva tip podataka za svaki stupac u DataFrame-u:

*   int64 - numerička cjelobrojna vrijednost
*   object - string (slova i brojevi)
*   float64 - numeričke vrijednosti s decimalnom točkom

In [None]:
data.dtypes

Ako želimo pristupiti stupcima, možemo to napraviti indeksiranjem kao kod rječnika ili pomoću atributa:

In [None]:
data['city']

In [None]:
data.city

Moguće je primijetiti da je ovakav tip indeksiranja drugačiji nego kod serije, gdje se indeksiranjem dohvaća jedan određeni redak. Ako želimo dohvatiti specifičan redak u DataFrame-u, možemo koristiti atribut *loc*:

In [None]:
data.loc[3]

Važno je napomenuti da serija koja se vrati indeksiranjem strukture DataFrame predstavlja samo pogled na DataFrame, a ne kopiju samih podataka. Stoga treba biti oprezan pri manipuliranju ovim podacima:

In [None]:
grades = data.grade
grades

In [None]:
grades[3] = 0
data.grade

Ako planiramo modificirati izdvojenu seriju, bez istog učinka na izvorni DataFrame, dobra je ideja napraviti kopiju.

In [None]:
grades = data.grade.copy()
grades[3] = -1
data.grade

U DataFrame je moguće uvesti novi stupac kao seriju:

In [None]:
age = pd.Series([18, 19, 20, 19])
age

data['age'] = age
data

Također je moguće ukloniti postojeće stupce ili retke, upotrebom metode *drop()*. Ova metoda uobičajeno uklanja retke, no možemo specificirati da želimo ukloniti stupce parametrom *axis=1*.

In [None]:
new_data = data.drop('age', axis=1)

new_data

In [None]:
data_without_Marko = data.drop(0)

data_without_Marko

Bitno je još napomenuti da su indeksi u strukturi DataFrame nepromjenjivi (engl. *immutable*). To je zato da se Index objekti mogu dijeliti između različitih struktura DataFrame bez straha da će biti promijenjeni.

In [None]:
data.index[0] = 15

Popis dopuštenih metoda nad strukturom DataFrame može se pronaći u dokumentaciji biblioteke Pandas [[4]](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html).

# **Funkcionalnosti u biblioteci Pandas**
## **Učitavanje podataka**

Primarni korak u analizi podataka jest uvoz podataka koje želimo analizirati. Iako je jednostavno učitati osnovne strukture podataka u Pythonu, nije trivijalno ispravno učitati strukturirane podatke te ih pretvoriti u robusnu strukturu podataka. 

Biblioteka Pandas pruža prikladan skup funkcija za uvoz tabličnih podataka iz brojnih formata izravno u DataFrame objekt. Ove funkcije uključuju mnoštvo opcija za automatsko zaključivanje tipa, indeksiranje, parsiranje, iteriranje i čišćenje podataka pri samom uvozu.

Započnimo učitavanje podataka o studentima iz formata csv:

In [None]:
!head Data/grades.csv

Ova se tablica može učitati u DataFrame koristeći* read_csv()* funkciju:

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',')
grades.head(11)

Primijetiti da *read_csv* prvi redak u datoteci automatski smatra redom zaglavlja.

Možemo nadjačati zadano ponašanje prilagodbom nekih argumenata funkcije, poput *header*, *names*, ili *index_col*.

## **Zapisivanje podataka u datoteke**

Osim što omogućava čitanje nekoliko formata pri unosu podataka, biblioteka Pandas također može izvesti podatke u različite formate za pohranu. Metoda *to_csv* zapisuje DataFrame u csv datoteku. Među ostalim opcijama, moguće je odrediti prilagođene razdjelnike (putem argumenta *sep*), kako se zapisuju nedostajuće vrijednosti (putem argumenta *na_rep*), je li indeks zapisan (pomoću argumenta *index*) te je li zaglavlje uključeno (putem argumenta *header*).

In [None]:
grades.to_csv("Data/grades2.csv")

Učinkovit način pohranjivanja podataka na disk je u binarnom formatu. Biblioteka Pandas to podržava korištenjem Pythonove ugrađene serijalizacije *pickle*. 

In [None]:
grades.to_pickle("Data/grades_pickle")

## **Nedostajuće vrijednosti**

Većina podataka iz stvarnog svijeta je nepotpuna, s nedostajućim vrijednostima zbog nepotpunog opažanja, pogreške pri unosu podataka, prijepisa ili drugih razloga. Biblioteka pandas će automatski prepoznati te parsirati takve vrijednosti u indikatore NaN, None ili NULL.

Nažalost, ponekad će biti nedosljednosti u konvencijama za podatke koji nedostaju. U ovom primjeru postoji '?' i veliki negativni broj (-9999) na mjestu gdje je trebao biti pozitivan cijeli broj. Možemo navesti dodatne simbole za nedostajuće vrijednosti s argumentom *na_values*.

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999])
grades.head(11)

Vrijednosti koje nedostaju mogu biti ispuštene iz skupa podataka pomoću metode *dropna()*:

In [None]:
grades.isnull()
grades = grades.dropna()
grades

Prema zadanim postavkama *dropna* ispušta cijele retke u kojima nedostaje jedna ili više vrijednosti. Ovo se može poništiti prosljeđivanjem argumenta *how='all'*, koji izbacuje redak samo ako svako polje ima vrijednost koja nedostaje.

Umjesto izostavljanja podataka koji nedostaju iz analize, u nekim slučajevima može biti prikladno popuniti vrijednost koja nedostaje, bilo zadanom vrijednošću (kao što je nula) ili vrijednošću koja je dobivena na temelju sličnih redaka u skupu podataka. To je moguće učiti programski u biblioteci Pandas pomoću metode *fillna()*.

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999])
grades.fillna(0, inplace=True)
grades.head(11)

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999])
grades.fillna({'Name':'Ivan','Age':19, 'City':'OS', 'Grade':3}, inplace=True)
grades.head(11)

Vrijednosti koje nedostaju također se mogu interpolirati korištenjem bilo koje od različitih metoda za interpolaciju:

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999])
grades.fillna(method='bfill', inplace=True)
grades.head(11)

## **Napredno indeksiranje i odabir**
U ovom potpoglavlju upoznat ćemo se s ključnim funkcionalnostima biblioteke Pandas koje su nuže za njezino učinkovito korištenje.

Pri učitavanju DataFrame-a pomoću metode *read_csv*, moguće je specificirati da .csv datoteka nema poseban stupac za indekse (*index_col=False*). Tada se u DataFrame umeće početni stupac koji sadrži indekse redaka, a koji započinju od 0.

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999], index_col=False)
grades.head(11)

Moguće je stvoriti proizvoljni indeks kombiniranjem vrijednosti u postojećim stupcima. Primjerice, možemo postojećem DataFrame-u dodati stupac za indekse koji predstavljaju spojene vrijednosti iz 'Name' i 'Age' stupaca:

In [None]:
person_id = grades.Name + grades.Age.astype(str)
grades_newid = grades.copy()
grades_newid.index = person_id
grades_newid.head()

Moguće je primijetiti da kombiniranjem stupaca na ovaj način povećavamo šanse za stvaranjem indeksa koji nije jedinstven. Elegantniji način kombiniranja stupaca radi stvaranja jedinstvenog indeksa jest stvaranje hijerarhijskog indeksa.

In [None]:
grades_hi = grades.set_index(['Name', 'Age'])
grades_hi.head(11)

Indeksiranje DataFrame-a vraća sve retke za predani stupac. S druge strane, za filtriranje redaka, možemo koristiti *query* metodu za izvođenje odabira na DataFrame-u. Umjesto pisanja potpuno specificiranog stupca, možemo jednostavno proslijediti string koji opisuje što treba odabrati:

In [None]:
grades.query('Age >= 20')

Za ubacivanje postojećih varijabli u upit metode *query*, dovoljno je koristiti @:

In [None]:
age = 21
grades.query('Age >= @age')

Povrh indeksiranja i metode *query*, metoda *loc* omogućuje istovremeni odabir podskupova redaka i stupaca na intuitivan način:

In [None]:
grades.loc[2:8, ['Name','City', 'Grade']]

Kod hijerarhijskog indeksiranja, metodi *loc* možemo predati vrijednosti po kojima želimo filtrirati više stupaca, a vratit će se odgovarajući reci:

In [None]:
grades_hi.loc[('Marko', 18.0)]

## **Sažimanje podataka**
Često želimo sažeti podatke u Series ili DataFrame objekte, tako da ih je lakše razumjeti ili usporediti sa sličnim podacima. Biblioteka Pandas sadrži nekoliko korisnih metoda sažimanja i redukcije. 

Metoda *sum()* prikazuje zbroj vrijednosti za sve stupce. Jasno je da ona ima više smisla za neke stupce nego za druge.

Metoda *mean()* prikazuje srednju vrijednost za sve stupce. Pritom se automatski izuzimaju stupci koji sadrže vrijednosti za koje je primjena metode besmislena ili nemoguća. Također se ignoriraju retci koji sadrže nedostajuće vrijednosti.

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999])
grades.sum()

In [None]:
grades.mean()

Koristan sažetak koji daje brz uvid u više statistika za seriju ili DataFrame moguće je dobiti pomoću metode *describe()*. Metoda otkriva korisne statističke informacije o ne

In [None]:
grades.describe()

Također možemo izračunati sumarnu statistiku za više stupaca, primjerice kovarijancu i korelaciju.


$$cov(x,y) = \sum_i (x_i - \bar{x})(y_i - \bar{y})$$

$$corr(x,y) = \frac{cov(x,y)}{(n-1)s_x s_y} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_i (x_i - \bar{x})^2 \sum_i (y_i - \bar{y})^2}}$$

In [None]:
grades.Age.cov(grades.Grade)

In [None]:
grades.Age.corr(grades.Grade)

Ponekad je korelacija između dva atributa očita kad se icrtaju u 2D prostoru. Također, druge vrste dijagrama (primjerice, histogrami) pomažu razumjeti slijede li podaci određeni zakon. Stoga je ključno ne samo znati kako odabrati odgovarajući isječak skupa podataka, već i kako ga pravilo vizualizirati.

In [None]:
grades.plot.scatter(x='Age', y='Grade')

## **Sortiranje**

Pandas strukture podataka uključuju metode za sortiranje podataka. 

In [None]:
grades.sort_index().head(11)

In [None]:
grades.sort_index(ascending=False).head(11)

In [None]:
grades.sort_index(axis=1).head(11)

Za sortiranje po višestrukim kriterijima, možemo koristiti metodu *sort_values*:

In [None]:
grades.sort_values(ascending=[True,False], by=['Age', 'Grade']).head(11)

# **Rukovanje podacima pomoću biblioteke Pandas**
Kao što se to često kažu u domeni znanosti o podacima, veći dio vremena proveden u provedbi analize često je posvećen pripremi samih podataka, a ne kodiranju ili pokretanju određenog modela koji koristi podatke. Ovdje su Python i Pandas vrlo korisni, pružajući fleksibilne i učinkovite alate visoke razine za manipuliranje podacima po potrebi. 

## **Spajanje i povezivanje DataFrame objekata**
Prethodno smo obrađivali podatke o studentima koji dolaze iz različitih gradova te imaju određene uspjehe u školi. U datoteci Data/cities.csv nalazi se druga tablica koja sadrži informacije o svakom od gradova iz kojih studenti dolaze.


In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999], index_col=False)
grades.head(11)

In [None]:
cities = pd.read_csv("Data/cities.csv", sep=',', na_values=['?,', -9999], index_col=False)
cities

Moguće je primijetiti da tablica gradova ima jedan-na-više vezu s tablicom studenata. Pomoću biblioteke Pandas možemo spajati tablice prema vrijednosti jednog ili više ključeva koji se koriste za identifikaciju redaka, slično indeksu. To se postiže upotrebom metode *merge()* koja povezuje retke na temelju zajedničkog stupca u obje tablice. Prema uobičajenim postavkama, *merge* provodi unutarnje povezivanje (engl. *inner join*) na tablicama, što znači da objedinjena tablica predstavlja presjek dviju tablica. 



In [None]:
cities_grades_merged = pd.merge(cities, grades)
cities_grades_merged.head(11)

In [None]:
cities_grades_merged = pd.merge(cities, grades, how='outer')
cities_grades_merged.head(15)

Vanjsko povezivanje (engl. *outer join*) rezultira tablicom koja sadrži retke iz obje tablice koje se spajaju, s vrijednostima koje nedostaju umetnim prema potrebi. Također je moguće provesti i desno (engl. *right join*) te lijevo povezivanje (engl. *left join*) za uključivanje svih redaka desne ili lijeve tablice, ali ne nužno i druge tablice.

Ako zajednički stupac u tablicama jednoj tablici predstavlja njezin indeks, to je potrebno specificirati prilikom spajanja. U metodi *merge* tada je potrebno specificirati *left_index* ili *right_index* argumente, odnosno *right_on* ili *left_on* argumente. 

## **Ulančavanje**
Uobičajena manipulacija podacima jest dodavanje redaka ili stupaca skupu podataka, koji već odgovaraju dimenzijama skupa kojem se dodaju. Ova operacija se također naziva uvezivanje (engl. *binding*) ili slaganje (engl. *stacking*).

S indeksiranim strukturama podataka iz biblioteke Pandas, postoje dodatna razmatranja s obzirom na to da preklapanje vrijednosti indeksa između dviju struktura podataka utječe na njihov spoj.

In [None]:
grades = pd.read_csv("Data/grades.csv", sep=',', na_values=['?', -9999], index_col=False)
grades2 = pd.read_csv("Data/grades2.csv", sep=',', na_values=['?', -9999], index_col=False)


In [None]:
grades_concat = pd.concat([grades, grades2], axis=0)
grades_concat.head(16)

Ulančavanje dva DataFrame-a, *grades* i *grades2* rezultirat će DataFrame-om koji nema jedinstvene indekse. Drugim riječima, reci su se jednostavno ulančali.

## **Preoblikovanje DataFrame objekata**

Često postoji potreba za preoblikovanjem rasporeda naših podataka u nekom DataFrame objektu. Tako metoda *stack()* rotira DataFrame na način da stupci postaju reci. S druge strane, metoda *unstack()* radi obrnuto.

In [None]:
grades = grades.stack()
grades.head(11)

In [None]:
grades = grades.unstack()
grades.head(11)

## **Okretanje (pivotiranje) DataFrame objekata**

Metoda *pivot_table()* omogućuje laku transformaciju DataFrame-a između dugog i širokog formata na isti način kao što se stvara zaokretna tablica u Excelu. Metoda zahtijeva postavljanje tri argumenta: *index*, *columns* i *values*. Ako vrijednosti u indeks stupcu nisu jedinstvene, potrebno je specificirati funkciju za agregiranje takvih vrijednosti (primjerice, zbroj, prosjek, minimalna ili maksimalna vrijednost).

In [None]:
grades_concat.pivot_table(index='City', columns='Age', values='Grade', aggfunc=np.max).head(5)

## **Transformacija podataka**

Postoji mnoštvo dodatnih operacija za DataFrame koje se zajedno nazivaju transformacijama, a uključuju operacije poput uklanjanja duplikata, zamjene vrijednosti te grupiranja vrijednosti.

### **Rad s duplikatima**

Moguće je jednostavno identificirati i ukloniti duplikate iz DataFrame objekata.

In [None]:
grades_concat.duplicated(subset='Name').head(16)

In [None]:
grades_concat.drop_duplicates(['Name']).head(16)

### **Zamjena vrijednosti**

Skupovi podataka često sadrže stupce koji su kodirani kao nizovi koje želimo numerički predstaviti u svrhu uključivanja u kvantitativnu analizu. Primjerice, možemo kodirati stupac 'City' u brojčane vrijednosti.

In [None]:
grades_concat.City.value_counts()

In [None]:
grades_concat['City'] = grades_concat.City.map({'OS':0, 'ZG': 1, 'RI': 2, 'ST': 3, 'GS':4})
grades_concat.head(16)

Biblioteka Pandas pruža prikladan dtype za predstavljanje kategoričkih (faktorskih) podataka, zvan *category*. Prema uobičajenim postavkama, kategoričkim stupcima se pri učitavanju postavlja tip *object*. Moguće ga je prebaciti u *category* tip, pomoću *Categorical* konstruktora ili pretvaranjem stupca pomoću astype.

Važna razlika između *category* i *object* tipova jest u tome što je *category* temeljno predstavljen nizom cijelih brojeva koji se zatim mapiraju u oznake znakova. Stoga zauzimaju manje memorije, što može uzrokovati povećanje performansi pri izvođenju složenijih operacija (primjerice, grupiranja).

In [None]:
grades_concat = pd.concat([grades, grades2], axis=0)
grades_concat

In [None]:
pd.Categorical(grades_concat.City)

In [None]:
grades_concat['City'] = grades_concat.City.astype('category')
grades_concat

## **Agregacija i grupiranje podataka**

Jedna od najmoćnijih značajki biblioteke Pandas jest njezina funkcionalnost GroupBy. U nekim prilikama potrebno je izvesti operacije na grupama opažanja unutar skupa podataka. Takve operacije mogu se podijeliti na operacije:

*   Agregacije - što uključuje primjenu funkcije na svaku grupu i vraćanje agregiranih rezultata
*   Rezanja - rezanje DataFrame-a u grupe te provođenje dodatnih operacijama nad rezultirajućim rezovima
*   Grupne transformacije - primjerice, standardizacija te normalizacija

In [None]:
grades_concat_grouped = grades_concat.groupby(grades_concat.City)
grades_concat_grouped

Metoda *groupby()* vraća generički GroupBy objekt jer zapravo predstavlja samo međukorak pri grupiranju. Nakon njezine primjene, uobičajeno se iterira kroz rezultirajući objekt:

In [None]:
for city, group in grades_concat_grouped:
  print('City', city)
  print('group', group)

Česti postupak analize podataka jest operacija *split*-*apply*-*combine*, koja grupira podskupove podataka zajedno, primjenjuje funkciju na svaku od grupa, zatim ih ponovno kombinira u novu podatkovnu tablicu.

In [None]:
grades_concat_grouped.agg('mean').head(5)

Moguće je primijetiti da stupci koji sadrže kategoričke vrijednosti nisu zahvaćeni operacijom agregacije. Ako je potrebno posebno specificirati koji stupci su rezultat agregacije, tim stupcima se mogu dodati posebne oznake pomoću *add_prefix()* ili *add_sufix()* metoda.

### **Metoda apply**

Metodologiju *split*-*apply*-*combine* moguće je generalizirati pomoću metode *apply()*. Ona omogućuje pozivanje bilo koje funkcije koju želimo provesti na grupiranom skupu podataka te njihovo rekombiniranje u DataFrame.

In [None]:
def top(df, column, n):
  return df.sort_values(by=column, ascending=False)[:n]

top3students = grades_concat.groupby(grades_concat.City).apply(top, column='Grade', n=3)[['Name', 'Grade']]
top3students


# **Literatura**


---

[1] https://www.simplilearn.com/tutorials/data-science-tutorial/what-is-data-science

[2] Materijali za predmet Applied Data Analysis (ADA) na EPFL

[3] https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

[4] https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

[5] McKinney, W., 2012. *Python for data analysis*. O'Reilly Media, Inc.

