# Obrada tabelarnih podataka u Pajtonu

__U ovoj svesci je prikazano kako upravljamo tabelama, odnosno kako raspodeljujemo, filtriramo, sortiramo ili na neki drugi način obrađujemo podatke koji su organizovani u tabele. Uvedena je osnovna struktura za rad sa podacima u Pajtonu (_DataFrame_) i dati su primeri korišćenja najvažnijih Pajton funkcija za rad sa tabelama.__

Obrada podataka podrazumeva tehnički deo rada sa podacima: prikupljanje, organizaciju, transformisanje, filtriranje i formatiranje podataka zaključno sa čišćenjem podataka. Obrada podataka prethodi fazi analize podataka za koju je specijalističko znanje neophodno.

## Nizovi i tabele

Struktura podataka sa kojom najčešće radimo je tabela. Kad otvorimo Eksel, na primer, ispred nas je tabela sa vrstama i kolonama. Kad pogledamo u neku bazu podataka, opet vidimo da su tamo podaci raspoređeni u tabele. Tako je i kod skriptne obrade podatka: njavažnija struktura je tabela.

Pre nego što počnemo da radimo sa tabelama, važno je da razumemo da se dvodimenzionalne strukture (tabele) sastoje od jednodimenzionalnih struktura (nizova) koje smo ukrstili. Svako polje u tabeli pripada jednoj vrsti i jednoj koloni. Tabele se prave od nizova koje slažemo po jednoj ili drugoj dimenziji. 

Jednodimenzionalne strukture podataka koje se u Pajtonu najčešće koriste su __liste__. To su najopštiji nizovi podataka gde svi podaci ne moraju da budu istog tipa. Liste se formiraju tako što se između uglastih zagrada navedu svi elementi liste pri čemu ih odvajamo zarezom. Naravno, stringovi moraju da budu pod znacima navoda.

In [1]:
lista=['kafa',3,200.00]

Elementima liste se pristupa preko indeksa elementa. Pošto Pajton elemente numeriše počevši od nultog, prvi element liste ima indeks 0, drugi ima indeks 1 itd.

In [2]:
lista[0]

'kafa'

Druga važna jednodimenzionalna struktura je __rečnik__ (eng. _dictionary_). To je zapravo niz parova podataka koji se navode unutar vitičastih zagrada pri čemu su parovi povezani znakom `:`, a odvojeni zarezima. Prvi deo para se naziva ključ, a drugi vrednost.

In [3]:
rečnik={'Piće':'kafa','Cena':200.00}

Za razliku od lista, kod rečnika nema numeričkih indeksa. Element rečnika pozivamo koristeći ključ.

In [4]:
rečnik['Cena']

200.0

Obe pomenute strukture, i liste i rečnici, koriste se za formiranje tabela u Pajtonu.

## Tabela tipa _DataFrame_

Za dvodimenzionalne strukture podataka (tabele) u Pajtonu najčešće koristimo strukturu _DataFrame_. Osnovno okruženje Pajtona nema funkcije za rad sa ovom strukturom. Neophodno je da učitamo biblioteku __pandas__ koja sadrži sve potrebne funkcije za rad sa _DataFrame_ strukturom.

In [5]:
import pandas as pd

Primetite da smo učitali __pandas__ biblioteku i nazvali je __pd__. Ovo smo učinili da bismo kasnije manje kucali pri pozivanju funkcija ove biblioteke. Svaka funkcija iz biblioteke __Pandas__ se poziva sa `pd.<naziv funkcije>`. Videćete kasnije na primerima kako to funkcioniše.

Sada ćemo jednu jednostavnu tabelu formirati na dva načina: kao niz vrsta i kao niz kolona, tačnije kao listu vrsta i rečnik kolona. Za to će nam biti potrebna i funkcija `DataFrame()`.

### Tabela kao lista vrsta

Svaku vrstu tabele možemo da odredimo kao listu. Važno je samo da sve te vrste imaju isti broj elemenata i da redosled elemenata (prema kategoriji na koju se odnose) bude isti. 

In [6]:
v1=['kafa',3,150.0]
v2=['limunada',2,200.0]
v3=['tonik',1,180.0]

Sada možemo da napravimo listu lista i da je stavimo kao argument funkcije `DataFrame()`. Rezultat će biti nova struktura tipa _DataFrame_.

In [7]:
vrste=[v1,v2,v3]

In [8]:
df=pd.DataFrame(vrste)

In [9]:
df

Unnamed: 0,0,1,2
0,kafa,3,150.0
1,limunada,2,200.0
2,tonik,1,180.0


Polja u različitim kolonama ove tabele mogu sadržati različite tipove promenljivih. U našem primeru prva kolona sadrži stringove, druga cele brojeve, a treća decimalne. 

Vidimo da Pajton automatski stavlja oznake za kolone i vrste (0, 1, 2...) iako to nismo tražili. Ako nam se ove oznake ne sviđaju, bolje je da navedemo nazive kolona pri kreiranju strukture __df__ dodeljujući listu vrednosti parametru `columns`. Slično možemo da uradimo i za nazive vrsta. Tu listu naziva dodeljujemo parametru `index`. 

In [10]:
df=pd.DataFrame(vrste,columns=['Piće','Broj','Cena'])

In [11]:
df

Unnamed: 0,Piće,Broj,Cena
0,kafa,3,150.0
1,limunada,2,200.0
2,tonik,1,180.0


Naziv kolone u tabeli može da bude bilo koji tekst, ali to nije preporučljivo. Iz praktičnih razloga dobro je da nazivi kolona budu kratki, po mogućstvu da to bude samo jedna reč. Ima funkcija koje čak ne rade kako treba ako naziv kolone nije jedna reč. Zato je nekad dobro preimenovati kolone pre obrade podataka.

### Tabela kao rečnik kolona

Ako tabelu formiramo kao niz kolona, onda nam je potreban rečnik gde će ključevi biti nazivi kolona, a vrednosti upravo vrednosti kolona. Prvo treba da napravimo liste u kojima će biti vrednosti po kolonama. Sada je važno da liste imaju elemente istog tipa.

In [12]:
k1=['kafa','limunada','tonik']
k2=[3,2,1]
k3=[150.0,200.0,180.0]

Pošto imamo vrednosti po kolonama možemo da ih pridružimo odgovarajućim ključevima (Piće, Broj, Cena) u okviru rečnika koji ćemo nazvati __kolone__.

In [13]:
kolone={'Piće':k1,'Broj':k2,'Cena':k3}

Ovaj rečnik sada treba staviti kao argumet funkcije `DataFrame()` da bismo dobili odgovarajuću tabelu.

In [14]:
df=pd.DataFrame(kolone)

In [15]:
df

Unnamed: 0,Piće,Broj,Cena
0,kafa,3,150.0
1,limunada,2,200.0
2,tonik,1,180.0


### Pristupanje elementima tabele

Ako hoćemo da izdvojimo jednu kolonu, dovoljno je da uz ime tabele stavimo tačku i navedemo njen naziv (pod uslovom da je naziv kolone jedna reč).

In [16]:
df.Piće

0        kafa
1    limunada
2       tonik
Name: Piće, dtype: object

Alternativno, možemo da navedemo naziv kolone kao indeks u uglastim zagradama.

In [17]:
df['Piće']

0        kafa
1    limunada
2       tonik
Name: Piće, dtype: object

Primetite da kolone i redovi uvek imaju svoje oznake, makar bile i brojevi 0, 1, 2... To nam olakšava da pristupimo podacima u tabeli.

Postoji nekoliko načina kako da pristupimo pojedinačnim elementima tabele. Navodimo ovde dva primera koja bi trebalo da budu razumljivi i bez posebnog objašnjenja. Jednostavno, prvo kolonu predstavimo kao listu, a onda uzmemo element liste sa određenim indeksom.

In [18]:
df.Piće[2]

'tonik'

In [19]:
df['Piće'][2]

'tonik'

### Pristupnici (eng. _accessors_)

Pristupnik `iloc[]` je posebna vrsta funkcije koja nam omogućava da elementima tabele pristupimo na još jedan način. Njeni argumenti su indeksi redova i kolona.

In [20]:
df.iloc[2,0]

'tonik'

Postoji još jedan pristupnik: `loc[]`. Njegovi argumenti nisu indeksi već nazivi redova i kolona, ukoliko su određeni. Mi jesmo odredili nazive kolona, ali nazive vrsta nismo pa tu još uvek imamo 0, 1, 2 kao privremene nazive. Dok god se to ne promeni brojevi 0, 1 i 2 će biti i indeksi i nazivi vrsta. 

In [21]:
df.loc[1,'Piće']

'limunada'

Pošto znamo kako se formiraju tabele i kako se pristupa njihovim elementima, možemo da pređemo na obradu velike tabele koju ćemo učitati iz fajla.

## Učitavanje velike tabele sa podacima

Podatke najčešće čuvamo u formatima koji nisu jednostavni za učitavanje. Formati kao što su DOCX, XLSX, PDF ili HTML odgovaraju čoveku koji čita podatke, ali ne i mašini. Za skriptnu obradu podataka su mnogo pogodniji jednostavni, dobro dokumentovani i otvoreni formati za koje ne moramo da koristimo bilo kakav poseban komercijalni softver. Čak i kada se podaci učitavaju iz vrlo složenih formata oni se transformišu u tabele koje se čuvaju u svega nekoliko osnovnih formata. Najčešće se za tabelarne podatke koristi _Comma Separated Value_ (CSV) format gde se vrednosti odvojene zarezom zapisane u tekstualnom formatu.

Za potrebe rada u ovoj svesci koristićemo fajl sa podacima koji se odnose na sva veća postrojenja za proizvodnju električne energije u svetu. Njih možete sami da preuzmete sa interneta sa [Global Power Plant Database](https://datasets.wri.org/dataset/globalpowerplantdatabase), ali smo ih zbog jednostavnosti postavili u poddirekterijum __/data__ našeg radnog direktorijuma. Tu se nalaze i svi ostali fajlovi sa podacima koji će nam biti potrebni u ovom kursu. Za početak, učitavamo fajl koji sadrži spisak svih velikih elektrana u svetu.

In [22]:
elektrane=pd.read_csv("data/global_power_plant_database.csv")

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Pošto je fajl prilično veliki, verovatno ćete dobiti upozorenje da u tabeli imamo različite tipove podataka i ovakvo učitavanje fajla bez specifikacije koji tip podataka imamo u kojoj koloni nije efikasan. S obzirom da ćemo ovaj fajl učitavati samo jednom, najbolje je da ignorišete ovo upozorenje. Ako baš ne možete, objasnite računaru da ne mora da se plaši da će ostati bez slobodne memorije i učitajte podatke sa `elektrane=pd.read_csv("data/global_power_plant_database.csv", low_memory=False)`. U tom slučaju neće prikazivati upozorenje.

U svakom slučaju, poželjno je da pomoću funkcije `info()` pogledamo šta se nalazi u fajlu, koje su to kolone i koji je tip podataka u njim sadržan.

In [23]:
elektrane.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34936 entries, 0 to 34935
Data columns (total 36 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   country                         34936 non-null  object 
 1   country_long                    34936 non-null  object 
 2   name                            34936 non-null  object 
 3   gppd_idnr                       34936 non-null  object 
 4   capacity_mw                     34936 non-null  float64
 5   latitude                        34936 non-null  float64
 6   longitude                       34936 non-null  float64
 7   primary_fuel                    34936 non-null  object 
 8   other_fuel1                     1944 non-null   object 
 9   other_fuel2                     276 non-null    object 
 10  other_fuel3                     92 non-null     object 
 11  commissioning_year              17447 non-null  float64
 12  owner                           

Odavde vidimo, na primer, da _DataFrame_ __elektrane__ ima 34936 redova i 36 kolona. Za svaku kolonu navedeno je kakve podatke sadrži i koliko takvih podataka ima. Iako sve kolone sadrže isti broj elemenata, moguće je da su neki od njih __null__, odnosno da ti podaci nedostaju. Zato za svaku kolonu imamo broj elemenata koji nisu __null__, odnosno onih podataka koji su ubeleženi. 

Pajton često koristi opštije tipove podataka da se pri učitavanju ne bi nešto izgubilo. Tako su celobrojne vrednosti memorisane kao 64-orobitni decimalni brojevi (_float64_), a tekst kao objekat (_object_). To nije najbolje sa aspekta korišćenja memorije, ali sada ne moramo time da se bavimo. Ako zatreba, moći ćete kasnije da promenite tip promenljive u koloni.

Drugi način da vidimo šta se nalazi u tabeli je da pomoću funkcije `head()` pogledamo zaglavlje, tj. nazive kolona sa prvih nekoliko redova. Slično, možemo da pogledamo i "začelje" tabele pomoću funkcije `tail()`.

In [24]:
elektrane.head()

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,other_fuel1,other_fuel2,...,estimated_generation_gwh_2013,estimated_generation_gwh_2014,estimated_generation_gwh_2015,estimated_generation_gwh_2016,estimated_generation_gwh_2017,estimated_generation_note_2013,estimated_generation_note_2014,estimated_generation_note_2015,estimated_generation_note_2016,estimated_generation_note_2017
0,AFG,Afghanistan,Kajaki Hydroelectric Power Plant Afghanistan,GEODB0040538,33.0,32.322,65.119,Hydro,,,...,123.77,162.9,97.39,137.76,119.5,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1
1,AFG,Afghanistan,Kandahar DOG,WKS0070144,10.0,31.67,65.795,Solar,,,...,18.43,17.48,18.25,17.7,18.29,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE
2,AFG,Afghanistan,Kandahar JOL,WKS0071196,10.0,31.623,65.792,Solar,,,...,18.64,17.58,19.1,17.62,18.72,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE
3,AFG,Afghanistan,Mahipar Hydroelectric Power Plant Afghanistan,GEODB0040541,66.0,34.556,69.4787,Hydro,,,...,225.06,203.55,146.9,230.18,174.91,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1
4,AFG,Afghanistan,Naghlu Dam Hydroelectric Power Plant Afghanistan,GEODB0040534,100.0,34.641,69.717,Hydro,,,...,406.16,357.22,270.99,395.38,350.8,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1


## Izbor kolona

Za rad sa tabelama nije neophodno da imamo baš sve kolone u memoriji. Ako izaberemo samo ono što nas interesuje, tabela će biti preglednija. 

Za potrebe ove demonstracije uzećemo samo prvih osam kolona, zaključno sa kolonom u kojoj je primarni tip goriva. Za to ćemo koristiti indekse redova i kolona pomoću `iloc[:,0:8]`. Ovo prvo `:` znači da uzimamo sve redove, a `0:8` da uzimamo 8 kolona počevši od indeksa 0 (prva kolona). Imajte u vidu da se prva kolona (za nas ljude koji gledamo ispis na ekranu) i ne računa u kolone. To su samo oznake redova. Za Pajton, prva kolona je __country__ i ona ima indeks 0.

In [25]:
elektrane=elektrane.iloc[:,0:8]

In [26]:
elektrane.head()

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel
0,AFG,Afghanistan,Kajaki Hydroelectric Power Plant Afghanistan,GEODB0040538,33.0,32.322,65.119,Hydro
1,AFG,Afghanistan,Kandahar DOG,WKS0070144,10.0,31.67,65.795,Solar
2,AFG,Afghanistan,Kandahar JOL,WKS0071196,10.0,31.623,65.792,Solar
3,AFG,Afghanistan,Mahipar Hydroelectric Power Plant Afghanistan,GEODB0040541,66.0,34.556,69.4787,Hydro
4,AFG,Afghanistan,Naghlu Dam Hydroelectric Power Plant Afghanistan,GEODB0040534,100.0,34.641,69.717,Hydro


Na ovaj način smo izabrali koje kolone želimo da koristimo i sačuvali samo to u tabeli __elektrane__. Slično smo mogli da umesto 0:8 stavimo listu gde tačno navedemo koje kolone hoćemo, npr. `[0,4,7]`. Probajte.

In [27]:
elektrane.iloc[:,[0,4,7]]

Unnamed: 0,country,capacity_mw,primary_fuel
0,AFG,33.0,Hydro
1,AFG,10.0,Solar
2,AFG,10.0,Solar
3,AFG,66.0,Hydro
4,AFG,100.0,Hydro
...,...,...,...
34931,ZMB,50.0,Oil
34932,ZMB,20.0,Oil
34933,ZMB,108.0,Hydro
34934,ZWE,920.0,Coal


## Tabulacija

Jedan od prvih koraka u "eksplorativnoj analizi podataka", odnosno utvrđivanju šta sve imamo u tabeli jeste da prebrojimo koliko čega ima. Ono što se stručno zove tabulacija, kros-tabulacija ili _contingency table_ je zapravo obično prebrojavanje elemenata po kategorijama. Za početak, uzećemo kolonu sa oznakama zemalja u kojima se nalaze elektrane u prebrojati ih pomoću funkcije `value_counts()`. To će nam reći koliko ima elektrana u kojoj zemlji. Pri tome će funkcija koja prebrojava elemente sortirati niz od najvećeg ka najmanjem pa će na prvom mestu biti zemlja sa najvećim brojem elektrana u ovoj tabeli. 

In [28]:
elektrane.value_counts('country')

country
USA    9833
CHN    4235
GBR    2751
BRA    2360
FRA    2155
       ... 
PSE       1
DJI       1
SUR       1
ESH       1
GNB       1
Length: 167, dtype: int64

### Kros-tabulacija

Kros-tabulacija je prebrojavanje elemenata po dve odvojene kategorije. Ovde ćemo, na primer, prebrojati koliko se puta pominje koja zemlja za svaki tip primarnih goriva. Tako ćemo videti ko ima koliko elektrana na vetar, koliko nuklearnih elektrana itd. Da bismo to uradili nije dovoljna funkcija `value_counts()` već moramo da razdvojimo kolone koje ćemo tretirati kao posebne kategorijalne promenljive. Funkcija `crosstab()` zahteva dva argumenta tog tipa. To su upravo dve kolone naše tabele.

In [29]:
zemljа=elektrane['country']
gorivo=elektrane['primary_fuel']

In [30]:
zemljа

0        AFG
1        AFG
2        AFG
3        AFG
4        AFG
        ... 
34931    ZMB
34932    ZMB
34933    ZMB
34934    ZWE
34935    ZWE
Name: country, Length: 34936, dtype: object

In [31]:
pd.crosstab(zemljа,gorivo)

primary_fuel,Biomass,Coal,Cogeneration,Gas,Geothermal,Hydro,Nuclear,Oil,Other,Petcoke,Solar,Storage,Waste,Wave and Tidal,Wind
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
AFG,0,0,0,1,0,6,0,0,0,0,2,0,0,0,0
AGO,0,0,0,3,0,5,0,6,0,0,0,0,0,0,0
ALB,0,0,0,0,0,7,0,0,1,0,0,0,0,0,0
ARE,0,0,0,24,0,0,0,0,0,0,6,0,0,0,0
ARG,0,9,0,57,0,50,3,96,2,0,7,0,0,0,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
VNM,2,24,0,9,0,174,0,6,0,0,16,0,0,0,5
YEM,0,0,0,1,0,0,0,6,0,0,0,0,0,0,0
ZAF,2,17,0,2,0,6,1,2,0,0,44,0,6,0,24
ZMB,1,1,0,0,0,5,0,7,0,0,1,0,0,0,0


Izgleda da ovih tipova goriva ima više nego što smo očekivali (15). Svejedno, odavde možemo da vidimo ko ima koliko elektrana kog tipa. Kako se koji tip goriva zove mogli smo da dobijemo sa `elektrane.value_counts('primary_fuel')`. Alternativno, možemo da iskoristimo funkciju `columns` koja će nam iste podatke dati za kategorijalnu tabelu.

In [32]:
pd.crosstab(zemljа,gorivo).columns

Index(['Biomass', 'Coal', 'Cogeneration', 'Gas', 'Geothermal', 'Hydro',
       'Nuclear', 'Oil', 'Other', 'Petcoke', 'Solar', 'Storage', 'Waste',
       'Wave and Tidal', 'Wind'],
      dtype='object', name='primary_fuel')

## Sortiranje

Menjajući redosled redova i kolona u tabeli možemo da uredimo tabelu kako nama odgovara, a da pritom ništa ne izgubimo od podataka. Najčešće se redosled menja tako što sortiramo podatke po azbučnom/abecednom redu ako su tekstualni ili po veličini ako su numerički. Svako sortiranje može da se vrši i hijerarhijski. Setite se fudbalskih tabela: klubovi su sortirani po broju bodova, ali ako imaju isti broj bodova onda ih sortiramo po gol-razlici. Tu onda imamo dva kriterijuma sortiranja. Važan je i smer sortiranja. Numerički podaci, na primer, mogu da se sortiraju po rastućem ili opadajućem redosledu.

Mi ćemo sada podatke o svetskim elektranama da sortiramo po snazi izraženoj u megavatima (kolona __capacity_mw__) počevši od elektrane koja ima najveću snagu (tj. po redu koji nije rastući -- __ascending=False__).

In [33]:
elektrane.sort_values('capacity_mw', ascending=False)

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel
8453,CHN,China,Three Gorges Dam,WRI1000452,22500.0,30.8235,111.0032,Hydro
5137,CHN,China,Baihetan Dam,WRI1070877,13050.0,28.2606,103.6484,Hydro
8755,CHN,China,Xiluodu,WRI1000453,12600.0,28.2600,103.6500,Hydro
19603,RUS,Russia,Surgutskaya GRES-2,WRI1003821,8865.0,61.2794,73.4889,Gas
34668,VEN,Venezuela,Simon Bolivar (Guri),WRI1018677,8851.0,7.7659,-62.9982,Hydro
...,...,...,...,...,...,...,...,...
33625,USA,United States of America,USS Solar Dawn CSG,USA0062044,1.0,45.4918,-92.8417,Solar
15796,IDN,Indonesia,Sempor/Mrica,WRI1001009,1.0,-7.4733,109.3331,Hydro
33624,USA,United States of America,USS Rockpoint Solar CSG,USA0062000,1.0,45.4396,-92.9221,Solar
23239,GBR,United Kingdom,Innerwick Hydro,GBR0000472,1.0,56.6003,-4.3052,Hydro


Tabela nam pokazuje da hidroelektrana "Tri klisure" u Kini ima najveći kapacitet: 22,5 gigavata. Neki od nas su u školi učili da Huverova elektrana na reci Kolorado proizvodi najviše struje. Davno je to bilo. Izgleda da se nešto promenilo. Da bismo utvrdili koja je po redu Huverova elektrana danas potrebno je da elektranama pridružimo poziciju na rang-listi. Najbolje je da celoj tabeli dodamo kolonu u kojoj će biti rang elektrane od najveće do najmanje. Tu kolonu ćemo nazvati __rank__. (I ostali nazivi kolona su nam na engleskom, zar ne?)

In [34]:
elektrane['rank']=elektrane['capacity_mw'].rank(ascending=False)

Primetite da smo u prethodnom slučaju samo prikazali sortiranu tabelu, a da smo potom originalnoj tabeli __elektrane__ pridružili kolonu sa rang-listom. To je samo drugi način sortiranja. Da vidimo kako sad izgleda zaglavlje tabele. Prva na tabeli je avganistanska elektrana koja je 13036. na rang-listi. Vidimo da negde ima i necelobrojnih vrednosti za rang. To je zato što ih ima više sa istom snagom. 

In [35]:
elektrane.head()

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
0,AFG,Afghanistan,Kajaki Hydroelectric Power Plant Afghanistan,GEODB0040538,33.0,32.322,65.119,Hydro,13036.0
1,AFG,Afghanistan,Kandahar DOG,WKS0070144,10.0,31.67,65.795,Solar,20851.5
2,AFG,Afghanistan,Kandahar JOL,WKS0071196,10.0,31.623,65.792,Solar,20851.5
3,AFG,Afghanistan,Mahipar Hydroelectric Power Plant Afghanistan,GEODB0040541,66.0,34.556,69.4787,Hydro,9260.0
4,AFG,Afghanistan,Naghlu Dam Hydroelectric Power Plant Afghanistan,GEODB0040534,100.0,34.641,69.717,Hydro,7690.5


Da bismo sada u nazivu našli "Hoover", "Djerdap" ili "Gorges" moramo da promenimo tip podataka u koloni __name__ tako da bude tekst, odnosno str. Za Pajton je to i dalje kolona u kojoj su podaci tipa object. To ćemo uraditi pomoću funkcije `astype()` i argumenta __"str"__.

In [36]:
elektrane['name']= elektrane['name'].astype("str")

Sada kad u koloni __name__ imamo podatke tipa __str__ možemo da pitamo gde se na rang-listi nalaze elektrane koje nas interesuju. To ćemo uraditi pomoću funkcije `str.contains()` koja proverava da li se neki tekst nalazi u nekoj tekstualnoj promenljivoj.

In [37]:
elektrane[elektrane['name'].str.contains('Hoover')]

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
28706,USA,United States of America,Hoover Dam (AZ),USA0008902,1039.4,36.0155,-114.738,Hydro,1525.5
28707,USA,United States of America,Hoover Dam (NV),USA0000154,1039.4,36.0155,-114.738,Hydro,1525.5


Izgleda da se Huverova elektrana vodi dva puta u listi. Jednom kao Huverova brana (Arizona), a drugi put kao Huverova brana (Nevada). U svakom slučaju, nije baš najbolje plasirana danas. Rang je 1525.

Da vidimo gde je naš Đerdap. 

In [38]:
elektrane[elektrane['name'].str.contains('Djerdap')]

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank


Izgleda da ga nema na listi. Barem ne pod ovim imenom. Moraćemo da pokušamo drugačije.

## Filtriranje redova i selekcija kolona

Mi možemo da filtriramo podatke i pogledamo samo ono što nas interesuje. 34936 redova je svakako previše za pregledanje red po red. Izabraćemo sada samo onaj deo tabele u kom je Srbija zemlja u kojoj se nalazi elektrana. U uglaste zagrade iza imena tabele ćemo staviti logički iskaz `elektrane['country']=='SRB'`. Onda će nam od tabele ostati samo oni redovi u kojima je taj iskaz tačan, odnosno gde je zemlja Srbija.

In [39]:
elektrane[elektrane['country']=='SRB']

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
19832,SRB,Serbia,HE BAJINA BASTA,WRI1020282,420.0,43.9645,19.4102,Hydro,3555.0
19833,SRB,Serbia,HE DJERDAP I,WRI1020277,1086.0,44.6684,22.5268,Hydro,1452.0
19834,SRB,Serbia,HE DJERDAP II,WRI1020284,270.0,44.3065,22.5667,Hydro,4577.5
19835,SRB,Serbia,RHE BAJINA BASTA,WRI1020281,614.0,43.9645,19.4102,Hydro,2681.0
19836,SRB,Serbia,TE KOLUBARA,WRI1020285,245.0,44.4806,20.2934,Coal,4825.0
19837,SRB,Serbia,TE KOSOVO A,WRI1020280,617.0,42.6773,21.0886,Coal,2674.0
19838,SRB,Serbia,TE KOSOVO B,WRI1020279,618.0,42.6945,21.059,Coal,2670.5
19839,SRB,Serbia,TE KOSTOLAC A,WRI1020283,281.0,44.7229,21.1717,Coal,4477.5
19840,SRB,Serbia,TE KOSTOLAC B,WRI1020278,697.0,44.7307,21.2104,Coal,2348.0
19841,SRB,Serbia,TE MORAVA,WRI1020288,110.0,44.2248,21.1627,Coal,7202.0


Sad je jasno zašto malopre nismo našli Đerdap. Trebalo je da ga napišemo velikim slovima. Ili, što bi bilo još bolje kažemo da `str.contains()` ne bude osetljiv na to da li su slova mala ili velika. Svejedno, sad imamo podatak da je Đerdap 1 1452. najveća elektrana na svetu. Termoelektrane u Obrenovcu su nam nešto bolje plasirane. Možda time ne bi trebalo da se hvalimo, ali možemo da konstatujemo.

### Složeni kriterijumi

Logički iskaz pomoću kog filtriramo podatke u tabeli može da bude složeniji. Evo primera kako koristimo dva uslova: da je elektrana u Srbiji i da je tipa "Hydro". Da bi rezultat logičkog iskaza bio izračunat kako treba oba pojedinačna iskaza stavite u zagrade i razdvojte znakom `&`.

In [40]:
elektrane[(elektrane['country']=='SRB') & (elektrane['primary_fuel']=='Hydro')]

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
19832,SRB,Serbia,HE BAJINA BASTA,WRI1020282,420.0,43.9645,19.4102,Hydro,3555.0
19833,SRB,Serbia,HE DJERDAP I,WRI1020277,1086.0,44.6684,22.5268,Hydro,1452.0
19834,SRB,Serbia,HE DJERDAP II,WRI1020284,270.0,44.3065,22.5667,Hydro,4577.5
19835,SRB,Serbia,RHE BAJINA BASTA,WRI1020281,614.0,43.9645,19.4102,Hydro,2681.0


## Agregacija podataka

Za neke analize je zgodno grupisati podatke. U primeru sa elektranama možemo, na primer, da uradimo pregled po zemljama -- da vidimo koliko ima ukupno elektrana i koliko imaju ukupno snage. Prvi korak je da pomoću funkcije `groupby()` grupišemo podatke u tabeli u odnosu da konkretnu kategoriju, tj. podatke u konkretnoj koloni.

In [41]:
po_zemljama=elektrane.groupby('country')

Struktura __po_zemljama__ je objekat složeniji od tabele i nije pogodan za prikaz. Bolje je da napravimo _DataFrame_ sa konkretnim statistikama koje nas interesuju. Počećemo od kolone u kojoj za sve zemlje saberemo vrednosti iz kolone __capacity_mw__.

In [42]:
gdf=pd.DataFrame(po_zemljama['capacity_mw'].sum())

In [43]:
gdf

Unnamed: 0_level_0,capacity_mw
country,Unnamed: 1_level_1
AFG,300.550
AGO,1071.180
ALB,1529.000
ARE,30327.000
ARG,32913.079
...,...
VNM,41350.490
YEM,1045.000
ZAF,50422.700
ZMB,2689.337


Tabeli __gdf__ ćemo pridružiti još jednu kolonu: ukupan broj elektrana. Ovu kolonu ćemo nazvati __count__.

In [44]:
gdf['count']=po_zemljama['capacity_mw'].count()

Još samo da tabelu sortiramo po broju elektrana.

In [45]:
gdf.sort_values('count', ascending=False)

Unnamed: 0_level_0,capacity_mw,count
country,Unnamed: 1_level_1,Unnamed: 2_level_1
USA,1.204638e+06,9833
CHN,1.415067e+06,4235
GBR,9.715528e+04,2751
BRA,1.475893e+05,2360
FRA,1.106159e+05,2155
...,...,...
PSE,7.600000e+00,1
DJI,1.073320e+02,1
SUR,5.000000e+00,1
ESH,2.340000e+01,1


Sada vidimo kolika je ukupna snaga elektrana u SAD, Kini, Britaniji... Ukupno, za ceo svet to može da se sabere i dobijamo 5.7 teravata snage.

In [46]:
gdf.capacity_mw.sum()

5706975.447256997

## Povezivanje tabela

Nemamo uvek sve potrebne podatke u jednoj tabeli. Na primer, u tabeli sa elektranama nemamo podatak o tome na kom se kontinentu nalaze elektrane, a baš nas interesuje da vidimo koliko koji kontinent proizvodi struje. Rešenje je da nađemo drugu tabelu u kojoj imamo podatke na kom je kontinentu koja zemlja pa da te dve tabele povežemo. Važno je da nađemo tabelu koja ima na isti način zapisane vrednosti po kojima hoćemo da povežemo tabele. Ako u jednoj piše "United Kingdom" a u drugoj "Great Britain" to će biti muka za povezivanje. Baš zato su međunarodne agencije standardizovale nazive i oznake za zemlje, regije, opštine itd. Da vidimo šta piše u jednoj takvoj [tabeli](https://datahub.io/JohnSnowLabs/country-and-continent-codes-list/r/country-and-continent-codes-list-csv.csv).

In [47]:
zemlje=pd.read_csv("data/country-and-continent-codes-list.csv")

In [48]:
zemlje.head(8)

Unnamed: 0,Continent_Name,Continent_Code,Country_Name,Two_Letter_Country_Code,Three_Letter_Country_Code,Country_Number
0,Asia,AS,"Afghanistan, Islamic Republic of",AF,AFG,4.0
1,Europe,EU,"Albania, Republic of",AL,ALB,8.0
2,Antarctica,AN,Antarctica (the territory South of 60 deg S),AQ,ATA,10.0
3,Africa,AF,"Algeria, People's Democratic Republic of",DZ,DZA,12.0
4,Oceania,OC,American Samoa,AS,ASM,16.0
5,Europe,EU,"Andorra, Principality of",AD,AND,20.0
6,Africa,AF,"Angola, Republic of",AO,AGO,24.0
7,North America,,Antigua and Barbuda,AG,ATG,28.0


Dovoljno je baciti pogled na tabelu pa da vidimo da je u jednoj tabeli "Afghanistan", a u drugoj "Afghanistan, Islamic Republic of". Srećom, kolone __country__ u prvoj i __Three_Letter_Country_Code__ imaju iste troslovne oznake: "AFG" je na oba mesta. Nadamo se da se podaci podudaraju i za druge zemlje.

Pomoću funkcije `merge()` iz __pandas__ biblioteke možemo da spojimo dve tabele. To možemo da uradimo tako što od dve tabele pravimo treću ili tako što jednu dopunjujemo podacima iz druge. Svejedno, argumenti funkcije treba da budu nazivi tabela i kolona po kojima ih povezujemo. Lakše je ako se te kolone zovu isto u obe tabele. Onda je dovoljan jedan argument, npr. `on="country"`, ali to kod nas nije slučaj pa smo naveli oba: `left_on` i `right_on`. Imajte u vidu da se liste po kojima povezujemo tabele možda ne poklapaju savršeno. Podrazumevani argument je `how="inner"` što znači da će nova tabela imati samo one redove koje se nalaze i u prvoj i u drugoj. To možemo da menjamo, ali se nećemo sad u to upuštati.

In [49]:
gdf=gdf.merge(zemlje, left_on="country", right_on="Three_Letter_Country_Code")

In [50]:
gdf

Unnamed: 0,capacity_mw,count,Continent_Name,Continent_Code,Country_Name,Two_Letter_Country_Code,Three_Letter_Country_Code,Country_Number
0,300.550,9,Asia,AS,"Afghanistan, Islamic Republic of",AF,AFG,4.0
1,1071.180,14,Africa,AF,"Angola, Republic of",AO,AGO,24.0
2,1529.000,8,Europe,EU,"Albania, Republic of",AL,ALB,8.0
3,30327.000,30,Asia,AS,United Arab Emirates,AE,ARE,784.0
4,32913.079,236,South America,SA,"Argentina, Argentine Republic",AR,ARG,32.0
...,...,...,...,...,...,...,...,...
168,41350.490,236,Asia,AS,"Vietnam, Socialist Republic of",VN,VNM,704.0
169,1045.000,7,Asia,AS,Yemen,YE,YEM,887.0
170,50422.700,104,Africa,AF,"South Africa, Republic of",ZA,ZAF,710.0
171,2689.337,15,Africa,AF,"Zambia, Republic of",ZM,ZMB,894.0


Kako bismo sad od ovoga napravili tabelu sa brojem elektrana i ukupnom snagom po kontinentima? Opet ćemo grupisati podatke.

In [51]:
po_kontinentima=gdf.groupby('Continent_Name')

In [52]:
gdf2=pd.DataFrame(po_kontinentima['capacity_mw'].sum())

In [53]:
gdf2

Unnamed: 0_level_0,capacity_mw
Continent_Name,Unnamed: 1_level_1
Africa,160532.8
Antarctica,7.6
Asia,2940987.0
Europe,1140829.0
North America,1430915.0
Oceania,73250.85
South America,271601.7


Bez mnogo analize vidimo da Evropa proizvodi sedam puta više struje nego Afrika. Mi ovde završavamo zajedničko istraživanje na temu elektrana. Sve ostalo prepuštamo vama za samostalni rad.

## Snimanje podataka

Ostaje nam još samo jedna stvar koju moramo da uradimo pre nego što bude kasno -- da snimimo rezultat. Pomoću fukcije `to_csv()` _DataFrame_ ćemo lako snimiti kao CSV fajl.

In [54]:
gdf2.to_csv("output/po_kontinentima.csv")