# Елементарна обрада табеларних података у Пајтону 

Обрада података подразумева технички део рада са подацима: прикупљање, организацију, трансформисање, филтрирање и форматирање података закључно са чишћењем података. То је она фаза у раду са подацима која не захтева посебно доменско, односно експертско знање о значењу и контексту података. То значи да обраду података може да ради и неко коме то није ужа област. Она претходи фази анализе података за коју је специјалистичко знање неопходно.

Обрада дигиталних података најчешће почиње тако што их учитамо у програм у ком радимо обраду. 

## Учитавање података

Подаци са којима најчешће радимо у јавној управи углавном се налазе у DOCX (Word), XLSX (Excel), PDF i HTML форматима. Са аспекта машинске обраде податка овај избор формата је далеко од оптималног, али је згодан за индивидуални рад са подацима.

Са друге стране, обрада података се увек своди на рад са једноставним, добро документованим и отвореним форматима за које не морамо да користимо било какав комерцијални софтвер. Чак и када се подаци учитавају из врло сложених формата они се трансформишу у табеле које се чувају у свега неколико основних формата. Најчешће се за табеларне податке користи _Comma Separated Value_ (CSV) формат где се вредности одвојене зарезом записане у текстуалном формату.

Библиотека `pandas` има мноштво функција неопходних за учитавање, манипулацију и чување података. Због тога је готово неизбежна у обради података. Скоро да нема програма у Пајтону који на почетку немају `import pandas as pd`.

In [1]:
import pandas as pd

То нам омогућава да податке из фајла учитамо у структуру са којом се у Пајтону једноставно ради -- __DataFrame__.

За потребе рада у овој свесци користићемо два фајла са подацима. Њих можете сами да преузмете са интернета са [Global Power Plant Database](https://datasets.wri.org/dataset/globalpowerplantdatabase), али смо их због једноставности поставили у поддиректеријум __./data__ нашег радног директоријума. Ту се налази и сви остали фајлови са подацима који ће нам бити потребни у овом курсу. За почетак, учитавамо фајл који садржи списак свих великих електрана у свету.

In [2]:
elektrane=pd.read_csv("data/global_power_plant_database.csv")

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Пошто фајл прилично велики, вероватно ћете добити упозорење да у табели имамо различите типове података и овакав учитавање фајла, без спецификације који тип података имамо у којој колони, није ефикасан. С обзиром да ћемо овај фајл учитавати само једном, најбоље је да игноришете ово упозорење. Ако баш не можете, обајсните рачунару да не мора да се плаши да ће остати без слободне меморије и учитајте податке са `elektrane=pd.read_csv("data/global_power_plant_database.csv", low_memory=False)`. У том случају неће приказивати упозорење.

У сваком случају, пожељно је да помоћу функције `info()` погледамо шта се налази у фајлу, које су то колоне и који је тип података у њим садржано.

In [3]:
elektrane.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34936 entries, 0 to 34935
Data columns (total 36 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   country                         34936 non-null  object 
 1   country_long                    34936 non-null  object 
 2   name                            34936 non-null  object 
 3   gppd_idnr                       34936 non-null  object 
 4   capacity_mw                     34936 non-null  float64
 5   latitude                        34936 non-null  float64
 6   longitude                       34936 non-null  float64
 7   primary_fuel                    34936 non-null  object 
 8   other_fuel1                     1944 non-null   object 
 9   other_fuel2                     276 non-null    object 
 10  other_fuel3                     92 non-null     object 
 11  commissioning_year              17447 non-null  float64
 12  owner                           

Пајтон често користи општије типове података да се при учитавању не би нешто изгубило. Тако су целобројне вредности меморисане као 64-обитни децимални бројеви (float64), а текст као објекат (object). То није најбоље са аспекта корићења меморије, али сада не морамо тиме да се бавимо. Ако затреба, моћи ћете касније да промените тип променљиве у колони.

Други начин да видимо шта се налази у табели је да помоћу функције `head()` погледамо заглавље, тј. називе колона са првих неколико редова. Слично, можемо да погледамо и "зачеље" табеле помоћу функције `tail()`.

In [4]:
elektrane.head()

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,other_fuel1,other_fuel2,...,estimated_generation_gwh_2013,estimated_generation_gwh_2014,estimated_generation_gwh_2015,estimated_generation_gwh_2016,estimated_generation_gwh_2017,estimated_generation_note_2013,estimated_generation_note_2014,estimated_generation_note_2015,estimated_generation_note_2016,estimated_generation_note_2017
0,AFG,Afghanistan,Kajaki Hydroelectric Power Plant Afghanistan,GEODB0040538,33.0,32.322,65.119,Hydro,,,...,123.77,162.9,97.39,137.76,119.5,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1
1,AFG,Afghanistan,Kandahar DOG,WKS0070144,10.0,31.67,65.795,Solar,,,...,18.43,17.48,18.25,17.7,18.29,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE
2,AFG,Afghanistan,Kandahar JOL,WKS0071196,10.0,31.623,65.792,Solar,,,...,18.64,17.58,19.1,17.62,18.72,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE,SOLAR-V1-NO-AGE
3,AFG,Afghanistan,Mahipar Hydroelectric Power Plant Afghanistan,GEODB0040541,66.0,34.556,69.4787,Hydro,,,...,225.06,203.55,146.9,230.18,174.91,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1
4,AFG,Afghanistan,Naghlu Dam Hydroelectric Power Plant Afghanistan,GEODB0040534,100.0,34.641,69.717,Hydro,,,...,406.16,357.22,270.99,395.38,350.8,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1,HYDRO-V1


## Избор колона

Видимо да _DataFrame_ __elektrane__ има 34936 редова и 36 колона. За учење рада са табелама нам није неопходно да их све имамо у меморији. За потребе ове демонстације узећемо само првих осам колона, закључно са колоном у којој је примарни тип горива. За то ћемо користити индексе редова и колона помоћу `iloc[:,0:8]`. Ово прво __:__ значи да узимамо све редове, а 0:8 да узимамо 8 колона почевши од индекса 0 (прва колона). Имајте у виду да се прва колона (за нас људе који гледамо испис на екрану) и не рачуна у колоне. То су само ознаке редова. За Пајтон, прва колона је __country__ и она има индекс 0.

In [5]:
elektrane=elektrane.iloc[:,0:8]

In [6]:
elektrane.head()

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel
0,AFG,Afghanistan,Kajaki Hydroelectric Power Plant Afghanistan,GEODB0040538,33.0,32.322,65.119,Hydro
1,AFG,Afghanistan,Kandahar DOG,WKS0070144,10.0,31.67,65.795,Solar
2,AFG,Afghanistan,Kandahar JOL,WKS0071196,10.0,31.623,65.792,Solar
3,AFG,Afghanistan,Mahipar Hydroelectric Power Plant Afghanistan,GEODB0040541,66.0,34.556,69.4787,Hydro
4,AFG,Afghanistan,Naghlu Dam Hydroelectric Power Plant Afghanistan,GEODB0040534,100.0,34.641,69.717,Hydro


На овај начин смо изабрали које колоне желимо да користимо и сачували само то у табели __elektrane__. Слично смо могли да ставимо листу уместо 0:8 где тачно наведемо које колоне хоћемо, нпр. [0,4,7]. Пробајте.

In [7]:
elektrane.iloc[:,[0,4,7]]

Unnamed: 0,country,capacity_mw,primary_fuel
0,AFG,33.0,Hydro
1,AFG,10.0,Solar
2,AFG,10.0,Solar
3,AFG,66.0,Hydro
4,AFG,100.0,Hydro
...,...,...,...
34931,ZMB,50.0,Oil
34932,ZMB,20.0,Oil
34933,ZMB,108.0,Hydro
34934,ZWE,920.0,Coal


Пошто у овој проби нисмо доделили нове вредности табели __elektrane__, у меморији је остала она табела са осам колона.

## Табулација

Један од првих корака у "експлоративној анализи података", односно утврђивању шта све имамо у табели јесте да пребројимо колико чега има. Оно што се стручно зове табулација, крос-табулација или _contingency table_ је заправо обично пребројавање елемената по категоријама. За почетак, узећемо колону са ознакама земаља у којима се налазе електране у пребрајати их помоћу функције `value_counts()`. То ће нам рећи колико има електрана у којој земљи. При томе ће функција која пребројава елементе сортирати низ од највећег ка најмањем па ће на првом месту бити земља са највећим бројем електрана у овој табели. 

In [8]:
elektrane.value_counts('country')

country
USA    9833
CHN    4235
GBR    2751
BRA    2360
FRA    2155
       ... 
PSE       1
DJI       1
SUR       1
ESH       1
GNB       1
Length: 167, dtype: int64

### Крос-табулација

Крос-табулација је пребројавање елемената по две одвојене категорије. Овде ћемо, на пример, пребројати колико се пута помиње која земља за сваки тип примарних горива. Тако ћемо видети ко има колико електрана на ветар, колико нуклеарних електрана итд. Да бисмо то урадили није довољна функција __value_counts()__ већ морамо да раздвојимо колоне које ћемо третирати као посебне категоријалне променљиве. Функција `crostab()` захтева два аргумента тог типа. То су управо две колоне наше табеле.

In [9]:
zemljа=elektrane['country']
gorivo=elektrane['primary_fuel']

In [10]:
zemljа

0        AFG
1        AFG
2        AFG
3        AFG
4        AFG
        ... 
34931    ZMB
34932    ZMB
34933    ZMB
34934    ZWE
34935    ZWE
Name: country, Length: 34936, dtype: object

In [11]:
pd.crosstab(zemljа,gorivo)

primary_fuel,Biomass,Coal,Cogeneration,Gas,Geothermal,Hydro,Nuclear,Oil,Other,Petcoke,Solar,Storage,Waste,Wave and Tidal,Wind
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
AFG,0,0,0,1,0,6,0,0,0,0,2,0,0,0,0
AGO,0,0,0,3,0,5,0,6,0,0,0,0,0,0,0
ALB,0,0,0,0,0,7,0,0,1,0,0,0,0,0,0
ARE,0,0,0,24,0,0,0,0,0,0,6,0,0,0,0
ARG,0,9,0,57,0,50,3,96,2,0,7,0,0,0,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
VNM,2,24,0,9,0,174,0,6,0,0,16,0,0,0,5
YEM,0,0,0,1,0,0,0,6,0,0,0,0,0,0,0
ZAF,2,17,0,2,0,6,1,2,0,0,44,0,6,0,24
ZMB,1,1,0,0,0,5,0,7,0,0,1,0,0,0,0


Изгледа да ових типова горива има више него што смо очекивали (15). Свеједно, одавде можемо да видимо ко има колико електрана ког типа. Како се који тип горива зове могли смо да добијемо са `elektrane.value_counts('primary_fuel')`. Алтернативно, можемо да искористимо функцију `columns` која ће нам исте податке дати за категоријалну табелу.

In [12]:
pd.crosstab(zemljа,gorivo).columns

Index(['Biomass', 'Coal', 'Cogeneration', 'Gas', 'Geothermal', 'Hydro',
       'Nuclear', 'Oil', 'Other', 'Petcoke', 'Solar', 'Storage', 'Waste',
       'Wave and Tidal', 'Wind'],
      dtype='object', name='primary_fuel')

## Сортирање

Мењаајући редослед редова и колона у табели можемо да уредимо табелу како нама одговара, а да притом ништа не изгубимо од податка. Најчешће се редослед мења тако што сортирамо податке по азбучном/абецедном реду ако су текстуални или по величини ако су нумерички. Свако сортирање може да се врши и хијерархијски. Сетите се фудбалских табела: клубови су сортирани по броју бодова, али ако имају исти број бодова онда их сортирамо по гол-разлици. Ту онда имамо два критеријума сортирања. Важан је и смер сортирања. Нумерички подаци, на пример, могу да се сортирају по растућем или опадајућем редоследу.

Ми ћемо сада податке о светским електранама да сортирамо по снази израженој у мегаватима (колона __capacity_mw__) почевши од електране која има највећу снагу (тј. по реду који није растући -- __ascending=False__).

In [13]:
elektrane.sort_values('capacity_mw', ascending=False)

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel
8453,CHN,China,Three Gorges Dam,WRI1000452,22500.0,30.8235,111.0032,Hydro
5137,CHN,China,Baihetan Dam,WRI1070877,13050.0,28.2606,103.6484,Hydro
8755,CHN,China,Xiluodu,WRI1000453,12600.0,28.2600,103.6500,Hydro
19603,RUS,Russia,Surgutskaya GRES-2,WRI1003821,8865.0,61.2794,73.4889,Gas
34668,VEN,Venezuela,Simon Bolivar (Guri),WRI1018677,8851.0,7.7659,-62.9982,Hydro
...,...,...,...,...,...,...,...,...
33625,USA,United States of America,USS Solar Dawn CSG,USA0062044,1.0,45.4918,-92.8417,Solar
15796,IDN,Indonesia,Sempor/Mrica,WRI1001009,1.0,-7.4733,109.3331,Hydro
33624,USA,United States of America,USS Rockpoint Solar CSG,USA0062000,1.0,45.4396,-92.9221,Solar
23239,GBR,United Kingdom,Innerwick Hydro,GBR0000472,1.0,56.6003,-4.3052,Hydro


Табела нам показује да хидроелектрана "Три клисуре" у Кини има највећи капацитет: 22,5 гигавата. Неки од нас су у школи учили да је Хуверова електрана на реци Колорадо производи највише струје. Давно је то било. Изгледа да се нешто променило. Да бисмо утврдили која је по реду Хуверова електрана данас потребно је да електранама придружимо позицију на ранг-листи. Најбоље је да целој табели додамо колону у којој ће бити ранг електране од највеће до најмање. Ту колону ћемо назвати __rank__. (И остали називи колона су нам на енглеском, зар не?)

In [14]:
elektrane['rank']=elektrane['capacity_mw'].rank(ascending=False)

Приметите да смо у претходном случају само приказали сортирану табелу, а да смо потом оригиналнох табели __elektrane__ придружили колону са ранг-листом. То је само други начин сортирања. Да видимо како сад изгледа заглавље табеле. Прва на табели је авганистанска електрана која је 13036. на ранг-листи. Видимо да негде има има и нецелобројних вредности за ранг. То је зато што их има више са истом снагом. 

In [15]:
elektrane.head()

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
0,AFG,Afghanistan,Kajaki Hydroelectric Power Plant Afghanistan,GEODB0040538,33.0,32.322,65.119,Hydro,13036.0
1,AFG,Afghanistan,Kandahar DOG,WKS0070144,10.0,31.67,65.795,Solar,20851.5
2,AFG,Afghanistan,Kandahar JOL,WKS0071196,10.0,31.623,65.792,Solar,20851.5
3,AFG,Afghanistan,Mahipar Hydroelectric Power Plant Afghanistan,GEODB0040541,66.0,34.556,69.4787,Hydro,9260.0
4,AFG,Afghanistan,Naghlu Dam Hydroelectric Power Plant Afghanistan,GEODB0040534,100.0,34.641,69.717,Hydro,7690.5


Да бисмо сада у називу нашли "Hoover", "Djerdap" или "Gorges" морамо да променимо тип података у колони __name__ тако да буде текст, односно _str_. За Пајтон је то и даље колона у којој су подаци типа _object_. То ћемо урадити помоћу функције `astype()` и аргумента __"str"__.

In [16]:
elektrane['name']= elektrane['name'].astype("str")

Сада кад у колони __name__ имамо податке типа __str__ можемо да питамо где се на ранг-листи налазе електране које нас интересују. То ћемо урадити помоћу функције `str.contains()` која проверава да ли се неки текст налази у некој текстуалној променљивој.

In [17]:
elektrane[elektrane['name'].str.contains('Hoover')]

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
28706,USA,United States of America,Hoover Dam (AZ),USA0008902,1039.4,36.0155,-114.738,Hydro,1525.5
28707,USA,United States of America,Hoover Dam (NV),USA0000154,1039.4,36.0155,-114.738,Hydro,1525.5


Изгледа да се Хуверова електрана води два пута у листи. Једном као Хуверова брана (Аризона), а други пут као Хуверова брана (Невада). У сваком случају, није баш најбоље пласирана данас. Ранг је 1525. 

Да видимо где је наш Ђердап.

In [18]:
elektrane[elektrane['name'].str.contains('Djerdap')]

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank


Изгледа да га нема на листи. Барем не под овим именом. Мораћемо да покушамо другачије.

## Филтрирање редова и селекција колона

Ми можемо да филтрирамо податке и погледамо само оно што нас интересује. 34936 редова је свакако превише за прегледање ред по ред. Изабраћемо сада само онај део табеле у ком је Србија земља у којој се налази електрана. У угласте заграде иза имена табеле ћемо ставити логички исказ `elektrane['country']=='SRB'`. Онда ће нам од табеле остати само они редови у којима је тај исказ тачан, односно где је земља Србија.

In [19]:
elektrane[elektrane['country']=='SRB']

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
19832,SRB,Serbia,HE BAJINA BASTA,WRI1020282,420.0,43.9645,19.4102,Hydro,3555.0
19833,SRB,Serbia,HE DJERDAP I,WRI1020277,1086.0,44.6684,22.5268,Hydro,1452.0
19834,SRB,Serbia,HE DJERDAP II,WRI1020284,270.0,44.3065,22.5667,Hydro,4577.5
19835,SRB,Serbia,RHE BAJINA BASTA,WRI1020281,614.0,43.9645,19.4102,Hydro,2681.0
19836,SRB,Serbia,TE KOLUBARA,WRI1020285,245.0,44.4806,20.2934,Coal,4825.0
19837,SRB,Serbia,TE KOSOVO A,WRI1020280,617.0,42.6773,21.0886,Coal,2674.0
19838,SRB,Serbia,TE KOSOVO B,WRI1020279,618.0,42.6945,21.059,Coal,2670.5
19839,SRB,Serbia,TE KOSTOLAC A,WRI1020283,281.0,44.7229,21.1717,Coal,4477.5
19840,SRB,Serbia,TE KOSTOLAC B,WRI1020278,697.0,44.7307,21.2104,Coal,2348.0
19841,SRB,Serbia,TE MORAVA,WRI1020288,110.0,44.2248,21.1627,Coal,7202.0


Сад је јасно зашто малопре нисмо нашли Ђердап. Требало је да га напишемо великим словима. Или, што би било још боље кажемо да __str.contains()__ не буде осетљив на то да ли су слова мала или велика. Свеједно, сад имамо податак да је Ђердап 1 1452. највећа електррана на свету. Термоелектране у Обреновцу су нам нешто боље пласиране. Можда тиме не би требало да се хвалимо, али можемо да констатујемо.

### Сложени критеријуми

Логички исказ помоћу ког филтрирамо податке у табели може да буде сложенији. Ево примера како користимо два услова: да је електрана у Србији и да је типа "Hydro". Да би резултат логичког исказа био израчунат како треба оба појединачна исказа ставите у заграде и раздвојте знаком __&__.

In [20]:
elektrane[(elektrane['country']=='SRB') & (elektrane['primary_fuel']=='Hydro')]

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
19832,SRB,Serbia,HE BAJINA BASTA,WRI1020282,420.0,43.9645,19.4102,Hydro,3555.0
19833,SRB,Serbia,HE DJERDAP I,WRI1020277,1086.0,44.6684,22.5268,Hydro,1452.0
19834,SRB,Serbia,HE DJERDAP II,WRI1020284,270.0,44.3065,22.5667,Hydro,4577.5
19835,SRB,Serbia,RHE BAJINA BASTA,WRI1020281,614.0,43.9645,19.4102,Hydro,2681.0


Филтрирање података можемо да добијемо и помоћу функције `query()` која чита стринг у ком је услов на основу ког хоћемо да филтрирамо податке. Оваква синтакса је вероватно ближа онима који су навикли на базе података у користе SQL. У сваком случају, једноставније је код дужих записа услова. Иако је Пајтону свеједно да ли за навођење стринга користите апостроф __'__ или наводнике __"__, због читљивости кода, добро је да за стринг унутар другог стринга користите она други начин. Друга ствар на коју треба да обратите пажњу је да __query()__ неће радити ако називи колона садрже размак. Код нас су размаци већ замењени доњим цртицама па то неће бити проблем.

In [21]:
elektrane.query('country=="SRB" & primary_fuel=="Hydro"')

Unnamed: 0,country,country_long,name,gppd_idnr,capacity_mw,latitude,longitude,primary_fuel,rank
19832,SRB,Serbia,HE BAJINA BASTA,WRI1020282,420.0,43.9645,19.4102,Hydro,3555.0
19833,SRB,Serbia,HE DJERDAP I,WRI1020277,1086.0,44.6684,22.5268,Hydro,1452.0
19834,SRB,Serbia,HE DJERDAP II,WRI1020284,270.0,44.3065,22.5667,Hydro,4577.5
19835,SRB,Serbia,RHE BAJINA BASTA,WRI1020281,614.0,43.9645,19.4102,Hydro,2681.0


## Агрегација података

За неке анализе је згодно груписати податке. У примеру са електранама можемо, на пример, да урадимо преглед по земљама -- да видимо колико има укупно електрана и колико имају укупно снаге. Први корак је да помоћу функције `groupby()` групишемо податке у табели у односу да конкретну категорију, тј. податке у конкретној колони.

In [22]:
po_zemljama=elektrane.groupby('country')

Структура __po_zemljama__ је објекат сложенији од табеле и није покодан за приказ. Боље је да направимо _DataFrame_ са конкретним статистикама које нас интересују. Почећемо од колоне у којој за све земље саберемо вредности из колоне __capacity_mw__.

In [23]:
gdf=pd.DataFrame(po_zemljama['capacity_mw'].sum())

In [24]:
gdf

Unnamed: 0_level_0,capacity_mw
country,Unnamed: 1_level_1
AFG,300.550
AGO,1071.180
ALB,1529.000
ARE,30327.000
ARG,32913.079
...,...
VNM,41350.490
YEM,1045.000
ZAF,50422.700
ZMB,2689.337


Табели __gdf__ ћемо придружити још једну колону: укупан број електрана. Ову колону ћемо назвати __count__.

In [25]:
gdf['count']=po_zemljama['capacity_mw'].count()

Још само да табелу сортирамо по броју електрана.

In [26]:
gdf.sort_values('count', ascending=False)

Unnamed: 0_level_0,capacity_mw,count
country,Unnamed: 1_level_1,Unnamed: 2_level_1
USA,1.204638e+06,9833
CHN,1.415067e+06,4235
GBR,9.715528e+04,2751
BRA,1.475893e+05,2360
FRA,1.106159e+05,2155
...,...,...
PSE,7.600000e+00,1
DJI,1.073320e+02,1
SUR,5.000000e+00,1
ESH,2.340000e+01,1


Сада видимо колика је укупна снага електрана у САД, Кини, Британији... Укупно, за цео свет то може да се сабере и добијамо 5.7 теравата снаге.

In [27]:
gdf.capacity_mw.sum()

5706975.447256997

## Повезивање табела

Немамо увек све потребне податке у једној табели. На пример, у табели са електранама немамо податак о томе на ком се континенту налазе електране, а баш нас интересује да видимо колико који континет производи струје. Решење је да нађемо другу табелу у којој имамо податке на ком је континенту која земља па да те две табеле повежемо. Важно је да нађемо табелу која има на исти начин записане вредности по којима хоћемо да повежемо табеле. Ако у једној пише "United Kingdom" а у другој "Great Britain" то ће бити мука за повезивање. Баш зато су међународне агенције стандардизовале називе и ознаке за земље, регије, општине итд. Да видимо шта пише у једној таквој табели.

In [28]:
zemlje=pd.read_csv("https://datahub.io/JohnSnowLabs/country-and-continent-codes-list/r/country-and-continent-codes-list-csv.csv")

Ако скидање табеле са интернета не ради, исту табелу имамо у директоријуму __./data/country-and-continent-codes-list__. 

In [29]:
zemlje.head(8)

Unnamed: 0,Continent_Name,Continent_Code,Country_Name,Two_Letter_Country_Code,Three_Letter_Country_Code,Country_Number
0,Asia,AS,"Afghanistan, Islamic Republic of",AF,AFG,4.0
1,Europe,EU,"Albania, Republic of",AL,ALB,8.0
2,Antarctica,AN,Antarctica (the territory South of 60 deg S),AQ,ATA,10.0
3,Africa,AF,"Algeria, People's Democratic Republic of",DZ,DZA,12.0
4,Oceania,OC,American Samoa,AS,ASM,16.0
5,Europe,EU,"Andorra, Principality of",AD,AND,20.0
6,Africa,AF,"Angola, Republic of",AO,AGO,24.0
7,North America,,Antigua and Barbuda,AG,ATG,28.0


Довољно је бацити поглед на табелу па да видимо да је у једној табели "Afghanistan", а у другој "Afghanistan, Islamic Republic of". Срећом, колоне __country__ у првој и __Three_Letter_Country_Code__ имају исте трословне ознаке: "AFG" је на оба места. Надамо се да се подаци подударају и за друге земље.

Помоћу функције `merge()` из __pandas__ библиотеке можемо да спојимо две табеле. То можемо да урадимо тако што од две табеле правимо трећу или тако што једну допуњујемо подацима из друге. Свеједно, аргументи функције треба да буду називи табела и колона по којима их повезујемо. Лакше је ако се те колоне зову исто у обе табеле. Онда је довољан један аргумент, нпр. __on="country"__, али то код нас није случај па смо навели оба: __left_on__ и __right_on__. Имајте у виду да се листе по којима повезујемо табеле можда не поклапају савршено. Подразумевани аргумент је __how="inner"__ што значи да ће нова табела имати само оне колоне које се налазе и у првој и у другој. То можемо да мењамо, али се нећемо сад у то упуштати.

In [30]:
gdf=gdf.merge(zemlje, left_on="country", right_on="Three_Letter_Country_Code")

In [31]:
gdf

Unnamed: 0,capacity_mw,count,Continent_Name,Continent_Code,Country_Name,Two_Letter_Country_Code,Three_Letter_Country_Code,Country_Number
0,300.550,9,Asia,AS,"Afghanistan, Islamic Republic of",AF,AFG,4.0
1,1071.180,14,Africa,AF,"Angola, Republic of",AO,AGO,24.0
2,1529.000,8,Europe,EU,"Albania, Republic of",AL,ALB,8.0
3,30327.000,30,Asia,AS,United Arab Emirates,AE,ARE,784.0
4,32913.079,236,South America,SA,"Argentina, Argentine Republic",AR,ARG,32.0
...,...,...,...,...,...,...,...,...
168,41350.490,236,Asia,AS,"Vietnam, Socialist Republic of",VN,VNM,704.0
169,1045.000,7,Asia,AS,Yemen,YE,YEM,887.0
170,50422.700,104,Africa,AF,"South Africa, Republic of",ZA,ZAF,710.0
171,2689.337,15,Africa,AF,"Zambia, Republic of",ZM,ZMB,894.0


Како бисмо сад од овога направили табелу са бројем електрана и укупном снагом по контитнетима? Опет ћемо груписати податке.

In [32]:
po_kontinentima=gdf.groupby('Continent_Name')

In [33]:
gdf2=pd.DataFrame(po_kontinentima['capacity_mw'].sum())

In [34]:
gdf2

Unnamed: 0_level_0,capacity_mw
Continent_Name,Unnamed: 1_level_1
Africa,160532.8
Antarctica,7.6
Asia,2940987.0
Europe,1140829.0
North America,1430915.0
Oceania,73250.85
South America,271601.7


Без много анализе видимо да Европа производи седам пута више струје него Африка. Ми овде завршавамо истраживање на тему електрана. Све остало препуштамо вама за самостални рад.

## Снимање података

Остаје нам још само једна ствар коју морамо да урадимо пре него што буде касно -- да снимимо резултат. Помоћу фукције `to_csv()` _DataFrame_ ћемо лако снимити као CSV фајл.

In [35]:
gdf2.to_csv("data/po_kontinentima.csv")