# Модул 3, Час 3: Табеларно проедстављени подаци

На овом часу ћемо показати:
1. како се користи библиотека pandas за учитавање података који су представљени на разне начине,
2. како се индексира табела,
3. како се транспонује табела и зашто је транспоновање понекад згодно, и
4. како се табеларно представљени подаци сортирају и филтрирају.

## 1. Библиотека *pandas* и учитавање података

Најмукотрпнији посао обраде података се састоји у томе да се подаци унесу у табелу. То је досадан посао који се често састоји у томе да се подаци просто прекуцају. Табеле са којима смо се сретали су зато биле веома мале. Модерна обрада података се, међутим, све више усмерава на анализу *огромних* количина података (енгл. *big data*) и ту прекуцавање података не долази у обзир.

### Учитавање из CSV датотека.

Подаци се данас углавном прикупљају аутоматски, и програми за прикупљање података генеришу велике табеле података које после треба обрађивати. Постоје разни формати за табеларно представљање података, а најједноставнији од њих се зове *CSV*, (од енгл. *comma separated values* што значи "вредности раздвојене зарезима").

*CSV* датотека је текстуална датотека у којој редови одговарају редовима табеле, а подаци унутар истог реда су раздвојени зарезима. На пример, у фолдеру *podaci* се налази датотека *Top 25 YouTubers.csv* која изгледа овако:

    RANK,GRADE,NAME,VIDEOS,SUBSCRIBERS,VIEWES
    1,A++,T-Series,13629,105783888,76945588449
    2,A,PewDiePie,3898,97853589,22298927681
    3,A+,5-Minute Crafts,3341,58629572,14860695079
    4,A++,Cocomelon - Nursery Rhymes,441,53163816,33519273951
    ...
    25,A,TheEllenShow,10542,33362512,16519572219

Ова табела садржи податке о 25 најпопуларнијих Јутјубера према броју претплатника на дан 1.7.2019. Први ред табеле представља заглавље табеле које нам каже да табела има шест колона (RANK, GRADE, NAME, VIDEOS, SUBSCRIBERS, VIEWES). Врста

    4,A++,Cocomelon - Nursery Rhymes,441,53163816,33519273951

значи да је на дан 1.7.2019. четврти по реду био Јутјуб канал са Јутјуб рангом А++ који се зове "Cocomelon - Nursery Rhymes" који је објавио укупно 441 видео на Јутјубу, који има 53.163.816 претплатника и 33.519.273.951 прегледа.

Библиотека `pandas` има функцију `read_csv` која учитава *CSV* датотеку и од ње прави табелу типа *DataFrame*. Ево примера:

In [None]:
import pandas as pd
Top25 = pd.read_csv("podaci/Top 25 YouTubers.csv")

Прикажимо првих неколико редова ове табеле. Функција `head(N)` приказује првих N редова табеле (енгл. *head* значи "глава"). Ако функцију позовемо без броја она ће приказати првих пет редова:

In [None]:
Top25.head()

In [None]:
Top25.head(10)

Функција `tail(N)` приказује последњих N редова табеле, односно, последњих пет редова ако је позвемо без аргумента (енгл. *tail* значи "реп"):

In [None]:
Top25.tail()

In [None]:
Top25.tail(7)

Прикажимо податке о броју претплатника стубичастим дијаграмом:

In [None]:
plt.figure(figsize=(15,10))
plt.bar(Top25["NAME"], Top25["SUBSCRIBERS"])
plt.title("Top 25 YouTube kanala prema broju pretplatnika")
plt.show()

Пошто су имена канала веома дугачка на хоризонталној оси се ништа не види. Зато ћемо уместо функције `bar` позвати функцију `barh` која ради исти посао, али стубиће исцртава хоризонтално:

In [None]:
plt.figure(figsize=(10,10))
plt.barh(Top25["NAME"], Top25["SUBSCRIBERS"])
plt.title("Top 25 YouTube kanala prema broju pretplatnika")
plt.show()

Библиотека *pandas* претпоставља да први ред табеле представља заглавље табеле. Уколико то није случај, приликом учитавања табеле морамо функцији *read_csv* објаснити да табела нема заглавље тако што наведемо опцију `header=None`:

In [6]:
ta = pd.read_csv("podaci/TemperaturneAnomalije.csv", header=None)

Погледајмо како ова табела изгледа:

In [7]:
ta

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,31,32,33,34,35,36,37,38,39,40
0,1977.0,1978.0,1979.0,1980.0,1981.0,1982.0,1983.0,1984.0,1985.0,1986.0,...,2008.0,2009.0,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0
1,0.22,0.14,0.15,0.3,0.37,0.15,0.4,0.23,0.14,0.28,...,0.48,0.59,0.77,0.55,0.56,0.62,0.71,0.85,1.1,0.92


### Учитавање из Ексел датотека

Мајкрософтов Ексел (*Microsoft Excel*) представља један од најраспрострањенијих софтверских производа за обраду табеларно представљених података. Библиотека *pandas* зато има функцију која може да учита податке представљене Ексел табелом.

Структура Ексел документа је релативно сложена јер у једном документу може да се налази више табела. Један Ексел документ се, зато, састоји из неколико *радних листова* (енгл. *work sheets*) па функцији за учитавање Ексел табеле поред имена датотеке треба дати и име радног листа са кога се учитава табела. Уколико се не наведе име радног листа функција ће учитати табелу из првог радног листа на који наиђе. Ово обично користимо само у ситуацијама када смо сигурни да Ексел радна свеска има само један радни лист.

Сада ћемо из датотеке *Aditivi.xlsx* која се налази у фолдеру *podaci* учитати табелу из (јединог) радног листа "Адитиви":

In [None]:
aditivi = pd.read_excel("podaci/Aditivi.xlsx", sheet_name="Адитиви")

Ова датотека садржи податке о адитивима, што су супстанце које се користе у индустрији. Неки од њих се користе и у индустрији хране. (Подаци су преузети из уџбеника биологије за 8. разред.)

Ево првих неколико редова табеле:

In [None]:
aditivi.head(15)

Видимо да су ћелије које су биле празне у Ексел табели овде добиле специјалну вредност *NaN* што је скраћеница од *not a number* (енгл. "није број"). Ово је специјална вредност која се користи да се открију потенцијалне грешке које могу да настану приликом учитавања великих табела. У нашем случају празне ћелије у колони "Напомена" и треба да остану празне, па ћемо табелу учитати поново, с тим да ћемо "замолити Пајтон да искључи вештачку интелигенцију":

In [None]:
aditivi = pd.read_excel("podaci/Aditivi.xlsx", sheet_name="Адитиви", na_filter=False)
aditivi.head(15)

Аргумент `na_filter=False` каже функцији `read_excel` да празне ћелије остану празне и да у њих не уноси вредност *NaN*.

### Учитавање из удаљених ресурса

Могуће је преузети и податке са удаљених ресурса без потребе да се они прво пребаце на локалну машину. Да бисмо приступили податку који се налази на некој другој машини потребно је да обе машине имају приступ Интернету и да знамо тачну локацију податка на удаљеној машини. Тачна локација било ког ресурса на Интернету је описана његовим *URL*-ом (од енгл. *Universal Resource Locator*, што значи "Универзални локатор ресурса").

На адреси

    https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv
    
се налази јавно доступан списак свих држава на свету. Ову табелу можемо лако учитати наредбом `read_csv`:

In [None]:
drzave = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
drzave.head(10)

Помоћу наредбе `read_html` може се прочитати и табела директно из *HTML* кода неке веб странице. Рецимо, следећа наредба чита списак свих федералних јединица Сједињених Америчких Држава са одговарајуће странице Википедије:

In [None]:
US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=[0,1])[0]

На веб страни коју читамо може бити више табела и зато функција `read_html` враћа *листу табела*. Табела коју желимо да видимо је прва на наведеној страни и зато иза наредбе следи конструкт `[0]`. Аргумент `header=[0,1]` значи да прве две врсте треба узети за заглавље табеле. Ево како изгледа табела:

In [None]:
US.head()

## 2. Индексирање табеле

Видели смо да је рад са колонама табеле веома једноставан.

Да бисмо могли да радимо са редовима табеле треба прво да нађемо једну колону чија вредност једнозначно одређује цео ред табеле. На пример, у табели са прошлог часа

| **Ime** | **Pol** | **Starost** | **Masa** | **Visina** |
|---|---|---|---|---|
|      Ana | ž | 13 | 46 | 160 |
|    Bojan | m | 14 | 52 | 165 |
|    Vlada | m | 13 | 47 | 157 |
|  Gordana | ž | 15 | 54 | 165 |
|    Dejan | m | 15 | 56 | 163 |
|    Đorđe | m | 13 | 45 | 159 |
|    Elena | ž | 14 | 49 | 161 |
|  Žaklina | ž | 15 | 52 | 164 |
|    Zoran | m | 15 | 57 | 167 |
|    Ivana | ž | 13 | 45 | 158 |
|    Jasna | ž | 14 | 51 | 162 |

колона "Ime" је таква колона (колона "Visina" није погодна јер имамо двоје деце са висином 165, па када кажемо "дете са висином 165" није јасно о коме се ради; исто тако ни колоне "Pol", "Starost" и "Masa" нису погодне).

Таква колона се зове *кључ* јер је она *кључна* за приступање редовима табеле. Ако желимо да приступамо елементима табеле по редовима, морамо систему да пријавимо коју колону ћемо користити као кључ. То се постиже позивом функције `set_index` којој проследимо име колоне, а она врати нову табелу "индексирану по датом кључу":

In [None]:
podaci = [["Ana",     "ž", 13, 46, 160],
          ["Bojan",   "m", 14, 52, 165],
          ["Vlada",   "m", 13, 47, 157],
          ["Gordana", "ž", 15, 54, 165],
          ["Dejan",   "m", 15, 56, 163],
          ["Đorđe",   "m", 13, 45, 159],
          ["Elena",   "ž", 14, 49, 161],
          ["Žaklina", "ž", 15, 52, 164],
          ["Zoran",   "m", 15, 57, 167],
          ["Ivana",   "ž", 13, 45, 158],
          ["Jasna",   "ž", 14, 51, 162]]
tabela = pd.DataFrame(podaci)
tabela.columns=["Ime", "Pol", "Starost", "Masa", "Visina"]
tabela1=tabela.set_index("Ime")

Нова табела (`tabela1`) се од старе (`tabela`) разликује само по томе што редови више нису индексирани бројевима (0, 1, 2, ...) већ именима деце (Ana, Bojan, Vlada, ...). Ево старе (неиндексиране табеле) која има колону "Ime" и чији редови су индексирани бројевима:

In [None]:
tabela

А ево и нове табеле у којој су редови индексирани именима деце:

In [None]:
tabela1

Колона "Ime" је и даље присутна у табели `tabela1`, али има посебан статус. Ако покушамо да јој приступимо као "обичној" колони добићемо грешку:

In [None]:
tabela1["Ime"]

Међутим, она је ту као *индексна колона*:

In [None]:
tabela1.index

Ако желимо да прикажемо висину деце у групи графиконом тако да имена деце буду на хоризонталној оси, то сада можемо урадити овако:

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(10,5))
plt.bar(tabela1.index, tabela1["Visina"])
plt.title("Visina dece u grupi")
plt.show()

Ознаке на хоризонталној оси узимамо из индексне колоне `tabela1.index`, док податке о висини стубића узимамо из колоне `tabela1["Visina"]`.

Структура података *DataFrame* је оптимизована за рад са колонама табеле. Срећом, када имамо индексирану табелу као што је то `tabela1`, користећи функцију `loc` (од енгл. *location* што значи "локација, положај, место") можемо да приступамо редовима табеле, као и појединачним ћелијама табеле.

Податке о појединачним редовима табеле можемо да видимо овако:

In [None]:
tabela1.loc["Dejan"]

Као аргумент функције `loc` можемо да наведемо и распон, и тако ћемо добити одговарајући део табеле:

In [None]:
tabela1.loc["Dejan":"Zoran"]

Ако као други аргумент функције `loc` наведемо име колоне, рецимо овако:

    tabela1.loc["Dejan", "Visina"]

добићемо информацију о Дејановој висини.

In [None]:
tabela1.loc["Dejan", "Visina"]

Ево како можемо да добијемо информацију о маси и висини неколико деце:

In [None]:
tabela1.loc["Dejan":"Zoran", "Masa":"Visina"]

Ево још једног једноставног примера. У ћелији испод дате су оцене неких ученика из информатике, енглеског, математике, физике, хемије и ликовног:

In [None]:
razred = [["Ana",     5, 3, 5, 2, 4, 5],
          ["Bojan",   5, 5, 5, 5, 5, 5],
          ["Vlada",   4, 5, 3, 4, 5, 4],
          ["Gordana", 5, 5, 5, 5, 5, 5],
          ["Dejan",   3, 4, 2, 3, 3, 4],
          ["Đorđe",   4, 5, 3, 4, 5, 4],
          ["Elena",   3, 3, 3, 4, 2, 3],
          ["Žaklina", 5, 5, 4, 5, 4, 5],
          ["Zoran",   4, 5, 4, 4, 3, 5],
          ["Ivana",   2, 2, 2, 2, 2, 5],
          ["Jasna",   3, 4, 5, 4, 5, 5]]

Сада ћемо од ових података направити табелу чије колоне ће се звати "Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Hemija", "Likovno" и која ће бити индексирана по колони "Ime":

In [None]:
ocene = pd.DataFrame(razred)
ocene.columns=["Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Hemija", "Likovno"]
ocene1 = ocene.set_index("Ime")
ocene1

Ако желимо да израчунамо просек по предметима, треба на сваку колону ове табеле да применимо функцију `mean`. Листа са именима свих колона табеле `ocene1` се добија као `ocene1.columns`, па сада само треба да прођемо кроз ову листу и за сваку колону да израчунамо просек:

In [None]:
for predmet in ocene1.columns:
    print(predmet, "->", round(ocene1[predmet].mean(), 2))

Да бисмо израчунали просечне оцене сваког ученика функцију `mean` ћемо применити на врсте табеле које добијамо позивом функције `loc`. Погледајмо, прво, како то можемо да урадимо за једног ученика:

In [None]:
print("Đorđe ima sledeće ocene:")
print(ocene1.loc["Đorđe"])
print("Prosek njegovih ocena je:", round(ocene1.loc["Đorđe"].mean(), 2))

Списак свих ученика се налази у индексној колони, па просеке по свим ученицима можемо да израчунамо овако:

In [None]:
for ucenik in ocene1.index:
    print(ucenik, "->", round(ocene1.loc[ucenik].mean(), 2))

## 3. Транспоновање табеле

Замена врста и колона табеле се зове *транспоновање*. Приликом транспоновања имена колона полазне табеле постају индекси нове табеле, док индексна колона полазне табеле одређује имена колона нове табеле:

![Транспоновање](slike/DataFrame-T.jpg)

Транспоновање се често користи када табела има мало веома дугачких редова, па је у неким ситуацијама лакше посматрати транспоновану табелу која онда има пуно релативно кратких редова. Функције `head` и `tail` нам тада омогућују да се брзо упознамо са почетком и крајем табеле и да стекнемо неку интуицију о томе како табела изгледа.

Важно је рећи и то да се са табелама може радити и без транспоновања, јер све што можемо да урадимо на колонама табеле можемо да урадимо и на врстама. И поред тога, транспоновање се често користи јер је библиотека `pandas` оптимизована за рад по колонама табеле.

Табела се транспонује тако што се на њу примени функција `Т` која као резултат враћа нову, транспоновану табелу.

Ево примера са оценама:

In [None]:
ocene1

Транспоновану табелу добијамо овако:

In [None]:
ocene2 = ocene1.T

In [None]:
ocene2

Хајде још да се уверимо да су врсте и колоне замениле места и у пољима `index` и `columns`. У полазној табели је:

In [None]:
ocene1.index

In [None]:
ocene1.columns

А у транспонованој табели је:

In [None]:
ocene2.index

In [None]:
ocene2.columns

Како смо раније већ видели, просек оцена по предметима добијамо лако:

In [None]:
for predmet in ocene1.columns:
    print(predmet, "->", round(ocene1[predmet].mean(), 2))

Да бисмо добили просек оцена по ученицима, можемо да приступимо врстама табеле користећи функцију `loc` како смо то већ видели, али можемо и да употребимо транспоновану табелу (рачунање просека по колонама, јер су колоне транспоноване табеле заправо врсте полазне табеле):

In [None]:
for ucenik in ocene2.columns:
    print(ucenik, "->", round(ocene2[ucenik].mean(), 2))

## 4. Елементарна анализа табеларно представљених података

*Сортирати податке* значи поређати их по величини. Да бисмо видели како се то ради у библиотеци *pandas* прво ћемо размотрити табелу са подацима о групи деце коју смо већ користили, колонама ћемо дати одговарајућа имена и индексираћемо табелу именима деце:

In [None]:
podaci = [["Ana",     "ž", 13, 46, 160],
          ["Bojan",   "m", 14, 52, 165],
          ["Vlada",   "m", 13, 47, 157],
          ["Gordana", "ž", 15, 54, 165],
          ["Dejan",   "m", 15, 56, 163],
          ["Đorđe",   "m", 13, 45, 159],
          ["Elena",   "ž", 14, 49, 161],
          ["Žaklina", "ž", 15, 52, 164],
          ["Zoran",   "m", 15, 57, 167],
          ["Ivana",   "ž", 13, 45, 158],
          ["Jasna",   "ž", 14, 51, 162]]
tabela = pd.DataFrame(podaci)
tabela.columns=["Ime", "Pol", "Starost", "Masa", "Visina"]
tabela1 = tabela.set_index("Ime")

Ево како табела изгледа:

In [None]:
tabela1

Хајде сада да сортирамо табелу по висини употребом функције `sort_values` (енгл. *sort* значи "сортирај, поређај по величини", док *values* значи "вредности").

Овој функцији морамо да кажемо по ком критеријуму се сортирају подаци (по висини, тежини, старости, ...) тако што име одговарајуће колоне наведемо као вредност аргумента `by` (енгл. реч "by" значи свашта, али у овом контексту значи "према").

Функција не мења полазну табелу, већ од ње прави нову:

In [None]:
tabela1_po_visini = tabela1.sort_values(by="Visina")
tabela1_po_visini

Пошто нисмо навели како желимо да сортирамо податке (од најмањег ка највећем, или обрнуто) подаци су сортирани од најмањег ка највећем. Уколико желимо да сортирамо табелу по висини, али од највеће ка најмањој, потребно је то нагласити користећи параметар `ascending=False` (енгл. *ascending* значи "растуће").

In [None]:
tabela1_po_visini = tabela1.sort_values(by="Visina", ascending=False)
tabela1_po_visini

Хајде, за крај, да прикажемо податке из овако сортиране табеле.

In [None]:
plt.figure(figsize=(10,5))
plt.bar(tabela1_po_visini.index, tabela1_po_visini["Visina"], label="Visina")
plt.bar(tabela1_po_visini.index, tabela1_po_visini["Masa"], label="Masa")
plt.title("Visina i masa dece u grupi")
plt.legend()
plt.show()

Често је из табеле потребно издвојити редове који имају неке особине. На пример, ако желимо да издвојимо само оне редове табеле у којима су наведени подаци о девојчицама, то можемо урадити на следећи начин:

    tabela1[tabela1.Pol == "ž"]

Овај израз ће из табеле `tabela1` издвојити све редове код којих у колони "Pol" пише "ž". (Обратите пажњу на то да се приликом формирања критеријума у изразу `tabela1.Pol` не пишу наводници! Не питајте зашто...)

In [None]:
devojke = tabela1[tabela1.Pol == "ž"]
devojke

На сличан начин можемо да издвојимо сву децу која имају преко 50 кг:

In [None]:
preko_50kg = tabela1[tabela1.Masa > 50]
preko_50kg

Критеријуме можемо и да комбинујемо. На пример, ако желимо да из табеле извучемо податке о свим дечацима са највише 55 кг треба из табеле да издвојимо податке који задовољавају два критеријума:

    Masa <= 55  и  Pol == "m".

Логички везник "и" се у библиотеци `pandas` означава симболом `&`. Према томе, податке добијамо тако што табели проследимо следећи захтев за филтрирање:

In [None]:
decaci_do_55kg = tabela1[(tabela1.Masa <= 55) & (tabela1.Pol == "m")]
decaci_do_55kg

Приказаћемо, за крај, податке о маси и висини ових дечака једним графиконом:

In [None]:
plt.figure(figsize=(6,6))
plt.bar(decaci_do_55kg.index, decaci_do_55kg["Visina"], label="Visina")
plt.bar(decaci_do_55kg.index, decaci_do_55kg["Masa"], label="Masa")
plt.title("Visina i masa dečaka do 55 kg u grupi")
plt.legend()
plt.show()

Да се подсетимо, фреквенцијска анализа низа података се своди на то да се преброји колико се пута који податак појављује у низу.  Док смо раније морали доста тога сами да урадимо, библиотека `pandas` има функцију `value_counts` која врши фреквенцијску анализу (енгл. *value* значи "вредност", док *count* значи "бројати"; дакле, пребројати вредности).

Ево примера. Ако у табели са којом радимо желимо да пребројимо дечаке и девојчице, то можемо учинити позивом функције `value_counts` овако:

In [None]:
tabela1["Pol"].value_counts()

Функција `value_counts` је у колони "Pol" пребројала све вредности и утврдила да се у тој колони вредност "ž" појављује 6 пута, док се вредност "m" појављује 5 пута.

Ако желимо да утврдимо старосну структуру групе, применићемо функцију `value_counts` на колону "Starost":

In [None]:
tabela1["Starost"].value_counts()

Функција `value_counts` је у колони "Starost" пребројала све вредности и утврдила да се у тој колони вредности 15 и 13 појављују по 4 пута, док се вредност 14 појављује 3 пута.

Ако резултат рада функције `value_counts` сместимо у променљиву:

In [None]:
frekv = tabela1["Pol"].value_counts()
frekv

онда можемо лако да реконструишемо које су вредности уочене у табели, и које су њихове фреквенције. Наиме,

    frekv.index
    
нам даје листу уочених вредности, док
    
    frekv.values

даје њихове фреквенције.

In [None]:
print("Vrednosti koje se javljaju u koloni:", frekv.index)
print("Njihove frekvencije:", frekv.values)

Полну структуру ове групе деце можемо да прикажемо секторским дијаграмом овако:

In [None]:
frekv = tabela1["Pol"].value_counts()
plt.figure(figsize=(6,6))
plt.pie(frekv.values, labels=frekv.index)
plt.title("Polna struktura grupe")
plt.show()

На сличан начин можемо да прикажемо старосну структуру групе:

In [None]:
frekv = tabela1["Starost"].value_counts()
plt.figure(figsize=(6,6))
plt.pie(frekv.values, labels=frekv.index)
plt.title("Starosna struktura grupe")
plt.show()

На адреси

    https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv
    
се налази јавно доступан списак свих држава на свету. Ову табелу можемо лако учитати наредбом `read_csv`:

In [None]:
drzave = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
drzave.head(5)

Број држава по континентима можемо видети овако:

In [None]:
drzave["Region"].value_counts()

Прикажимо број држава по континентима секторским дијаграмом:

In [None]:
po_kontinentima = drzave["Region"].value_counts()
plt.figure(figsize=(8,8))
plt.pie(po_kontinentima.values, labels=po_kontinentima.index)
plt.title("Број држава по континентима")
plt.show()

## 5. Задаци

**Задатак 1.** Пажљиво погледај овај Пајтон програм па одговори на питања која следе:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

podaci = [["Ana",     "ž", 13, 46, 160],
          ["Bojan",   "m", 14, 52, 165],
          ["Vlada",   "m", 13, 47, 157],
          ["Gordana", "ž", 15, 54, 165],
          ["Dejan",   "m", 15, 56, 163],
          ["Đorđe",   "m", 13, 45, 159]]

tabela = pd.DataFrame(podaci)
tabela.columns=["Ime", "Pol", "Starost", "Masa", "Visina"]

tabela1=tabela.set_index("Ime")

print(tabela["Visina"].min(), tabela["Visina"].mean(), tabela["Visina"].median())

plt.figure(figsize=(10,5))
plt.bar(tabela["Ime"], tabela["Visina"])
plt.show()

temp_anomalije = pd.read_csv("podaci/TemperaturneAnomalije.csv", header=None)

temp_anomalije1 = temp_anomalije.T
temp_anomalije1.columns = ["Година", "Аномалија"]

drzave = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=[0,1])[0]

1. Зашто учитавамо две библиотеке?
2. Зашто не радимо са подацима у облику листе, већ компликујемо себи живот структуром података *DataFrame* из библиотеке *pandas*?
3. Како се зову колоне табеле `tabela`?
4. У чему је разлика између функција `min`, `mean` и `median`?
5. Како треба изменити програм па да на дијаграму поред висине добијемо и графички приказ масе деце?
6. Како бисмо учитали табелу `TemperaturneAnomalije.csv` када би она имала заглавље?
7. Да ли је табела `drzave` формирана на основу података који су смештени локално, на твом рачунару?
8. У ком формату су представљени подаци на основу којих је формирана табела `US`?
9. Шта би се десило када би у интернет претраживач укуцао `https://simple.wikipedia.org/wiki/List_of_U.S._states`?
10. У чему је разлика између табела `tabela` и `tabela1`?
11. Шта представља израз `tabela1.index`?
12. Шта је вредност израза `tabela1.loc["Ђорђе"]`?
13. Шта је вредност израза `tabela1.loc["Ђорђе", "Висина"]`?
14. Шта је вредност израза `tabela.loc["Ђорђе", "Висина"]`?
15. Зашто смо на табелу `temp_anomalije` применили функцију `T`?
16. Колико колона има табела `temp_anomalije1`?

**Задатак 2.** У следећој листи су дати подаци о националним парковима Србије. За сваки национални парк је наведено његово име, површина у хектарима и година оснивања:

In [None]:
nac_parkovi = [["Fruška gora", 25393, 1960],
               ["Đerdap",      64000, 1974],
               ["Tara",        22000, 1981],
               ["Kopaonik",    11810, 1981],
               ["Šar-planina", 39000, 1985]]

*(а)* Од ове листе направи *DataFrame* па израчунај просечну површину националног парка (у хектарима), и укупну површину коју заузимају национални паркови у Србији (у квадратним километрима; 1 квадратни километар = 100 хектара).

*(б)* Прикажи линијским графиконом површине националних паркова у Србији.

**Задатак 3.** Производња кукуруза и пшенице у периоду 2008-2012. у Србији је дата у следећој табели (подаци су исказани у хиљадама тона):

| Godina | Kukuruz | Pšenica |
|--|--|--|
| 2008. | 6.158 | 2.095 |
| 2009. | 6.396 | 2.067 |
| 2010. | 7.207 | 1.631 |
| 2011. | 6.480 | 2.076 |
| 2012. | 3.532 | 1.911 |

*(а)* Направи одговарајући *DataFrame* па израчунај максималну производњу кукуруза и минималну производњу пшенице у наведеном периоду. (Упутство: податке прво представи листом, а онда од листе направи *DataFrame*.)

*(б)* На једном графикону прикажи стубичастим дијаграмом производњу пшенице и кукуруза у наведеном периоду. (Води рачуна да прво исцрташ податке за кукуруз, а онда преко тога податке за пшеницу.)

*(в)* Израчунај просечну годишњу производњу кукуруза за наведени период, као и за колико се разликовала производња пшенице у најбољој и најлошијој години наведеног периода (у хиљадама тона).

**Задатак 4.** У датотеци *podaci/LEB.csv* налазе се подаци о очекиваној дужини живота особе у тренутку рођења (енгл. *Life Expectancy at Birth*), по петогодишњим периодима.

*(а)* Учитај датотеку у структуру података *DataFrame*.

*(б)* Прикажи ове податке стубичастим дијаграмом.

**Задатак 5.** Ученици једног разреда су скакали у даљ. Сваки ученик је скакао три пута и резултати су дати у датотеци *SkokUDalj.csv* која се налази у фолдеру *podaci*. Табела има заглавље и састоји се од четири колоне: "Презиме и име", "Скок1", "Скок2" и "Скок3".

*(а)* Учитај датотеку у структуру података *DataFrame*.

*(б)* Прикажи ове податке стубичастим дијаграмом који ће имати три групе стубића, по једну за сваки скок. Дијаграм треба да има легенду.

**Задатак 6.** На адреси

    https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv

се налази јавно доступна табела са списком држава света и неким параметрима економског развоја тих држава праћеним у интервалима од 5 година.

Табела има следеће колоне:

* country = држава
* year = година на коју се односе подаци
* pop = број становника (енгл. *population*)
* continent = континент
* lifeExp = очекивани животни век у годинама (енгл. *life expextancy*)
* gdpPercap = БДП по глави становника у америчким доларима (енгл. *GDP per capitem*)

Учитај ову табелу у структуру података *DataFrame* и прикажи првих 20 редова табеле, као и последњих 10 редова табеле.

**Задатак 7.** Са следеће адресе

    https://www.worldometers.info/world-population/population-by-country/

учитај табелу која садржи податке о свим државама на свету и броју њихових становника. Прикажи првих и последњеих неколико редова табеле.

**Задатак 8.** Ево трошкова живота једне породице током једне године, по месецима (сви износи су представљени у динарима):
  
  | Stavka | Jan | Feb | Mar | Apr | Maj | Jun | Jul | Avg | Sep | Okt | Nov | Dec |
  |--------|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
  | Stanarina | 8.251 | 8.436 | 8.524 | 8.388 | 8.241 | 8.196 | 8.004 | 7.996 | 7.991 | 8.015 | 8.353 | 8.456 |
  | Struja | 4.321 | 4.530 | 4.115 | 3.990 | 3.985 | 3.726 | 3.351 | 3.289 | 3.295 | 3.485 | 3.826 | 3.834 |
  | Telefon (fiksni) | 1.425 | 1.538 | 1.623 | 1.489 | 1.521 | 1.485 | 1.491 | 1.399 | 1.467 | 1.531 | 1.410 | 1.385 |
  | Telefon (mobilni) | 2.181 | 2.235 | 2.073 | 1.951 | 1.989 | 1.945 | 3.017 | 2.638 | 2.171 | 1.831 | 1.926 | 1.833 |
  | TV i internet | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399  |
  | Prevoz | 1.830 | 1.830 | 1.830 | 1.830 | 1.950 | 1.950 | 1.450 | 1.450 | 1.950 | 1.950 | 2.050 | 2.050 |
  | Hrana | 23.250 | 23.780 | 24.019 | 24.117 | 24.389 | 24.571 | 24.736 | 24.951 | 25.111 | 25.389 | 25.531 | 25.923 |
  | Ostalo | 4.500 | 3.700 | 5.100 | 3.500 | 2.750 | 4.250 | 7.320 | 8.250 | 3.270 | 4.290 | 3.200 | 8.390 |

У ћелији испод су исти подаци представљени листом:

In [None]:
troskovi = [
  ["Stanarina", 8251, 8436, 8524, 8388, 8241, 8196, 8004, 7996, 7991, 8015, 8353, 8456],
  ["Struja", 4321, 4530, 4115, 3990, 3985, 3726, 3351, 3289, 3295, 3485, 3826, 3834],
  ["Telefon (fiksni)", 1425, 1538, 1623, 1489, 1521, 1485, 1491, 1399, 1467, 1531, 1410, 1385],
  ["Telefon (mobilni)", 2181, 2235, 2073, 1951, 1989, 1945, 3017, 2638, 2171, 1831, 1926, 1833],
  ["TV i internet", 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399 ],
  ["Prevoz", 1830, 1830, 1830, 1830, 1950, 1950, 1450, 1450, 1950, 1950, 2050, 2050],
  ["Hrana", 23250, 23780, 24019, 24117, 24389, 24571, 24736, 24951, 25111, 25389, 25531, 25923],
  ["Ostalo", 4500, 3700, 5100, 3500, 2750, 4250, 7320, 8250, 3270, 4290, 3200, 8390]
]

*(а)* Представи табелу структуром *DataFrame*. Индексирај табелу.

*(б)* Израчунај и испиши *укупне* трошкове ове породице по месецима (колико је породица укупно потрошила у јануару, колико у фебруару итд).

*(в)* Израчунај и испиши *просечну* потрошњу ове породице по ставкама (колико је породица просечно потрошила на станарину, колико на струју, итд).

**Задатак 9.** Ученици осмог разреда једне школе су анкетирани о томе коју врсту филмова најрадије гледају. Подаци анкете су дати у следећој табели (у коју нису унети неважећи и бесмислени одговори):

| Žanr | 8-1 | 8-2 | 8-3 | 8-4 | 8-5 |
|------|-----|-----|-----|-----|-----|
| Komedija | 4 | 3 | 5 | 2 | 3 |
| Horor | 1 | 0 | 2 | 1 | 6 |
| Naučna fantastika | 10 | 7 | 9 | 8 | 9 |
| Avanture | 4 | 3 | 4 | 2 | 2 |
| Istorijski | 1 | 0 | 2 | 0 | 0 |
| Romantični | 11 | 10 | 7 | 9 | 8 |

*(а)* Формирај одговарајућу табелу позивом функције *DataFrame*. Индексирај табелу колоном "Žanr".

*(б)* Израчунај и испиши колико гласова је добио сваки од наведених жанрова.

*(в)* За свако одељење израчунај и испиши колико је било валидних гласова.

*(г)* Колико је укупно ученика осмих разреда учествовало у анкетирању? (Рачунамо само ученике који су дали валидне одговоре на анкету.)

**Задатак 10.** Нутритивни подаци за неке намирнице су дати у следећој табели:

| Namirnica (100g) | Energetska vrednost (kcal) | Ugljeni hidrati (g) | Belančevine (g) | Masti (g) |
|--|--|--|--|--|
| Crni hleb | 250 | 48,2 | 8,4 | 1,0 |
| Beli hleb | 280 | 57,5 | 6,8 | 0,5 |
| Kisela pavlaka (10% m.m.) | 127 | 4,0 | 3,1 | 10,5 |
| Margarin | 532 | 4,6 | 3,2 | 1,5 |
| Jogurt | 48 | 4,7 | 4,0 | 3,3 |
| Mleko (2,8% m.m.) | 57 | 4,7 | 3,3 | 2,8 |
| Salama parizer | 523 | 1,0 | 17,0 | 47,0 |
| Pršuta | 268 | 0,0 | 25,5 | 18,4 |
| Pileća prsa | 110 | 0,0 | 23,1 | 1,2 |

У ћелији испод ови подаци су припремљени у облику индексиране *DataFrame* структуре (са скраћеним именима):

In [None]:
namirnice = pd.DataFrame([
    ["Chleb", 250, 48.2, 8.4, 1.0],
    ["Bhleb", 280, 57.5, 6.8, 0.5],
    ["Pavlaka", 127, 4.0, 3.1, 10.5],
    ["Margarin", 532, 4.6, 3.2, 1.5],
    ["Jogurt", 48, 4.7, 4.0, 3.3],
    ["Mleko", 57, 4.7, 3.3, 2.8],
    ["Parizer", 523, 1.0, 17.0, 47.0],
    ["Pršuta", 268, 0.0, 25.5, 18.4],
    ["PilPrsa", 110, 0.0, 23.1, 1.2]])
namirnice.columns=["Namirnica", "EnergVr", "UH", "Bel", "Masti"]
namirnice1 = namirnice.set_index("Namirnica")

*(а)* Милош је за доручак појео два парчета белог хлеба и попио шољу млека. Свако парче хлеба је било намазано павлаком и имало је један шнит пршуте. Колика је енергетска вредност Милошевог доручка (у kcal), ако претпоставимо да једно парче хлеба има 100 г, да је за мазање једног парчета хлеба довољно 10 г премаза, да један шнит пршуте има 20г и да шоља млека има 2 дл (што је приближно 200 г)?

*(б)* Колико грама масти је било у Милошевом доручку?

*(в)* Прикажи дијаграмом количину угљених хидрата у намирницама наведеним у табели.

**Задатак 11.** У фолдеру *podaci* се налази датотека *TemperaturneAnomalije.csv* која садржи податке о томе за колико степени Целзијуса је средња измерена температура на Земљи већа од оптималне у последњих 40 година. Ова табела има два дугачка реда који изгледају овако:

    1977,1978,1979,1980,1981,...
    0.22,0.14,0.15,0.3,0.37,...

У првом реду се налазе године (1977-2017), а у другом измерена температурна аномалија. Табела нема заглавље.

*(а)* Учитај табелу у структуру *DataFrame* користећи функцију `read_csv` из библиотеке `pandas`. (Напомена: када табела нема заглавље у функцији за учитавање треба навести опцију `header=None`.)

*(б)* Транспонуј табелу и колоне транспоноване табеле назови "Godina" i "Anomalija".

*(в)* Индексирај табелу колоном "Godina".

*(г)* Прикажи температурне аномалије дијаграмом.

**Задатак 12.** У фолдеру *podaci* се налази датотека *StanovnistvoSrbije2017.csv* (која има заглавље). Табела има три колоне које се зову "Starost", "M" и "Ž".

*(а)* Учитај датотеку у структуру података *DataFrame* и индексирај табелу колоном "Starost".

*(б)* Прикажи процењени број мушкараца и жена по старости линијским дијаграмом.

*(в)* На основу података из табеле израчунај колики је процењени број становника у следећим старосним групама:

* 0--17 година,
* 18--65 година, и
* 66 и више година,

и представи ова три податка секторским дијаграмом. (Упутство: следећи израз може бити од помоћи: `tabela.loc["0":"17", "M":"Ž"]`)

**Задатак 13.** У табели испод су дати подаци о продаји неких производа у пет пословних јединица једне компаније (бројеви представљају број продатих комада у једном месецу):

| Proizvod       | PJ1 | PJ2 | PJ3 | PJ4 | PJ5 |
|----------------|-----|-----|-----|-----|-----|
| Cipele         |  5  | 17  |  3  | 11  |  9  |
| Košulja         |  8  |  6  |  7  |  4  |  0  |
| Kaiš           |  4  |  1  |  3  |  5  |  1  |
| Pantalone      |  4  |  2  |  6  |  4  |  5  |
| Čarape (par)   |  8  |  9  |  7  |  4  |  9  |
| Kravata        |  1  |  0  |  3  |  2  |  4  |

Следећа табела садржи цене ових производа у динарима:

| Proizvod       | Cena (din) |
|----------------|------------|
| Cipele         |  11.250  |
| Košulja         |   6.500  |
| Kaiš           |   4.750  |
| Pantalone      |   2.500  |
| Čarape (par)   |     750  |
| Kravata        |   3.500  |

Ћелија испод садржи податке из ове две табеле представљене у облику листе:

In [None]:
proizvodi = [
    ["Cipele",         5, 17,  3, 11,  9],
    ["Košulja",         8,  6,  7,  4,  0],
    ["Kaiš",           4,  1,  3,  5,  1],
    ["Pantalone",      4,  2,  6,  4,  5],
    ["Čarape (par)",   8,  9,  7,  4,  9],
    ["Kravata",        1,  0,  3,  2,  4]]
cene = [
    ["Cipele",         11250],
    ["Košulja",          6500],
    ["Kaiš",            4750],
    ["Pantalone",       2500],
    ["Čarape (par)",     750],
    ["Kravata",         3500]]

*(а)* Представи обе табеле структуром *DataFrame*. Индексирај обе табеле.

*(б)* Израчунај колико је укупно у том месецу продато ципела, кошуља, каишева, панталона, чарапа и кравата.

*(в)* Израчунај колико је у том месецу компанија зарадила на продаји ципела, колико на продаји кошуља, колико на продаји каишева, итд.

*(г*)* Израчунај и испиши зараду сваке пословне јединице у том месецу.

**Задатак 14.** У датотеци *podaci/RekeSrbije.csv* наведене су најдуже реке Србије, њихова укупна дужина у км, и дужина тока кроз Србију у км.

*(а)* Учитај податке у табелу (табела има заглавље), и прикажи првих неколико редова табеле.

 
*(б)* Сортирај табелу по дужини тока реке кроз Србију.

*(в)* За наведене реке прикажи линијским дијаграмом укупну дужину, и дужину тока реке кроз Србију.

*(г)* Од дате табеле направи нову у којој су издвојене само оне реке које бар половину свог тока протичу кроз Србију, па тако добијену табелу упиши у датотеку *podaci/Reke2.csv* водећи рачуна о томе да су неки подаци у табели записани ћирилицом.

**Задатак 15.** Нутритивни подаци за неке рибе и морске плодове су дати у следећој табели:

| Намирница (100г) | Енергетска вредност (kcal) | Угљени хидрати (г) | Беланчевине (г) | Масти (г) |
|--|--|--|--|--|
|Туна|116|0|26|1|
|Ослић|88|0|17.2|0.8|
|Пастрмка|119|0|18|5|
|Лосос|116|0|20|3.5|
|Скуша|205|0|19|14|
|Сардине|135|0|18|5|
|Харинга|158|0|18|9|
|Бакалар|82|0|18|0.7|
|Сом|95|0|16.4|2.8|
|Шаран|127|0|17.6|5.6|
|Орада|115|0|16.5|5.5|
|Јегуља|184|0|18.4|11.7|
|Шкампи|106|1|20|2|
|Дагње|86|4|12|2|
|Козице|71|1|13|1|
|Лигње|92|3|15.6|1.3|
|Хоботница|81|0|16.4|0.9|
|Јастог|112|0|20|1.5|

Подаци из табеле су представљени листом у ћелији испод:

In [1]:
morski_plodovi = [
  ["Туна", 116, 0, 26, 1],
  ["Ослић", 88, 0, 17.2, 0.8],
  ["Пастрмка", 119, 0, 18, 5],
  ["Лосос", 116, 0, 20, 3.5],
  ["Скуша", 205, 0, 19, 14],
  ["Сардине", 135, 0, 18, 5],
  ["Харинга", 158, 0, 18, 9],
  ["Бакалар", 82, 0, 18, 0.7],
  ["Сом", 95, 0, 16.4, 2.8],
  ["Шаран", 127, 0, 17.6, 5.6],
  ["Орада", 115, 0, 16.5, 5.5],
  ["Јегуља", 184, 0, 18.4, 11.7],
  ["Шкампи", 106, 1, 20, 2],
  ["Дагње", 86, 4, 12, 2],
  ["Козице", 71, 1, 13, 1],
  ["Лигње", 92, 3, 15.6, 1.3],
  ["Хоботница", 81, 0, 16.4, 0.9],
  ["Јастог", 112, 0, 20, 1.5]]

*(а)* Од ове листе у ћелији испод направи *DataFrame* и дај колонама табеле погодна имена. Предлажемо да свакој колони даш име које ће бити само једна реч (рецимо "Намирница", "ЕнергВр", "УХ", "Бел", "Масти") како би у каснијим задацима лакше именовао колоне табеле.

*(б)* Сортирај табелу по енергетској вредности намирнице од највеће ка најмањој вредности и прикажи хистограмом тако сортиране енергетске вредности.

*(в)* Од овако сортиране табеле направи нову у којој су само оне намирнице које не садрже угљене хидрате и имају мање од 10 г масти на 100 г намирнице.

*(г)* Направи фреквенцијску анализу ових података према количини угљених хидрата и прикажи резултате анализе секторским дијаграмом.

**Задатак 16.** Ученици једног разреда су скакали у даљ. Сваки ученик је скакао три пута и резултати су дати у датотеци *SkokUDalj.csv* која се налази у фолдеру *podaci*. Табела има заглавље и састоји се од четири колоне: "Презиме и име", "Скок1", "Скок2" и "Скок3".

*(а)* Учитај датотеку у структуру података *DataFrame*.

*(б)* Додај табели нову колону "Макс" и онда за сваког ученика израчунај и у ту колону упиши његов најбољи скок.

*(в)* Сортирај табелу по колони "Макс" и прикажи првих пет редова тако сортиране табеле (да видимо ко су најбољи скакачи у разреду).

*(г)* Издвој из табеле оне редове који садрже ученике који су начинили бар један преступ. Преступ је у табели означен тако што је дужина одговарајућег скока постављена на 0.

**Задатак 17.** У наредној ћелији се налазе подаци о неколико ученика. За сваког ученика је наведено његово презиме, име, ЈМБГ, пол, разред који похађа и просек на крају тог разреда:

In [None]:
podaci = [
    ["Петровић",  "Петар", "0308003800019", "м", 8, 4.52],
    ["Јаснић",    "Јасна", "1210003805026", "ж", 8, 5.00],
    ["Аничић",    "Аница", "1105004805019", "ж", 7, 4.11],
    ["Веснић",    "Весна", "2901005705011", "ж", 6, 5.00],
    ["Ђорђевић",  "Ђорђе", "1504005700012", "м", 6, 3.12],
    ["Милошев",   "Милош", "1506004400056", "м", 7, 2.51],
    ["Милошев",   "Петар", "1506004400057", "м", 7, 2.48],
    ["Ненадовић", "Ненад", "2109003800046", "м", 8, 3.58],
    ["Ненадовић", "Јасна", "2109003805021", "ж", 8, 4.21]]

*(а)* Формирај одговарајућу табелу позивом функције *DataFrame*.

*(б)* Прикажи секторским дијаграмом полну структуру ове групе.

*(в)* Прикажи секторским дијаграмом старосну структуру ове групе узимајући у обзир разред који је ученик завршио.

*(г)* Коју колону је најбоље одабрати као кључ за индексирање ове табеле? У ћелији испод ове направи нову табелу која се добија индексирањем претходне табеле одабраном колоном.

*(д)* Шта мислиш, зашто сваки држављанин наше државе има ЈМБГ?

*(ђ)* Направи нову табелу коју чине само ученици осмог разреда.

*(е)* Направи нову табелу коју чине само врло добри ученици.

*(ж)* Направи нову табелу коју чине само дечаци који нису одлични.

**Задатак 18.** На адреси

    https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv

се налази јавно доступна табела са списком држава света и неким параметрима економског развоја тих држава праћеним у интервалима од 5 година.

Табела има следеће колоне:

* country = држава
* year = година на коју се односе подаци
* pop = број становника (енгл. *population*)
* continent = континент
* lifeExp = очекивани животни век у годинама (енгл. *life expextancy*)
* gdpPercap = БДП по глави становника у америчким доларима (енгл. *GDP per capitem*)

*(а)* Учитај ову табелу у структуру података *DataFrame*.

*(б)* У нову табелу издвој податке који се односе на Србију (Упутство: `tabela[tabela.country == "Serbia"]`)

*(в)* Прикажи линијским дијаграмом како се мењао очекивани животни век грађана Србије за године за које постоје подаци у табели.

*(г)* Прикажи хистограмом како се мењао БДП по глави становника Србије за године за које постоје подаци у табели.

*(д)* Табелу која се односи на Србију упиши у датотеку *FYDSerbia.csv* (сви подаци у табели су записани енглеским алфабетом па нема муке око система за кодирање података), али тако да у датотеку не упишемо индексну колону.