# Рад са табелама помоћу _pandas_ библиотеке

Табеле можемо да представимо као низ врста или као низ колона. Конкретно, у Пајтону би то значило да у "велику" листу ставимо "мале" листе које представљају врсте или колоне. Рад са тако спакованим табелама није једноставан и захтева писање низа функција за претраживање, издвајање или нпр. копирање делова табеле. Због тога ћемо само показати како то може да изгледа и прећи на следећи ниво – да податке заиста организујемо у табеле.
Пракса нам говори да су табеларно сложени подаци најзгоднији за употребу. Базе података све што имају чувају у разним табелама које повезују по одређеним атрибутима или променљивим, како их зовемо у Пајтону. За рад са табелама нам је неопходно да увеземо библиотеку која табелу има као тип података. За ову намену најчешће коришћена библиотека је _pandas_. У овој лекцији ћемо посветити пажњу употреби основних функција ове библиотеке. 

## Представљање табеларно задатих података помоћу листи

Најчешћи начин да организујемо велике количине података је да их представимо табелом. Рецимо, ова табела садржи податке о једној групи деце (при чему је, наравно, старост изражена у годинама, тежина у килограмима, а висина у центиметрима):

|Ime|Pol|Starost|Masa|Visina|
|---|---|---|---|---|
|Ana|ž|13|46|160|
|Bojan|m|14|52|165|
|Vlada|m|13|47|157|
|Gordana|ž|15|54|165|
|Dejan|m|15|56|163|
|Đorđe|m|13|45|159|
|Elena|ž|14|49|161|
|Žaklina|ž|15|52|164|
|Zoran|m|15|57|167|
|Ivana|ž|13|45|158|
|Jasna|ž|14|51|162|

Да бисмо могли машински да обрађујемо и анализирамо податке прво их морамо представити у облику неке структуре података. Један једноставан начин да се то уради је да сваки ред табеле представимо једном листом, и да потом све те листе запакујемо у једну велику листу, рецимо овако:

In [1]:
podaci = [["Ana",     "ž", 13, 46, 160],
          ["Bojan",   "m", 14, 52, 165],
          ["Vlada",   "m", 13, 47, 157],
          ["Gordana", "ž", 15, 54, 165],
          ["Dejan",   "m", 15, 56, 163],
          ["Đorđe",   "m", 13, 45, 159],
          ["Elena",   "ž", 14, 49, 161],
          ["Žaklina", "ž", 15, 52, 164],
          ["Zoran",   "m", 15, 57, 167],
          ["Ivana",   "ž", 13, 45, 158],
          ["Jasna",   "ž", 14, 51, 162]]

Из овако представљених података лако можемо добити податке о сваком појединачном детету у групи. Рецимо, податке о Дејану добијамо тако што испишемо елемент листе са индексом 4.

In [2]:
podaci[4]

['Dejan', 'm', 15, 56, 163]

Овај начин представљања података, међутим, није погодан за обраде по колонама. Рецимо, ако желимо да израчунамо просечну висину деце у групи морамо да пишемо програм. То није немогуће, чак није ни тешко, али је непрактично. Ево програма:

In [3]:
sum = 0
for dete in podaci:
    sum += dete[4]
sum/len(podaci)

161.9090909090909

Програм ради на следећи начин:
- прво помоћну променљиву `sum` поставимо на нулу (у њој ће се полако акумулирати збир висина све деце у групи);
- након тога циклус `for dete in podaci:` прође кроз свако дете у групи (јер сваки елемент листе `podaci` представља податке о једном детету) и на суму дода његову висину (висина детета се налази на петом месту у групи података за то дете, а то је елемент листе са индексом 4);
- коначно, добијени збир поделимо бројем података да бисмо израчунали просек.

Као што смо већ рекли, ово није јако тешко, али је непрактично. Треба нам флексибилнија структура података.

## Библиотека _pandas_ и структура података _DataFrame_

За ефикасно манипулисање табеларно представљеним подацима у Пајтону развијена је библиотека _pandas_. Њу можемо увести као што смо увозили и остале библиотеке (и уз пут ћемо јој дати надимак да бисмо мање морали да куцамо):

In [4]:
import pandas as pd

Из ове библиотеке ћемо користити структуру података која се зове _DataFrame_ (енгл. _data_ значи „подаци”, _frame_ значи „оквир”, тако да _DataFrame_ значи „оквир са подацима”, односно „табела”).

Податке о деци сада лако можемо да препакујемо у _DataFrame_ позивом функције са истим именом:

In [5]:
tabela = pd.DataFrame(podaci)

Претходна команда није дала никакав излаз. Она је просто препаковала податке наведене у листи `podaci` у нову структуру података. Да бисмо се уверили да се ради само о препакивању, исписаћемо садржај променљиве `tabela`:

In [6]:
tabela

Unnamed: 0,0,1,2,3,4
0,Ana,ž,13,46,160
1,Bojan,m,14,52,165
2,Vlada,m,13,47,157
3,Gordana,ž,15,54,165
4,Dejan,m,15,56,163
5,Đorđe,m,13,45,159
6,Elena,ž,14,49,161
7,Žaklina,ž,15,52,164
8,Zoran,m,15,57,167
9,Ivana,ž,13,45,158


Ево и кратког видеа:

## ..............ovde  nekako ubaciti video iz https://petlja.org/kurs/478/8/1612 ............

Да би табела била прегледнија, даћемо колонама име. Колонама се име даје овако:

In [7]:
tabela = pd.DataFrame(podaci)
tabela.columns=["Ime", "Pol", "Starost", "Masa", "Visina"]
tabela

Unnamed: 0,Ime,Pol,Starost,Masa,Visina
0,Ana,ž,13,46,160
1,Bojan,m,14,52,165
2,Vlada,m,13,47,157
3,Gordana,ž,15,54,165
4,Dejan,m,15,56,163
5,Đorđe,m,13,45,159
6,Elena,ž,14,49,161
7,Žaklina,ž,15,52,164
8,Zoran,m,15,57,167
9,Ivana,ž,13,45,158


Када свака колона има своје име, можемо да приступимо појединачним колонама:

In [8]:
tabela["Ime"]

0         Ana
1       Bojan
2       Vlada
3     Gordana
4       Dejan
5       Đorđe
6       Elena
7     Žaklina
8       Zoran
9       Ivana
10      Jasna
Name: Ime, dtype: object

In [9]:
tabela["Visina"]

0     160
1     165
2     157
3     165
4     163
5     159
6     161
7     164
8     167
9     158
10    162
Name: Visina, dtype: int64

Имена свих колона су увек доступна у облику листе овако:

In [10]:
tabela.columns

Index(['Ime', 'Pol', 'Starost', 'Masa', 'Visina'], dtype='object')

### Функције за елементарну анализу табеларних података

Кад су подаци сложени у _DataFrame_, помоћу следећих функција лако можемо да вршимо елементарну анализу података у табели:
- `.sum()` – рачуна збир елемената у колони (сума);
- `.mean()` – рачуна средњу вредност елемената у колони;
- `.median()` – рачуна медијану елемената у колони;
- `.min()` – рачуна најмању вредност у колони (минимум);
- `.max()` – рачуна највећу вредност у колони (максимум).

Да видимо како то ради на примеру табеле `tabela`. Конкретно, висину најнижег детета у групи можемо да добијемо са:

In [11]:
tabela["Visina"].min()

157

Колико година има најстарије дете у групи?

In [12]:
tabela["Starost"].max()

15

Средња вредност висине деце у групи је:

In [13]:
tabela["Visina"].mean()

161.9090909090909

Медијална висина:

In [14]:
tabela["Visina"].median()

162.0

Све функције које смо овде примењивали на појединачне колоне табеле могу да се примене на целе табеле. У том случају резултат добијамо као низ резултата за све обухваћене колоне одговарајућег типа. Уколико се функције примене и на неодговарајуће колоне, Пајтон ће уз резултате приказати и упозорење. То можемо да избегнемо тако што издвојимо само колоне на које функција може да се примени. Функција `.sum()`, на пример, може да сабира и стрингове и бројеве, док функција `.mean()` не може за стрингове да нађе средње вредности. Ту бисмо добили упозорење. Пробајте.

In [15]:
tabela.sum()

Ime        AnaBojanVladaGordanaDejanĐorđeElenaŽaklinaZora...
Pol                                              žmmžmmžžmžž
Starost                                                  154
Masa                                                     554
Visina                                                  1781
dtype: object

### Рачун са колонама и редовима табеле

Колико год било унапред дефинисаних функција за анализу података у табели, то је ограничен број. Нама може да затреба нешто другачије. У том случају ће бити потребно да напишемо програм који израчунава тражену вредност. Овде ћемо приказати неке једноставне примере.

Кренимо од скупа података о оценама у једном разреду. У ћелији испод дате су оцене неких ученика из информатике, енглеског, математике, физике, хемије и ликовног:

In [16]:
razred = [["Ana",     5, 3, 5, 2, 4, 5],
          ["Bojan",   5, 5, 5, 5, 5, 5],
          ["Vlada",   4, 5, 3, 4, 5, 4],
          ["Gordana", 5, 5, 5, 5, 5, 5],
          ["Dejan",   3, 4, 2, 3, 3, 4],
          ["Đorđe",   4, 5, 3, 4, 5, 4],
          ["Elena",   3, 3, 3, 4, 2, 3],
          ["Žaklina", 5, 5, 4, 5, 4, 5],
          ["Zoran",   4, 5, 4, 4, 3, 5],
          ["Ivana",   2, 2, 2, 2, 2, 5],
          ["Jasna",   3, 4, 5, 4, 5, 5]]

Сада ћемо од ових података направити табелу чије колоне ће се звати _Ime_, _Informatika_, _Engleski_, _Matematika_, _Fizika_, _Hemija_ и _Likovno_.

In [17]:
ocene = pd.DataFrame(razred)
ocene.columns=["Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Hemija", "Likovno"]
ocene

Unnamed: 0,Ime,Informatika,Engleski,Matematika,Fizika,Hemija,Likovno
0,Ana,5,3,5,2,4,5
1,Bojan,5,5,5,5,5,5
2,Vlada,4,5,3,4,5,4
3,Gordana,5,5,5,5,5,5
4,Dejan,3,4,2,3,3,4
5,Đorđe,4,5,3,4,5,4
6,Elena,3,3,3,4,2,3
7,Žaklina,5,5,4,5,4,5
8,Zoran,4,5,4,4,3,5
9,Ivana,2,2,2,2,2,5


Ако желимо да израчунамо средње вредности оцена по предметима, треба на сваку колону ове табеле (осим прве где су имена) да применимо функцију `mean`. Листа са именима свих колона табеле `ocene` се добија као `ocene.columns`, па сада само треба да прођемо кроз ову листу и за сваку колону да израчунамо средњу вредност:

In [18]:
predmeti=ocene.columns[1:]   # slajsom [1:] izdvajamo sve kolone sem prve
for predmet in predmeti:
    print(predmet, "->", round(ocene[predmet].mean(), 2))

Informatika -> 3.91
Engleski -> 4.18
Matematika -> 3.73
Fizika -> 3.82
Hemija -> 3.91
Likovno -> 4.55


Да бисмо израчунали средње вредности по редовима, тј. за сваког ученика, потребно је да уведемо нови начин приступа подацима у табели. Одређеном реду табеле не можемо да приступимо без аксесора, посебних функција писаних за објекте типа _DataFrame_, чији су аргументи имена редова/колона или њихови индекси у угластим заградама. Аксесор, помоћу ког приступамо редовима и појединачним елементима табеле је `.iloc[]`. Аргументи овог аксесора су нумерички индекси редова и колона који почињу од нуле.

На пример, податке из трећег реда (индекс је 2) табеле добијамо са:

In [19]:
ocene.iloc[3]

Ime            Gordana
Informatika          5
Engleski             5
Matematika           5
Fizika               5
Hemija               5
Likovno              5
Name: 3, dtype: object

На овај начин смо добили податке за једног ученика, тј. ученицу.

Да бисмо из реда издвојили само нумеричке вредности, тј. оцене, потребно је да аксесор добије и други аргумент. Осим индекса реда, потребно је да ставимо и индексе колона. У овом примеру ћемо узети све индексе почевши од индекса 1 јер је у колони са индексом нула име ученика.

In [20]:
ocene.iloc[3,1:]

Informatika    5
Engleski       5
Matematika     5
Fizika         5
Hemija         5
Likovno        5
Name: 3, dtype: object

Средње вредности оцена за све ученике сада можемо да израчунамо овако:

In [21]:
for i in range(len(ocene)):
    print(ocene.iloc[i,0], "->", ocene.iloc[i,1:].mean())

Ana -> 4.0
Bojan -> 5.0
Vlada -> 4.166666666666667
Gordana -> 5.0
Dejan -> 3.1666666666666665
Đorđe -> 4.166666666666667
Elena -> 3.0
Žaklina -> 4.666666666666667
Zoran -> 4.166666666666667
Ivana -> 2.5
Jasna -> 4.333333333333333


__Задатак 1__: Израчунајте средње вредности оцена по предметима у табели `ocene` примењујући функцију `.mean()` на део табеле у којој су нумеричке вредности.

__Задатак 2__: Напишите програм који у табели `ocene` проналази предмет где је највише ученика добило оцену 5. 

__Задатак 3__: Напишите програм који у табели `ocene` проналази ученика са највећим бројем двојки.