# Рад са табелама

До сада смо обрађивали и анализирали податке смештене у листе и стрингове. Неке функције за рад са њима већ постоје у Пајтоновој стандардној библиотеци, док смо за неке морали да пишемо своје функције. Сада је тренутак да пређемо на следећи ниво – да податке организујемо у табеле. Пракса нам говори да су табеларно сложени подаци најзгоднији за употребу. Базе података све што имају чувају у разним табелама које повезују по одређеним атрибутима или променљивим, како их зовемо у Пајтону. За рад са табелама нам је неопходно да увеземо библиотеку која табелу има као тип података. За ову намену најчешће коришћена библиотека је _pandas_. Она има мноштво функција које ће нам олакшати посао. Неће бити потребе да поново пишемо функције као што су биле оне за средњу вредност или медијану.

## Табеларно представљени подаци

У овој лекцији ћемо говорити о:
1. представљању табеларно задатих података помоћу листи у Пајтону и
2. ефикаснијем представљању табеларних података користећи библиотеку pandas.

### Представљање табеларно задатих података помоћу листи

Најчешћи начин да организујемо велике количине података је да их представимо табелом. Рецимо, ова табела садржи податке о једној групи деце (при чему је, наравно, старост изражена у годинама, тежина у килограмима, а висина у центиметрима):

|Ime|Pol|Starost|Masa|Visina|
|---|---|---|---|---|
|Ana|ž|13|46|160|
|Bojan|m|14|52|165|
|Vlada|m|13|47|157|
|Gordana|ž|15|54|165|
|Dejan|m|15|56|163|
|Đorđe|m|13|45|159|
|Elena|ž|14|49|161|
|Žaklina|ž|15|52|164|
|Zoran|m|15|57|167|
|Ivana|ž|13|45|158|
|Jasna|ž|14|51|162|

Да бисмо могли машински да обрађујемо и анализирамо податке прво их морамо представити у облику неке структуре података. Један једноставан начин да се то уради је да сваки ред табеле представимо једном листом, и да потом све те листе запакујемо у једну велику листу, рецимо овако:

In [1]:
podaci = [["Ana",     "ž", 13, 46, 160],
          ["Bojan",   "m", 14, 52, 165],
          ["Vlada",   "m", 13, 47, 157],
          ["Gordana", "ž", 15, 54, 165],
          ["Dejan",   "m", 15, 56, 163],
          ["Đorđe",   "m", 13, 45, 159],
          ["Elena",   "ž", 14, 49, 161],
          ["Žaklina", "ž", 15, 52, 164],
          ["Zoran",   "m", 15, 57, 167],
          ["Ivana",   "ž", 13, 45, 158],
          ["Jasna",   "ž", 14, 51, 162]]

Из овако представљених података лако можемо добити податке о сваком појединачном детету у групи. Рецимо, податке о Дејану добијамо тако што испишемо елемент листе са индексом 4.

In [2]:
podaci[4]

['Dejan', 'm', 15, 56, 163]

Овај начин представљања података, међутим, није погодан за обраде по колонама. Рецимо, ако желимо да израчунамо просечну висину деце у групи морамо да пишемо програм. То није немогуће, чак није ни тешко, али је непрактично. Ево програма:

In [3]:
sum = 0              # početna vrednost zbira je 0
for dete in podaci:  # za red u tabeli
    sum += dete[4]   # zbir povećavamo za vrednost u petoj koloni
sum/len(podaci)      # zbir na kraju delimo sa brojem elemenata

161.9090909090909

Програм ради на следећи начин:
- прво помоћну променљиву `sum` поставимо на нулу (у њој ће се полако акумулирати збир висина све деце у групи);
- након тога циклус `for dete in podaci:` прође кроз свако дете у групи (јер сваки елемент листе `podaci` представља податке о једном детету) и на суму дода његову висину (висина детета се налази на петом месту у групи података за то дете, а то је елемент листе са индексом 4);
- коначно, добијени збир поделимо бројем података да бисмо израчунали просек.

Као што смо већ рекли, ово није јако тешко, али је непрактично. Треба нам флексибилнија структура података.

### Библиотека _pandas_, структура података _DataFrame_ и рад са колонама табеле

За ефикасно манипулисање табеларно представљеним подацима у Пајтону развијена је библиотека _pandas_. Њу можемо увести као што смо увозили и остале библиотеке (и уз пут ћемо јој дати надимак да бисмо мање морали да куцамо):

In [4]:
import pandas as pd

Из ове библиотеке ћемо користити структуру података која се зове _DataFrame_ (енгл. _data_ значи „подаци”, _frame_ значи „оквир”, тако да _DataFrame_ значи „оквир са подацима”, односно „табела”).

Податке о деци сада лако можемо да препакујемо у _DataFrame_ позивом функције са истим именом:

In [5]:
tabela = pd.DataFrame(podaci)

Претходна команда није дала никакав излаз. Она је просто препаковала податке наведене у листи `podaci` у нову структуру података. Да бисмо се уверили да се ради само о препакивању, исписаћемо садржај променљиве `tabela`:

In [6]:
tabela

Unnamed: 0,0,1,2,3,4
0,Ana,ž,13,46,160
1,Bojan,m,14,52,165
2,Vlada,m,13,47,157
3,Gordana,ž,15,54,165
4,Dejan,m,15,56,163
5,Đorđe,m,13,45,159
6,Elena,ž,14,49,161
7,Žaklina,ž,15,52,164
8,Zoran,m,15,57,167
9,Ivana,ž,13,45,158


Ево и кратког видеа:

## ..............ovde  nekako ubaciti video iz https://petlja.org/kurs/478/8/1612 ............

Да би табела била прегледнија, даћемо колонама називе.

In [7]:
tabela = pd.DataFrame(podaci)                                # tabelu iz formata liste pretvaramo u DataFrame
tabela.columns=["Ime", "Pol", "Starost", "Masa", "Visina"]   # kolonama u tabeli pridružujemo nazive
tabela

Unnamed: 0,Ime,Pol,Starost,Masa,Visina
0,Ana,ž,13,46,160
1,Bojan,m,14,52,165
2,Vlada,m,13,47,157
3,Gordana,ž,15,54,165
4,Dejan,m,15,56,163
5,Đorđe,m,13,45,159
6,Elena,ž,14,49,161
7,Žaklina,ž,15,52,164
8,Zoran,m,15,57,167
9,Ivana,ž,13,45,158


Када свака колона има своје име, можемо да приступимо појединачним колонама:

In [8]:
tabela["Ime"]

0         Ana
1       Bojan
2       Vlada
3     Gordana
4       Dejan
5       Đorđe
6       Elena
7     Žaklina
8       Zoran
9       Ivana
10      Jasna
Name: Ime, dtype: object

In [9]:
tabela["Visina"]

0     160
1     165
2     157
3     165
4     163
5     159
6     161
7     164
8     167
9     158
10    162
Name: Visina, dtype: int64

Имена свих колона су увек доступна у облику листе овако:

In [10]:
tabela.columns

Index(['Ime', 'Pol', 'Starost', 'Masa', 'Visina'], dtype='object')

### Функције за елементарну анализу табеларних података

Кад су подаци сложени у _DataFrame_, помоћу следећих функција лако можемо да вршимо елементарну анализу података у табели:
- `.sum()` – рачуна збир елемената у колони (сума);
- `.mean()` – рачуна средњу вредност елемената у колони;
- `.median()` – рачуна медијану елемената у колони;
- `.min()` – рачуна најмању вредност у колони (минимум);
- `.max()` – рачуна највећу вредност у колони (максимум).

Да видимо како то ради на примеру табеле `tabela`. Конкретно, висину најнижег детета у групи можемо да добијемо са:

In [11]:
tabela["Visina"].min()

157

Колико година има најстарије дете у групи?

In [12]:
tabela["Starost"].max()

15

Средња вредност висине деце у групи је:

In [13]:
tabela["Visina"].mean()

161.9090909090909

Медијална висина:

In [14]:
tabela["Visina"].median()

162.0

## Индексирање и транспоновање табеле

У овој лекцији ћемо говорити о:
1. индексирању табеле ради флексибилнијег приступа елементима табеле;
2. приступу врстама и појединачним локацијама индексиране табеле;
3. рачунању са целим редовима и колонама табеле; и
4. транспоновању табеле.

### Индексирање

Видели смо да је рад са колонама табеле веома једноставан.

Да бисмо могли да радимо са редовима табеле треба прво да нађемо једну колону чија вредност једнозначно одређује цео ред табеле. На пример, у табели са прошлог часа:

|Ime|Pol|Starost|Masa|Visina|
|---|---|---|---|---|
|Ana|ž|13|46|160|
|Bojan|m|14|52|165|
|Vlada|m|13|47|157|
|Gordana|ž|15|54|165|
|Dejan|m|15|56|163|
|Đorđe|m|13|45|159|
|Elena|ž|14|49|161|
|Žaklina|ž|15|52|164|
|Zoran|m|15|57|167|
|Ivana|ž|13|45|158|
|Jasna|ž|14|51|162|

колона „Ime” је таква колона (колона „Visina” није погодна јер имамо двоје деце са висином 165, па када кажемо „дете са висином 165” није јасно о коме се ради; исто тако ни колоне „Pol”, „Starost” и „Masa” нису погодне).

Таква колона се зове кључ јер је она кључна за приступање редовима табеле. Ако желимо да приступамо елементима табеле по редовима, морамо систему да пријавимо коју колону ћемо користити као кључ. То се постиже позивом функције `set_index` којој проследимо име колоне, а она врати нову табелу „индексирану по датом кључу”:

In [15]:
import pandas as pd
podaci = [["Ana",     "ž", 13, 46, 160],
          ["Bojan",   "m", 14, 52, 165],
          ["Vlada",   "m", 13, 47, 157],
          ["Gordana", "ž", 15, 54, 165],
          ["Dejan",   "m", 15, 56, 163],
          ["Đorđe",   "m", 13, 45, 159],
          ["Elena",   "ž", 14, 49, 161],
          ["Žaklina", "ž", 15, 52, 164],
          ["Zoran",   "m", 15, 57, 167],
          ["Ivana",   "ž", 13, 45, 158],
          ["Jasna",   "ž", 14, 51, 162]]
tabela = pd.DataFrame(podaci)
tabela.columns=["Ime", "Pol", "Starost", "Masa", "Visina"]
tabela1=tabela.set_index("Ime")

Нова табела (`tabela1`) се од старе (`tabela`) разликује само по томе што редови више нису индексирани бројевима (0, 1, 2, …) већ именима деце (Ana, Bojan, Vlada, …). Ево старе (неиндексиране табеле) која има колону „Ime” и чији редови су индексирани бројевима:

In [16]:
tabela

Unnamed: 0,Ime,Pol,Starost,Masa,Visina
0,Ana,ž,13,46,160
1,Bojan,m,14,52,165
2,Vlada,m,13,47,157
3,Gordana,ž,15,54,165
4,Dejan,m,15,56,163
5,Đorđe,m,13,45,159
6,Elena,ž,14,49,161
7,Žaklina,ž,15,52,164
8,Zoran,m,15,57,167
9,Ivana,ž,13,45,158


А ево и нове табеле у којој су редови индексирани именима деце:

In [17]:
tabela1

Unnamed: 0_level_0,Pol,Starost,Masa,Visina
Ime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ana,ž,13,46,160
Bojan,m,14,52,165
Vlada,m,13,47,157
Gordana,ž,15,54,165
Dejan,m,15,56,163
Đorđe,m,13,45,159
Elena,ž,14,49,161
Žaklina,ž,15,52,164
Zoran,m,15,57,167
Ivana,ž,13,45,158


Колона „Ime” је и даље присутна у табели `tabela1`, али има посебан статус. Ако покушамо да јој приступимо као „обичној” колони `tabela1["Ime"]` добићемо грешку. Међутим, она је ту као _индексна колона_:

In [18]:
tabela1.index

Index(['Ana', 'Bojan', 'Vlada', 'Gordana', 'Dejan', 'Đorđe', 'Elena',
       'Žaklina', 'Zoran', 'Ivana', 'Jasna'],
      dtype='object', name='Ime')

### Приступ редовима и појединачним ћелијама индексиране табеле

_DataFrame_ је погодан за рад са колонама табеле. Довољно је да под наводницима наведемо име колоне у угластим заградама иза имена табеле и да ту колону издвојимо, нпр. `tabela1["Ime"]`. Са редовима, тј. врстама табеле то није случај. Одређеном реду табеле не можемо да приступимо без "аксесора", посебних функција писаних за објекте типа _DataFrame_, чији су аргументи имена редова/колона или њихови индекси у угластим заградама.
Конкретно, помоћу аксесора `.loc[]` можемо да приступамо редовима табеле, као и појединачним ћелијама табеле. Аргумент аксесора `.loc[]` је јединствено име реда које смо навели у индексној колони. Уколико постоје два аргумента, онда се први односи на име реда, а други на име колоне.

Податке о појединачним редовима табеле можемо да видимо овако:

In [19]:
tabela1.loc["Dejan"]

Pol          m
Starost     15
Masa        56
Visina     163
Name: Dejan, dtype: object

Као аргумент аксесора `.loc` можемо да наведемо и распон, и тако ћемо добити одговарајући део табеле:

In [20]:
tabela1.loc["Dejan":"Zoran"]

Unnamed: 0_level_0,Pol,Starost,Masa,Visina
Ime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Dejan,m,15,56,163
Đorđe,m,13,45,159
Elena,ž,14,49,161
Žaklina,ž,15,52,164
Zoran,m,15,57,167


Ако као други аргумент аксесора `.loc` наведемо име колоне, рецимо овако `tabela1.loc["Dejan", "Visina"]` добићемо информацију о Дејановој висини.

In [21]:
tabela1.loc["Dejan", "Visina"]

163

Ево како можемо да добијемо информацију о телесној маси и висини неколико деце:

In [22]:
tabela1.loc["Dejan":"Zoran", "Masa":"Visina"]

Unnamed: 0_level_0,Masa,Visina
Ime,Unnamed: 1_level_1,Unnamed: 2_level_1
Dejan,56,163
Đorđe,45,159
Elena,49,161
Žaklina,52,164
Zoran,57,167


Други аксесор, помоћу ког приступамо редовима и појединачним елементима табеле је `.iloc[]`. Аргументи овог аксесора су нумерички индекси редова и колона који, наравно, почињу од нуле. Шта мислите да ће вратити `tabela1.iloc[4]`? Исто што и `tabela1.loc["Dejan"]`.

In [23]:
tabela1.iloc[4]

Pol          m
Starost     15
Masa        56
Visina     163
Name: Dejan, dtype: object

Уколико имамо и други аргумент за `.iloc[]`, аксесор неће вратити цео ред већ само вредност у том реду која одговара колони са наведеним индексом.  

In [24]:
tabela1.iloc[4,3]

163

### Рачун по врстама и колонама табеле

Колико год било унапред дефинисаних функција за анализу података у табели, то је ограничен број. Нама може да затреба нешто другачије. У том случају ће бити потребно да напишемо програм који израчунава тражену вредност. Овде ћемо приказати неке једноставне примере.

Кренимо од скупа података о оценама у једном разреду. У ћелији испод дате су оцене неких ученика из Информатике, Енглеског, Математике, Физике, Хемије и Ликовног:

In [25]:
razred = [["Ana",     5, 3, 5, 2, 4, 5],
          ["Bojan",   5, 5, 5, 5, 5, 5],
          ["Vlada",   4, 5, 3, 4, 5, 4],
          ["Gordana", 5, 5, 5, 5, 5, 5],
          ["Dejan",   3, 4, 2, 3, 3, 4],
          ["Đorđe",   4, 5, 3, 4, 5, 4],
          ["Elena",   3, 3, 3, 4, 2, 3],
          ["Žaklina", 5, 5, 4, 5, 4, 5],
          ["Zoran",   4, 5, 4, 4, 3, 5],
          ["Ivana",   2, 2, 2, 2, 2, 5],
          ["Jasna",   3, 4, 5, 4, 5, 5]]

Сада ћемо од ових података направити табелу чије колоне ће се звати _Ime_, _Informatika_, _Engleski_, _Matematika_, _Fizika_, _Hemija_, _Likovno_ и која ће бити индексирана по колони _Ime_:

In [26]:
ocene = pd.DataFrame(razred)
ocene.columns=["Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Hemija", "Likovno"]
ocene1 = ocene.set_index("Ime")
ocene1

Unnamed: 0_level_0,Informatika,Engleski,Matematika,Fizika,Hemija,Likovno
Ime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,5,3,5,2,4,5
Bojan,5,5,5,5,5,5
Vlada,4,5,3,4,5,4
Gordana,5,5,5,5,5,5
Dejan,3,4,2,3,3,4
Đorđe,4,5,3,4,5,4
Elena,3,3,3,4,2,3
Žaklina,5,5,4,5,4,5
Zoran,4,5,4,4,3,5
Ivana,2,2,2,2,2,5


Ако желимо да израчунамо средње вредности оцена по предметима, треба на сваку колону ове табеле (осим прве где су имена) да применимо функцију `.mean()`. Листа са именима свих колона табеле `ocene` се добија као `ocene.columns`, па сада само треба да прођемо кроз ову листу и за сваку колону да израчунамо средњу вредност:

In [27]:
for predmet in ocene1.columns:
    print(predmet, "->", round(ocene1[predmet].mean(), 2))

Informatika -> 3.91
Engleski -> 4.18
Matematika -> 3.73
Fizika -> 3.82
Hemija -> 3.91
Likovno -> 4.55


Да бисмо израчунали средње вредности оцена за сваког ученика, функцију `.mean()` ћемо применити на врсте табеле које добијамо позивом аксесора `.loc[]`. Погледајмо, прво, како то можемо да урадимо за једног ученика:

In [28]:
print("Đorđe ima sledeće ocene:")
print(ocene1.loc["Đorđe"])
print("Srednja vrednost njegovih ocena je:", 
      round(ocene1.loc["Đorđe"].mean(), 2))  # računamo sr. vrednost ocena za Đorđa pa zaokružujemo na dve cifre

Đorđe ima sledeće ocene:
Informatika    4
Engleski       5
Matematika     3
Fizika         4
Hemija         5
Likovno        4
Name: Đorđe, dtype: int64
Srednja vrednost njegovih ocena je: 4.17


Списак свих ученика се налази у индексној колони, па средње вредности за све ученике можемо да израчунамо овако:

In [29]:
for ucenik in ocene1.index:
    print(ucenik, "->", round(ocene1.loc[ucenik].mean(), 2))

Ana -> 4.0
Bojan -> 5.0
Vlada -> 4.17
Gordana -> 5.0
Dejan -> 3.17
Đorđe -> 4.17
Elena -> 3.0
Žaklina -> 4.67
Zoran -> 4.17
Ivana -> 2.5
Jasna -> 4.33


Ево и кратке видео илустрације:

## ..............ovde  nekako ubaciti video iz https://petlja.org/kurs/478/9/1615 ............

### Транспоновање табеле

Замена врста и колона табеле се зове транспоновање. Приликом транспоновања имена колона полазне табеле постају индекси нове табеле, док индексна колона полазне табеле одређује имена колона нове табеле:

Транспоновање се често користи када табела има мало веома дугачких редова, па је у неким ситуацијама лакше посматрати транспоновану табелу која онда има пуно релативно кратких редова. Функције `.head()` и `.tail()` нам тада омогућују да се брзо упознамо са почетком и крајем табеле и да стекнемо неку интуицију о томе како табела изгледа.

Важно је рећи и то да се са табелама може радити и без транспоновања, јер све што можемо да урадимо на колонама табеле можемо да урадимо и на врстама. И поред тога, транспоновање се често користи јер је библиотека _pandas_ оптимизована за рад по колонама табеле.

Табела се транспонује тако што се на њу примени функција `.Т` која као резултат враћа нову, транспоновану табелу.

Ево примера са оценама:

In [30]:
ocene1

Unnamed: 0_level_0,Informatika,Engleski,Matematika,Fizika,Hemija,Likovno
Ime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,5,3,5,2,4,5
Bojan,5,5,5,5,5,5
Vlada,4,5,3,4,5,4
Gordana,5,5,5,5,5,5
Dejan,3,4,2,3,3,4
Đorđe,4,5,3,4,5,4
Elena,3,3,3,4,2,3
Žaklina,5,5,4,5,4,5
Zoran,4,5,4,4,3,5
Ivana,2,2,2,2,2,5


Транспоновану табелу добијамо овако:

In [31]:
ocene2 = ocene1.T

In [32]:
ocene2

Ime,Ana,Bojan,Vlada,Gordana,Dejan,Đorđe,Elena,Žaklina,Zoran,Ivana,Jasna
Informatika,5,5,4,5,3,4,3,5,4,2,3
Engleski,3,5,5,5,4,5,3,5,5,2,4
Matematika,5,5,3,5,2,3,3,4,4,2,5
Fizika,2,5,4,5,3,4,4,5,4,2,4
Hemija,4,5,5,5,3,5,2,4,3,2,5
Likovno,5,5,4,5,4,4,3,5,5,5,5


Хајде још да се уверимо да су врсте и колоне замениле места и у пољима `index` и `columns`. У полазној табели је:

In [33]:
ocene1.index

Index(['Ana', 'Bojan', 'Vlada', 'Gordana', 'Dejan', 'Đorđe', 'Elena',
       'Žaklina', 'Zoran', 'Ivana', 'Jasna'],
      dtype='object', name='Ime')

In [34]:
ocene1.columns

Index(['Informatika', 'Engleski', 'Matematika', 'Fizika', 'Hemija', 'Likovno'], dtype='object')

У транспонованој табели је:

In [35]:
ocene2.index

Index(['Informatika', 'Engleski', 'Matematika', 'Fizika', 'Hemija', 'Likovno'], dtype='object')

In [36]:
ocene2.columns

Index(['Ana', 'Bojan', 'Vlada', 'Gordana', 'Dejan', 'Đorđe', 'Elena',
       'Žaklina', 'Zoran', 'Ivana', 'Jasna'],
      dtype='object', name='Ime')

Како смо раније већ видели, просек оцена по предметима добијамо лако:

In [37]:
for predmet in ocene1.columns:
    print(predmet, "->", round(ocene1[predmet].mean(), 2))

Informatika -> 3.91
Engleski -> 4.18
Matematika -> 3.73
Fizika -> 3.82
Hemija -> 3.91
Likovno -> 4.55


Да бисмо добили просек оцена по ученицима, можемо да приступимо врстама табеле користећи аксесор `.loc` како смо то већ видели, али можемо и да употребимо транспоновану табелу (рачунање просека по колонама, јер су колоне транспоноване табеле заправо врсте полазне табеле):

In [38]:
for ucenik in ocene2.columns:
    print(ucenik, "->", round(ocene2[ucenik].mean(), 2))

Ana -> 4.0
Bojan -> 5.0
Vlada -> 4.17
Gordana -> 5.0
Dejan -> 3.17
Đorđe -> 4.17
Elena -> 3.0
Žaklina -> 4.67
Zoran -> 4.17
Ivana -> 2.5
Jasna -> 4.33


### Задаци

За вежбу покрени Џупитер окружење и реши задатке из радне свеске J07.ipynb