# Експресни увод у обраду података у Пајтону

Овај курс се заснива на радној претпоставци да сте већ усвојили основе програмског језика Пајтон. Разумна претпоставка је, међутим, да нисте и да се са њим тек сада сусрећете. Ми ћемо се држати неразумне радне препоставке и брзо кренути са коришћењем Пајтона рачунајући на то да ћете ствари учити у лету. Спремни?

Нама је заправо најбитније да обрађујемо податке у Пајтону. Од вас нико не очекује да програмирате већ да програмски код написан у Џупитер свескама користите. Уколико касније напишете неку програмску линију самостално, то ће бити успех само по себи.

У овом уводу ћемо само представити основне појмове који су нам потребни за рад. Како то све функционише, видећете кроз примере. Из примера се свакако неће видети које су вам све опције на располагању. За то је потребан додатни рад. Ако дотле стигнете, то ће значити да сте већ на напредном нивоу.

## Типови података

Основни типови података у Пајтону су цео број (_int_), децимални број (_float_), текст (_str_) и вредност логичког исказа (_boolean_). Комбинацијом основних типова променљивих можемо да добијемо сложеније типове. Функција `type()` нам приказује тип променљиве.

In [1]:
type(5)

int

In [2]:
type(5.1)

float

In [3]:
type("Пајтон")

str

In [4]:
type(True)

bool

Имајте у виду да рачунске операције и функције за рад са подацима не раде исто за све типове променљивих. Неке операције чак раде и са различитим типовима. Погледајте примере. 

In [5]:
2+2

4

In [6]:
"рачунске"+"операције"

'рачунскеоперације'

## Структуре података

Структура података је начин на који податке организујемо и чувамо у меморији рачунара како бисмо тим подацима по потреби приступали. Најједноставније структуре су, наравно, саме променљиве. Низ променљивих већ представља листу.

### Листе

Једнодимензионалне структуре података које најчешће користимо у Пајтону су листе. То су најопштији низови података који не морају да буду истог типа.

In [7]:
lista=[2, "други елемент", 2==2, 19.4]

In [8]:
lista

[2, 'други елемент', True, 19.4]

In [9]:
type(lista)

list

Елементима листе се приступа преко индекса елемента. Пошто Пајтон елементе нумерише почевши од нултог, први елемент листе има индекс 0, други има индекс 1 итд.

In [10]:
lista[0]

2

Ако хоћете да додате елемент листи, то можете да урадите помоћу функције `append()` или једноставно да додате елемент са + [нови елемент]. За уметање елемента на одређено место у листи можете да користите `insert()` мада је и ово једноставније помоћу индекса. 

In [11]:
lista.append("пети елемент")
# или
# lista=lista+["пети елемент"]

Обратите пажњу на нетипичан начин на који се у Пајтону позива функција -- иза имена променљиве ставимо тачку и име функције.

In [12]:
lista

[2, 'други елемент', True, 19.4, 'пети елемент']

In [13]:
lista[2]=False

In [14]:
lista

[2, 'други елемент', False, 19.4, 'пети елемент']

### DataFrame

За дводимензиналне податке (табеле) најчешће користимо _DataFrame_. Основно окружење Пајтона нема тип _DataFrame_ и функције за рад са овом структуром. Неопходно је да учитамо библиотеку __pandas__ која садржи све што нам је неопходно.

In [15]:
import pandas as pd

Приметите да смо учитали __pandas__ биоблиотеку и назвали је __pd__. Ово смо учинили да бисмо касније мање куцали при позивању фукција ове библиотеке. Свака фукција из библиотеке __Pandas__ се позива са __pd.__+назив функције. Видећете касније на примерима како то функционише.

Сада ћемо направити једну једноставну табелу. _DataFrame_ можемо да формирамо тако што направимо листу листа па онда резултат претворимо у _DataFrame_ уз помоћ истоимене функције.

In [16]:
lista2=[["Београд", "BG", 11000],
        ["Нови Сад", "NS", 21000],
        ["Ниш", "NI", 18000]]

In [17]:
lista2

[['Београд', 'BG', 11000], ['Нови Сад', 'NS', 21000], ['Ниш', 'NI', 18000]]

In [18]:
df=pd.DataFrame(lista2)

In [19]:
df

Unnamed: 0,0,1,2
0,Београд,BG,11000
1,Нови Сад,NS,21000
2,Ниш,NI,18000


Поља у различитим колонама ове табеле могу садржати различите типове променљивих. У нашем примеру две колоне садрже текстове, а једна бројеве. 

Видимо да Пајтон ставља ознаке за колоне и редове иако то нисмо тражили. Ако нам се не свиђају, боље је да неведемо називе колона при креирању структуре __df__. 

Назив колоне у табели може да буде било који текст, али то није препоручљиво. Из практичних разлога добро је да називи колона буду кратки, по могућству да то буде само једна реч. Има функција које чак не раде како треба ако назив колоне није једна реч. Зато је некад добро преименовати колоне пре обраде података.

In [20]:
df=pd.DataFrame(lista2,columns=['Grad',"Auto_oznaka","Poštanski_broj"])

In [21]:
df

Unnamed: 0,Grad,Auto_oznaka,Poštanski_broj
0,Београд,BG,11000
1,Нови Сад,NS,21000
2,Ниш,NI,18000


Да бисмо издвојили неку колону, довољно је да уз име табеле ставимо тачку и наведемо њен назив. 

In [22]:
df.Auto_oznaka

0    BG
1    NS
2    NI
Name: Auto_oznaka, dtype: object

Алтернативно, можемо да наведемо назив колоне као индекс у угластим заградама.

In [23]:
df['Auto_oznaka']

0    BG
1    NS
2    NI
Name: Auto_oznaka, dtype: object

Колоне и редови увек имају своје ознаке, макар биле и бројеви 0, 1, 2... То нам олакшава да приступимо подацима у табели.

Постоји неколико начина како да приступимо елементима табеле. Наводимо овде два примера која би требало да буду разумљиви и без посебног објашњења.

In [24]:
df.Grad[2]

'Ниш'

In [25]:
df['Grad'][2]

'Ниш'

`iloc[]` је посебна врста функције (_accessor_) која нам омогућава да елементима табеле приступимо на још један начин. Њени аргументи су индекси редова и колона.

In [26]:
df.iloc[2,0]

'Ниш'

### Мета-подаци 

Корисне мета-податке о табели можете да добијете користећи низ функција садржаних у библиотеци __pandas__. Ево неколико примера:
- __columns__ називи колона
- __index__ називи редова
- __ndim__ број димензија табеле
- __shape__ број редова и колона табеле
- __info()__ преглед основних информација
- __memory_usage()__ потрошња меморије


In [27]:
df.shape

(3, 3)

Ово је био врло кратак преглед основних типова и структура података. У примерима које будемо обрађивали током овог курса вероватно ћемо користити само њих.