# Pandas

Pandas je alat za analizu i obradu podataka za Python programski jezik

Najčešće se importuje na sledeći način:

In [253]:
import pandas as pd

U pandas-u se tabela zove **DataFrame**.

In [254]:
df = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": "foo",
    }
)
df

Unnamed: 0,A,B,C,D
0,1.0,A,10,foo
1,2.0,B,9,foo
2,3.0,C,8,foo
3,4.0,D,7,foo
4,5.0,E,6,foo
5,6.0,F,5,foo
6,7.0,G,4,foo
7,8.0,H,3,foo
8,9.0,I,2,foo
9,10.0,J,1,foo


### Pregled podataka

Sa ```DataFrame.head()``` i ```DataFrame.tail()``` mogu se videti prvi i poslednji redovi DataFrame-a

In [255]:
df.head()

Unnamed: 0,A,B,C,D
0,1.0,A,10,foo
1,2.0,B,9,foo
2,3.0,C,8,foo
3,4.0,D,7,foo
4,5.0,E,6,foo


In [256]:
df.tail(3)

Unnamed: 0,A,B,C,D
7,8.0,H,3,foo
8,9.0,I,2,foo
9,10.0,J,1,foo


In [257]:
df.describe()

Unnamed: 0,A,C
count,10.0,10.0
mean,5.5,5.5
std,3.02765,3.02765
min,1.0,1.0
25%,3.25,3.25
50%,5.5,5.5
75%,7.75,7.75
max,10.0,10.0


In [258]:
df.index

RangeIndex(start=0, stop=10, step=1)

In [259]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [260]:
df.sort_values(by="C")

Unnamed: 0,A,B,C,D
9,10.0,J,1,foo
8,9.0,I,2,foo
7,8.0,H,3,foo
6,7.0,G,4,foo
5,6.0,F,5,foo
4,5.0,E,6,foo
3,4.0,D,7,foo
2,3.0,C,8,foo
1,2.0,B,9,foo
0,1.0,A,10,foo


### Selekcija

Selekcija i filtriranje specifičnih redova/kolona, filtriranje podataka na osnovu uslova

Selekcija jedne kolone. Vraća ```Series``` objekat

In [261]:
df["A"]

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
Name: A, dtype: float64

Selekcija preko [] (```__getitem__```) 'iseca' redove

In [262]:
df[0:3]

Unnamed: 0,A,B,C,D
0,1.0,A,10,foo
1,2.0,B,9,foo
2,3.0,C,8,foo


##### Selekcija preko labele

Metode za indeksiranje na bazi celobrojne labele.

In [263]:
df2 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": "foo",
    },
    index=list('abcdefghij')
)
df2

Unnamed: 0,A,B,C,D
a,1.0,A,10,foo
b,2.0,B,9,foo
c,3.0,C,8,foo
d,4.0,D,7,foo
e,5.0,E,6,foo
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


In [264]:
df2.loc['d']

A    4.0
B      D
C      7
D    foo
Name: d, dtype: object

Selekcija više osa preko labele

In [265]:
df2.loc['d', ["A", "B"]]

A    4.0
B      D
Name: d, dtype: object

Kod selekcije preko labele, selektovanje je uključno sa obe strane!

In [266]:
df2.loc["b":"d", ["C", "D"]]

Unnamed: 0,C,D
b,9,foo
c,8,foo
d,7,foo


Dobavljanje skalarne vrednosti

In [267]:
df2.loc['d', "A"]

4.0

In [268]:
df2.at['d', "A"]

4.0

##### Selekcija po poziciji

Metode za indeksiranje na bazi celobrojne pozicije. Kod selekcije po poziciji, početna vrednost je uključna a krajnja isključna!

In [269]:
df2.iloc[3]

A    4.0
B      D
C      7
D    foo
Name: d, dtype: object

In [270]:
df2.iloc[3:5, 0:2]

Unnamed: 0,A,B
d,4.0,D
e,5.0,E


Isecanje redova

In [271]:
df2.iloc[1:3, :]

Unnamed: 0,A,B,C,D
b,2.0,B,9,foo
c,3.0,C,8,foo


Isecanje kolona

In [272]:
df2.iloc[:, 1:3]

Unnamed: 0,B,C
a,A,10
b,B,9
c,C,8
d,D,7
e,E,6
f,F,5
g,G,4
h,H,3
i,I,2
j,J,1


Dobavljanje vrednosti

In [273]:
df2.iloc[1, 1]

'B'

In [274]:
df2.iat[1, 1]

'B'

##### Boolean indeksiranje

Selektovanje podataka na osnovu jedne kolone

In [275]:
df2[df2["A"] > 5]

Unnamed: 0,A,B,C,D
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


##### korišćenje isin() za filtriranje

In [276]:
df2[df2["B"].isin(["G", "J"])]

Unnamed: 0,A,B,C,D
g,7.0,G,4,foo
j,10.0,J,1,foo


In [277]:
### Dodela vrednosti

##### Dodela vrednosti preko labele

In [278]:
df2.at['b', "A"] = -1
df2

Unnamed: 0,A,B,C,D
a,1.0,A,10,foo
b,-1.0,B,9,foo
c,3.0,C,8,foo
d,4.0,D,7,foo
e,5.0,E,6,foo
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


##### Dodela vrednosti preko pozicije

In [279]:
df2.iat[0, 1] = 'M'
df2

Unnamed: 0,A,B,C,D
a,1.0,M,10,foo
b,-1.0,B,9,foo
c,3.0,C,8,foo
d,4.0,D,7,foo
e,5.0,E,6,foo
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


Dodela pomoću niza

In [280]:
df2.loc[:, "D"] = [-1, -2, -3, -4, -5, -6, -7, -8, -9, -10]
df2

Unnamed: 0,A,B,C,D
a,1.0,M,10,-1
b,-1.0,B,9,-2
c,3.0,C,8,-3
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


### Nedostajući podaci

TODO

### Kreiranje novih kolona na osnovu postojećih


TODO

### Kombinovanje podataka iz različitih tabela

##### Concat

Spajanje DataFrame-ova po osi preko concat()

In [281]:
dfa = df2[:3]
dfb = df2[3:7]
dfc = df2[7:]

In [282]:
dfa

Unnamed: 0,A,B,C,D
a,1.0,M,10,-1
b,-1.0,B,9,-2
c,3.0,C,8,-3


In [283]:
dfb

Unnamed: 0,A,B,C,D
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7


In [284]:
dfc

Unnamed: 0,A,B,C,D
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


In [285]:
pd.concat([dfa,dfb,dfc])

Unnamed: 0,A,B,C,D
a,1.0,M,10,-1
b,-1.0,B,9,-2
c,3.0,C,8,-3
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


##### Join

TODO

### Procesuiranje tekstualnih podataka

In [286]:
df2['B'].str.lower()

a    m
b    b
c    c
d    d
e    e
f    f
g    g
h    h
i    i
j    j
Name: B, dtype: object

### Čitanje i pisanje tabelarnih podataka

Pandas ima ugradjenu podršku za razne fajl formate (csv, excel, json.. )
Učitavanje podataka iz tih formata radi se preko funkcija sa prefiksom read_*. to_* metode se koriste za čuvanje podataka.

In [287]:
df = pd.read_csv("foo.csv")
df

Unnamed: 0,ime,prezime,godine
0,Michael,Scott,42
1,Jim,Halpert,31
2,Pam,Beezly,29


In [288]:
#df.to_csv("foo2.csv")