# Pandas

Pandas je alat za analizu i obradu podataka za Python programski jezik

Najčešće se importuje na sledeći način:

In [157]:
import pandas as pd

U pandas-u se tabela zove **DataFrame**.

In [158]:
df = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": "foo",
    }
)
df

Unnamed: 0,A,B,C,D
0,1.0,A,10,foo
1,2.0,B,9,foo
2,3.0,C,8,foo
3,4.0,D,7,foo
4,5.0,E,6,foo
5,6.0,F,5,foo
6,7.0,G,4,foo
7,8.0,H,3,foo
8,9.0,I,2,foo
9,10.0,J,1,foo


### Pregled podataka

Sa ```DataFrame.head()``` i ```DataFrame.tail()``` mogu se videti prvi i poslednji redovi DataFrame-a

In [159]:
df.head()

Unnamed: 0,A,B,C,D
0,1.0,A,10,foo
1,2.0,B,9,foo
2,3.0,C,8,foo
3,4.0,D,7,foo
4,5.0,E,6,foo


In [160]:
df.tail(3)

Unnamed: 0,A,B,C,D
7,8.0,H,3,foo
8,9.0,I,2,foo
9,10.0,J,1,foo


```info()``` metoda prikazuje osnovne informacije o DataFrame-u uključujući kolone i njihove tipove podataka, ne-nedostajajućim vrednostima, indeksu

In [161]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       10 non-null     float64
 1   B       10 non-null     object 
 2   C       10 non-null     int64  
 3   D       10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 452.0+ bytes


In [162]:
df.describe()

Unnamed: 0,A,C
count,10.0,10.0
mean,5.5,5.5
std,3.02765,3.02765
min,1.0,1.0
25%,3.25,3.25
50%,5.5,5.5
75%,7.75,7.75
max,10.0,10.0


In [163]:
df.sort_values(by="C")

Unnamed: 0,A,B,C,D
9,10.0,J,1,foo
8,9.0,I,2,foo
7,8.0,H,3,foo
6,7.0,G,4,foo
5,6.0,F,5,foo
4,5.0,E,6,foo
3,4.0,D,7,foo
2,3.0,C,8,foo
1,2.0,B,9,foo
0,1.0,A,10,foo


### Selekcija

Selekcija i filtriranje specifičnih redova/kolona, filtriranje podataka na osnovu uslova

Selekcija jedne kolone. Vraća ```Series``` objekat

In [164]:
df["A"]

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
Name: A, dtype: float64

Selekcija preko [] (```__getitem__```) 'iseca' redove

In [165]:
df[0:3]

Unnamed: 0,A,B,C,D
0,1.0,A,10,foo
1,2.0,B,9,foo
2,3.0,C,8,foo


##### Selekcija preko labele

Metode za indeksiranje na bazi celobrojne labele

In [166]:
df2 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": "foo",
    },
    index=list('abcdefghij')
)
df2

Unnamed: 0,A,B,C,D
a,1.0,A,10,foo
b,2.0,B,9,foo
c,3.0,C,8,foo
d,4.0,D,7,foo
e,5.0,E,6,foo
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


In [167]:
df2.loc['d']

A    4.0
B      D
C      7
D    foo
Name: d, dtype: object

Selekcija više osa preko labele

In [168]:
df2.loc['d', ["A", "B"]]

A    4.0
B      D
Name: d, dtype: object

*Note:* Kod selekcije preko labele, selektovanje je uključno sa obe strane

In [169]:
df2.loc["b":"d", ["C", "D"]]

Unnamed: 0,C,D
b,9,foo
c,8,foo
d,7,foo


Dobavljanje skalarne vrednosti

In [170]:
df2.loc['d', "A"]

4.0

In [171]:
df2.at['d', "A"]

4.0

##### Selekcija po poziciji

Metode za indeksiranje na bazi celobrojne pozicije.

*Note*: Kod selekcije po poziciji, početna vrednost je uključna a krajnja isključna!

In [172]:
df2.iloc[3]

A    4.0
B      D
C      7
D    foo
Name: d, dtype: object

In [173]:
df2.iloc[3:5, 0:2]

Unnamed: 0,A,B
d,4.0,D
e,5.0,E


Isecanje redova

In [174]:
df2.iloc[1:3, :]

Unnamed: 0,A,B,C,D
b,2.0,B,9,foo
c,3.0,C,8,foo


Isecanje kolona

In [175]:
df2.iloc[:, 1:3]

Unnamed: 0,B,C
a,A,10
b,B,9
c,C,8
d,D,7
e,E,6
f,F,5
g,G,4
h,H,3
i,I,2
j,J,1


Dobavljanje vrednosti

In [176]:
df2.iloc[1, 1]

'B'

In [177]:
df2.iat[1, 1]

'B'

##### Boolean indeksiranje

Selektovanje podataka na osnovu vrednosti iz jedne kolone

In [178]:
df2[df2["A"] > 5]

Unnamed: 0,A,B,C,D
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


##### Korišćenje isin() za filtriranje

In [179]:
df2[df2["B"].isin(["G", "J"])]

Unnamed: 0,A,B,C,D
g,7.0,G,4,foo
j,10.0,J,1,foo


In [35]:
### Dodela vrednosti

##### Dodela vrednosti preko labele

In [180]:
df2.at['b', "A"] = -1
df2

Unnamed: 0,A,B,C,D
a,1.0,A,10,foo
b,-1.0,B,9,foo
c,3.0,C,8,foo
d,4.0,D,7,foo
e,5.0,E,6,foo
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


##### Dodela vrednosti preko pozicije

In [181]:
df2.iat[0, 1] = 'M'
df2

Unnamed: 0,A,B,C,D
a,1.0,M,10,foo
b,-1.0,B,9,foo
c,3.0,C,8,foo
d,4.0,D,7,foo
e,5.0,E,6,foo
f,6.0,F,5,foo
g,7.0,G,4,foo
h,8.0,H,3,foo
i,9.0,I,2,foo
j,10.0,J,1,foo


Dodela vrednosti pomoću niza

In [182]:
df2.loc[:, "D"] = [-1, -2, -3, -4, -5, -6, -7, -8, -9, -10]
df2

Unnamed: 0,A,B,C,D
a,1.0,M,10,-1
b,-1.0,B,9,-2
c,3.0,C,8,-3
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


### Nedostajući podaci

In [183]:
df3 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ['dog', 'cat', None, 'lion', 'bear', 'penguin', 'horse', 'dolphin', 'panda', 'seagull'],
    },
    index=list('abcdefghij')
)

Odbacivanje redova koji imaju nedostajajuće podatke

In [184]:
df3.dropna(how="any")

Unnamed: 0,A,B,C,D
a,1.0,A,10,dog
b,2.0,B,9,cat
d,4.0,D,7,lion
e,5.0,E,6,bear
f,6.0,F,5,penguin
g,7.0,G,4,horse
h,8.0,H,3,dolphin
i,9.0,I,2,panda
j,10.0,J,1,seagull


Odbacivanje kolona koje imaju nedostajajuće podatke

In [185]:
df3.dropna(how="any", axis=1)

Unnamed: 0,A,B,C
a,1.0,A,10
b,2.0,B,9
c,3.0,C,8
d,4.0,D,7
e,5.0,E,6
f,6.0,F,5
g,7.0,G,4
h,8.0,H,3
i,9.0,I,2
j,10.0,J,1


```fillna()``` popunjava nedostajajuće podatke:

In [186]:
df3.fillna(value=555, inplace=True)
df3

Unnamed: 0,A,B,C,D
a,1.0,A,10,dog
b,2.0,B,9,cat
c,3.0,C,8,555
d,4.0,D,7,lion
e,5.0,E,6,bear
f,6.0,F,5,penguin
g,7.0,G,4,horse
h,8.0,H,3,dolphin
i,9.0,I,2,panda
j,10.0,J,1,seagull


### Kreiranje novih kolona na osnovu postojećih


Kreiranje nove kolone

Za kreiranje nove kolone, koriste se uglaste zagrade ```[]``` sa nazivom nove kolone sa leve strane dodele

In [187]:
df3["A_double"] = df3["A"] * 2
df3

Unnamed: 0,A,B,C,D,A_double
a,1.0,A,10,dog,2.0
b,2.0,B,9,cat,4.0
c,3.0,C,8,555,6.0
d,4.0,D,7,lion,8.0
e,5.0,E,6,bear,10.0
f,6.0,F,5,penguin,12.0
g,7.0,G,4,horse,14.0
h,8.0,H,3,dolphin,16.0
i,9.0,I,2,panda,18.0
j,10.0,J,1,seagull,20.0


In [188]:
df3["A*C"] = df3["A"] * df3["C"]
df3

Unnamed: 0,A,B,C,D,A_double,A*C
a,1.0,A,10,dog,2.0,10.0
b,2.0,B,9,cat,4.0,18.0
c,3.0,C,8,555,6.0,24.0
d,4.0,D,7,lion,8.0,28.0
e,5.0,E,6,bear,10.0,30.0
f,6.0,F,5,penguin,12.0,30.0
g,7.0,G,4,horse,14.0,28.0
h,8.0,H,3,dolphin,16.0,24.0
i,9.0,I,2,panda,18.0,18.0
j,10.0,J,1,seagull,20.0,10.0


Promena naziva kolona

In [189]:
df3 = df3.rename(
    columns = {
        "B": "letters",
        "D": "animals"
    }
)

df3

Unnamed: 0,A,letters,C,animals,A_double,A*C
a,1.0,A,10,dog,2.0,10.0
b,2.0,B,9,cat,4.0,18.0
c,3.0,C,8,555,6.0,24.0
d,4.0,D,7,lion,8.0,28.0
e,5.0,E,6,bear,10.0,30.0
f,6.0,F,5,penguin,12.0,30.0
g,7.0,G,4,horse,14.0,28.0
h,8.0,H,3,dolphin,16.0,24.0
i,9.0,I,2,panda,18.0,18.0
j,10.0,J,1,seagull,20.0,10.0


### Kombinovanje podataka iz različitih tabela

##### Concat

Spajanje DataFrame-ova po osi preko ```concat()```

In [190]:
dfa = df2[:3]
dfb = df2[3:7]
dfc = df2[7:]

In [191]:
dfa

Unnamed: 0,A,B,C,D
a,1.0,M,10,-1
b,-1.0,B,9,-2
c,3.0,C,8,-3


In [192]:
dfb

Unnamed: 0,A,B,C,D
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7


In [193]:
dfc

Unnamed: 0,A,B,C,D
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


In [194]:
pd.concat([dfa,dfb,dfc])

Unnamed: 0,A,B,C,D
a,1.0,M,10,-1
b,-1.0,B,9,-2
c,3.0,C,8,-3
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


##### Join

```merge()``` omogućava spajanje u SQL stilu

In [195]:
left = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [196]:
right = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [197]:
result = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    left_on="key", # kolone levog DataFrame-a po kojima se vrši join
    right_on="key", # kolone desnog DataFrame-a po kojima se vrši join
    how="inner" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


```how``` argument specificira koji ključevi će biti uključeni u rezultujuću tabelu:

left - LEFT OUTER JOIN - Koristi samo ključeve iz levog DataFrame-a

right - RIGHT OUTER JOIN - Koristi samo ključeve iz desnog DataFrame-a

outer - FULL OUTER JOIN - Koristi uniju ključeva oba DataFrame-a

inner - INNER JOIN - Koristi presek ključeva oba DataFrame-a

cross - CROSS JOIN - Kreiraj dekartov proizvod redova oba DataFrame-a

### Obrada tekstualnih podataka

In [539]:
df2['B'].str.lower()

a    m
b    b
c    c
d    d
e    e
f    f
g    g
h    h
i    i
j    j
Name: B, dtype: object

### Čitanje i pisanje tabelarnih podataka

Pandas ima ugradjenu podršku za razne fajl formate (csv, excel, json.. )
Učitavanje podataka iz tih formata radi se preko funkcija sa prefiksom read_*. to_* metode se koriste za čuvanje podataka.

In [540]:
df = pd.read_csv("foo.csv")
df

Unnamed: 0,ime,prezime,godine
0,Michael,Scott,42
1,Jim,Halpert,31
2,Pam,Beezly,29


In [199]:
#df.to_csv("foo2.csv")

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,12,9
foo,24,19
