# Pandas

Pandas je alat za analizu i obradu podataka za Python programski jezik

In [876]:
!pip install pandas



Najčešće se importuje na sledeći način:

In [877]:
import pandas as pd

U pandas-u se tabela naziva **DataFrame**.

![DataFrame](images/dataframe.png)

Jedan od načina za kreiranje DataFrame-a je preko dictionary-ja:

In [878]:
df = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    }
)

In [879]:
df

Unnamed: 0,A,B,C,D
0,1.0,A,10,a
1,2.0,B,9,b
2,3.0,C,8,c
3,4.0,D,7,d
4,5.0,E,6,e
5,6.0,F,5,f
6,7.0,G,4,g
7,8.0,H,3,h
8,9.0,I,2,i
9,10.0,J,1,j


### Pregled podataka

Sa ```DataFrame.head()``` i ```DataFrame.tail()``` mogu se videti prvi i poslednji redovi DataFrame-a

In [880]:
df.head()

Unnamed: 0,A,B,C,D
0,1.0,A,10,a
1,2.0,B,9,b
2,3.0,C,8,c
3,4.0,D,7,d
4,5.0,E,6,e


In [881]:
df.tail(3)

Unnamed: 0,A,B,C,D
7,8.0,H,3,h
8,9.0,I,2,i
9,10.0,J,1,j


```info()``` metoda prikazuje osnovne informacije o DataFrame-u uključujući kolone i njihove tipove podataka, ne-nedostajajućim vrednostima, indeksu

In [882]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       10 non-null     float64
 1   B       10 non-null     object 
 2   C       10 non-null     int64  
 3   D       10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 452.0+ bytes


Sa ```describe()``` mogu se dobiti osnovni statistički podaci

In [883]:
df.describe()

Unnamed: 0,A,C
count,10.0,10.0
mean,5.5,5.5
std,3.02765,3.02765
min,1.0,1.0
25%,3.25,3.25
50%,5.5,5.5
75%,7.75,7.75
max,10.0,10.0


In [884]:
df.sort_values(by="C")

Unnamed: 0,A,B,C,D
9,10.0,J,1,j
8,9.0,I,2,i
7,8.0,H,3,h
6,7.0,G,4,g
5,6.0,F,5,f
4,5.0,E,6,e
3,4.0,D,7,d
2,3.0,C,8,c
1,2.0,B,9,b
0,1.0,A,10,a


*Napomena*: dodela vrednosti

In [885]:
df

Unnamed: 0,A,B,C,D
0,1.0,A,10,a
1,2.0,B,9,b
2,3.0,C,8,c
3,4.0,D,7,d
4,5.0,E,6,e
5,6.0,F,5,f
6,7.0,G,4,g
7,8.0,H,3,h
8,9.0,I,2,i
9,10.0,J,1,j


In [886]:
df = df.sort_values(by="C")

In [887]:
df

Unnamed: 0,A,B,C,D
9,10.0,J,1,j
8,9.0,I,2,i
7,8.0,H,3,h
6,7.0,G,4,g
5,6.0,F,5,f
4,5.0,E,6,e
3,4.0,D,7,d
2,3.0,C,8,c
1,2.0,B,9,b
0,1.0,A,10,a


### Selekcija

Selekcija i filtriranje specifičnih redova/kolona, filtriranje podataka na osnovu uslova

Selekcija jedne kolone. Vraća ```Series``` objekat.

Series je još jedna osnovna struktura podataka u pandas-u. Predstavlja jednodimenzionalni niz sa labelama.

In [888]:
df["A"]

9    10.0
8     9.0
7     8.0
6     7.0
5     6.0
4     5.0
3     4.0
2     3.0
1     2.0
0     1.0
Name: A, dtype: float64

Selekcija više kolona

In [889]:
df[['A', 'B']]

Unnamed: 0,A,B
9,10.0,J
8,9.0,I
7,8.0,H
6,7.0,G
5,6.0,F
4,5.0,E
3,4.0,D
2,3.0,C
1,2.0,B
0,1.0,A


Selekcija preko [] 'iseca' redove po poziciji

In [890]:
df[0:3]

Unnamed: 0,A,B,C,D
9,10.0,J,1,j
8,9.0,I,2,i
7,8.0,H,3,h


##### Selekcija preko labele

Metode za indeksiranje na bazi celobrojne labele

In [891]:
df2 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["aa", "bb", "cc", "dd", "ee", "ff", "gg", "hh", "ii", "jj"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [892]:
df2

Unnamed: 0,A,B,C,D
a,1.0,A,10,aa
b,2.0,B,9,bb
c,3.0,C,8,cc
d,4.0,D,7,dd
e,5.0,E,6,ee
f,6.0,F,5,ff
g,7.0,G,4,gg
h,8.0,H,3,hh
i,9.0,I,2,ii
j,10.0,J,1,jj


In [893]:
df2.loc['d']

A    4.0
B      D
C      7
D     dd
Name: d, dtype: object

Selekcija više osa preko labele

In [894]:
df2.loc['d', ["A", "B"]]

A    4.0
B      D
Name: d, dtype: object

*Note:* Kod selekcije preko labele, selektovanje je uključno sa obe strane

In [895]:
df2.loc["b":"d", ["C", "D"]]

Unnamed: 0,C,D
b,9,bb
c,8,cc
d,7,dd


Dobavljanje skalarne vrednosti

In [896]:
df2.loc['d', "A"]

4.0

In [897]:
df2.at['d', "A"]

4.0

##### Selekcija po poziciji

Metode za indeksiranje na bazi celobrojne pozicije.

*Note*: Kod selekcije po poziciji, početna vrednost je uključna a krajnja isključna!

In [898]:
df2.iloc[3]

A    4.0
B      D
C      7
D     dd
Name: d, dtype: object

In [899]:
df2.iloc[3:5, 0:2]

Unnamed: 0,A,B
d,4.0,D
e,5.0,E


Isecanje redova

In [900]:
df2.iloc[1:3, :]

Unnamed: 0,A,B,C,D
b,2.0,B,9,bb
c,3.0,C,8,cc


Isecanje kolona

In [901]:
df2.iloc[:, 1:3]

Unnamed: 0,B,C
a,A,10
b,B,9
c,C,8
d,D,7
e,E,6
f,F,5
g,G,4
h,H,3
i,I,2
j,J,1


Dobavljanje skalarne vrednosti

In [902]:
df2.iloc[1, 1]

'B'

In [903]:
df2.iat[1, 1]

'B'

##### Boolean indeksiranje

Selektovanje podataka na osnovu vrednosti iz jedne kolone

In [904]:
df2[df2["A"] > 5]

Unnamed: 0,A,B,C,D
f,6.0,F,5,ff
g,7.0,G,4,gg
h,8.0,H,3,hh
i,9.0,I,2,ii
j,10.0,J,1,jj


In [905]:
df2["A"] > 5

a    False
b    False
c    False
d    False
e    False
f     True
g     True
h     True
i     True
j     True
Name: A, dtype: bool

In [906]:
(df2["A"] > 5) & (df2["B"]=="I")

a    False
b    False
c    False
d    False
e    False
f    False
g    False
h    False
i     True
j    False
dtype: bool

##### Korišćenje isin() za filtriranje

In [907]:
df2[df2["B"].isin(["G", "J"])]

Unnamed: 0,A,B,C,D
g,7.0,G,4,gg
j,10.0,J,1,jj


### Dodela vrednosti

##### Dodela vrednosti preko labele

In [908]:
df3 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [909]:
df3.at['b', "A"] = -1

In [910]:
df3

Unnamed: 0,A,B,C,D
a,1.0,A,10,a
b,-1.0,B,9,b
c,3.0,C,8,c
d,4.0,D,7,d
e,5.0,E,6,e
f,6.0,F,5,f
g,7.0,G,4,g
h,8.0,H,3,h
i,9.0,I,2,i
j,10.0,J,1,j


##### Dodela vrednosti preko pozicije

In [911]:
df4 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [912]:
df4.iat[0, 1] = 'M'

In [913]:
df4

Unnamed: 0,A,B,C,D
a,1.0,M,10,a
b,2.0,B,9,b
c,3.0,C,8,c
d,4.0,D,7,d
e,5.0,E,6,e
f,6.0,F,5,f
g,7.0,G,4,g
h,8.0,H,3,h
i,9.0,I,2,i
j,10.0,J,1,j


Dodela vrednosti pomoću niza

In [914]:
df5 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [915]:
df5.loc[:, "D"] = [-1, -2, -3, -4, -5, -6, -7, -8, -9, -10]

In [916]:
df5

Unnamed: 0,A,B,C,D
a,1.0,A,10,-1
b,2.0,B,9,-2
c,3.0,C,8,-3
d,4.0,D,7,-4
e,5.0,E,6,-5
f,6.0,F,5,-6
g,7.0,G,4,-7
h,8.0,H,3,-8
i,9.0,I,2,-9
j,10.0,J,1,-10


### Nedostajući podaci

In [917]:
df6 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ['dog', 'cat', None, 'lion', 'bear', 'penguin', 'horse', 'dolphin', 'panda', 'seagull'],
    },
    index=list('abcdefghij')
)

In [918]:
df6

Unnamed: 0,A,B,C,D
a,1.0,A,10,dog
b,2.0,B,9,cat
c,3.0,C,8,
d,4.0,D,7,lion
e,5.0,E,6,bear
f,6.0,F,5,penguin
g,7.0,G,4,horse
h,8.0,H,3,dolphin
i,9.0,I,2,panda
j,10.0,J,1,seagull


Odbacivanje redova koji imaju nedostajajuće podatke

In [919]:
df6.dropna(how="any")

Unnamed: 0,A,B,C,D
a,1.0,A,10,dog
b,2.0,B,9,cat
d,4.0,D,7,lion
e,5.0,E,6,bear
f,6.0,F,5,penguin
g,7.0,G,4,horse
h,8.0,H,3,dolphin
i,9.0,I,2,panda
j,10.0,J,1,seagull


Odbacivanje kolona koje imaju nedostajajuće podatke

In [920]:
df6.dropna(how="any", axis=1)

Unnamed: 0,A,B,C
a,1.0,A,10
b,2.0,B,9
c,3.0,C,8
d,4.0,D,7
e,5.0,E,6
f,6.0,F,5
g,7.0,G,4
h,8.0,H,3
i,9.0,I,2
j,10.0,J,1


```fillna()``` popunjava nedostajajuće podatke:

In [921]:
df6.fillna(value=555)
df6

Unnamed: 0,A,B,C,D
a,1.0,A,10,dog
b,2.0,B,9,cat
c,3.0,C,8,
d,4.0,D,7,lion
e,5.0,E,6,bear
f,6.0,F,5,penguin
g,7.0,G,4,horse
h,8.0,H,3,dolphin
i,9.0,I,2,panda
j,10.0,J,1,seagull


### Kreiranje novih kolona na osnovu postojećih


Kreiranje nove kolone

Za kreiranje nove kolone, koriste se uglaste zagrade ```[]``` sa nazivom nove kolone sa leve strane dodele

In [922]:
df7 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ['dog', 'cat', None, 'lion', 'bear', 'penguin', 'horse', 'dolphin', 'panda', 'seagull'],
    },
    index=list('abcdefghij')
)

In [923]:
df7["A_double"] = df7["A"] * 2

In [924]:
df7["A*C"] = df7["A"] * df7["C"]

In [925]:
df7

Unnamed: 0,A,B,C,D,A_double,A*C
a,1.0,A,10,dog,2.0,10.0
b,2.0,B,9,cat,4.0,18.0
c,3.0,C,8,,6.0,24.0
d,4.0,D,7,lion,8.0,28.0
e,5.0,E,6,bear,10.0,30.0
f,6.0,F,5,penguin,12.0,30.0
g,7.0,G,4,horse,14.0,28.0
h,8.0,H,3,dolphin,16.0,24.0
i,9.0,I,2,panda,18.0,18.0
j,10.0,J,1,seagull,20.0,10.0


Promena naziva kolona

In [926]:
df8 = df7.rename(
    columns = {
        "B": "letters",
        "D": "animals"
    }
)

In [927]:
df8

Unnamed: 0,A,letters,C,animals,A_double,A*C
a,1.0,A,10,dog,2.0,10.0
b,2.0,B,9,cat,4.0,18.0
c,3.0,C,8,,6.0,24.0
d,4.0,D,7,lion,8.0,28.0
e,5.0,E,6,bear,10.0,30.0
f,6.0,F,5,penguin,12.0,30.0
g,7.0,G,4,horse,14.0,28.0
h,8.0,H,3,dolphin,16.0,24.0
i,9.0,I,2,panda,18.0,18.0
j,10.0,J,1,seagull,20.0,10.0


### Kombinovanje podataka iz različitih tabela

##### Concat

Spajanje DataFrame-ova po osi preko ```concat()```

In [928]:
dfa = df2[:3]
dfb = df2[3:7]
dfc = df2[7:]

In [929]:
dfa

Unnamed: 0,A,B,C,D
a,1.0,A,10,aa
b,2.0,B,9,bb
c,3.0,C,8,cc


In [930]:
dfb

Unnamed: 0,A,B,C,D
d,4.0,D,7,dd
e,5.0,E,6,ee
f,6.0,F,5,ff
g,7.0,G,4,gg


In [931]:
dfc

Unnamed: 0,A,B,C,D
h,8.0,H,3,hh
i,9.0,I,2,ii
j,10.0,J,1,jj


In [932]:
pd.concat([dfa,dfb,dfc])

Unnamed: 0,A,B,C,D
a,1.0,A,10,aa
b,2.0,B,9,bb
c,3.0,C,8,cc
d,4.0,D,7,dd
e,5.0,E,6,ee
f,6.0,F,5,ff
g,7.0,G,4,gg
h,8.0,H,3,hh
i,9.0,I,2,ii
j,10.0,J,1,jj


##### Join

```merge()``` omogućava spajanje u SQL stilu

In [933]:
left = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [934]:
right = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2"],
        "C": ["C0", "C1", "C2",],
        "D": ["D0", "D1", "D2"],
    }
)
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2


In [935]:
result = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    left_on="key", # kolone levog DataFrame-a po kojima se vrši join
    right_on="key", # kolone desnog DataFrame-a po kojima se vrši join
    how="left" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,,


```how``` argument specificira koji ključevi će biti uključeni u rezultujuću tabelu:

left - LEFT OUTER JOIN - Koristi samo ključeve iz levog DataFrame-a

right - RIGHT OUTER JOIN - Koristi samo ključeve iz desnog DataFrame-a

outer - FULL OUTER JOIN - Koristi uniju ključeva oba DataFrame-a

inner - INNER JOIN - Koristi presek ključeva oba DataFrame-a

cross - CROSS JOIN - Kreiraj dekartov proizvod redova oba DataFrame-a. Svaki red iz prve tabele se uparuje sa svakim redom iz druge tabele, rezultirajući u novoj tabeli sa brojem redova jednakim proizvodu broja redova u učestvujućim tabelama.

In [936]:
result2 = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    left_on="key", # kolone levog DataFrame-a po kojima se vrši join
    right_on="key", # kolone desnog DataFrame-a po kojima se vrši join
    how="inner" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result2

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [937]:
result3 = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    how="cross" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result3

Unnamed: 0,key_x,A,B,key_y,C,D
0,K0,A0,B0,K0,C0,D0
1,K0,A0,B0,K1,C1,D1
2,K0,A0,B0,K2,C2,D2
3,K1,A1,B1,K0,C0,D0
4,K1,A1,B1,K1,C1,D1
5,K1,A1,B1,K2,C2,D2
6,K2,A2,B2,K0,C0,D0
7,K2,A2,B2,K1,C1,D1
8,K2,A2,B2,K2,C2,D2
9,K3,A3,B3,K0,C0,D0


### Grupisanje

Grupisanje obuhvata:
	1	Podelu podataka na grupe na osnovu nekih kriterijuma
	2	Primenu funkcije nezavisno na svaku od grupa
	3	Kombinovanje rezultata u strukturu podataka

In [938]:
df8 = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": [1, 2, 3, 4, 5, 6, 7, 8],
        "D": [0, 1, 2, 3, 4, 5, 6, 7],
    }
)
df8

Unnamed: 0,A,B,C,D
0,foo,one,1,0
1,bar,one,2,1
2,foo,two,3,2
3,bar,three,4,3
4,foo,two,5,4
5,bar,two,6,5
6,foo,one,7,6
7,foo,three,8,7


Grupisanje pa primena ```sum()``` funkcije na grupe:

In [939]:
df8.groupby("A")["C"].sum()

A
bar    12
foo    24
Name: C, dtype: int64

In [940]:
df8.groupby("A")[["C", "D"]].sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,12,9
foo,24,19


In [941]:
df8.groupby(["A", "B"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,2,1
bar,three,4,3
bar,two,6,5
foo,one,8,6
foo,three,8,7
foo,two,8,6


### Obrada tekstualnih podataka

In [942]:
df_text = pd.DataFrame({
    "A" : [1, 2, 3, 4],
    "B": ["ThiS TeXt iS Wobbly", "this text is lowercase", "THIS TEXT IS UPPERCASE", "   has whitespace             "]
})
print(df_text)

   A                               B
0  1             ThiS TeXt iS Wobbly
1  2          this text is lowercase
2  3          THIS TEXT IS UPPERCASE
3  4     has whitespace             


In [943]:
print(df_text['B'].str.lower())

0               this text is wobbly
1            this text is lowercase
2            this text is uppercase
3       has whitespace             
Name: B, dtype: object


In [944]:
print(df_text['B'].str.upper())

0               THIS TEXT IS WOBBLY
1            THIS TEXT IS LOWERCASE
2            THIS TEXT IS UPPERCASE
3       HAS WHITESPACE             
Name: B, dtype: object


In [945]:
print(df_text["B"].str.strip())

0       ThiS TeXt iS Wobbly
1    this text is lowercase
2    THIS TEXT IS UPPERCASE
3            has whitespace
Name: B, dtype: object


In [946]:
print(df_text["B"].str.len())

0    19
1    22
2    22
3    30
Name: B, dtype: int64


### Čitanje i pisanje tabelarnih podataka

Pandas ima ugradjenu podršku za razne fajl formate (csv, excel, json.. )
Učitavanje podataka iz tih formata radi se preko funkcija sa prefiksom read_*. to_* metode se koriste za skladištenje podataka.

![Učitavanje i skladištenje podataka](images/pandas_read_write.png)

In [947]:
df_foo = pd.read_csv("data/foo.csv")
df_foo

Unnamed: 0,ime,prezime,godine
0,Michael,Scott,42
1,Jim,Halpert,31
2,Pam,Beezly,29


In [948]:
#df_foo.to_csv("foo2.csv")

In [949]:
#df_foo.to_json("foo2.json", orient = "table", index=False)