# Pandas

Pandas yra duomenų analizės biblioteka, sukurta NumPy pagrindu. Pandas yra pagrindinis įrankis Python aplinkoje, skirtas duomenų analizei, išvalymui ir paruošimui. Pandas pasižymi sparta ir produktyvumu. Galima dirbti su duomenimis iš įvairių šaltinių.

Pandas diegiasi conda install pandas arba pip install pandas

In [1]:
import numpy as np
import pandas as pd

# Serijos

Serijos (Series) yra smulkus pandas duomenų darinys, sukurtas ant NumPy array pagrindo

In [4]:
labels = ['x', 'y', 'z']
data = [20, 30, 40]
pd.Series(data=data)

0    20
1    30
2    40
dtype: int64

Matyti, kad nuo įprastų masyvų, pandas serija skiriasi tuo, kad turi indeksaciją. Vienas iš parametrų, kuriuos galime perduoti kurdami seriją yra index.

In [3]:
labels = ['x', 'y', 'z']
data = [20, 30, 40]
pd.Series(data=data, index=labels)

x    20
y    30
z    40
dtype: int64

Pandas series galima kurti ir su python žodynais:

In [5]:
zodynas = {"a":1, "b":2, "c":3, "d":4, "e":5}
pd.Series(data=zodynas)

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### Reikšmės traukimas iš serijos

In [7]:
serija = pd.Series([1,2,3,4,5], ['Vilnius', 'Kaunas', 'Klaipėda', 'Panevėžys', 'Šiauliai'])
# atkreipkite dėmesį, kad duomenis galima sudėti nebūtinai nurodant parametro pavadinimą.

In [8]:
serija['Panevėžys']

4

In [9]:
serija2 = pd.Series([1, 2, 3, 4, 5], ['Vilnius', 'Kaunas', 'Utena', 'Šiauliai', 'Klaipėda'])
serija2

Vilnius     1
Kaunas      2
Utena       3
Šiauliai    4
Klaipėda    5
dtype: int64

#### Operacijos su serijomis

naudojant sudėtį, pandas pagal galimybes bandys sumuoti reikšmes:

In [10]:
serija + serija2

# NaN yra not a number
# Ten, kur pandos negalėjo atlikti sudėties veiksmo, sugeneravo NaN - not a number. 
# Tiek Pandas, tiek NumPy mėgsta integer reikšmes versti į float, kad išlaikytų kiek įmanoma tikslesnę informaciją.

Kaunas       4.0
Klaipėda     8.0
Panevėžys    NaN
Utena        NaN
Vilnius      2.0
Šiauliai     9.0
dtype: float64

# DataFrames

DataFrames yra pagrindinis pandas operacijų objektas (lenteles tipo). Jeigu norime susikurti naują DF, reikia į parametrus perduoti data, index, columns:

In [79]:
df = pd.DataFrame(
    np.random.randint(0, 100, 30).reshape(5, 6), # matrica
    ['a', 'b', 'c', 'd', 'e'], # eilutes, raktas, unikalios reiksmes
    ['U', 'V', 'W', 'X', 'Y', 'Z'], # stulpeliai, duomenu pavadinimai, raidziu dydis nelemia

)
df

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43
e,66,75,77,8,21,41


Kiekvienas stulpelis yra pandas serija, jos tarpusavyje dalijasi indeksais (a, b, c, d, e), pvz.:

In [80]:
df['U']

a    36
b    33
c    90
d    22
e    66
Name: U, dtype: int32

In [81]:
type(df['U'])

pandas.core.series.Series

Jei norime daugiau stulpelių:

In [82]:
df[['U', 'Z', 'X']]

Unnamed: 0,U,Z,X
a,36,40,15
b,33,16,72
c,90,4,39
d,22,43,69
e,66,41,8


#### Naujo stulpelio sukūrimas

In [83]:
df['Naujas'] = [x for x in np.random.randint(0, 100, 5)]
df

Unnamed: 0,U,V,W,X,Y,Z,Naujas
a,36,47,65,15,18,40,76
b,33,28,81,72,87,16,93
c,90,95,12,39,63,4,56
d,22,69,5,69,27,43,82
e,66,75,77,8,21,41,16


#### Stulpelio ištrynimas

In [84]:
#axis=0 reikštų, kad atliekame veiksmą su eilute. axis=1 tuo tarpu reiškia stulpelį.
dfr = df.drop('Naujas', axis=1)
dfr

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43
e,66,75,77,8,21,41


#### Inplace parametras

paskutinis mūsų veiksmas originalaus šaltinio nepakeitė, jeigu dabar išsikviesime df, matysime, kad jis koks buvo, toks ir liko. Pandos funkcijos palieka originala, o inplace pakeicia originalą, tai turime nurodyti parametrą inplace=True:


In [85]:
df.drop('Naujas', axis=1, inplace=True)
df

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43
e,66,75,77,8,21,41


Pabandykime ištrinti eilutę:

In [86]:
df.drop('e')
# trinant eilutę parametro axis=0 nurodyti nebūtina, tai yra default reikšmė

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43


#### Eilučių traukimas


In [87]:
# pagal eilutes pavadinima
df.loc['c']

U    90
V    95
W    12
X    39
Y    63
Z     4
Name: c, dtype: int32

In [88]:
# pagal eilutes numeri
df.iloc[2]

U    90
V    95
W    12
X    39
Y    63
Z     4
Name: c, dtype: int32

#### Subsets

jeigu norime pavienės reikšmės iš lentelės:

In [89]:
df.loc[['a', 'c', 'e',]]

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
c,90,95,12,39,63,4
e,66,75,77,8,21,41


jeigu norime fragmento iš eilučių ir stulpelių (subset):

In [90]:
# nera dvigubu skliaustu, kai norime vienos reiksmes
df.loc['a', 'X']

15

In [91]:
# jei norim daugiau negu viena eilute ar stulpeli, paduodam i sarasa, su dvigubais skliaustais
df.loc[['a', 'c', 'e'], ['V', 'X', 'Z']]

Unnamed: 0,V,X,Z
a,47,15,40
c,95,39,4
e,75,8,41


In [92]:
df.loc['a':'c']

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4


In [93]:
df.iloc[::-1, ::-2]

Unnamed: 0,Z,X,V
e,41,8,75
d,43,69,69
c,4,39,95
b,16,72,28
a,40,15,47


#### Filtravimas. Duomenų traukimas pagal sąlygą

duomenų traukimas pagal sąlygą yra labai panašus, kaip ir numPy:

In [94]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43
e,66,75,77,8,21,41


In [95]:
df[df>50]
# kur reikšmės atitinką sąlygą, turime reikšmes, kur neatitinka - NaN.

Unnamed: 0,U,V,W,X,Y,Z
a,,,65.0,,,
b,,,81.0,72.0,87.0,
c,90.0,95.0,,,63.0,
d,,69.0,,69.0,,
e,66.0,75.0,77.0,,,


jeigu prireiktų subset'o, kur stulpelio 'W' reikšmės yra > 0.5:

In [96]:
df[df['X']>50]
# grazina tik tas eilutes, kuriose x daugiau uz 50

Unnamed: 0,U,V,W,X,Y,Z
b,33,28,81,72,87,16
d,22,69,5,69,27,43


Skirtumas tarp šių operacijų toks, kad kai sąlygą taikome visam DataFrame'ui, gauname tą patį DataFrame su NaN reikšmėmis, tose vietose, kur originalios reikšmės neatitinka sąlygos. Kai sąlygą taikome stulpeliams, gauname tik tas eilutes, kurios atitinka sąlygą, t.y. vykdome filtravimą.

#### Užklausų kombinavimas

In [97]:
df[df['X']>50] [['X', 'Y', 'Z']]

Unnamed: 0,X,Y,Z
b,72,87,16
d,69,27,43


In [98]:
dfr = df[df['X']>50]
dfr[['X', 'Y', 'Z']]

Unnamed: 0,X,Y,Z
b,72,87,16
d,69,27,43


In [99]:
dfr.loc['b', ['Z', 'Y']]
# b eilutes isrenkam rezultatus pagal Z ir Y stulpelius

Z    16
Y    87
Name: b, dtype: int32

In [100]:
df.loc['c']>50

U     True
V     True
W    False
X    False
Y     True
Z    False
Name: c, dtype: bool

#### Sąlygų kombinavimas

In [101]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43
e,66,75,77,8,21,41


In [102]:
df[(df['X'] > 40) & (df['Z'] <= 70)] 

Unnamed: 0,U,V,W,X,Y,Z
b,33,28,81,72,87,16
d,22,69,5,69,27,43


gavome tas eilutes, kuriose X stulpelyje reikšmės didesnės, o Z stulpelyje mažesnės už arba lygu 70.


In [103]:
df[(df['X'] > 40) & (df['Z'] <= 70)] [['U', 'V']]
# Čia sukombinavome dvi sąlygas ir iš rezultato paprašėme tik 2jų stulpelių

Unnamed: 0,U,V
b,33,28
d,22,69


In [104]:
# | - reiskia or

df[(df['W'] >= 90) | (df['Z'] < 70)]

# paima eilutes w kur daugiau 90 ir paima eilutes kur z maziau 70

Unnamed: 0,U,V,W,X,Y,Z
a,36,47,65,15,18,40
b,33,28,81,72,87,16
c,90,95,12,39,63,4
d,22,69,5,69,27,43
e,66,75,77,8,21,41


#### Operacijos su index stulpeliu

.reset_index() paverčia mūsų seną indeksą dar vienu stulpeliu, ir sukuria naują indeksą iš skaičių. Reikia naudoti inplace=True, jei norime pakeisti originalą.

In [105]:
df.reset_index()

Unnamed: 0,index,U,V,W,X,Y,Z
0,a,36,47,65,15,18,40
1,b,33,28,81,72,87,16
2,c,90,95,12,39,63,4
3,d,22,69,5,69,27,43
4,e,66,75,77,8,21,41


Norint sukurti naują indeksą, reikia pridėti naują stulpelį:

In [106]:
new_index = "Vilnius Kaunas Klaipeda Panevezys Siauliai".split()
new_index

['Vilnius', 'Kaunas', 'Klaipeda', 'Panevezys', 'Siauliai']

In [107]:
df['Miestai'] = new_index
df

Unnamed: 0,U,V,W,X,Y,Z,Miestai
a,36,47,65,15,18,40,Vilnius
b,33,28,81,72,87,16,Kaunas
c,90,95,12,39,63,4,Klaipeda
d,22,69,5,69,27,43,Panevezys
e,66,75,77,8,21,41,Siauliai


In [108]:
# inplace nespausdina rezultato
df.set_index('Miestai', inplace=True)
df

Unnamed: 0_level_0,U,V,W,X,Y,Z
Miestai,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Vilnius,36,47,65,15,18,40
Kaunas,33,28,81,72,87,16
Klaipeda,90,95,12,39,63,4
Panevezys,22,69,5,69,27,43
Siauliai,66,75,77,8,21,41
