# Pandas biblioteka

<br>

---

`"Pandas"` yra programų kalbos Python biblioteka, skirta duomenų analizei ir manipuliavimui. Pandas biblioteka yra sukurta NumPy pagrindu. Ši biblioteka suteikia lengvai naudojamą duomenų struktūrų ir analizės įrankių rinkinį, ypač skirtų darbui su duomenų lentelėmis.
<br>
<br>
Pagrindinės `"Pandas"` duomenų struktūros yra `"DataFrame"` ir `"Series"`. `"DataFrame"` yra dvimatė duomenų struktūra, panaši į lentelę arba duomenų bazės lentelę, o `"Series"` yra vienmatė duomenų struktūra, panaši į stulpelį arba vieną eilutę lentelėje.
<br>
<br>
`"Pandas"` leidžia lengvai atlikti įvairias operacijas su duomenimis, tokiomis kaip duomenų filtras, grupavimas, agregavimas, trūkstamų duomenų tvarkymas ir daug kitų. Tai labai naudinga tiek duomenų analitikams, tiek mokslininkams, kurie dirba su duomenimis Python programavimo kalboje. Pasižymi sparta ir produktyvumu.

* Standartiškai įsidiegia `*pip install numpy*`, jeigu naudojate Anaconda - `*conda install numpy*`

In [58]:
import numpy as np
import pandas as pd

# Serijos


Serijos (*Series*) yra smulkus pandas duomenų darinys, sukurtas ant NumPy array pagrindo. 

In [59]:
labels = ['x', 'y', 'z']
data = [20, 30, 40]
pd.Series(data=data)

0    20
1    30
2    40
dtype: int64

Matyti, kad nuo įprastų masyvų, pandas serija skiriasi tuo, kad turi indeksaciją. Vienas iš parametrų, kuriuos galime perduoti kurdami seriją yra index.

In [60]:
pd.Series(data=data, index=labels)

x    20
y    30
z    40
dtype: int64

Pandas series galima kurti ir su python žodynais:

In [61]:
zodynas = {'x':20, 'y':30, 'z':40}
pd.Series(zodynas)

x    20
y    30
z    40
dtype: int64

<br>

## Kiti pavyzdžiai:

In [62]:
labels = ('vardas', 'pavardė', 'amžius')
zmogus = ('Geras', 'Zmogelis', 33)
print(labels, zmogus)

('vardas', 'pavardė', 'amžius') ('Geras', 'Zmogelis', 33)


In [63]:
pd.Series(data=zmogus)

0       Geras
1    Zmogelis
2          33
dtype: object

In [64]:
pd.Series(data=zmogus, index=labels)

vardas        Geras
pavardė    Zmogelis
amžius           33
dtype: object

In [65]:
zmogus_dict = {
    'vardas': 'Smagus',
    'pavarde': 'Giedriukas',
    'amzius': 36
}
zmogus_dict

{'vardas': 'Smagus', 'pavarde': 'Giedriukas', 'amzius': 36}

In [66]:
zmogus_pd = pd.Series(zmogus_dict)
zmogus_pd

vardas         Smagus
pavarde    Giedriukas
amzius             36
dtype: object

In [67]:
pd.Series(zmogus, labels)

vardas        Geras
pavardė    Zmogelis
amžius           33
dtype: object

In [68]:
zmogus_pd['amzius']

36

**Reikšmės traukimas iš serijos**

In [69]:
serija = pd.Series([1,2,3,4,5], ['Vilnius', 'Kaunas', 'Klaipėda', 'Panevėžys', 'Šiauliai'])
# atkreipkite dėmesį, kad duomenis galima sudėti nebūtinai nurodant parametro pavadinimą.

In [70]:
serija


Vilnius      1
Kaunas       2
Klaipėda     3
Panevėžys    4
Šiauliai     5
dtype: int64

In [71]:
serija['Vilnius']

1

In [72]:
miestai = pd.Series((500, 400, 300, 200), ('Vilnius', 'Kaunas', 'Klaipeda', 'Siauliai'))
miestai

Vilnius     500
Kaunas      400
Klaipeda    300
Siauliai    200
dtype: int64

In [73]:
augimas = pd.Series((1.5, 1.3, 0.9, 0.7), ('Vilnius', 'Kaunas', 'Klaipeda', 'Siauliai'))
augimas

Vilnius     1.5
Kaunas      1.3
Klaipeda    0.9
Siauliai    0.7
dtype: float64

In [74]:
miestai * augimas

Vilnius     750.0
Kaunas      520.0
Klaipeda    270.0
Siauliai    140.0
dtype: float64

**Operacijos su serijomis**

In [75]:
serija2 = pd.Series([1,2,3,4,5], ['Vilnius', 'Kaunas', 'Lentvaris', 'Šiauliai', 'Klaipėda'])

In [76]:
serija2

Vilnius      1
Kaunas       2
Lentvaris    3
Šiauliai     4
Klaipėda     5
dtype: int64

naudojant sudėtį, pandas pagal galimybes bandys sumuoti reikšmes:

In [77]:
serija + serija2

Kaunas       4.0
Klaipėda     8.0
Lentvaris    NaN
Panevėžys    NaN
Vilnius      2.0
Šiauliai     9.0
dtype: float64

Ten, kur pandos negalėjo atlikti sudėties veiksmo, sugeneravo NaN - *not a number*. Tiek Pandas, tiek NumPy mėgsta integer reikšmes versti į float, kad išlaikytų kiek įmanoma tikslesnę informaciją.

# DataFrames

DataFrames yra pagrindinis pandas operacijų objektas. Jeigu norime susikurti naują DF, reikia į parametrus perduoti *data*, *index*, *columns*: 

In [78]:
betko7x7 = np.random.randint(10, 100, (7, 7))

In [108]:
miestu_skaiciai = pd.DataFrame(
    betko7x7,
    [2000, 2004, 2008, 2012, 2016, 2020, 2024],
    ['Vilnius', 'Kaunas', 'Klaipeda', 'Siauliai', 'Panevezys', 'Alytus', 'Druskininkai']
)
miestu_skaiciai

Unnamed: 0,Vilnius,Kaunas,Klaipeda,Siauliai,Panevezys,Alytus,Druskininkai
2000,22,84,50,76,57,27,45
2004,80,56,78,91,12,30,24
2008,65,88,75,66,60,99,14
2012,25,70,38,48,32,87,65
2016,36,44,58,84,19,66,58
2020,59,47,77,63,86,58,32
2024,85,70,63,41,78,29,55


In [115]:
miestu_skaiciai['Klaipeda']

2000    50
2004    78
2008    75
2012    38
2016    58
2020    77
2024    63
Name: Klaipeda, dtype: int32

In [116]:
print(type(miestu_skaiciai['Klaipeda']))
print(type(miestu_skaiciai))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [109]:
df = pd.DataFrame(np.random.rand(5,6), 
                  ['a', 'b', 'c', 'd', 'e'], 
                  ['U', 'V', 'W', 'X', 'Y', 'Z'])

In [114]:
df      

Unnamed: 0,U,V,W,X,Y,Z
a,0.113328,0.549335,0.478198,0.769716,0.199142,0.588596
b,0.920645,0.158627,0.172594,0.904975,0.207668,0.92042
c,0.048419,0.359062,0.107695,0.886162,0.066358,0.915954
d,0.796435,0.846376,0.833655,0.456783,0.44559,0.248306
e,0.000239,0.931445,0.868423,0.53826,0.968465,0.289311


Kiekvienas stulpelis yra pandas serija, jos tarpusavyje dalijasi indeksais (a, b, c, d, e), pvz.:

In [81]:
df['U']

a    0.245427
b    0.741545
c    0.191600
d    0.920345
e    0.577955
Name: U, dtype: float64

In [82]:
type(df['U'])

pandas.core.series.Series

**Jei norime daugiau stulpelių:**

In [83]:
df[['U', 'Y', 'Z']]

Unnamed: 0,U,Y,Z
a,0.245427,0.461195,0.798687
b,0.741545,0.496276,0.322645
c,0.1916,0.139654,0.686814
d,0.920345,0.723493,0.213124
e,0.577955,0.115714,0.221141


**Naujo stulpelio sukūrimas**

In [84]:
df['naujas'] = [1, 2, 3, 4, 5]

In [85]:
df

Unnamed: 0,U,V,W,X,Y,Z,naujas
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687,1
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645,2
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814,3
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124,4
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141,5


**Stulpelio ištrynimas**

In [86]:
df.drop('naujas', axis=1)

Unnamed: 0,U,V,W,X,Y,Z
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141


axis=0 reikštų, kad atliekame veiksmą su eilute. 1 tuo tarpu reiškia stulpelį.

**Inplace parametras**

paskutinis mūsų veiksmas originalaus šaltinio nepakeitė, jeigu dabar išsikviesime df, matysime, kad jis koks buvo, toks ir liko: 

In [87]:
df

Unnamed: 0,U,V,W,X,Y,Z,naujas
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687,1
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645,2
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814,3
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124,4
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141,5


norėdami pakeisti originalą, turime nurodyti parametrą inplace=True:

In [88]:
df.drop('naujas', axis=1, inplace=True)

In [89]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141


*inplace* parametras apsaugo mus nuo netyčinio duomenų sugadinimo

**Pabandykime ištrinti eilutę:**

In [90]:
df.drop('e')

Unnamed: 0,U,V,W,X,Y,Z
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124


trinant eilutę parametro axis=0 nurodyti nebūtina, tai yra *default* reikšmė

**Eilučių traukimas**

In [91]:
df.loc['e']

U    0.577955
V    0.065976
W    0.355250
X    0.363019
Y    0.115714
Z    0.221141
Name: e, dtype: float64

eilutes galime traukti ir pagal indeksą:

In [92]:
df.iloc[4]

U    0.577955
V    0.065976
W    0.355250
X    0.363019
Y    0.115714
Z    0.221141
Name: e, dtype: float64

**Subsets**

jeigu norime pavienės reikšmės iš lentelės:

In [93]:
df.loc['c', 'Z']

0.686814357026988

jeigu norime fragmento iš eilučių ir stulpelių (*subset*):

In [94]:
df.loc[['a', 'c'], ['U', 'V', 'Z']]

Unnamed: 0,U,V,Z
a,0.245427,0.864114,0.798687
c,0.1916,0.956622,0.686814


**Duomenų traukimas pagal sąlygą:**

duomenų traukimas pagal sąlygą yra labai panašus, kaip ir numPy:

In [95]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141


In [96]:
df[df>0.4] 

Unnamed: 0,U,V,W,X,Y,Z
a,,0.864114,,0.694264,0.461195,0.798687
b,0.741545,,0.958161,0.735902,0.496276,
c,,0.956622,0.538147,0.887059,,0.686814
d,0.920345,0.428761,0.899094,,0.723493,
e,0.577955,,,,,


kur reikšmės atitinką sąlygą, turime reikšmes, kur neatitinka - NaN.

jeigu prireiktų subset'o, kur stulpelio 'W' reikšmės yra > 0.5:

In [97]:
df[df['W']>0.5]

Unnamed: 0,U,V,W,X,Y,Z
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124


Skirtumas tarp šių operacijų toks, kad kai sąlygą taikome visam DataFrame'ui, gauname tą patį DataFrame su NaN reikšmėmis, tose vietose, kur originalios reikšmės neatitinka sąlygos. Kai sąlygą taikome stulpeliams, gauname tik tas eilutes, kurios atitinka sąlygą, t.y. vykdome filtravimą.

**Užklausų kombinavimas**

In [98]:
df[df['W']>0.5][['U', 'W', 'Z']]

Unnamed: 0,U,W,Z
b,0.741545,0.958161,0.322645
c,0.1916,0.538147,0.686814
d,0.920345,0.899094,0.213124


šiame pavyzdyje gauname rezultatą, kokį gautumėm paeiliui ivykdę dvi atskiras eilutes: *df1 = df[df['W']>0.5], df1[['U', 'W', 'Z']]*. Užklausų kombinavimas leidžia mums nekurti atmintyje papildomų kintamųjų (kaip šiuo atveju *df1*).

**Sąlygų kombinavimas**

In [99]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141


In [100]:
df[(df['U']>0.5) & (df['Z']<0.5)]

Unnamed: 0,U,V,W,X,Y,Z
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141


gavome tas eilutes, kuriose U stulpelyje reikšmės didesnės, o Z stulpelyje mažesnės už 0.5.

In [101]:
df[(df['U']>0.5) & (df['Z']<0.5)][['U', 'Z']]

Unnamed: 0,U,Z
b,0.741545,0.322645
d,0.920345,0.213124
e,0.577955,0.221141


Čia sukombinavome dvi sąlygas ir iš rezultato paprašėme tik 2jų stulpelių

**Operacijos su index stulpeliu**

reset_index paverčia mūsų seną indeksą dar vienu stulpeliu, ir sukuria naują indeksą iš skaičių. Reikia naudoti *inplace=True*, jei norime pakeisti originalą.

In [102]:
df.reset_index()

Unnamed: 0,index,U,V,W,X,Y,Z
0,a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
1,b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
2,c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
3,d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
4,e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141


Norint sukurti naują indeksą, reikia pridėti naują stulpelį:

In [103]:
naujas_indeksas = 'Vilnius Kaunas Klaipėda Šiauliai Panevėžys'.split()

In [104]:
naujas_indeksas

['Vilnius', 'Kaunas', 'Klaipėda', 'Šiauliai', 'Panevėžys']

In [105]:
df['Miestai'] = naujas_indeksas

In [106]:
df

Unnamed: 0,U,V,W,X,Y,Z,Miestai
a,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687,Vilnius
b,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645,Kaunas
c,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814,Klaipėda
d,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124,Šiauliai
e,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141,Panevėžys


In [107]:
df.set_index('Miestai')

Unnamed: 0_level_0,U,V,W,X,Y,Z
Miestai,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Vilnius,0.245427,0.864114,0.02186,0.694264,0.461195,0.798687
Kaunas,0.741545,0.332583,0.958161,0.735902,0.496276,0.322645
Klaipėda,0.1916,0.956622,0.538147,0.887059,0.139654,0.686814
Šiauliai,0.920345,0.428761,0.899094,0.203583,0.723493,0.213124
Panevėžys,0.577955,0.065976,0.35525,0.363019,0.115714,0.221141
