# Pandas II dalis

In [1]:
import numpy as np
import pandas as pd

### Trūkstami duomenys

Susikursime pavyzdį:

In [9]:
df = pd.DataFrame(np.random.rand(5,6), 
    ['a', 'b', 'c', 'd', 'e'], 
    ['U', 'V', 'W', 'X', 'Y', 'Z']
)

In [10]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,0.051452,0.376998,0.797141,0.519334,0.304315,0.913364
b,0.785179,0.016646,0.060747,0.1017,0.191101,0.404771
c,0.631691,0.40593,0.26527,0.974581,0.238785,0.151366
d,0.172182,0.081203,0.7539,0.870966,0.284495,0.783459
e,0.540161,0.055711,0.681771,0.407751,0.738715,0.288996


In [11]:
table = df[df>.15]

In [12]:
table

Unnamed: 0,U,V,W,X,Y,Z
a,,0.376998,0.797141,0.519334,0.304315,0.913364
b,0.785179,,,,0.191101,0.404771
c,0.631691,0.40593,0.26527,0.974581,0.238785,0.151366
d,0.172182,,0.7539,0.870966,0.284495,0.783459
e,0.540161,,0.681771,0.407751,0.738715,0.288996


Funkcija, padėsianti mums aptikti nulines reikšmes yra **.isnull()**. Naudojimo pavyzdžiai:

In [13]:
table.isnull() #grąžina lentelę, kur true reikšmės yra NaN

Unnamed: 0,U,V,W,X,Y,Z,Unnamed: 7,Unnamed: 8
a,True,False,False,True,False,False,False,False
b,False,True,True,True,False,False,,
c,False,False,False,False,False,False,,
d,False,True,False,False,False,False,,
e,False,True,False,False,False,False,,


In [14]:
table.isnull().sum() # Rodo kiek kuriame stulpelyje NaN reikšmių

U    1
V    3
W    1
X    1
Y    0
Z    0
dtype: int64

In [15]:
table['V'].isnull() # Galima tikrinti atskiruose stulpeliuose

a    False
b     True
c    False
d     True
e     True
Name: V, dtype: bool

In [16]:
table['V'].isnull().sum()

3

pirmas metodas tvarkytis su trūkstamais duomenimis yra **.dropna()**. Jis išmeta visas eilutes, kuriose yra bent viena NaN reikšmė:

In [17]:
table.dropna()

Unnamed: 0,U,V,W,X,Y,Z
c,0.631691,0.40593,0.26527,0.974581,0.238785,0.151366


jeigu norime išmesti stulpelius, turinčius bent vieną NaN, turime nurodyti ašį:

In [18]:
table.dropna(axis=1)

Unnamed: 0,Y,Z
a,0.304315,0.913364
b,0.191101,0.404771
c,0.238785,0.151366
d,0.284495,0.783459
e,0.738715,0.288996


Galime išmesti tik tas eilutes, ar stulpelius, kurie turi mažiau, negu (pvz) 5 **NE** NaN reikšmes:


In [19]:
table.dropna(thresh=5)

Unnamed: 0,U,V,W,X,Y,Z
a,,0.376998,0.797141,0.519334,0.304315,0.913364
c,0.631691,0.40593,0.26527,0.974581,0.238785,0.151366
d,0.172182,,0.7539,0.870966,0.284495,0.783459
e,0.540161,,0.681771,0.407751,0.738715,0.288996


Papildomai nurodžius ašį, tą patį galima padaryti ir su stulpeliais.

In [22]:
table.dropna(thresh=4, axis=1)

Unnamed: 0,U,W,X,Y,Z
a,,0.797141,0.519334,0.304315,0.913364
b,0.785179,,,0.191101,0.404771
c,0.631691,0.26527,0.974581,0.238785,0.151366
d,0.172182,0.7539,0.870966,0.284495,0.783459
e,0.540161,0.681771,0.407751,0.738715,0.288996


Jei norime NaN reikšmes pakeisti kažkuo kitu, naudosime **.fillna()** metodą:

In [23]:
table.fillna('kiauras')

Unnamed: 0,U,V,W,X,Y,Z
a,kiauras,0.376998,0.797141,0.519334,0.304315,0.913364
b,0.785179,kiauras,kiauras,kiauras,0.191101,0.404771
c,0.631691,0.40593,0.26527,0.974581,0.238785,0.151366
d,0.172182,kiauras,0.7539,0.870966,0.284495,0.783459
e,0.540161,kiauras,0.681771,0.407751,0.738715,0.288996


Daugiau prasmės būtų pakeisti pvz. stulpelio vidurkiu:

In [24]:
table['W'].fillna(value=table['W'].mean())

a    0.797141
b    0.624520
c    0.265270
d    0.753900
e    0.681771
Name: W, dtype: float64

In [26]:
table['V'].fillna(value=table['V'].mean())

a    0.376998
b    0.391464
c    0.405930
d    0.391464
e    0.391464
Name: V, dtype: float64

In [27]:
table.fillna(value=table.mean())

Unnamed: 0,U,V,W,X,Y,Z
a,0.532303,0.376998,0.797141,0.519334,0.304315,0.913364
b,0.785179,0.391464,0.62452,0.693158,0.191101,0.404771
c,0.631691,0.40593,0.26527,0.974581,0.238785,0.151366
d,0.172182,0.391464,0.7539,0.870966,0.284495,0.783459
e,0.540161,0.391464,0.681771,0.407751,0.738715,0.288996


### Grupavimas

Susikurkime pavyzdį:

In [28]:
duomenys = {
    'Šalis': [
        'Lietuva', 'Lietuva', 'Lietuva',
        'Latvija', 'Latvija', 'Latvija',
        'Estija', 'Estija', 'Estija'
    ],
    'Miestas': [
        'Vilnius', 'Kaunas', 'Klaipėda',
        'Ryga', 'Ventspilis', 'Daugpilis',
        'Talinas', 'Tartu', 'Pernu'
    ],
    'Gyv': [
        541, 287, 147, 
        716, 43, 105, 
        400, 101, 46
    ]
}

In [29]:
data = pd.DataFrame(duomenys)

In [30]:
data

Unnamed: 0,Šalis,Miestas,Gyv
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


panaudokime **.groupby()** metodą, viduje nurodydami stulpelį, pagal kurį grupuosime. 

In [33]:
data.groupby('Šalis')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc6db4eb520>

gavome groupby objektą, kuris turi savo metodus. Tam kad galėtumėm jais naudotis, priskirkime objektą kintamąjam:

In [35]:
baltic = data.groupby('Šalis')

In [38]:
baltic


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc6db4eafb0>

**.mean()** skaičiuos mums vidurkį:

In [42]:
baltic.mean(numeric_only=True)

Unnamed: 0_level_0,Gyv
Šalis,Unnamed: 1_level_1
Estija,182.333333
Latvija,288.0
Lietuva,325.0


**.sum()** sumuos:

In [43]:
baltic.sum(numeric_only=True)

Unnamed: 0_level_0,Miestas,Gyv
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,547,
Latvija,864,
Lietuva,975,


iš groupby objekto galime trukti reikšmes tokiu būdu:

**.count()** suskaičiuos kiek yra įrašų grupės stulpeliuose:

In [44]:
baltic.count()

Unnamed: 0_level_0,Miestas,Gyv
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,3,3
Latvija,3,3
Lietuva,3,3


*atkreipkite dėmesį, kad jeigu metodas negali atlikti veiksmo su stulpelio įrašais, rezultate to stulpelio ir nerodo. šiuo atveju galime suskaičiuoti string įrašus, todėl stulpelis 'Miestas' įtrauktas į rezultatą*

**.max()** duos eilutę su maksimaliu, **.min()** su minimaliu rezultatais:

In [47]:
baltic.max(numeric_only=True)

Unnamed: 0_level_0,Gyv
Šalis,Unnamed: 1_level_1
Estija,400
Latvija,716
Lietuva,541


In [48]:
baltic.min(numeric_only=True)

Unnamed: 0_level_0,Gyv
Šalis,Unnamed: 1_level_1
Estija,46
Latvija,43
Lietuva,147


šiuo atveju matome, kad miestų stulpelį išrūšiavo pagal abėcelę, o skaičius, kaip ir tikėjomės. Max ir min nėra labai praktiški su *string* tipo reikšmėmis.

iš **groupby** objektų galime traukti reikšmes:

In [50]:
baltic.sum().loc['Lietuva']

Miestas    VilniusKaunasKlaipėda
Gyv                          975
Name: Lietuva, dtype: object

**.describe()** metodas duoda pagrindinę informaciją apie lentelės duomenis:

In [51]:
baltic.describe()

Unnamed: 0_level_0,Gyv,Gyv,Gyv,Gyv,Gyv,Gyv,Gyv,Gyv
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Šalis,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Estija,3.0,182.333333,190.500219,46.0,73.5,101.0,250.5,400.0
Latvija,3.0,288.0,371.952954,43.0,74.0,105.0,410.5,716.0
Lietuva,3.0,325.0,199.729818,147.0,217.0,287.0,414.0,541.0


In [54]:
baltic.describe().loc['Lietuva']

Gyv  count      3.000000
     mean     325.000000
     std      199.729818
     min      147.000000
     25%      217.000000
     50%      287.000000
     75%      414.000000
     max      541.000000
Name: Lietuva, dtype: float64

galime sukeisti stulpelius su eilutėmis su **.transpose()**:

In [52]:
baltic.describe().transpose()

Unnamed: 0,Šalis,Estija,Latvija,Lietuva
Gyv,count,3.0,3.0,3.0
Gyv,mean,182.333333,288.0,325.0
Gyv,std,190.500219,371.952954,199.729818
Gyv,min,46.0,43.0,147.0
Gyv,25%,73.5,74.0,217.0
Gyv,50%,101.0,105.0,287.0
Gyv,75%,250.5,410.5,414.0
Gyv,max,400.0,716.0,541.0


jeigu domina vieno kurio nors stulpelio statistika, galime ją ištraukti taip:

In [53]:
baltic.describe().transpose()['Estija']

Gyv  count      3.000000
     mean     182.333333
     std      190.500219
     min       46.000000
     25%       73.500000
     50%      101.000000
     75%      250.500000
     max      400.000000
Name: Estija, dtype: float64

### DF Jungimas

susikurkime pavyzdžius:

In [55]:
data_main = data[0:6].copy()

In [56]:
data_main

Unnamed: 0,Šalis,Miestas,Gyv
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105


In [57]:
data_bottom = data[6:].copy()

In [58]:
data_bottom

Unnamed: 0,Šalis,Miestas,Gyv
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


norėdami sujungti data_main su data_bottom naudosime **.concat()** metodą, viduje įrašydami lentelių, kurias jungsime sąrašą:

In [59]:
pd.concat([data_main, data_bottom])

Unnamed: 0,Šalis,Miestas,Gyv
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


galime prijungti lentelę iš dešinės:

In [60]:
pd.concat([data_main, data_bottom], axis=1)

Unnamed: 0,Šalis,Miestas,Gyv,Šalis.1,Miestas.1,Gyv.1
0,Lietuva,Vilnius,541.0,,,
1,Lietuva,Kaunas,287.0,,,
2,Lietuva,Klaipėda,147.0,,,
3,Latvija,Ryga,716.0,,,
4,Latvija,Ventspilis,43.0,,,
5,Latvija,Daugpilis,105.0,,,
6,,,,Estija,Talinas,400.0
7,,,,Estija,Tartu,101.0
8,,,,Estija,Pernu,46.0


matome, kad pandas ieškojo antroje lentelėje sutampančių indeksų, ir neradus atliko jungimą užpildant tuščias vietas NaN. Todėl jungiant, reikia įsitikinti, kad jungimui tinka abi pusės. Pertvarkykime data_right indeksą:

In [75]:
data_right = data_bottom.reset_index()

In [76]:
data_right.drop(columns='index', inplace=True)

In [77]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv
0,Estija,Talinas,400
1,Estija,Tartu,101
2,Estija,Pernu,46


In [78]:
pd.concat([data_main, data_right], axis=1)

Unnamed: 0,Šalis,Miestas,Gyv,Šalis.1,Miestas.1,Gyv.1
0,Lietuva,Vilnius,541,Estija,Talinas,400.0
1,Lietuva,Kaunas,287,Estija,Tartu,101.0
2,Lietuva,Klaipėda,147,Estija,Pernu,46.0
3,Latvija,Ryga,716,,,
4,Latvija,Ventspilis,43,,,
5,Latvija,Daugpilis,105,,,


dabar pandas surado sutampančius indeksus, tačiau visvien turime NaN reikšmes, kadangi lentelėje trūksta duomenų. Pridėkime papildomų eilučių:

In [79]:
lenkija = {'Šalis': ['Lenkija', 'Lenkija', 'Lenkija'], 
           'Miestas':['Varšuva', 'Vroclavas', 'Gdanskas'], 
           'Gyv': [1688, 638, 461]}
pl = pd.DataFrame(lenkija)
data_right1 = pd.concat([data_right, pl])

In [80]:
data_right = data_right1.reset_index().drop(columns='index')

In [81]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv
0,Estija,Talinas,400
1,Estija,Tartu,101
2,Estija,Pernu,46
3,Lenkija,Varšuva,1688
4,Lenkija,Vroclavas,638
5,Lenkija,Gdanskas,461


Pabandykime sujungti data_main su data_right :)

In [83]:
pd.concat([data_main, data_right], axis=1)

Unnamed: 0,Šalis,Miestas,Gyv,Šalis.1,Miestas.1,Gyv.1
0,Lietuva,Vilnius,541,Estija,Talinas,400
1,Lietuva,Kaunas,287,Estija,Tartu,101
2,Lietuva,Klaipėda,147,Estija,Pernu,46
3,Latvija,Ryga,716,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,Lenkija,Gdanskas,461


**.merge()**

Jeigu *data_main* ir *data_right* turėtų po vieną sutampantį stulpelį, pvz.:

In [84]:
key = 'A B C D E F'.split()
data_main['key'] = key
data_right['key'] = key

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_main['key'] = key


In [86]:
data_main

Unnamed: 0,Šalis,Miestas,Gyv,key
0,Lietuva,Vilnius,541,A
1,Lietuva,Kaunas,287,B
2,Lietuva,Klaipėda,147,C
3,Latvija,Ryga,716,D
4,Latvija,Ventspilis,43,E
5,Latvija,Daugpilis,105,F


In [87]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv,key
0,Estija,Talinas,400,A
1,Estija,Tartu,101,B
2,Estija,Pernu,46,C
3,Lenkija,Varšuva,1688,D
4,Lenkija,Vroclavas,638,E
5,Lenkija,Gdanskas,461,F


galima jas sulieti to bendro stulpelio pagrindu:

In [88]:
pd.merge(data_main, data_right, on='key')

Unnamed: 0,Šalis_x,Miestas_x,Gyv_x,key,Šalis_y,Miestas_y,Gyv_y
0,Lietuva,Vilnius,541,A,Estija,Talinas,400
1,Lietuva,Kaunas,287,B,Estija,Tartu,101
2,Lietuva,Klaipėda,147,C,Estija,Pernu,46
3,Latvija,Ryga,716,D,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,E,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,F,Lenkija,Gdanskas,461


matome, kad lentelės suklijuotos, tačiau stulpelis 'key' nesikartoja (*stulpeliai pervadinti, kad nesidubliuotų pavadinimai*). Stulpelį 'key' teko nurodyti parametre **on**.

papildykime pavyzdį dar vienu stulpeliu:

In [89]:
key2 = 'B C D E F G'.split()
data_main['key2'] = key2
data_right['key2'] = key2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_main['key2'] = key2


*tai ne klaida, tai perspėjimas, ignoruokite. čia tiesiog greituoju būdu sukurta dummy data*

In [90]:
data_main

Unnamed: 0,Šalis,Miestas,Gyv,key,key2
0,Lietuva,Vilnius,541,A,B
1,Lietuva,Kaunas,287,B,C
2,Lietuva,Klaipėda,147,C,D
3,Latvija,Ryga,716,D,E
4,Latvija,Ventspilis,43,E,F
5,Latvija,Daugpilis,105,F,G


In [91]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv,key,key2
0,Estija,Talinas,400,A,B
1,Estija,Tartu,101,B,C
2,Estija,Pernu,46,C,D
3,Lenkija,Varšuva,1688,D,E
4,Lenkija,Vroclavas,638,E,F
5,Lenkija,Gdanskas,461,F,G


In [92]:
pd.merge(data_main, data_right, on=['key', 'key2'])

Unnamed: 0,Šalis_x,Miestas_x,Gyv_x,key,key2,Šalis_y,Miestas_y,Gyv_y
0,Lietuva,Vilnius,541,A,B,Estija,Talinas,400
1,Lietuva,Kaunas,287,B,C,Estija,Tartu,101
2,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46
3,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,F,G,Lenkija,Gdanskas,461


Matome, kad į parametrą **on** galima perduoti ir daugiau reikšmių, sąraše.

Jeigu, pvz. stulpelis 'key2' vienoje lentelėje skiriasi nuo kitos lentelės 'key2' stulpelio:

In [93]:
keyX = 'W C D E F W'.split()
data_right['key2'] = keyX

In [94]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv,key,key2
0,Estija,Talinas,400,A,W
1,Estija,Tartu,101,B,C
2,Estija,Pernu,46,C,D
3,Lenkija,Varšuva,1688,D,E
4,Lenkija,Vroclavas,638,E,F
5,Lenkija,Gdanskas,461,F,W


In [95]:
pd.merge(data_main, data_right, on=['key', 'key2'])

Unnamed: 0,Šalis_x,Miestas_x,Gyv_x,key,key2,Šalis_y,Miestas_y,Gyv_y
0,Lietuva,Kaunas,287,B,C,Estija,Tartu,101
1,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46
2,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688
3,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638


...gauname tik tas eilutes, kuriose 'key2' reikšmių sekos dalis sutampa.

Yra ir metodas **.join()**. Jis daro tą patį, ką ir merge, tik indekso pagrindu. Pvz.:

In [97]:
data_main.join(data_right, lsuffix='.L', rsuffix='.R')

Unnamed: 0,Šalis.L,Miestas.L,Gyv.L,key.L,key2.L,Šalis.R,Miestas.R,Gyv.R,key.R,key2.R
0,Lietuva,Vilnius,541,A,B,Estija,Talinas,400,A,W
1,Lietuva,Kaunas,287,B,C,Estija,Tartu,101,B,C
2,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46,C,D
3,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688,D,E
4,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638,E,F
5,Latvija,Daugpilis,105,F,G,Lenkija,Gdanskas,461,F,W


Kadangi sutampa stulpelių pavadinimai, teko nurodyti lsuffix ir rsuffix. Jeigu indeksas nebūtų identiškas, rezultate gautumėm tik tas eilutes, kurių indeksas persidengia. Dažniausiai vis tik naudosime **.merge()**