# Pandas II dalis

In [1]:
import numpy as np
import pandas as pd

### Trūkstami duomenys

Susikursime pavyzdį:

In [2]:
df = pd.DataFrame(np.random.rand(5,6), 
                  ['a', 'b', 'c', 'd', 'e'], 
                  ['U', 'V', 'W', 'X', 'Y', 'Z'])

In [3]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,0.257209,0.804755,0.249675,0.121035,0.200149,0.904394
b,0.394148,0.866681,0.893787,0.214906,0.035035,0.883595
c,0.247917,0.649215,0.49182,0.913552,0.995428,0.446493
d,0.71466,0.043394,0.071383,0.900764,0.857584,0.736138
e,0.779955,0.223848,0.961217,0.56462,0.775921,0.79404


In [4]:
table = df[df>.15]

In [5]:
table

Unnamed: 0,U,V,W,X,Y,Z
a,0.257209,0.804755,0.249675,,0.200149,0.904394
b,0.394148,0.866681,0.893787,0.214906,,0.883595
c,0.247917,0.649215,0.49182,0.913552,0.995428,0.446493
d,0.71466,,,0.900764,0.857584,0.736138
e,0.779955,0.223848,0.961217,0.56462,0.775921,0.79404


Funkcija, padėsianti mums aptikti nulines reikšmes yra **.isnull()**. Naudojimo pavyzdžiai:

In [6]:
table.isnull() #grąžina lentelę, kur true reikšmės yra NaN

Unnamed: 0,U,V,W,X,Y,Z
a,False,False,False,True,False,False
b,False,False,False,False,True,False
c,False,False,False,False,False,False
d,False,True,True,False,False,False
e,False,False,False,False,False,False


In [7]:
table.isnull().sum() # Rodo kiek kuriame stulpelyje NaN reikšmių

U    0
V    1
W    1
X    1
Y    1
Z    0
dtype: int64

In [8]:
table['V'].isnull() # Galima tikrinti atskiruose stulpeliuose

a    False
b    False
c    False
d     True
e    False
Name: V, dtype: bool

In [9]:
table['V'].isnull().sum()

1

pirmas metodas tvarkytis su trūkstamais duomenimis yra **.dropna()**. Jis išmeta visas eilutes, kuriose yra bent viena NaN reikšmė:

In [10]:
table.dropna()

Unnamed: 0,U,V,W,X,Y,Z
c,0.247917,0.649215,0.49182,0.913552,0.995428,0.446493
e,0.779955,0.223848,0.961217,0.56462,0.775921,0.79404


jeigu norime išmesti stulpelius, turinčius bent vieną NaN, turime nurodyti ašį:

In [11]:
table.dropna(axis=1)

Unnamed: 0,U,Z
a,0.257209,0.904394
b,0.394148,0.883595
c,0.247917,0.446493
d,0.71466,0.736138
e,0.779955,0.79404


Galime išmesti tik tas eilutes, ar stulpelius, kurie turi mažiau, negu (pvz) 5 **NE** NaN reikšmes:


In [12]:
table.dropna(thresh=5)

Unnamed: 0,U,V,W,X,Y,Z
a,0.257209,0.804755,0.249675,,0.200149,0.904394
b,0.394148,0.866681,0.893787,0.214906,,0.883595
c,0.247917,0.649215,0.49182,0.913552,0.995428,0.446493
e,0.779955,0.223848,0.961217,0.56462,0.775921,0.79404


Papildomai nurodžius ašį, tą patį galima padaryti ir su stulpeliais.

Jei norime NaN reikšmes pakeisti kažkuo kitu, naudosime **.fillna()** metodą:

In [13]:
table.fillna('bupkis')

Unnamed: 0,U,V,W,X,Y,Z
a,0.257209,0.804755,0.249675,bupkis,0.200149,0.904394
b,0.394148,0.866681,0.893787,0.214906,bupkis,0.883595
c,0.247917,0.649215,0.49182,0.913552,0.995428,0.446493
d,0.71466,bupkis,bupkis,0.900764,0.857584,0.736138
e,0.779955,0.223848,0.961217,0.56462,0.775921,0.79404


Daugiau prasmės būtų pakeisti pvz. stulpelio vidurkiu:

In [14]:
table['W'].fillna(value=table['W'].mean())

a    0.249675
b    0.893787
c    0.491820
d    0.649125
e    0.961217
Name: W, dtype: float64

In [15]:
table.fillna(value=table.mean())

Unnamed: 0,U,V,W,X,Y,Z
a,0.257209,0.804755,0.249675,0.64846,0.200149,0.904394
b,0.394148,0.866681,0.893787,0.214906,0.707271,0.883595
c,0.247917,0.649215,0.49182,0.913552,0.995428,0.446493
d,0.71466,0.636125,0.649125,0.900764,0.857584,0.736138
e,0.779955,0.223848,0.961217,0.56462,0.775921,0.79404


### Grupavimas

Susikurkime pavyzdį:

In [16]:
duomenys = {'Šalis': ['Lietuva',
  'Lietuva',
  'Lietuva',
  'Latvija',
  'Latvija',
  'Latvija',
  'Estija',
  'Estija',
  'Estija'],
 'Miestas': ['Vilnius',
  'Kaunas',
  'Klaipėda',
  'Ryga',
  'Ventspilis',
  'Daugpilis',
  'Talinas',
  'Tartu',
  'Pernu'],
 'Gyv': [541, 287, 147, 716, 43, 105, 400, 101, 46]}

In [17]:
data = pd.DataFrame(duomenys)

In [18]:
data

Unnamed: 0,Šalis,Miestas,Gyv
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


panaudokime **.groupby()** metodą, viduje nurodydami stulpelį, pagal kurį grupuosime. 

In [19]:
data.groupby('Šalis')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022246264390>

gavome groupby objektą, kuris turi savo metodus. Tam kad galėtumėm jais naudotis, priskirkime objektą kintamąjam:

In [20]:
baltic = data.groupby('Šalis')

In [21]:
baltic


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002222EE03850>

**.mean()** skaičiuos mums vidurkį:

In [22]:
baltic["Gyv"].mean()

Šalis
Estija     182.333333
Latvija    288.000000
Lietuva    325.000000
Name: Gyv, dtype: float64

**.sum()** sumuos:

In [23]:
baltic.sum()

Unnamed: 0_level_0,Miestas,Gyv
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,TalinasTartuPernu,547
Latvija,RygaVentspilisDaugpilis,864
Lietuva,VilniusKaunasKlaipėda,975


iš groupby objekto galime trukti reikšmes tokiu būdu:

**.count()** suskaičiuos kiek yra įrašų grupės stulpeliuose:

In [24]:
baltic.count()

Unnamed: 0_level_0,Miestas,Gyv
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,3,3
Latvija,3,3
Lietuva,3,3


*atkreipkite dėmesį, kad jeigu metodas negali atlikti veiksmo su stulpelio įrašais, rezultate to stulpelio ir nerodo. šiuo atveju galime suskaičiuoti string įrašus, todėl stulpelis 'Miestas' įtrauktas į rezultatą*

**.max()** duos eilutę su maksimaliu, **.min()** su minimaliu rezultatais:

In [25]:
baltic.max()

Unnamed: 0_level_0,Miestas,Gyv
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,Tartu,400
Latvija,Ventspilis,716
Lietuva,Vilnius,541


In [26]:
baltic.min()

Unnamed: 0_level_0,Miestas,Gyv
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,Pernu,46
Latvija,Daugpilis,43
Lietuva,Kaunas,147


šiuo atveju matome, kad miestų stulpelį išrūšiavo pagal abėcelę, o skaičius, kaip ir tikėjomės. Max ir min nėra labai praktiški su *string* tipo reikšmėmis.

iš **groupby** objektų galime traukti reikšmes:

In [27]:
baltic.sum().loc['Lietuva']

Miestas    VilniusKaunasKlaipėda
Gyv                          975
Name: Lietuva, dtype: object

**.describe()** metodas duoda pagrindinę informaciją apie lentelės duomenis:

In [28]:
baltic.describe()

Unnamed: 0_level_0,Gyv,Gyv,Gyv,Gyv,Gyv,Gyv,Gyv,Gyv
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Šalis,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Estija,3.0,182.333333,190.500219,46.0,73.5,101.0,250.5,400.0
Latvija,3.0,288.0,371.952954,43.0,74.0,105.0,410.5,716.0
Lietuva,3.0,325.0,199.729818,147.0,217.0,287.0,414.0,541.0


galime sukeisti stulpelius su eilutėmis su **.transpose()**:

In [29]:
baltic.describe().transpose()

Unnamed: 0,Šalis,Estija,Latvija,Lietuva
Gyv,count,3.0,3.0,3.0
Gyv,mean,182.333333,288.0,325.0
Gyv,std,190.500219,371.952954,199.729818
Gyv,min,46.0,43.0,147.0
Gyv,25%,73.5,74.0,217.0
Gyv,50%,101.0,105.0,287.0
Gyv,75%,250.5,410.5,414.0
Gyv,max,400.0,716.0,541.0


jeigu domina vieno kurio nors stulpelio statistika, galime ją ištraukti taip:

In [30]:
baltic.describe().transpose()['Estija']

Gyv  count      3.000000
     mean     182.333333
     std      190.500219
     min       46.000000
     25%       73.500000
     50%      101.000000
     75%      250.500000
     max      400.000000
Name: Estija, dtype: float64

### DF Jungimas

susikurkime pavyzdžius:

In [31]:
data_main = data[0:6].copy()

In [32]:
data_main

Unnamed: 0,Šalis,Miestas,Gyv
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105


In [33]:
data_bottom = data[6:].copy()

In [34]:
data_bottom

Unnamed: 0,Šalis,Miestas,Gyv
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


norėdami sujungti data_main su data_bottom naudosime **.concat()** metodą, viduje įrašydami lentelių, kurias jungsime sąrašą:

In [35]:
pd.concat([data_main, data_bottom])

Unnamed: 0,Šalis,Miestas,Gyv
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


galime prijungti lentelę iš dešinės:

In [36]:
pd.concat([data_main, data_bottom], axis=1)

Unnamed: 0,Šalis,Miestas,Gyv,Šalis.1,Miestas.1,Gyv.1
0,Lietuva,Vilnius,541.0,,,
1,Lietuva,Kaunas,287.0,,,
2,Lietuva,Klaipėda,147.0,,,
3,Latvija,Ryga,716.0,,,
4,Latvija,Ventspilis,43.0,,,
5,Latvija,Daugpilis,105.0,,,
6,,,,Estija,Talinas,400.0
7,,,,Estija,Tartu,101.0
8,,,,Estija,Pernu,46.0


matome, kad pandas ieškojo antroje lentelėje sutampančių indeksų, ir neradus atliko jungimą užpildant tuščias vietas NaN. Todėl jungiant, reikia įsitikinti, kad jungimui tinka abi pusės. Pertvarkykime data_right indeksą:

In [37]:
data_right = data_bottom.reset_index()

In [38]:
data_right.drop(columns='index', inplace=True)

In [39]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv
0,Estija,Talinas,400
1,Estija,Tartu,101
2,Estija,Pernu,46


In [40]:
pd.concat([data_main, data_right], axis=1)

Unnamed: 0,Šalis,Miestas,Gyv,Šalis.1,Miestas.1,Gyv.1
0,Lietuva,Vilnius,541,Estija,Talinas,400.0
1,Lietuva,Kaunas,287,Estija,Tartu,101.0
2,Lietuva,Klaipėda,147,Estija,Pernu,46.0
3,Latvija,Ryga,716,,,
4,Latvija,Ventspilis,43,,,
5,Latvija,Daugpilis,105,,,


dabar pandas surado sutampančius indeksus, tačiau visvien turime NaN reikšmes, kadangi lentelėje trūksta duomenų. Pridėkime papildomų eilučių:

In [41]:
lenkija = {'Šalis': ['Lenkija', 'Lenkija', 'Lenkija'], 
           'Miestas':['Varšuva', 'Vroclavas', 'Gdanskas'], 
          'Gyv': [1688, 638, 461]}
pl = pd.DataFrame(lenkija)
data_right1 = pd.concat([data_right, pl])

In [42]:
data_right = data_right1.reset_index().drop(columns='index')

In [43]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv
0,Estija,Talinas,400
1,Estija,Tartu,101
2,Estija,Pernu,46
3,Lenkija,Varšuva,1688
4,Lenkija,Vroclavas,638
5,Lenkija,Gdanskas,461


Pabandykime sujungti data_main su data_right :)

In [44]:
pd.concat([data_main, data_right], axis=1)

Unnamed: 0,Šalis,Miestas,Gyv,Šalis.1,Miestas.1,Gyv.1
0,Lietuva,Vilnius,541,Estija,Talinas,400
1,Lietuva,Kaunas,287,Estija,Tartu,101
2,Lietuva,Klaipėda,147,Estija,Pernu,46
3,Latvija,Ryga,716,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,Lenkija,Gdanskas,461


**.merge()**

Jeigu *data_main* ir *data_right* turėtų po vieną sutampantį stulpelį, pvz.:

In [45]:
key = 'A B C D E F'.split()
data_main['key'] = key
data_right['key'] = key

In [46]:
data_main

Unnamed: 0,Šalis,Miestas,Gyv,key
0,Lietuva,Vilnius,541,A
1,Lietuva,Kaunas,287,B
2,Lietuva,Klaipėda,147,C
3,Latvija,Ryga,716,D
4,Latvija,Ventspilis,43,E
5,Latvija,Daugpilis,105,F


In [47]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv,key
0,Estija,Talinas,400,A
1,Estija,Tartu,101,B
2,Estija,Pernu,46,C
3,Lenkija,Varšuva,1688,D
4,Lenkija,Vroclavas,638,E
5,Lenkija,Gdanskas,461,F


galima jas sulieti to bendro stulpelio pagrindu:

In [48]:
pd.merge(data_main, data_right, on='key')

Unnamed: 0,Šalis_x,Miestas_x,Gyv_x,key,Šalis_y,Miestas_y,Gyv_y
0,Lietuva,Vilnius,541,A,Estija,Talinas,400
1,Lietuva,Kaunas,287,B,Estija,Tartu,101
2,Lietuva,Klaipėda,147,C,Estija,Pernu,46
3,Latvija,Ryga,716,D,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,E,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,F,Lenkija,Gdanskas,461


matome, kad lentelės suklijuotos, tačiau stulpelis 'key' nesikartoja (*stulpeliai pervadinti, kad nesidubliuotų pavadinimai*). Stulpelį 'key' teko nurodyti parametre **on**.

papildykime pavyzdį dar vienu stulpeliu:

In [49]:
key2 = 'B C D E F G'.split()
data_main['key2'] = key2
data_right['key2'] = key2

*tai ne klaida, tai perspėjimas, ignoruokite. čia tiesiog greituoju būdu sukurta dummy data*

In [50]:
data_main

Unnamed: 0,Šalis,Miestas,Gyv,key,key2
0,Lietuva,Vilnius,541,A,B
1,Lietuva,Kaunas,287,B,C
2,Lietuva,Klaipėda,147,C,D
3,Latvija,Ryga,716,D,E
4,Latvija,Ventspilis,43,E,F
5,Latvija,Daugpilis,105,F,G


In [51]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv,key,key2
0,Estija,Talinas,400,A,B
1,Estija,Tartu,101,B,C
2,Estija,Pernu,46,C,D
3,Lenkija,Varšuva,1688,D,E
4,Lenkija,Vroclavas,638,E,F
5,Lenkija,Gdanskas,461,F,G


In [52]:
pd.merge(data_main, data_right, on=['key', 'key2'])

Unnamed: 0,Šalis_x,Miestas_x,Gyv_x,key,key2,Šalis_y,Miestas_y,Gyv_y
0,Lietuva,Vilnius,541,A,B,Estija,Talinas,400
1,Lietuva,Kaunas,287,B,C,Estija,Tartu,101
2,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46
3,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,F,G,Lenkija,Gdanskas,461


Matome, kad į parametrą **on** galima perduoti ir daugiau reikšmių, sąraše.

Jeigu, pvz. stulpelis 'key2' vienoje lentelėje skiriasi nuo kitos lentelės 'key2' stulpelio:

In [53]:
keyX = 'W C D E F W'.split()
data_right['key2'] = keyX

In [54]:
data_right

Unnamed: 0,Šalis,Miestas,Gyv,key,key2
0,Estija,Talinas,400,A,W
1,Estija,Tartu,101,B,C
2,Estija,Pernu,46,C,D
3,Lenkija,Varšuva,1688,D,E
4,Lenkija,Vroclavas,638,E,F
5,Lenkija,Gdanskas,461,F,W


In [55]:
pd.merge(data_main, data_right, on=['key', 'key2'])

Unnamed: 0,Šalis_x,Miestas_x,Gyv_x,key,key2,Šalis_y,Miestas_y,Gyv_y
0,Lietuva,Kaunas,287,B,C,Estija,Tartu,101
1,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46
2,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688
3,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638


...gauname tik tas eilutes, kuriose 'key2' reikšmių sekos dalis sutampa.

Yra ir metodas **.join()**. Jis daro tą patį, ką ir merge, tik indekso pagrindu. Pvz.:

In [56]:
data_main.join(data_right, lsuffix='L', rsuffix='R')

Unnamed: 0,ŠalisL,MiestasL,GyvL,keyL,key2L,ŠalisR,MiestasR,GyvR,keyR,key2R
0,Lietuva,Vilnius,541,A,B,Estija,Talinas,400,A,W
1,Lietuva,Kaunas,287,B,C,Estija,Tartu,101,B,C
2,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46,C,D
3,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688,D,E
4,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638,E,F
5,Latvija,Daugpilis,105,F,G,Lenkija,Gdanskas,461,F,W


Kadangi sutampa stulpelių pavadinimai, teko nurodyti lsuffix ir rsuffix. Jeigu indeksas nebūtų identiškas, rezultate gautumėm tik tas eilutes, kurių indeksas persidengia. Dažniausiai vis tik naudosime **.merge()**