# Pandas II dalis

In [160]:
import numpy as np
import pandas as pd

### Trūkstami duomenys

Susikursime pavyzdį:

In [161]:
df = pd.DataFrame(np.random.rand(5,6), 
                  ['a', 'b', 'c', 'd', 'e'], 
                  ['U', 'V', 'W', 'X', 'Y', 'Z'])

In [162]:
df

Unnamed: 0,U,V,W,X,Y,Z
a,0.032164,0.877962,0.657462,0.632981,0.567601,0.809915
b,0.988959,0.074198,0.150799,0.934268,0.993021,0.831272
c,0.037096,0.478033,0.924018,0.485344,0.215621,0.252492
d,0.603714,0.567,0.578931,0.60249,0.385966,0.35092
e,0.635558,0.634524,0.779969,0.809336,0.346086,0.024813


In [163]:
table = df[df>.4]

In [164]:
table

Unnamed: 0,U,V,W,X,Y,Z
a,,0.877962,0.657462,0.632981,0.567601,0.809915
b,0.988959,,,0.934268,0.993021,0.831272
c,,0.478033,0.924018,0.485344,,
d,0.603714,0.567,0.578931,0.60249,,
e,0.635558,0.634524,0.779969,0.809336,,


Funkcija, padėsianti mums aptikti nulines reikšmes yra **.isnull()**. Naudojimo pavyzdžiai:

In [165]:
table.isnull() #grąžina lentelę, kur true reikšmės yra NaN

Unnamed: 0,U,V,W,X,Y,Z
a,True,False,False,False,False,False
b,False,True,True,False,False,False
c,True,False,False,False,True,True
d,False,False,False,False,True,True
e,False,False,False,False,True,True


In [166]:
table.isnull().sum(axis=0) # Rodo kiek kuriame stulpelyje NaN reikšmių

U    2
V    1
W    1
X    0
Y    3
Z    3
dtype: int64

In [167]:
table['W'].isnull() # Galima tikrinti atskiruose stulpeliuose

a    False
b     True
c    False
d    False
e    False
Name: W, dtype: bool

In [168]:
table['W'].isnull().sum()

1

pirmas metodas tvarkytis su trūkstamais duomenimis yra **.dropna()**. Jis išmeta visas eilutes, kuriose yra bent viena NaN reikšmė:

In [169]:
table.dropna()

Unnamed: 0,U,V,W,X,Y,Z


jeigu norime išmesti stulpelius, turinčius bent vieną NaN, turime nurodyti ašį:

In [170]:
table.dropna(axis=1)

Unnamed: 0,X
a,0.632981
b,0.934268
c,0.485344
d,0.60249
e,0.809336


Galime išmesti tik tas eilutes, ar stulpelius, kurie turi mažiau, negu (pvz) 5 **NE** NaN reikšmes:


In [171]:
table.dropna(thresh=4, axis=1)

Unnamed: 0,V,W,X
a,0.877962,0.657462,0.632981
b,,,0.934268
c,0.478033,0.924018,0.485344
d,0.567,0.578931,0.60249
e,0.634524,0.779969,0.809336


Papildomai nurodžius ašį, tą patį galima padaryti ir su stulpeliais.

Jei norime NaN reikšmes pakeisti kažkuo kitu, naudosime **.fillna()** metodą:

In [172]:
table.fillna('bupkis')

Unnamed: 0,U,V,W,X,Y,Z
a,bupkis,0.877962,0.657462,0.632981,0.567601,0.809915
b,0.988959,bupkis,bupkis,0.934268,0.993021,0.831272
c,bupkis,0.478033,0.924018,0.485344,bupkis,bupkis
d,0.603714,0.567,0.578931,0.60249,bupkis,bupkis
e,0.635558,0.634524,0.779969,0.809336,bupkis,bupkis


Daugiau prasmės būtų pakeisti pvz. stulpelio vidurkiu:

In [173]:
table['W'].fillna(value=table['W'].mean())

a    0.657462
b    0.735095
c    0.924018
d    0.578931
e    0.779969
Name: W, dtype: float64

In [174]:
table.fillna(value=table.mean())

Unnamed: 0,U,V,W,X,Y,Z
a,0.742744,0.877962,0.657462,0.632981,0.567601,0.809915
b,0.988959,0.63938,0.735095,0.934268,0.993021,0.831272
c,0.742744,0.478033,0.924018,0.485344,0.780311,0.820594
d,0.603714,0.567,0.578931,0.60249,0.780311,0.820594
e,0.635558,0.634524,0.779969,0.809336,0.780311,0.820594


### Grupavimas

Susikurkime pavyzdį:

In [175]:
duomenys = {'Šalis': ['Lietuva',
  'Lietuva',
  'Lietuva',
  'Latvija',
  'Latvija',
  'Latvija',
  'Estija',
  'Estija',
  'Estija'],
 'Miestas': ['Vilnius',
  'Kaunas',
  'Klaipėda',
  'Ryga',
  'Ventspilis',
  'Daugpilis',
  'Talinas',
  'Tartu',
  'Pernu'],
 'Gyventojai': [541, 287, 147, 716, 43, 105, 400, 101, 46]}

In [176]:
data = pd.DataFrame(duomenys)

In [177]:
data

Unnamed: 0,Šalis,Miestas,Gyventojai
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


panaudokime **.groupby()** metodą, viduje nurodydami stulpelį, pagal kurį grupuosime. 

In [178]:
data.groupby('Šalis')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x155b0d570>

gavome groupby objektą, kuris turi savo metodus. Tam kad galėtumėm jais naudotis, priskirkime objektą kintamąjam:

In [179]:
baltic = data.groupby('Šalis')

In [180]:
baltic


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x155b0e6e0>

**.mean()** skaičiuos mums vidurkį:

In [181]:
baltic["Gyventojai"].mean()

Šalis
Estija     182.333333
Latvija    288.000000
Lietuva    325.000000
Name: Gyventojai, dtype: float64

**.sum()** sumuos:

In [182]:
baltic.sum()

Unnamed: 0_level_0,Miestas,Gyventojai
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,TalinasTartuPernu,547
Latvija,RygaVentspilisDaugpilis,864
Lietuva,VilniusKaunasKlaipėda,975


iš groupby objekto galime trukti reikšmes tokiu būdu:

**.count()** suskaičiuos kiek yra įrašų grupės stulpeliuose:

In [183]:
baltic.count()

Unnamed: 0_level_0,Miestas,Gyventojai
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,3,3
Latvija,3,3
Lietuva,3,3


*atkreipkite dėmesį, kad jeigu metodas negali atlikti veiksmo su stulpelio įrašais, rezultate to stulpelio ir nerodo. šiuo atveju galime suskaičiuoti string įrašus, todėl stulpelis 'Miestas' įtrauktas į rezultatą*

**.max()** duos eilutę su maksimaliu, **.min()** su minimaliu rezultatais:

In [184]:
baltic.max()

Unnamed: 0_level_0,Miestas,Gyventojai
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,Tartu,400
Latvija,Ventspilis,716
Lietuva,Vilnius,541


In [185]:
baltic.min()

Unnamed: 0_level_0,Miestas,Gyventojai
Šalis,Unnamed: 1_level_1,Unnamed: 2_level_1
Estija,Pernu,46
Latvija,Daugpilis,43
Lietuva,Kaunas,147


šiuo atveju matome, kad miestų stulpelį išrūšiavo pagal abėcelę, o skaičius, kaip ir tikėjomės. Max ir min nėra labai praktiški su *string* tipo reikšmėmis.

iš **groupby** objektų galime traukti reikšmes:

In [186]:
baltic.sum().loc['Lietuva']

Miestas       VilniusKaunasKlaipėda
Gyventojai                      975
Name: Lietuva, dtype: object

**.describe()** metodas duoda pagrindinę informaciją apie lentelės duomenis:

In [187]:
baltic.describe()

Unnamed: 0_level_0,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Šalis,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Estija,3.0,182.333333,190.500219,46.0,73.5,101.0,250.5,400.0
Latvija,3.0,288.0,371.952954,43.0,74.0,105.0,410.5,716.0
Lietuva,3.0,325.0,199.729818,147.0,217.0,287.0,414.0,541.0


In [188]:
baltic.describe(include='all')

Unnamed: 0_level_0,Miestas,Miestas,Miestas,Miestas,Miestas,Miestas,Miestas,Miestas,Miestas,Miestas,...,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai,Gyventojai
Unnamed: 0_level_1,count,unique,top,freq,mean,std,min,25%,50%,75%,...,unique,top,freq,mean,std,min,25%,50%,75%,max
Šalis,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Estija,3,3,Talinas,1,,,,,,,...,,,,182.333333,190.500219,46.0,73.5,101.0,250.5,400.0
Latvija,3,3,Ryga,1,,,,,,,...,,,,288.0,371.952954,43.0,74.0,105.0,410.5,716.0
Lietuva,3,3,Vilnius,1,,,,,,,...,,,,325.0,199.729818,147.0,217.0,287.0,414.0,541.0


galime sukeisti stulpelius su eilutėmis su **.transpose()**:

In [189]:
baltic.describe().transpose()

Unnamed: 0,Šalis,Estija,Latvija,Lietuva
Gyventojai,count,3.0,3.0,3.0
Gyventojai,mean,182.333333,288.0,325.0
Gyventojai,std,190.500219,371.952954,199.729818
Gyventojai,min,46.0,43.0,147.0
Gyventojai,25%,73.5,74.0,217.0
Gyventojai,50%,101.0,105.0,287.0
Gyventojai,75%,250.5,410.5,414.0
Gyventojai,max,400.0,716.0,541.0


jeigu domina vieno kurio nors stulpelio statistika, galime ją ištraukti taip:

In [190]:
baltic.describe().transpose()['Estija']

Gyventojai  count      3.000000
            mean     182.333333
            std      190.500219
            min       46.000000
            25%       73.500000
            50%      101.000000
            75%      250.500000
            max      400.000000
Name: Estija, dtype: float64

### DF Jungimas

susikurkime pavyzdžius:

In [191]:
data_main = data[0:6].copy()

In [192]:
data_main

Unnamed: 0,Šalis,Miestas,Gyventojai
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105


In [193]:
data_bottom = data[6:].copy()

In [194]:
data_bottom

Unnamed: 0,Šalis,Miestas,Gyventojai
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


norėdami sujungti data_main su data_bottom naudosime **.concat()** metodą, viduje įrašydami lentelių, kurias jungsime sąrašą:

In [195]:
pd.concat([data_main, data_bottom])

Unnamed: 0,Šalis,Miestas,Gyventojai
0,Lietuva,Vilnius,541
1,Lietuva,Kaunas,287
2,Lietuva,Klaipėda,147
3,Latvija,Ryga,716
4,Latvija,Ventspilis,43
5,Latvija,Daugpilis,105
6,Estija,Talinas,400
7,Estija,Tartu,101
8,Estija,Pernu,46


galime prijungti lentelę iš dešinės:

In [196]:
pd.concat([data_main, data_bottom], axis=1)

Unnamed: 0,Šalis,Miestas,Gyventojai,Šalis.1,Miestas.1,Gyventojai.1
0,Lietuva,Vilnius,541.0,,,
1,Lietuva,Kaunas,287.0,,,
2,Lietuva,Klaipėda,147.0,,,
3,Latvija,Ryga,716.0,,,
4,Latvija,Ventspilis,43.0,,,
5,Latvija,Daugpilis,105.0,,,
6,,,,Estija,Talinas,400.0
7,,,,Estija,Tartu,101.0
8,,,,Estija,Pernu,46.0


matome, kad pandas ieškojo antroje lentelėje sutampančių indeksų, ir neradus atliko jungimą užpildant tuščias vietas NaN. Todėl jungiant, reikia įsitikinti, kad jungimui tinka abi pusės. Pertvarkykime data_right indeksą:

In [197]:
data_right = data_bottom.reset_index()
data_right

Unnamed: 0,index,Šalis,Miestas,Gyventojai
0,6,Estija,Talinas,400
1,7,Estija,Tartu,101
2,8,Estija,Pernu,46


In [198]:
data_right.drop(columns='index', inplace=True)
data_right

Unnamed: 0,Šalis,Miestas,Gyventojai
0,Estija,Talinas,400
1,Estija,Tartu,101
2,Estija,Pernu,46


In [199]:
pd.concat([data_main, data_right], axis=1)

Unnamed: 0,Šalis,Miestas,Gyventojai,Šalis.1,Miestas.1,Gyventojai.1
0,Lietuva,Vilnius,541,Estija,Talinas,400.0
1,Lietuva,Kaunas,287,Estija,Tartu,101.0
2,Lietuva,Klaipėda,147,Estija,Pernu,46.0
3,Latvija,Ryga,716,,,
4,Latvija,Ventspilis,43,,,
5,Latvija,Daugpilis,105,,,


dabar pandas surado sutampančius indeksus, tačiau visvien turime NaN reikšmes, kadangi lentelėje trūksta duomenų. Pridėkime papildomų eilučių:

In [200]:
lenkija = {'Šalis': ['Lenkija', 'Lenkija', 'Lenkija'], 
           'Miestas':['Varšuva', 'Vroclavas', 'Gdanskas'], 
          'Gyventojai': [1688, 638, 461]}
pl = pd.DataFrame(lenkija)
data_right1 = pd.concat([data_right, pl])

In [201]:
data_right = data_right1.reset_index().drop(columns='index')

In [202]:
data_right

Unnamed: 0,Šalis,Miestas,Gyventojai
0,Estija,Talinas,400
1,Estija,Tartu,101
2,Estija,Pernu,46
3,Lenkija,Varšuva,1688
4,Lenkija,Vroclavas,638
5,Lenkija,Gdanskas,461


Pabandykime sujungti data_main su data_right :)

In [203]:
pd.concat([data_main, data_right], axis=1)

Unnamed: 0,Šalis,Miestas,Gyventojai,Šalis.1,Miestas.1,Gyventojai.1
0,Lietuva,Vilnius,541,Estija,Talinas,400
1,Lietuva,Kaunas,287,Estija,Tartu,101
2,Lietuva,Klaipėda,147,Estija,Pernu,46
3,Latvija,Ryga,716,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,Lenkija,Gdanskas,461


**.merge()**

Jeigu *data_main* ir *data_right* turėtų po vieną sutampantį stulpelį, pvz.:

In [205]:
key = 'A B C D E F'.split()
data_main['key'] = key
data_right['key'] = key

In [206]:
data_main

Unnamed: 0,Šalis,Miestas,Gyventojai,key
0,Lietuva,Vilnius,541,A
1,Lietuva,Kaunas,287,B
2,Lietuva,Klaipėda,147,C
3,Latvija,Ryga,716,D
4,Latvija,Ventspilis,43,E
5,Latvija,Daugpilis,105,F


In [207]:
data_right

Unnamed: 0,Šalis,Miestas,Gyventojai,key
0,Estija,Talinas,400,A
1,Estija,Tartu,101,B
2,Estija,Pernu,46,C
3,Lenkija,Varšuva,1688,D
4,Lenkija,Vroclavas,638,E
5,Lenkija,Gdanskas,461,F


galima jas sulieti to bendro stulpelio pagrindu:

In [208]:
pd.merge(data_main, data_right, on='key')

Unnamed: 0,Šalis_x,Miestas_x,Gyventojai_x,key,Šalis_y,Miestas_y,Gyventojai_y
0,Lietuva,Vilnius,541,A,Estija,Talinas,400
1,Lietuva,Kaunas,287,B,Estija,Tartu,101
2,Lietuva,Klaipėda,147,C,Estija,Pernu,46
3,Latvija,Ryga,716,D,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,E,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,F,Lenkija,Gdanskas,461


matome, kad lentelės suklijuotos, tačiau stulpelis 'key' nesikartoja (*stulpeliai pervadinti, kad nesidubliuotų pavadinimai*). Stulpelį 'key' teko nurodyti parametre **on**.

papildykime pavyzdį dar vienu stulpeliu:

In [209]:
key2 = 'B C D E F G'.split()
data_main['key2'] = key2
data_right['key2'] = key2

*tai ne klaida, tai perspėjimas, ignoruokite. čia tiesiog greituoju būdu sukurta dummy data*

In [210]:
data_main

Unnamed: 0,Šalis,Miestas,Gyventojai,key,key2
0,Lietuva,Vilnius,541,A,B
1,Lietuva,Kaunas,287,B,C
2,Lietuva,Klaipėda,147,C,D
3,Latvija,Ryga,716,D,E
4,Latvija,Ventspilis,43,E,F
5,Latvija,Daugpilis,105,F,G


In [211]:
data_right

Unnamed: 0,Šalis,Miestas,Gyventojai,key,key2
0,Estija,Talinas,400,A,B
1,Estija,Tartu,101,B,C
2,Estija,Pernu,46,C,D
3,Lenkija,Varšuva,1688,D,E
4,Lenkija,Vroclavas,638,E,F
5,Lenkija,Gdanskas,461,F,G


In [212]:
pd.merge(data_main, data_right, on=['key', 'key2'])

Unnamed: 0,Šalis_x,Miestas_x,Gyventojai_x,key,key2,Šalis_y,Miestas_y,Gyventojai_y
0,Lietuva,Vilnius,541,A,B,Estija,Talinas,400
1,Lietuva,Kaunas,287,B,C,Estija,Tartu,101
2,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46
3,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688
4,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638
5,Latvija,Daugpilis,105,F,G,Lenkija,Gdanskas,461


Matome, kad į parametrą **on** galima perduoti ir daugiau reikšmių, sąraše.

Jeigu, pvz. stulpelis 'key2' vienoje lentelėje skiriasi nuo kitos lentelės 'key2' stulpelio:

In [215]:
keyX = 'W C D E F W'.split()
data_right['key2'] = keyX

In [216]:
data_right

Unnamed: 0,Šalis,Miestas,Gyventojai,key,key2
0,Estija,Talinas,400,A,W
1,Estija,Tartu,101,B,C
2,Estija,Pernu,46,C,D
3,Lenkija,Varšuva,1688,D,E
4,Lenkija,Vroclavas,638,E,F
5,Lenkija,Gdanskas,461,F,W


In [217]:
pd.merge(data_main, data_right, on=['key', 'key2'])

Unnamed: 0,Šalis_x,Miestas_x,Gyventojai_x,key,key2,Šalis_y,Miestas_y,Gyventojai_y
0,Lietuva,Kaunas,287,B,C,Estija,Tartu,101
1,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46
2,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688
3,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638


...gauname tik tas eilutes, kuriose 'key2' reikšmių sekos dalis sutampa.

Yra ir metodas **.join()**. Jis daro tą patį, ką ir merge, tik indekso pagrindu. Pvz.:

In [218]:
data_main.join(data_right, lsuffix='L', rsuffix='R')

Unnamed: 0,ŠalisL,MiestasL,GyventojaiL,keyL,key2L,ŠalisR,MiestasR,GyventojaiR,keyR,key2R
0,Lietuva,Vilnius,541,A,B,Estija,Talinas,400,A,W
1,Lietuva,Kaunas,287,B,C,Estija,Tartu,101,B,C
2,Lietuva,Klaipėda,147,C,D,Estija,Pernu,46,C,D
3,Latvija,Ryga,716,D,E,Lenkija,Varšuva,1688,D,E
4,Latvija,Ventspilis,43,E,F,Lenkija,Vroclavas,638,E,F
5,Latvija,Daugpilis,105,F,G,Lenkija,Gdanskas,461,F,W


Kadangi sutampa stulpelių pavadinimai, teko nurodyti lsuffix ir rsuffix. Jeigu indeksas nebūtų identiškas, rezultate gautumėm tik tas eilutes, kurių indeksas persidengia. Dažniausiai vis tik naudosime **.merge()**