
# Datan analysointi K2019 - kerta 2
## NumPy- ja Pandas-kirjastojen tietorakenteita
### NumPy-kirjasto

NumPy-kirjasto sisältää numeerisen laskennan työkaluja, tärkeimpänä **ndarray (tai array)**, eli taulukko, jolla voidaan kuvata vektoreita, matriiseja ja mitä tahansa moniulotteisia taulukoita. Numpy-taulukot mahdollistavat numeerisen laskennan eri tavoilla kuin tavalliset listat (ndarray = n-dimensional array).

Lisäksi NumPy sisältää lukuisia funktioita taulukoiden käsittelyyn, matriisilaskentaan ja tilastolliseen laskentaan.  Numpy-taulukoiden ja –funktioiden toteutukset on hiottu erittäin nopeiksi.

[NumPy-sivut](https://docs.scipy.org/doc/numpy/user/index.html)

### Numpy-kirjaston tuonti
numpy-kirjasto otetaan käyttöön koodissa `import numpy` -käskyllä. Vakiintunut käytäntö on käyttää aliasta `np`:

`import numpy as np`

Tämän jälkeen koodissa NumPyn funktioita voi kutsua lyhennettä `np` käyttäen.

### NumPy-taulukko (array)
Taulukoita (array) voi luoda  Pythonin listoista (tai tupleista) numpy.array-funktiolla. 



In [11]:
import numpy as np

# Luodaan yksiulotteinen neljan alkion taulukko (eli vektori)

vektori = np.array([10, 20, 30, 40])

Taulukon alkiohin viittaaminen toimii kuten listojen kanssa:

In [12]:
eka = vektori[0] # 10
toka = vektori[1] # 20
vika_1 = vektori[3] # 40
vika_2 = vektori[-1] # 40, viimeinen alkio
vika_2 = vektori[-2] # 30, toiseksi viimeinen alkio

Toisin kuin listat, NumPy-taulukot eivät kuitenkaan voi sisältää eri tyyppisiä alkioita. Jos luontiin käytettävän listan alkiot ovat eri tyyppisiä, NumPy muuttaa kaikki alkiot "yleisimmäksi" datatyypiksi.

In [13]:
lista1 = [1, 3, 3.1]
nptaulukko1 = np.array(lista1)
print(nptaulukko1)  # kaikki floateja

lista2 = [1, 2.1, "3"]
nptaulukko2 = np.array(lista2)
print(nptaulukko2)  # kaikki stringejä



[1.  3.  3.1]
['1' '2.1' '3']


Kaksiulotteisen NumPy-taulukon eli matriisin, voi luoda samalla tavalla listojen listasta:

In [14]:
matriisi = np.array([[10, 20, 30],
                     [40, 50, 60]])

print(matriisi)

[[10 20 30]
 [40 50 60]]


Kaksiulotteisten NumPy-taulukkojen alkioihin voi viitata  `taulukko[rivi, sarake]` -merkinnällä.
Myös tavallisista listoista tuttu merkintä `taulukko[rivi][sarake]`  toimii, mutta on kömpelömpi.

In [15]:
ekan_eka = matriisi[0, 0] # 10
tokan_toka = matriisi[1, 1] # 50
tokan_vika = matriisi[1, -1] # 60
tokan_vika2 = matriisi[1][-1] # 60

print(tokan_vika)


60


Vastaavasti matriisi voi olla myös useampiulotteinen:

In [16]:
kolmed_matr = np.array([[[1, 2, 3],
                         [4, 5, 6]],
                        [[7, 8, 9],
                         [10, 11, 12]]])
print(kolmed_matr[1,0,2])
print(kolmed_matr)

9
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


Taulukon ulottuvuudet voi selvittää `numpy.ndim` -funktiolla.  
`numpy.shape`-funktio palauttaa taulukon ulottuvuuksien dimensiot.  
Yksittäisen ulottuvuuden dimension (alkioiden määrän) saa `len`-funktiolla.


In [17]:
print(np.ndim(kolmed_matr)) # toimii myös kolmed_matr.ndim
print(np.shape(kolmed_matr))
print(len(kolmed_matr[1,1]))


3
(2, 2, 3)
3


Taulukon voi tehdä myös valmiilla NumPyn alustusfunktioilla:
* `numpy.zeros` tekee taulukon jossa kaikki alkiot on nollia
* `numpy.arange` toimii kuten for-silmukan kanssa käytettävä range-funktio
* `numpy.linspace` täyttää taulukon tasavälein olevilla liukuluvuilla 


In [18]:
print(np.zeros(10))
print(np.zeros([5, 3])) # toimisi myös tuplella np.zeros((5, 3))

print("\n")

print(np.arange(1, 11)) # alku, loppu. Loppu ei tule mukaan
print(np.arange(0, 101, 10)) # alku, loppu, askel
print(np.arange(10, 0, -1)) # alku, loppu, askel

print("\n")

print(np.linspace(0, 10, 5)) # alku, loppu, lukujen määrä


[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


[ 1  2  3  4  5  6  7  8  9 10]
[  0  10  20  30  40  50  60  70  80  90 100]
[10  9  8  7  6  5  4  3  2  1]


[ 0.   2.5  5.   7.5 10. ]


`reshape`-funktiolla voidaan muuttaa matriisin muotoa:

In [19]:
taul1 = np.arange(0,24,2)
print(taul1)

print("\n")

taul2 = taul1.reshape((3, 4))
print(taul2)

print("\n")

taul3 = taul1.reshape((6, 2))
print(taul3)


[ 0  2  4  6  8 10 12 14 16 18 20 22]


[[ 0  2  4  6]
 [ 8 10 12 14]
 [16 18 20 22]]


[[ 0  2]
 [ 4  6]
 [ 8 10]
 [12 14]
 [16 18]
 [20 22]]


### NumPy-taulukon siivuttaminen (slicing)
NumPy-taulukoiden siivuttaminen toimii samaan tapaan kuin listojen siivuttaminen. Merkinnässä [start:stop:askel], 
stop-alkio ei siis kuulu enää siivuun. askel-osuus ei ole pakollinen.

In [20]:
vektori = np.arange(10, 110, 10)
print(vektori)

print("\n")

siivu1 = vektori[2:5]
print(siivu1)

print("\n")

print(vektori[-2:3:-1])

print("\n")

matriisi = np.array([[1, 2, 3, 4],
                     [5, 6, 7, 8],
                     [9, 10, 11, 12]])
print(matriisi)

print("\n")

print(matriisi[1, 1:3])

print("\n")

print(matriisi[2, -2:])


[ 10  20  30  40  50  60  70  80  90 100]


[30 40 50]


[90 80 70 60 50]


[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


[6 7]


[11 12]


NumPy-tarjoaa myös käytännöllisen `:` -indeksoinnin. `:` -indeksi tarkoittaa kyseisen ulottuvuuden kaikkia indeksejä:

In [21]:
M = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])
# Matriisin M kaikkien rivien kolmas sarake
print(M[:, 2]) # array([ 3,  7, 11])
# Matriisin M toisen rivin kaikki sarakkeet
print(M[1, :]) # array([5, 6, 7, 8])
# Tätä vastaa myös lyhennetty merkintä, jossa sarakkeet voi jättää pois
print(M[1])    # array([5, 6, 7, 8])


[ 3  7 11]
[5 6 7 8]
[5 6 7 8]


NumPy-taulukoiden siivuttaminen on toteutuu siis paljon yksinkertaisemmalla syntaksilla kuin python-listojen:

In [22]:
# kaivetaan "2D"-python listasta "1. sarake"
x = [["a", "b"], ["c", "d"]]
print([x[0][0], x[1][0]])

# sama NumPy-taulukolla
np_x = np.array(x)
print(np_x[:,0])

['a', 'c']
['a' 'c']


Siivuttaminen ei kuitenkaan anna uutta taulukkoa vaan eräänlaisen "näkymän" (view) alkuperäiseen taulukkoon (tämä liittyy muistin käsittelyn optimointiin). Niinpä näkymään tehtävät muutokset vaikuttavat myös alkuperäiseen taulukkoon:

In [23]:
taul1 = np.array([1, 2, 3, 4, 5, 6, 7, 8])
taul2 = taul1[2:5]

print(taul2)  # [3 4 5]

taul2[1] = 10

print(taul2) # [ 3 10  5] 
print(taul1)  # myös taul1 on muuttunut!  [ 1  2  3 10  5  6  7  8]

# uuden taulukon saa copy()-funktiolla

taul3 = taul1[5:8].copy()
taul3[1] = 100

print(taul3)
print(taul1)  # ei ole muuttunut


[3 4 5]
[ 3 10  5]
[ 1  2  3 10  5  6  7  8]
[  6 100   8]
[ 1  2  3 10  5  6  7  8]


### Laskutoimitukset NumPy-taulukoilla
NumPy-taulukon voi kertoa/jakaa/summata yms. skalaariarvon (luvun) kanssa, jolloin NumPy tekee operaation jokaiselle alkiolle erikseen:

In [24]:
vektori = np.array([1, 3, 7, 9, 11]) 
v2 = vektori + 5
print(v2)

print("\n")

v3 = (vektori ** 2)/2
print(v3)


[ 6  8 12 14 16]


[ 0.5  4.5 24.5 40.5 60.5]


NumPy-taulukoita voi myos lisätä, kertoa ja jakaa keskenään. 
Operaatiot tehdaan alkioittain, joten taulukoiden dimensioiden tulee täsmätä.

In [27]:
vektori1 = np.array([1, 3, 7, 9, 11]) 
vektori2 = np.array([0.5 , -1, 1, 0.1, 3])

print(vektori1 + vektori2)

print("\n")

print(vektori1 * vektori2)

print("\n")

print((vektori1 / vektori2)**2)

print("\n")

print(vektori1 + np.array([3,4,5])) # virheilmoitus

[ 1.5  2.   8.   9.1 14. ]


[ 0.5 -3.   7.   0.9 33. ]


[4.00000000e+00 9.00000000e+00 4.90000000e+01 8.10000000e+03
 1.34444444e+01]




ValueError: operands could not be broadcast together with shapes (5,) (3,) 

Seuraavassa matriisin M jokainen rivi kerrotaan alkioittain vektorilla a (kyseessä ei ole matriisien pistetulo).

In [28]:
M = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])
a = np.array([1, 2, 3, 4])
print(M * a)

[[ 1  4  9 16]
 [ 5 12 21 32]
 [ 9 20 33 48]]


NumPyn omia matemaattisia funktioita käyttäen voidaan laskutoimitukset tehdä alkoittain NumPy-taulukolle

In [31]:
import math
vektori  = np.arange(0,370,10)
print(vektori)
print('\n')
print(np.radians(vektori))
print('\n')
print(np.sin(np.radians(vektori)))


[  0  10  20  30  40  50  60  70  80  90 100 110 120 130 140 150 160 170
 180 190 200 210 220 230 240 250 260 270 280 290 300 310 320 330 340 350
 360]


[0.         0.17453293 0.34906585 0.52359878 0.6981317  0.87266463
 1.04719755 1.22173048 1.3962634  1.57079633 1.74532925 1.91986218
 2.0943951  2.26892803 2.44346095 2.61799388 2.7925268  2.96705973
 3.14159265 3.31612558 3.4906585  3.66519143 3.83972435 4.01425728
 4.1887902  4.36332313 4.53785606 4.71238898 4.88692191 5.06145483
 5.23598776 5.41052068 5.58505361 5.75958653 5.93411946 6.10865238
 6.28318531]


[ 0.00000000e+00  1.73648178e-01  3.42020143e-01  5.00000000e-01
  6.42787610e-01  7.66044443e-01  8.66025404e-01  9.39692621e-01
  9.84807753e-01  1.00000000e+00  9.84807753e-01  9.39692621e-01
  8.66025404e-01  7.66044443e-01  6.42787610e-01  5.00000000e-01
  3.42020143e-01  1.73648178e-01  1.22464680e-16 -1.73648178e-01
 -3.42020143e-01 -5.00000000e-01 -6.42787610e-01 -7.66044443e-01
 -8.66025404e-01 -9.39692621e-01 -9.848

Myös Jupyter notebookissa on yksinkertainen toiminto käytettävissä olevien funktioiden listaamiseen: kirjoitetaan `np.` ja painetaan sarkainnäppäintä, jolloin saadaan lista funktioista.

![funktiolista](http://student.labranet.jamk.fi/~varpe/datananalk2019/kerta2/funktiolista.png)

NumPy sisältää myös taulukolle tehtäviä tilastollisia funktioita:
* `numpy.sum` laskee alkoiden summan
* `numpy.prod` laskee alkoiden tulon
* `numpy.mean` laskee alkoiden keskiarvon
* `numpy.median` laskee alkoiden mediaanin
* `numpy.std` laskee alkoiden keskihajonnan
* `numpy.amax` antaa suurimman arvon
* `numpy.amin` antaa pienimmän arvon

näitä voi kutsua myös tyyliin `taulukko.sum()`


In [32]:
taul = np.array([1, 56, 5, 10, 11, 2])
print("keskiarvo:", np.mean(taul))
print("mediaani:", np.median(taul))
print("suurin:", np.max(taul))
print("pienin:", np.amin(taul))
print("summa:", np.sum(taul))
print("summa, toinen tapa:", taul.sum())

keskiarvo: 14.166666666666666
mediaani: 7.5
suurin: 56
pienin: 1
summa: 85
summa, toinen tapa: 85


### NumPy-taulukko vs. lista
NumPy-taulukoilla laskeminen eroaa siis periaatteltaan vastaavista operaatioista Python-listoilla:

In [3]:
import numpy as np
l1 = [1, 2, 3]
l2 = [10, 20, 30]
print(l1+l2)
print(l1*2)

print(15*'-')

np_l1 = np.array(l1)
np_l2 = np.array(l2)
print(np_l1+np_l2)
print(np_l2)


[1, 2, 3, 10, 20, 30]
[1, 2, 3, 1, 2, 3]
---------------
[11 22 33]
[10 20 30]


Jos Python-listassa haluaisi kertoa kaikki alkiot kahdella, pitäisi käyttää for-silmukkaa

In [33]:
l1 = [1, 2, 3]
l2 = []
for i in l1:
  l2.append(i*2)

print(l2)

# voidaan käyttää myös list comprehension -rakennetta:
l3 = {x * 2 for x in l1}
print(l3)

[2, 4, 6]
{2, 4, 6}


### NumPy-taulukon suodatus Boolean-taulukolla
NumPy-taulukkoa voi suodattaa antamalla "siivutukseen" samanmittainen Boolean-taulukko, jossa jokainen alkio on joko True tai False:

In [34]:
arr = np.array([1, 2, 3, 4, 5, 6])
arr2 = np.array([True, False, False, True, True, False])
print(arr[arr2])

[1 4 5]


True/False -taulukon saa helposti NumPy-taulukosta esim. vertailuoperaattoreilla

In [35]:
arr = np.array([1, 2, 3, 4, 5, 6])
arr2 = arr % 2 == 0 # jakojäännös on 0, eli parillinen luku
print(arr2)

[False  True False  True False  True]


Yhdistämällä nämä kaksi juttua nähdään, että NumPy-taulukkoa voi suodattaa helposti:

In [36]:
arr = np.array([1, 2, 3, 4, 5, 6])
arr3 = arr[arr % 2 == 0]
arr4 = arr[arr > 2]
print(arr3)
print(arr4)

[2 4 6]
[3 4 5 6]


In [37]:
# oletetaan että tyypit ja lukemat vastaavat järjestyksessä toisiaan:

tyypit = np.array(['A', 'C', 'B', 'A', 'A', 'D', 'B', 'C'])
lukemat = np.array([15, 21, 13, 32, 34, 45, 6, 1])

# valitaan lukemat tyypeistä A
print(lukemat[tyypit == 'A'])

# valitaan lukemat tyypeistä A ja B. 
# Avainsanat and tai or eivät toimi Boolean-listoilla, vaan pitää käyttää & tai |
print(lukemat[(tyypit == 'A') | (tyypit == 'B')])


[15 32 34]
[15 13 32 34  6]


Boolean-taulukon avulla voidaan myös muuttaa vain suodatettuja arvoja:

In [38]:
taul1 = np.array([1, 2, 3, 4, 5, 6])

# suodatetaan parilliset luvut ja muutetaan ne nolliksi

taul2 = taul1 % 2 == 0
print(taul2)  # Boolean-taulukko


taul1[taul2] = 0   # tai suoraan taul1[taul1 % 2 == 0] = 0

print(taul1)


[False  True False  True False  True]
[1 0 3 0 5 0]


Boolean-taulukolla suodattaminen antaa kopion taulukosta/taulukon osasta, ei näkymää kuten siivuttaminen:

In [39]:
taul1 = np.array([1, 2, 3, 4, 5, 6])

taul2 =  taul1[taul1 % 2 == 0]
print(taul2)

taul2[0] = 100

print(taul2)
print(taul1)

[2 4 6]
[100   4   6]
[1 2 3 4 5 6]


### Lajittelu
`taulukko.sort()` lajittelee taulukon, `numpy.sort(taulukko)` antaa taulukosta lajitellun kopion.
Kumpaankaan lajittelutapaan ei ole mahdollista määrittää järjestystä nouseva/laskeva. Usein käytetään kikkaa `taulukko[::-1]` kääntämään taulukon alkoiden järjestys.


In [40]:
taul1 = np.array([3, 5, 1, -2, 0, 4])
print(taul1)

taul1.sort()
print(taul1)

print('\n----------\n')

taul1 = np.array([3, 5, 1, -2, 0, 4])
print(taul1)

taul2 = np.sort(taul1)
print(taul2)
print(taul1)

taul3 = np.sort(taul1)[::-1]
print(taul3)



[ 3  5  1 -2  0  4]
[-2  0  1  3  4  5]

----------

[ 3  5  1 -2  0  4]
[-2  0  1  3  4  5]
[ 3  5  1 -2  0  4]
[ 5  4  3  1  0 -2]


## pandas-kirjasto 
Pythonin käytetyin kirjasto data-analyysissa on **pandas**. pandas tarjoaa nopeat, helpot ja monipuoliset välineet taulukkomuotoisen datan käsittelyyn, erityisesti Series- ja DataFrame-tietorakenteet. pandas on rakennettu NumPyn pohjalle, joten NumPy-taulukon käsittelyn periaatteet toimivat myös pandasissa,(mm. alkioittan tehtävät laskutoimitukset ilman for-silmukoita).

Suurin ero kirjastojen välillä on pandasin käyttökelpoisuus taulukkomuotoisen, mahdollisesti heterogeenisen datan kanssa, kun NumPy soveltuu parhaiten numeriseen homogeenisen datan käsittelyyn.

[pandas-sivut](http://pandas.pydata.org/pandas-docs/stable/)

### pandas-kirjaston tuonti
pandas-kirjasto otetaan käyttöön koodissa `import pandas` -käskyllä. Vakiintunut käytäntö on käyttää aliasta `pd`:

`import pandas as pd`

Tämän jälkeen koodissa NumPyn funktioita voi kutsua lyhennettä `pd` käyttäen.

## pandas-Series
Series on yksiulotteinen listan tyyppinen datarakenne, jossa alkoiden lisäksi niille on määritelty indeksi (index), eli eräänlaiset nimikkeet (label). 

Yksinkertaisin Series saadaan tehtyä tavallisesta listasta (tai NumPy-taulukosta):


In [41]:
import pandas as pd

ser1 = pd.Series([1, 5, 3.4, 6, 8])
print(ser1)

0    1.0
1    5.0
2    3.4
3    6.0
4    8.0
dtype: float64


Tulosteessa´ensimmäinen sarake on indeksi. Koska Seriesiä määriettäessä ei määriteltu indeksiä, pandas teki sen luvuista 0, 1, 2 jne.

Seriesin arvot saa taulukkona values-funktiolla ja indeksin index-funktiolla:

In [42]:
ser1 = pd.Series([1, 5, 3.4, 6, 8])
print(ser1.values)
print(ser1.index)


[1.  5.  3.4 6.  8. ]
RangeIndex(start=0, stop=5, step=1)


Seriesiä luodessa voidaan määritellä myös indeksi:

In [43]:
ser1 = pd.Series([1, 5, 3.4, 6, 8], index=[2, 4 ,6 ,8, 10])
print(ser1)

print('\n------------------\n')

ser2 = pd.Series(["a", "b", "dd", 6, "joo"], index=['a', 'b' ,'c' ,'d', 'e'])
print(ser2)

print('\n------------------\n')


2     1.0
4     5.0
6     3.4
8     6.0
10    8.0
dtype: float64

------------------

a      a
b      b
c     dd
d      6
e    joo
dtype: object

------------------



pandas Seriesin voi tehdä myös Python-sanakirjasta (dict), jolloin indeksiksi tulee sanakirjan avaimet lajitellussa järjestyksessä:

In [44]:
kaupungit = {'Rovaniemi': 62000, 'Jyväskylä': 140000, 'Helsinki': 645000 , 'Kuopio': 118000}
             
ser1 = pd.Series(kaupungit)
            
print(ser1)

Rovaniemi     62000
Jyväskylä    140000
Helsinki     645000
Kuopio       118000
dtype: int64


Indeksin voi antaa myös erikseen. Alla vakiluvut-sanakirjasta ei löydy avainta Oulu, jolloin sen arvoksi tulee NaN (Not a Number), joka on pandasin tapa kuvata puuttuvaa arvoa. Ja koska Rovaniemeä ei löydy annetusta indeksistä, sitä ei oteta Seriesiin.

In [45]:
vakiluvut = {'Rovaniemi': 62000, 'Jyväskylä': 140000, 'Helsinki': 645000 , 'Kuopio': 118000}
kaupungit = ['Helsinki', 'Kuopio', 'Oulu', 'Jyväskylä']

ser1 = pd.Series(vakiluvut, index=kaupungit)

print(ser1)


Helsinki     645000.0
Kuopio       118000.0
Oulu              NaN
Jyväskylä    140000.0
dtype: float64


Indeksin labelia voi käyttää arvojen valitsemiseen Seriesistä:

In [46]:
ser2 = pd.Series(np.linspace(0, 10 ,5), index=['a', 'b' ,'c' ,'d', 'e'])
print(ser2)

print('\n------------------\n')

print(ser2['c']) 

print('\n------------------\n')

print(ser2[['c', 'a', 'd']])

print('\n------------------\n')

ser2[['d', 'a']]  = 100
print(ser2)


a     0.0
b     2.5
c     5.0
d     7.5
e    10.0
dtype: float64

------------------

5.0

------------------

c    5.0
a    0.0
d    7.5
dtype: float64

------------------

a    100.0
b      2.5
c      5.0
d    100.0
e     10.0
dtype: float64


Aritmeettiset operaatiot yhdistävät Seriesit indeksien mukaan:

In [47]:
vakiluvut = pd.Series({'Rovaniemi': 62000, 'Jyväskylä': 140000, 'Helsinki': 645000 , 'Kuopio': 118000})
pintaalat = pd.Series({'Oulu': 3050, 'Helsinki': 215, 'Jyväskylä': 1466, 'Kuopio': 4326})

vaentiheydet = vakiluvut/pintaalat

print(vaentiheydet)

Helsinki     3000.000000
Jyväskylä      95.497954
Kuopio         27.276930
Oulu                 NaN
Rovaniemi            NaN
dtype: float64


Sekä Seriesillä että sen indeksillä on `name`-attribuutti:

In [48]:
vakiluvut = pd.Series({'Rovaniemi': 62000, 'Jyväskylä': 140000, 'Helsinki': 645000 , 'Kuopio': 118000})
vakiluvut.name = "Väkiluku"
vakiluvut.index.name = "Kaupunki"
print(vakiluvut)

Kaupunki
Rovaniemi     62000
Jyväskylä    140000
Helsinki     645000
Kuopio       118000
Name: Väkiluku, dtype: int64


## pandas-DataFrame
Datan analysoinnissa hyödyllisin tietorakenne on **DataFrame**, joka on suorakulmion muotoinen datataulukko. DataFrame koostuu riveistä ja sarakkeista, sarakkeita voidaan ajatella Serieseinä, joilla on sama indeksi (rivi-indeksi, riviotsikot). Sarakkeiden nimistä (sarakeotsikoista) muodostuu "sarake-indeksi".

Yksi tapa luoda DataFrame on käyttää sanakirjaa samanmittaisista listoista, NumPy-taulukoista tai Seriesista :

In [49]:
data = {'nimi': ['Rovaniemi', 'Jyväskylä', 'Helsinki', 'Kuopio'],
         'väkiluku': [62000, 140000, 645000 , 118000],
         'pinta-ala': [8016, 1466, 215 , 4326],
         'maakunta': ['Lappi', 'Keski-Suomi', 'Uusimaa', 'Pohjois-Savo']}

df = pd.DataFrame(data)

print(df)  # indeksi luotiin automaattisesti, sarakkeet lajiteltiin aakkosjärjestykseen

df # Jupyter näyttää DataFramen hienona taulukkona ilman print-komentoa

        nimi  väkiluku  pinta-ala      maakunta
0  Rovaniemi     62000       8016         Lappi
1  Jyväskylä    140000       1466   Keski-Suomi
2   Helsinki    645000        215       Uusimaa
3     Kuopio    118000       4326  Pohjois-Savo


Unnamed: 0,nimi,väkiluku,pinta-ala,maakunta
0,Rovaniemi,62000,8016,Lappi
1,Jyväskylä,140000,1466,Keski-Suomi
2,Helsinki,645000,215,Uusimaa
3,Kuopio,118000,4326,Pohjois-Savo


In [50]:
data = {'nimi': ['Rovaniemi', 'Jyväskylä', 'Helsinki', 'Kuopio'],
         'väkiluku': [62000, 140000, 645000 , 118000],
         'pinta-ala': [8016, 1466, 215 , 4326],
         'maakunta': ['Lappi', 'Keski-Suomi', 'Uusimaa', 'Pohjois-Savo']}

df = pd.DataFrame(data, columns=['nimi', 'väkiluku', 'pinta-ala', 'työttömyys'])

df  # luodessa annetulla columns-parametrilla määritetään sarakkeet

Unnamed: 0,nimi,väkiluku,pinta-ala,työttömyys
0,Rovaniemi,62000,8016,
1,Jyväskylä,140000,1466,
2,Helsinki,645000,215,
3,Kuopio,118000,4326,


In [51]:
data = { 'väkiluku': [62000, 140000, 645000 , 118000],
         'pinta-ala': [8016, 1466, 215 , 4326],
         'maakunta': ['Lappi', 'Keski-Suomi', 'Uusimaa', 'Pohjois-Savo']}

df = pd.DataFrame(data, index=['Rovaniemi', 'Jyväskylä', 'Helsinki', 'Kuopio'])

df  # index annettu luodessa

Unnamed: 0,väkiluku,pinta-ala,maakunta
Rovaniemi,62000,8016,Lappi
Jyväskylä,140000,1466,Keski-Suomi
Helsinki,645000,215,Uusimaa
Kuopio,118000,4326,Pohjois-Savo


Sarakkeen voi "poimia" Seriesina kahdella tavalla: `df['sarake']` tai `df.sarake`.  
Seriesin nimeksi tulee sarakkeen otsikko.

In [52]:
data = { 'väkiluku': [62000, 140000, 645000 , 118000],
         'pinta-ala': [8016, 1466, 215 , 4326],
         'maakunta': ['Lappi', 'Keski-Suomi', 'Uusimaa', 'Pohjois-Savo']}

df = pd.DataFrame(data, index=['Rovaniemi', 'Jyväskylä', 'Helsinki', 'Kuopio'])

print(df)

print('\n----------------\n')

ser1 = df['pinta-ala']
print(ser1)  # index annettu luodessa

print('\n----------------\n')

ser2 = df.väkiluku
print(ser2)

           väkiluku  pinta-ala      maakunta
Rovaniemi     62000       8016         Lappi
Jyväskylä    140000       1466   Keski-Suomi
Helsinki     645000        215       Uusimaa
Kuopio       118000       4326  Pohjois-Savo

----------------

Rovaniemi    8016
Jyväskylä    1466
Helsinki      215
Kuopio       4326
Name: pinta-ala, dtype: int64

----------------

Rovaniemi     62000
Jyväskylä    140000
Helsinki     645000
Kuopio       118000
Name: väkiluku, dtype: int64


Rivin voi poimia `loc`-attribuutilla (alempana tästä lisää):

In [53]:
print(df.loc['Rovaniemi'])

väkiluku     62000
pinta-ala     8016
maakunta     Lappi
Name: Rovaniemi, dtype: object


Sarakkeita voi muokata tai lisätä (jos sarakenimeä ei löydy) sijoitusoperaatiolla ja poistaa `del`-avainsanalla:

In [54]:
data = { 'väkiluku': [62000, 140000, 645000 , 118000],
         'pinta-ala': [8016, 1466, 215 , 4326],
         'maakunta': ['Lappi', 'Keski-Suomi', 'Uusimaa', 'Pohjois-Savo']}

df = pd.DataFrame(data, index=['Rovaniemi', 'Jyväskylä', 'Helsinki', 'Kuopio'])


df['uusisarake'] = 15
print(df)

print('\n--------------------\n')

df['uusisarake'] = np.arange(0,4)  # np.arange(0,4) antaa NumPy-taulukon [0, 1, 2, 3]
print(df)

print('\n--------------------\n')

df['iso'] = df['väkiluku'] >100000 # antaa Boolean-tyyppisen Seriesin, jossa arvot sen mukaan onko väkiluku >100000
print(df)

print('\n--------------------\n')

del df['uusisarake']
print(df)

print('\n--------------------\n')
joukkueet = pd.Series({'Helsinki': 'HIFK' , 'Jyväskylä': 'Jyp', 'Kuopio': 'KalPa'})
df['joukkue'] = joukkueet              
print(df)

           väkiluku  pinta-ala      maakunta  uusisarake
Rovaniemi     62000       8016         Lappi          15
Jyväskylä    140000       1466   Keski-Suomi          15
Helsinki     645000        215       Uusimaa          15
Kuopio       118000       4326  Pohjois-Savo          15

--------------------

           väkiluku  pinta-ala      maakunta  uusisarake
Rovaniemi     62000       8016         Lappi           0
Jyväskylä    140000       1466   Keski-Suomi           1
Helsinki     645000        215       Uusimaa           2
Kuopio       118000       4326  Pohjois-Savo           3

--------------------

           väkiluku  pinta-ala      maakunta  uusisarake    iso
Rovaniemi     62000       8016         Lappi           0  False
Jyväskylä    140000       1466   Keski-Suomi           1   True
Helsinki     645000        215       Uusimaa           2   True
Kuopio       118000       4326  Pohjois-Savo           3   True

--------------------

           väkiluku  pinta-ala      maaku

DataFramen voi luoda myös sisäkkäisistä sanakirjoista. Tällöin ulommat avaimet menevät sarakeotsikoiksi ja sisemmät riviotsikoiksi (indeksiksi). Rivit ja sarakkeet voi vaihtaa päittäin T-metodilla (transpose).

In [55]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

df2 = df.T

print(df2)



      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

         2014  2015  2016  2017  2018
Jyp       5.0   3.0   4.0   3.0   5.0
Sport     NaN  14.0  10.0  14.0  15.0
Jukurit   NaN   NaN   NaN  11.0  13.0


### Uudelleenindeksointi (reindex)
`reindex`-metodilla voidaan DataFramesta (tai Seriesista) ottaa annetun uuden indeksin mukaiset rivit. 

In [56]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

df2 = df.reindex([2019, 2018, 2017])

print(df2)

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Jyp  Sport  Jukurit
2019  NaN    NaN      NaN
2018  5.0   15.0     13.0
2017  3.0   14.0     11.0


Parametrilla `columns` voidaan uudelleenindeksoida sarakkeiden mukaan:

In [57]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

df2 = df.reindex(columns = ['Tappara', 'Jukurit', 'Jyp'])

print(df2)

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Tappara  Jukurit  Jyp
2014      NaN      NaN    5
2015      NaN      NaN    3
2016      NaN      NaN    4
2017      NaN     11.0    3
2018      NaN     13.0    5


### Rivien tai sarakkeiden poistaminen (drop)
`drop`-metodilla voi poistaa rivejä (oletus) tai sarakkeita parametrilla `axis=1`:

In [58]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df.drop(2015))

print('\n---------\n')

print(df.drop([2015, 2016]))

print('\n---------\n')

print(df.drop('Jyp', axis=1))


      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Sport  Jukurit
2014    NaN      NaN
2015   14.0      NaN
2016   10.0      NaN
2017   14.0     11.0
2018   15.0     13.0


`drop`-metodi antaa siis uuden DataFramen (tai Seriesin), josta rivit on poistettu. Parametrilla `inplace=True` saadaan poistaminen tehtyä alkuperäiselle DataFramelle.

### Valinta ja suodatus
Seriesissa valitseminen menee samaan tyyliin kuin NumPy-taulukoissa, mutta voit käyttää myös Seriesin indeksiä valintaan. 
Viimeinen esimerkki näyttää että indeksiä käytettäessä siivutus `['s':'d']` sisällyttää myös loppuindeksin mukaisen alkion, tosin kuin "paikkoja" eli rivinumeroita käyttävä `[2:4]`

In [59]:
ser1 = pd.Series(np.arange(0,12,2), index=['p','s','v','d','j','f'])
print(ser1)

print('---------')

print(ser1['s']) # indeksin s

print('---------')

print(ser1[2]) # rivinro 2

print('---------')

print(ser1[2:4])  # rivit 2 ja 3, 4 ei mukana

print('---------')

print(ser1[['j', 'v']]) # indeksistä j ja v

print('---------')

print(ser1[[0,5]]) # rivinrot 0 ja 5

print('---------')

print(ser1['s':'d'])  # d myös mukana


p     0
s     2
v     4
d     6
j     8
f    10
dtype: int32
---------
2
---------
4
---------
v    4
d    6
dtype: int32
---------
j    8
v    4
dtype: int32
---------
p     0
f    10
dtype: int32
---------
s    2
v    4
d    6
dtype: int32


DataFramessa `df[sarake]` -tyylinen syntaksi antaa perustapauksissa sarakkeen tai sarakkeita:

In [60]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df['Jyp'])

print('\n---------\n')

print(df[['Jyp', 'Sport']])

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

2014    5
2015    3
2016    4
2017    3
2018    5
Name: Jyp, dtype: int64

---------

      Jyp  Sport
2014    5    NaN
2015    3   14.0
2016    4   10.0
2017    3   14.0
2018    5   15.0


Tässä on kuitenkin jotain eikoistapauksia:  
* `df[2]` ei toimi jos sarakeotsikoissa ei ole 2:sta  
* `df[1:3]` antaakin **rivit** 1 ja 2 (loppurivi 3 ei ole mukana)
* `df[df['Jyp']<4]` antaa ehdon täyttävät **rivit**



In [61]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df[:2])

print('\n---------\n')

print(df[df['Jyp']<4]) 

print('\n---------\n')

print(df['Jyp']<4) # tämä antaa True/False-Seriesin, joka df[df['Jyp']<4]:ssa suodattaa rivit indeksin mukaan




      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN

---------

      Jyp  Sport  Jukurit
2015    3   14.0      NaN
2017    3   14.0     11.0

---------

2014    False
2015     True
2016    False
2017     True
2018    False
Name: Jyp, dtype: bool


Boolean-taulukon voi tehdä myös koko DataFramesta. Tämän avulla voi helposti muuttaa tietyn ehdon täyttäviä arvoja:

In [62]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df>3) # True/False -dataframe

print('\n---------\n')

df[df>3] = "ei mitalia"
print(df)



      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

        Jyp  Sport  Jukurit
2014   True  False    False
2015  False   True    False
2016   True   True    False
2017  False   True     True
2018   True   True     True

---------

             Jyp       Sport     Jukurit
2014  ei mitalia         NaN         NaN
2015           3  ei mitalia         NaN
2016  ei mitalia  ei mitalia         NaN
2017           3  ei mitalia  ei mitalia
2018  ei mitalia  ei mitalia  ei mitalia


#### loc- ja iloc -operaattorit
Riviotsikoiden mukaan valintaa voi tehdä `loc`-operaattorilla, joka tarjoaa NumPy-tyylisen merkintätavan `df[rivi,sarake]`.  
**loc** käyttää rivi- ja sarakeotsikkoja, kun taas **iloc** vastaavasti rivi- ja sarakenumeroita (1. rivi = 0 jne). 

In [63]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df.loc[2015, 'Jyp'])

print('\n---------\n')

print(df.loc[[2015, 2016], ['Jyp', 'Sport']])

print('\n---------\n')

print(df.iloc[[1,2], 2])

print('\n---------\n')


df.iloc[[1,2], 2] = 100
print(df)



      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

3

---------

      Jyp  Sport
2015    3   14.0
2016    4   10.0

---------

2015   NaN
2016   NaN
Name: Jukurit, dtype: float64

---------

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0    100.0
2016    4   10.0    100.0
2017    3   14.0     11.0
2018    5   15.0     13.0


Siivutus toimii myös loc- ja iloc-operaattoreilla. Huomaa että otsikoilla siivutettaessa (loc) myös loppurivi/sarake on mukana, rivi/sarakenumeroilla (iloc) ei ole. 

Pelkkä `:` tarkoittaa kaikkia rivejä/sarakkeita.

Sarake-osan voi jättää myös pois, jolloin tutkitaan vain rivejä. Jos halutaan tutkia vain sarakkeita, rivi-osan voi merkitä `:`

In [64]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df.loc[:2015, 'Jyp'])   # 2015-rivi on mukana.

print('\n---------\n')

print(df.loc[2016:2018, ['Jyp', 'Sport']])

df2 = df.loc[2016:2018, ['Jyp', 'Sport']]

print('\n---------\n')

print(df.iloc[0:3, :]) # 4. rivi (rivi nro 3) ei mukana

print('\n---------\n')


      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

2014    5
2015    3
Name: Jyp, dtype: int64

---------

      Jyp  Sport
2016    4   10.0
2017    3   14.0
2018    5   15.0

---------

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN

---------



Myös Boolean-taulukkoa voi käyttää valitsemiseen:

In [65]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

# kaikki rivit, joissa Jyp < 4. Kaikki sarakkeet
print(df[df['Jyp']<4]) 

print('\n---------\n')

# kaikki rivit, joissa Jyp < 4. Sarakkeet Jyp ja Jukurit
print(df.loc[df['Jyp']<4, ['Jyp', 'Jukurit']]) 

print('\n---------\n')

# kaikki sarakkeet, joissa 2017-sija on > 10. Kaikki rivit.
print(df.loc[ : , df.loc[2017]>10]) 

print('\n---------\n')

# rivit, joissa Sport>10, sarakkeet joissa 2017>10
print(df.loc[ df['Sport']>10 , df.loc[2017]>10]) 

print('\n---------\n')

# 2 viimeistä saraketta, rivit, joissa Jyp<4 
print(df.iloc[:,-2:][df['Jyp']<4]) 



      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Jyp  Sport  Jukurit
2015    3   14.0      NaN
2017    3   14.0     11.0

---------

      Jyp  Jukurit
2015    3      NaN
2017    3     11.0

---------

      Sport  Jukurit
2014    NaN      NaN
2015   14.0      NaN
2016   10.0      NaN
2017   14.0     11.0
2018   15.0     13.0

---------

      Sport  Jukurit
2015   14.0      NaN
2017   14.0     11.0
2018   15.0     13.0

---------

      Sport  Jukurit
2015   14.0      NaN
2017   14.0     11.0


Myös `at` ja `iat` -operaattoreilla saadaan yksittäiset alkiot rivi- ja sarakeotsikoiden (at) tai rivi- ja sarakenumeroiden (iat) mukaan

In [66]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

print(df.loc[2017, 'Jyp']) 

print(df.at[2017, 'Jyp']) 

print(df.iat[2, 0]) 



      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

3
3
4


### Lajittelu
DataFramea ja Seriesia voi lajitella `sort_values` ja `sort_index` -funktioilla.  
Parametrilla `ascending = False` lajitellaan laskevassa järjestyksessä.  
Parametrilla `axis = 1` lajitellaan riviotsikoiden mukaan.  



In [67]:
df = pd.DataFrame({'Jyp': {2014: 5, 2015: 3,  2016: 4,  2017: 3 , 2018: 5},
                   'Sport' : {2015: 14, 2016: 10, 2017: 14, 2018: 15 },
                    'Jukurit' : {2017: 11, 2018: 13}   
                  })

print(df)

print('\n---------\n')

df2 = df.sort_index(ascending = False)

print(df2)

print('\n---------\n')

df3 = df.sort_values('Jyp', ascending = False)

print(df3)

print('\n---------\n')

df.sort_values(['Jyp', 'Sport'], inplace = True)

print(df)

print('\n---------\n')

df4 = df.sort_values('Jukurit')

print(df4[:2]) # kaksi pienintä Jukurit-sijoitusta



      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2015    3   14.0      NaN
2016    4   10.0      NaN
2017    3   14.0     11.0
2018    5   15.0     13.0

---------

      Jyp  Sport  Jukurit
2018    5   15.0     13.0
2017    3   14.0     11.0
2016    4   10.0      NaN
2015    3   14.0      NaN
2014    5    NaN      NaN

---------

      Jyp  Sport  Jukurit
2014    5    NaN      NaN
2018    5   15.0     13.0
2016    4   10.0      NaN
2015    3   14.0      NaN
2017    3   14.0     11.0

---------

      Jyp  Sport  Jukurit
2015    3   14.0      NaN
2017    3   14.0     11.0
2016    4   10.0      NaN
2018    5   15.0     13.0
2014    5    NaN      NaN

---------

      Jyp  Sport  Jukurit
2017    3   14.0     11.0
2018    5   15.0     13.0
