# Datan käsittely Pythonissa

Python on monikäyttöinen ns. "general-purpose" ohjelmointikieli, jolla voidaan käsitellä melkeinpä mitä vain dataa monilla eri tavoilla. Tällä kurssilla aihetta käsitellään paikkatietonäkökulmasta, keskittyen ensisijaisesti kahdentyyppiseen dataan: taulukkomaisiin aineistoihin sekä vektorimuotoiseen paikkatietoon.

# pandas

## Mitä ja miksi

[Pandas](https://pandas.pydata.org/) on Python-kirjasto, joka on muodostunut jo standardiksi data-analytiikassa ja taulukkomaisten aineistojen käsittelyssä. Paikkatietonäkökulmasta Pandas on erityisen merkityksellinen siksi, että vektorimuotoisen paikkatiedon käsittelyssä laajasti käytetty [GeoPandas](https://geopandas.org/en/stable/)-kirjasto perustuu nimestäkin päätellen Pandasiin, täydentäen sitä tuella spatiaalisiin operaatioihin ja geometrisiin datatyyppeihin.

Tässä osiossa käsitellään siis Pandasin perusteita, ja samalla vaivalla valmistaudutaan käyttämään GeoPandasia seuraavassa osassa.

## Kirjaston käyttöönotto

Koska pandas on Pythonin standardikirjaston ulkopuolinen kirjasto, täytyy se ottaa erikseen käyttöön. Koska olet kurssin python-ympäristössä, varsinainen asennus condalla on jo hoidettu (`conda install -c conda-forge pandas`). Näin ollen voit ottaa kirjaston suoraan käyttöön `import` avainsanalla. Huomaa, että on tavanomaista antaa pandas-kirjastolle nimeksi `pd`, kun se otetaan käyttöön.

In [1]:
import pandas as pd

# Datan lukeminen

Pandas lukee ja kirjoittaa [useita tiedosto- ja tietokantaformaatteja](https://pandas.pydata.org/docs/user_guide/io.html). Jos datasi on jollain tapaa taulukoksi taipuvaa, on pandasilla oletettavasti sille tuki.

## Tiedostopolut

Jotta voimme tuoda dataa tiedostosta, täytyy ensin tietää tiedoston sijainti, eli polku (path). Kurssin datakansio sijaitsee `kurssimateriaali`-hakemiston alla. Suhteessa tähän notebookkiin tiedoston sijaintia voidaan kuvailla näin: yksi askel tiedostohierarkiassa ylöspäin, sitten hakemisto `data`, jonka sisällä tiedosto `lightnings.csv`.

Kirjoitetaan nyt yllä sanoin kuvattu polku suhteelliseksi tiedostopoluksi, eli:

```
../data/lightnings.csv
```

Polun osat ovat:
- `../` = yhtä ylemmän tason hakemisto suhteessa koodiin, tässä tapauksessa `kurssimateriaali`
- `data/` = datakansio
- `lightnings.csv` = tiedosto

Pythonissa tiedostopolkujen käsittelyyn kannattaa käyttää pythonin oman `pathlib`-kirjaston `Path`-oliota. Näin mm. varmistamme, että polku toimii kaikilla käyttöjärjestelmillä.

In [2]:
from pathlib import Path

file_path = Path("../data/lightnings.csv")

Luetaan nyt `csv`-muotoista dataa tiedostosta `read_csv()`-metodilla. 

Koska kysessä on pandasin metodi, täytyy sitä kutsua luomamme `pd`-muuttujan kautta:

In [3]:
lightnings = pd.read_csv(file_path)

# DataFrame

Äsken luodussa muuttujassa `lightnings` on nyt **DataFrame**, joka sisältää csv-tiedoston sisällön. Tässä tapauksessa kyseessä on otos Ilmatieteen laitoksen avointa dataa, tarkemmin sanottuna salamahavaintoja.

DataFrame on  kaksiulotteinen tietorakenne, jossa on rivejä (row) ja sarakkeita (column). Se on pandasin keskeisin tietorakenne, ja tiedon "säilömisen" lisäksi se toteuttaa useita erilaisia metodeita tiedon käsittelyyn.

Tutkitaan DataFramea tarkemmin:

In [4]:
type(lightnings)

pandas.core.frame.DataFrame

In [5]:
lightnings

Unnamed: 0,time,abs_peak_current,latitude,longitude
0,1717200010,4.0,68.9186,22.1900
1,1717200010,5.0,68.8757,22.2367
2,1717200010,2.0,68.7596,22.2646
3,1717200011,1.0,68.7883,21.7543
4,1717200044,7.0,68.7939,21.3669
...,...,...,...,...
83461,1717286397,3.0,61.0853,22.0858
83462,1717286397,5.0,61.0973,22.0059
83463,1717286398,6.0,61.3490,23.5206
83464,1717286398,21.0,61.3403,23.5703


Jo ylle tulostuneesta DataFramen visuaalisesta estiyksestä voidaan nähdä paljon. Vaikuttaa siltä, että yksi rivi kuvaa yhtä salamahavaintoa. Jokaisesta havainnosta tiedetään aika, sähkövirran voimakkuus, sekä sijaintitieto (lat / lon)

Näämme myös rivien määrän, ja voimme jo päätellä sarakkeiden sisällön tyyppejä.

DataFramen `shape`-attribuutti kuvaa DataFramen muotoa, eli rivien ja sarakkeiden määrää:

In [6]:
lightnings.shape

(83466, 4)

Sarakkeisiin päästään käsiksi `columns` attribuutilla:

In [7]:
lightnings.columns

Index(['time', 'abs_peak_current', 'latitude', 'longitude'], dtype='object')

Listoillekkin toimiva `len`-funktio toimii myös DataFrameilla:

In [8]:
len(lightnings)

83466

Voit tutkia DataFramen alku- ja loppupäitä erikseen:

In [32]:
lightnings.head()

Unnamed: 0,time,abs_peak_current,latitude,longitude
0,1717200010,4.0,68.9186,22.19
1,1717200010,5.0,68.8757,22.2367
2,1717200010,2.0,68.7596,22.2646
3,1717200011,1.0,68.7883,21.7543
4,1717200044,7.0,68.7939,21.3669


In [33]:
lightnings.tail(3)

Unnamed: 0,time,abs_peak_current,latitude,longitude
83463,1717286398,6.0,61.349,23.5206
83464,1717286398,21.0,61.3403,23.5703
83465,1717286398,4.0,61.3476,23.4422


Tilastollisia tunnuslukuja saadaan `describe`-metodilla:

In [17]:
lightnings.describe()

Unnamed: 0,time,abs_peak_current,latitude,longitude
count,83466.0,83466.0,83466.0,83466.0
mean,1717241000.0,7.005775,63.114014,25.430464
std,13016.45,7.495004,2.444437,2.327215
min,1717200000.0,1.0,59.8259,19.6033
25%,1717233000.0,3.0,61.106825,23.48075
50%,1717240000.0,5.0,62.62415,25.2134
75%,1717247000.0,8.0,63.902,27.40525
max,1717286000.0,214.0,69.2569,31.4676


# Datan valitseminen

## Sarakkeet

Yksi tyypillisimmistä tehtävistä taulukkomaisen datan käsittelyssä on eri sarakkeiden tai rivien valitseminen. Aloitetaan sarakkeista.

DataFramen sarakkeita voit valita laittamalla sarakkeen nimen hakasulkuihin DataFramen perään:

In [25]:
column = lightnings["abs_peak_current"]
column

0         4.0
1         5.0
2         2.0
3         1.0
4         7.0
         ... 
83461     3.0
83462     5.0
83463     6.0
83464    21.0
83465     4.0
Name: abs_peak_current, Length: 83466, dtype: float64

Tuloste näyttää nyt eriltä kuin ennen. Tutkitaan asiaa `type`-funktiolla:

In [10]:
type(column)

pandas.core.series.Series

Pandasissa yksittäiset rivit ja sarakkeet ovat tyypiltään **Series**.

Pandasin käytössä teknisiä yksityiskohtia ei tarvitse ymmärtää syvällisesti - esimerkiksi Seriesistä riittää tietää, että se on ikäänkuin pandasin oma optimoitu versio listasta. Series esimerkiksi sisältää indeksin sekä tekee datatyyppien perusteella automaattisesti suorituskykyoptimointeja.

Series ei kuitenkaan toteuta yhtä laajoja toiminnallisuuksia kuin DataFrame. Usein halutaankin nimenomaan valita yksittäisten Seriesien sijaan otos DataFramesta uutena DataFramena. Se tapahtuu samaan tapaan - ainoa muutos on, että halutut sarakkeet annetaan listana:

In [22]:
lightnings[["abs_peak_current"]]

Unnamed: 0,abs_peak_current
0,4.0
1,5.0
2,2.0
3,1.0
4,7.0
...,...
83461,3.0
83462,5.0
83463,6.0
83464,21.0


In [34]:
lightnings[["abs_peak_current", "latitude"]].head()

Unnamed: 0,abs_peak_current,latitude
0,4.0,68.9186
1,5.0,68.8757
2,2.0,68.7596
3,1.0,68.7883
4,7.0,68.7939


In [16]:
type(lightnings[["abs_peak_current"]])

pandas.core.frame.DataFrame

## Harjoitus - Sarakkeiden valinta

Tässä osassa emme tarvitse vielä sijaintitietoja. Tee siis `lightnings` Dataframesta versio, jossa ei ole `latitude` ja `longitude`-sarakkeita.

1. Muodosta lista sarakkeista, jotka haluat valita
2. Valitse sarakkeet käyttämällä listaa
3. Kun tulos näyttää hyvältä, voit ylikirjoittaa `lightnings`-muuttujan uudella DataFramellasi

In [12]:
# Kirjoita Ratkaisu


# Rivit

# Datan ryhmittely ja aikaleimat