# Datan käsittely Pythonissa

Python on monikäyttöinen ns. "general-purpose" ohjelmointikieli, jolla voidaan käsitellä melkeinpä mitä vain dataa monilla eri tavoilla. Tällä kurssilla aihetta käsitellään paikkatietonäkökulmasta, keskittyen ensisijaisesti kahdentyyppiseen dataan: taulukkomaisiin aineistoihin sekä vektorimuotoiseen paikkatietoon.

# pandas

## Mitä ja miksi

[Pandas](https://pandas.pydata.org/) on Python-kirjasto, joka on muodostunut jo standardiksi data-analytiikassa ja taulukkomaisten aineistojen käsittelyssä. Paikkatietonäkökulmasta pandas on erityisen merkityksellinen siksi, että vektorimuotoisen paikkatiedon käsittelyssä laajasti käytetty [GeoPandas](https://geopandas.org/en/stable/)-kirjasto perustuu nimestäkin päätellen pandasiin, täydentäen sitä tuella spatiaalisiin operaatioihin ja geometrisiin datatyyppeihin.

Tässä osiossa käsitellään siis pandasin perusteita, ja samalla vaivalla valmistaudutaan käyttämään GeoPandasia seuraavassa osassa.

## Kirjaston käyttöönotto

Koska pandas on Pythonin standardikirjaston ulkopuolinen kirjasto, täytyy se ottaa erikseen käyttöön. Koska olet kurssin python-ympäristössä, varsinainen asennus condalla on jo hoidettu (`conda install -c conda-forge pandas`). Näin ollen voit ottaa kirjaston suoraan käyttöön `import` avainsanalla. Huomaa, että on tavanomaista antaa pandas-kirjastolle nimeksi `pd`, kun se otetaan käyttöön.

In [None]:
import pandas as pd

# Datan lukeminen

Pandas lukee ja kirjoittaa [useita tiedosto- ja tietokantaformaatteja](https://pandas.pydata.org/docs/user_guide/io.html). Jos datasi on jollain tapaa taulukoksi taipuvaa, on pandasilla oletettavasti sille tuki.

## Tiedostopolut

Jotta voimme tuoda dataa tiedostosta, täytyy ensin tietää tiedoston sijainti, eli polku (path). Kurssin datakansio sijaitsee samassa hakemistossa tämän notebookin kanssa. Suhteessa tähän notebookkiin tiedoston sijaintia voidaan kuvailla siis näin: hakemisto `data`, jonka sisällä tiedosto `lightnings.csv`.

Kirjoitetaan nyt yllä sanoin kuvattu polku suhteelliseksi tiedostopoluksi, eli:

```
./data/lightnings.csv
```

Polun osat ovat:
- `./` = hakemisto, jossa tämä notebook on, tässä tapauksessa `kurssimateriaali`
- `data/` = datakansio
- `lightnings.csv` = tiedosto

Pythonissa tiedostopolkujen käsittelyyn kannattaa käyttää pythonin oman `pathlib`-kirjaston `Path`-oliota. Näin mm. varmistamme, että polku toimii kaikilla käyttöjärjestelmillä.

In [None]:
from pathlib import Path

file_path = Path("./data/lightnings.csv")

Luetaan nyt `csv`-muotoista dataa tiedostosta `read_csv()`-funktiolla. 

Koska kysessä on pandasin funktio, täytyy sitä kutsua luomamme `pd`-muuttujan kautta:

In [None]:
lightnings = pd.read_csv(file_path)

# DataFrame

Äsken luodussa muuttujassa `lightnings` on nyt **DataFrame**, joka pitää sisällään csv-tiedoston sisällön. Tässä tapauksessa kyseessä on otos Ilmatieteen laitoksen avointa dataa, tarkemmin sanottuna salamahavaintoja.

DataFrame on  kaksiulotteinen tietorakenne, jossa on rivejä (row) ja sarakkeita (column). Se on pandasin keskeisin tietorakenne, ja tiedon "säilömisen" lisäksi se toteuttaa useita erilaisia metodeita tiedon käsittelyyn.

Tutkitaan DataFramea tarkemmin:

In [None]:
type(lightnings)

In [None]:
lightnings

Jo ylle tulostuneesta DataFramen visuaalisesta esityksestä voidaan nähdä paljon. Vaikuttaa siltä, että yksi rivi kuvaa yhtä salamahavaintoa. Jokaisesta havainnosta tiedetään aika, sähkövirran absoluuttinen voimakkuus kiloampeereina, sekä sijaintitieto (lat / lon).

Näämme myös rivien määrän, ja voimme jo päätellä sarakkeiden sisällön tyyppejä.

DataFramen `shape`-attribuutti kuvaa DataFramen muotoa, eli rivien ja sarakkeiden määrää:

In [None]:
lightnings.shape

Sarakkeiden nimiin päästään käsiksi `columns`-attribuutilla:

In [None]:
lightnings.columns

Listoillekkin toimiva `len`-funktio toimii myös DataFrameilla:

In [None]:
len(lightnings)

Voit tutkia DataFramen alku- ja loppupäitä erikseen:

In [None]:
lightnings.head()

In [None]:
lightnings.tail(3)

Tilastollisia tunnuslukuja saadaan `describe`-metodilla:

In [None]:
lightnings.describe()

# Datan valitseminen

## Sarakkeet

Yksi tyypillisimmistä tehtävistä taulukkomaisen datan käsittelyssä on eri sarakkeiden tai rivien valitseminen. Aloitetaan sarakkeista.

DataFramen sarakkeita voit valita laittamalla sarakkeen nimen hakasulkuihin DataFramen perään:

In [None]:
column = lightnings["abs_peak_current_ka"]
column

Tuloste näyttää nyt eriltä kuin ennen. Tutkitaan asiaa `type`-funktiolla:

In [None]:
type(column)

Pandasissa yksittäiset rivit ja sarakkeet ovat tyypiltään **Series**.

Pandasin käytössä teknisiä yksityiskohtia ei tarvitse ymmärtää syvällisesti - esimerkiksi Seriesistä riittää tietää, että se on ikäänkuin pandasin oma optimoitu versio listasta. Series esimerkiksi sisältää indeksin sekä tekee datatyyppien perusteella automaattisesti suorituskykyoptimointeja.

Series toteuttaa myös erilaisia toiminnallisuuksia. Esimerkkejä yhden sarakkeen sisällön tutkimisesta:

In [None]:
column.max()

In [None]:
column.unique()

In [None]:
column.sum()

In [None]:
column.describe()

Series ei kuitenkaan toteuta yhtä laajoja toiminnallisuuksia kuin DataFrame. Usein halutaankin nimenomaan valita yksittäisten Seriesien sijaan otos DataFramesta uutena DataFramena. Se tapahtuu samaan tapaan - ainoa muutos on, että halutut sarakkeet annetaan listana:

In [None]:
lightnings[["abs_peak_current_ka"]]

In [None]:
lightnings[["abs_peak_current_ka", "latitude", "time"]].head()

In [None]:
type(lightnings[["abs_peak_current_ka"]])

## Harjoitus - Sarakkeiden valinta

Tee `lightnings` Dataframesta versio, jossa ei ole `latitude` ja `longitude`-sarakkeita.

1. Miten saat selville DataFramen sarakkeet?
2. Muodosta lista sarakkeista, jotka haluat valita
3. Valitse haluamasi sarakkeet käyttämällä listaa, ja tallenna tuloksena syntyvä DataFrame johonkin muuttujaan

In [None]:
# Kirjoita Ratkaisu


## Ratkaisu

In [None]:
no_lat_lon = lightnings[["time", "abs_peak_current_ka"]]
no_lat_lon.head()

## Rivien valinta indeksin perusteella

Sarakkeiden lisäksi voidaan valita rivejä. Ehkä yksinkertaisin tapa on tehdä valinta rivin sijainnin, eli indeksin mukaan. Tämä tapahtuu `iloc`-attribuutin kautta. Kun haluamme rivejä, voidaan `iloc`-attribuutille antaa hakasuluissa numerona se indeksi, joka halutaan valita - aivan kuin listalle:

In [None]:
row = lightnings.iloc[0]
row

In [None]:
type(row)

Saamme jälleen Seriesin. Sarakkeista tuttu listan käyttö toimii, jos haluamme DataFramen:

In [None]:
lightnings.iloc[[0]]

In [None]:
type(lightnings.iloc[[0, 1, 2]])

huomaa, että jokaisen halutun rivin indeksiä ei tarvitse määritellä erikseen. Voimme käyttää listoillakin toimivaa valintaa `[alku:loppu]`, jossa alku on ensimmäinen ja loppu viimeinen indeksi, johon asti halutaan hakea.

In [None]:
lightnings.iloc[0:5]

## Rivien valinta ehdon perusteella

Usein emme tiedä tarkalleen minkä indeksin riviltä löytyy mitäkin, emmekä näin ollen voi käyttää indeksejä valintoihin. Valintoja on myös usein tehtävä dynaamisesti joihinkin ehtoihin perustuen, jolloin indeksipohjainen valinta ei edes riitäisi.

Monimutkaisempia, esimerkiksi ehtoon perustuvia, valintoja voi tehdä DataFramen `loc`-attribuutilla.

Valitaan seuraavaksi kaikki salamahavainnot, joissa sähkövirta on ollut yli 10 kiloampeeria. `loc`-attribuutille annetaan siis ehtona se, että sarakkeen `abs_peak_current_ka` arvo tulisi olla yli 10: 

In [None]:
lightnings.loc[lightnings["abs_peak_current_ka"] > 10]

Ehto palauttaa siis `True` tai `False` joka riville, minkä perusteella valinta tehdään. Tarkastellaan pelkkää ehtoa (myös selkeyden vuoksi ehto kannattaa usein kirjoittaa erikseen):

In [None]:
current_over_10 = lightnings["abs_peak_current_ka"] > 10
current_over_10

Jolloin itse valinnasta tulee huomattavasti luettavampi:

In [None]:
lightnings.loc[current_over_10]

## Harjoitus - rivien valinta yhdellä ehdolla

Valitse ne rivit, joiden sähkövirta on pienempi tai yhtä suuri kuin 5 kiloampeeria.

1. Kirjoita ehto, ja talleta se johonkin muuttujaan
2. Tee valinta käyttämällä ehtoa `loc`-attribuutin kanssa

In [None]:
# Kirjoita ratkaisu


## Ratkaisu

In [None]:
condition = lightnings["abs_peak_current_ka"] <= 5

lightnings.loc[condition]

## Rivien valinta useilla ehdoilla

Ehtoja voi myös yhdistellä. Huomaa, että `loc`-käyttötapauksessa `and` ja `or` korvautuvat operaattoreilla `&` ja `|`. 

Valitaan havainnot, joissa virta on tasan 10 tai 20 kiloampeeria:

In [None]:
column = lightnings["abs_peak_current_ka"]

current_10_or_20 = (column == 10) | (column == 20)

lightnings.loc[current_10_or_20]

# Aikaleimat

Aineistossamme on mukana `time`-sarake. Sisältö ei kuitenkaan (ainakaan ihmiselle) näytä kovin selkeältä aikamääreeltä.

Kyseessä on [Unix-timestamp](https://www.unixtimestamp.com/), joka on usein koneluettavissa aineistoissa käytetty aikaformaatti. Pandasissa onkin valmiina tapa muuttaa tämä (ja moni muukin) aikaformaatti pythonissa hyödyllisempään `datetime`-muotoon: `to_datetime`-funktio.

Korvataan siis sarakkeen `time` sisältö luettavammilla aikamääreillä `to_datetime`-funktiolla. Huomaa, että määrittelemme alkuperäisen yksikön olevan sekunteja, eli `s`.

In [None]:
datetimes = pd.to_datetime(lightnings["time"], unit="s")
datetimes

In [None]:
lightnings["time"] = datetimes 
lightnings.head()

Datetime-olioita voidaan käsitellä monien tuttujen metodien avulla. Haetaan vaikkapa ensimmäinen ja viimeinen havainto:

In [None]:
lightnings["time"].min()

In [None]:
lightnings["time"].max()

Huomaamme, että salamahavaintoja on yhden vuorokauden ajalta.

Pääsemme käsiksi datetime-olioiden attribuutteihin (esim. päivä, tunti, tai sekunti) sarakkeen `dt`-attribuutin kautta:

In [None]:
lightnings["time"].dt.hour

Voimme valita rivejä nyt myös ajan perusteella:

In [None]:
before_5_am = lightnings["time"].dt.hour < 5

lightnings.loc[before_5_am]

## Harjoitus - valinta ajan ja sähkövirran perusteella

Kuinka monta yli 100:n kiloampeerin salamaa iski klo 20:00 jälkeen?
1. kirjoita molemmat ehdot, selkeyden vuoksi kannattaa käyttää muuttujia.
3. tee valinta ehtojen ja `loc`-attribuutin avulla

In [None]:
# Kirjoita ratkaisu


## Ratkaisu

In [None]:
after_2000 = lightnings["time"].dt.hour > 20
current_over_100 = lightnings["abs_peak_current_ka"] > 100

len(lightnings.loc[(after_2000) & (current_over_100)])

# Datan ryhmittely ja yksinkertainen visualisointi

Mitä jos haluaisimme nähdä kuinka monta salamaa on iskenyt vuorokauden eri tunteina?

Yksi ratkaisu voisi olla ryhmitellä data tunnin mukaan, ja sen jälkeen visualisoida tuntikohtaiset rivien määrät.

Lisätään ensin DataFrameen sarake `hour`, joka saa sisällöksi vain tunnin.

In [None]:
lightnings["hour"] = lightnings["time"].dt.hour 
lightnings

Ryhmitellään data uuden sarakkeen arvoihin perustuen käyttäen `group_by`-funktiota.

In [None]:
group_by = lightnings.groupby("hour")
type(group_by)

GroupBy-oliolle täytyy vielä kertoa, miten ryhmittely tulisi tehdä. Kun haluamme vain rivien määrän, voidaa käyttää `size`-funktiota.

In [None]:
lightnings_per_hour = group_by.size()
lightnings_per_hour

Nyt voimme visualisoida datan `plot`-metodilla. Pandas käyttää oletuksena visualisointiin **Matplotlib**-kirjastoa, joka on jo asennettu kurssiympäristöön.

In [None]:
lightnings_per_hour.plot()

Laitetaan kuvaajalle vielä selitteet ja vaihdetaan sen tyyli pylväiksi:

In [None]:
lightnings_per_hour.plot(
    title="Hourly lightning strikes on 1.6.2024",
    ylabel="count",
    kind="bar",
)