# Datan käsittely Pythonissa

Python on monikäyttöinen ns. "general-purpose" ohjelmointikieli, jolla voidaan käsitellä melkeinpä mitä vain dataa monilla eri tavoilla. Tällä kurssilla aihetta käsitellään paikkatietonäkökulmasta, keskittyen ensisijaisesti kahdentyyppiseen dataan: taulukkomaisiin aineistoihin sekä vektorimuotoiseen paikkatietoon.

# pandas

## Mitä ja miksi

[Pandas](https://pandas.pydata.org/) on Python-kirjasto, joka on muodostunut jo standardiksi data-analytiikassa ja taulukkomaisten aineistojen käsittelyssä. Paikkatietonäkökulmasta Pandas on erityisen merkityksellinen siksi, että vektorimuotoisen paikkatiedon käsittelyssä laajasti käytetty [GeoPandas](https://geopandas.org/en/stable/)-kirjasto perustuu nimestäkin päätellen Pandasiin, täydentäen sitä tuella spatiaalisiin operaatioihin ja geometrisiin datatyyppeihin.

Tässä osiossa käsitellään siis Pandasin perusteita, ja samalla vaivalla valmistaudutaan käyttämään GeoPandasia seuraavassa osassa.

## Kirjaston käyttöönotto

Koska pandas on Pythonin standardikirjaston ulkopuolinen kirjasto, täytyy se ottaa erikseen käyttöön. Koska olet kurssin python-ympäristössä, varsinainen asennus condalla on jo hoidettu (`conda install -c conda-forge pandas`). Näin ollen voit ottaa kirjaston suoraan käyttöön `import` avainsanalla. Huomaa, että on tavanomaista antaa pandas-kirjastolle nimeksi `pd`, kun se otetaan käyttöön.

In [8]:
import pandas as pd

# Datan lukeminen

Pandas lukee ja kirjoittaa [useita tiedosto- ja tietokantaformaatteja](https://pandas.pydata.org/docs/user_guide/io.html). Jos datasi on jollain tapaa taulukoksi taipuvaa, on pandasilla oletettavasti sille tuki.

## Tiedostopolut

Jotta voimme tuoda dataa tiedostosta, täytyy ensin tietää tiedoston sijainti, eli polku (path). Kurssin datakansio sijaitsee `kurssimateriaali`-hakemiston alla. Suhteessa tähän notebookkiin tiedoston sijaintia voidaan kuvailla näin: yksi askel tiedostohierarkiassa ylöspäin, sitten hakemisto `data`, jonka sisällä tiedosto `lightnings.csv`.

Kirjoitetaan nyt yllä sanoin kuvattu polku suhteelliseksi tiedostopoluksi, eli:

```
../data/lightnings.csv
```

Polun osat ovat:
- `../` = yhtä ylemmän tason hakemisto suhteessa koodiin, tässä tapauksessa `kurssimateriaali`
- `data/` = datakansio
- `lightnings.csv` = tiedosto

Pythonissa tiedostopolkujen käsittelyyn kannattaa käyttää pythonin oman `pathlib`-kirjaston `Path`-oliota. Näin mm. varmistamme, että polku toimii kaikilla käyttöjärjestelmillä.

In [11]:
from pathlib import Path

file_path = Path("../data/lightnings.csv")

Luetaan nyt `csv`-muotoista dataa tiedostosta `read_csv()`-metodilla. 

Koska kysessä on pandasin metodi, täytyy sitä kutsua luomamme `pd`-muuttujan kautta:

In [7]:
lightnings = pd.read_csv(file_path)

# DataFrame

Äsken luodussa muuttujassa `lightnings` on nyt **DataFrame**, joka sisältää csv-tiedoston sisällön. DataFrame on  kaksiulotteinen tietorakenne, jossa on rivejä ja sarakkeita. DataFrame on pandasin keskeisin tietorakenne, ja tiedon "säilömisen" lisäksi se toteuttaa useita erilaisia metodeita tiedon käsittelyyn.

Tutkitaan DataFramea tarkemmin:

In [12]:
lightnings

Unnamed: 0,time,peak_current,latitude,longitude
0,1717200010,4.0,68.9186,22.1900
1,1717200010,5.0,68.8757,22.2367
2,1717200010,2.0,68.7596,22.2646
3,1717200011,1.0,68.7883,21.7543
4,1717200044,7.0,68.7939,21.3669
...,...,...,...,...
83461,1717286397,3.0,61.0853,22.0858
83462,1717286397,5.0,61.0973,22.0059
83463,1717286398,6.0,61.3490,23.5206
83464,1717286398,21.0,61.3403,23.5703


Jo ylle tulostuneesta DataFramen visuaalisesta estiyksestä voidaan nähdä paljon.
- Montako saraketta aineistossa on?
- Entä riviä?
- Osaatko päätellä sarakkeiden sisällön tyyppejä?

DataFramen `shape`-attribuutti kuvaa DataFramen muotoa, eli rivien ja sarakkeiden määrää:

In [18]:
lightnings.shape

(83466, 4)

Sarakkeisiin päästään käsiksi `columns` attribuutilla:

In [14]:
lightnings.columns

Index(['time', 'peak_current', 'latitude', 'longitude'], dtype='object')

Listoillekkin toimiva `len`-funktio toimii myös DataFrameilla:

In [19]:
len(lightnings)

83466

# Datan valitseminen

## Sarakkeiden valinta

# Datan ryhmittely ja aikaleimat