# Python, Pandas og regneark

For å finne oppgavene, bla lengre ned!

Når vi analyserer data med, bruker vi ofte *regneark*. Et av de vanligste regneark-programmene, er Microsoft Excel. Excel kan være utrolig nyttig, spesielt om vi har små datamengder, eller ikke ønsker å gjøre mye databehandling.

I det øyeblikket at vi har store datamengder og avanserte utregninger, så kan Excel-arkene fort bli uhåndterbare. Og da kan det være lurt å velge et verktøy hvor man har litt mer kontroll. Et slik verktøy er Python-biblioteket *Pandas*.

I denne notatboken skal vi se på hva Pandas er, og hvordan vi kan behandle data med det. Vi starter med å importere Pandas.

In [None]:
import pandas as pd

## Bysykkel-analyse

Vi vil analysere bysykkel-data. Vi lurer på hvor folk reiser, og hvor lenge de er på reisefot. Men før vi ser på ekte data fra *Oslo Bysykkel*, kan vi dikte opp litt data som vi lagrer i oppslagsverk

In [None]:
bysykkel_turer = {
  'started_at': ['2021-03-01 12:00:10', '2021-03-01 13:10:10',],
  'ended_at':   ['2021-03-01 12:15:10', '2021-03-01 13:19:15',],
  'duration':   [900,  555,],
  'start_station_id': [513,  480,],
  'end_station_id': [421,  461,],
}

bysykkel_turer

Her har vi altså et oppslagsverk, hvor hvert element er en liste med data. Dette er en veldig naturlig måte å lagre data på i Python, og vi kan lett hente ut "kolonner" fra oppslagsverket vårt ved å indeksere det.

In [None]:
bysykkel_turer['start_station_id']

### Vårt første regneark
La oss gjøre om oppslagsverket vårt til et regneark. I Python, så heter et regneark en `DataFrame`, og for å opprette en `DataFrame`, bruker vi Pandas biblioteket vi importerte på toppen av notatboken.

In [None]:
bysykkel_turer_regneark = pd.DataFrame(bysykkel_turer)

Hvis vi bare skriver navnet på regneark-variabelen vår, så printes den fint ut i nettleseren vår

In [None]:
bysykkel_turer_regneark

Vi kan hente ut kolonner fra regnearkene med nøyaktig samme syntaks som vi bruker for å hente ut elementer fra oppslagsverk:

In [None]:
bysykkel_turer_regneark['start_station_id']

Vi kan også se hvilke kolonner som er i regnearket vårt

In [None]:
bysykkel_turer_regneark.columns

Og til og med finne grunnleggende informasjon om regnearket, med `info()`-funksjonen

In [None]:
bysykkel_turer_regneark.info()

Her ser vi at regnearket vårt har fem kolonner, `started_at`, `ended_at`, osv. Vi ser også at `started_at` og `ended_at` kolonnene har datatypen `object`, som rett og slett betyr at de kan inneholde hvilken som helst form for informasjon. I dette tilfellet inneholder de tekststrenger.

Kolonnene `duration`, `start_station_id` og `end_station_id`, derimot, har datatypen `int64`, altså inneholder de kun heltall.

Når vi har et regneark, kan vi også regne ut noen enkle matematiske funksjoner på kolonnene. Vi kan for eksempel finne gjennomsnittet til alle tallkolonnene med `mean`-funksjonen.

In [None]:
bysykkel_turer_regneark.mean()

Eller minimum- og maksimumsverdien til regnearket ved å henholdsvis bruke `min` og `max` funksjonene.

In [None]:
bysykkel_turer_regneark.min()

Men hvis vi er interessert i mye slik "sammendragsinformasjon", kan vi like gjerne be Pandas om å beskrive regnearket for oss. Det gjør vi med `describe`-funksjonen.

In [None]:
bysykkel_turer_regneark.describe()

### Analysere ekte data

Foreløpig har vi bare sett på vårt lille liksom-datasett. Men la oss heller se på et ekte dataset.

Det finnes mange måter man kan lagre regneark på en datamaskin. Den letteste er nok å ha en tekstfil, hvor hver linje er en rad, og man bruke komma for å separere kolonner. Dette filformatet heter komma-separerte filer, eller CSV-filer.

Kommaseparerte filer er fine for å lagre data man skal analysere i Python (du kan også åpne og lagre slike filer i Excel). Grunnen til det er at du kan åpne filene i en tekstbehandler (slik som notisblokken/notepad/spyder) og se på innholdet. Det er også mange som deler dataene sine som CSV-filer. For eksempel, så kan du laste ned CSV-filer fra Statistisk Sentralbyrå, Metrologisk Insitutt, og *Oslo Bysykkel*. 

La oss bruke Pandas til å laste inn en CSV-fil fra Oslo Bysykkel. Da bruker vi `read_csv`-funksjonen til Pandas. Denne funksjonen tar inn en filplassering på datamaskinen din, og laster inn regnearket til Python. Alternativt, så kan du skrive inn en nettadresse hvor filen kan lastes ned fra, og da vil Pandas automatisk laste ned filen og åpne den for oss. La oss gjøre det!

In [None]:
bysykkel_data_mars = pd.read_csv("https://data.urbansharing.com/oslobysykkel.no/trips/v1/2021/03.csv")

Vi kan se på bysykkeldataen fra mars i år

In [None]:
bysykkel_data_mars

Vi har altså over 62 tusen rader! Så det er kanskje like greit at Pandas ikke viste frem alle sammen... Om vi bare vil se på noen få rader, kan vi bruke `head`-funksjonen til regnearket vårt.

In [None]:
bysykkel_data_mars.head()

Head funksjonen kan også ta inn antall rader vi ønsker som argument, og vi kan lagre resultatet i en variabel. Her henter vi ut de første ti radene.

In [None]:
første_ti_rader = bysykkel_data_mars.head(10)
første_ti_rader

Nå har vi altså hentet ut de første ti radene, men hva om vi vil se på en rad i midten av regnearket vårt? Altså, vi har en bestemt plass i regnearket vi vil se på. Da kan vi bruke `loc`-indeksen. 

Her henter vi ut raden med indeks 5678:

In [None]:
bysykkel_data_mars.loc[5678]

Så, vi kan hente ut en enkelt rad med `loc`-indeksen, og det er nyttig nok i seg selv, men vi kan også hente ut flere rader på en gang! Da kan vi for eksempel bruke en liste.

In [None]:
bysykkel_data_mars.loc[[5000, 5001]]

Eller vi kan bruke *slicing*. Her starter vi på rad 5000 og slutter på rad 5050.

In [None]:
bysykkel_data_mars.loc[5000:5050]

Vi kan også bruke `loc`-indeksen til å hente ut en liten "bit" av regnearket. For eksempel kan vi hente ut startstasjonen og endestasjonen til turene mellom indeks 5000 og 5050.

In [None]:
bysykkel_data_mars.loc[5000:5050, ['start_station_id', 'end_station_id']]

Ok, så nå har vi sett litt på hva regnearket vårt inneholder, men la oss få en bedre oversikt. Da kan vi nok en gang bruke `info`-funksjonen til regnearket vårt.

In [None]:
bysykkel_data_mars.info()

Legg merke til at vi med over 62000 rader, bare bruker 6 MB med minne. På en moderne datamaskin har man ofte mellom 8 og 32 GB med RAM. Det er altså plass til å se på flere millioner rader på en gang!

La oss komme oss videre, hva om vi ber Pandas om å beskrive datasettet vårt numerisk:

In [None]:
bysykkel_data_mars.describe()

Her ser vi at en gnennomsnittlig sykkeltur tar litt over 800 sekunder. Altså mer enn 10 minutter. Den lengste sykkelturen tok nesten 27000 sekunder!

Men det er ikke så informativt å se på turene med sekundoppløsning. La oss heller se på turene med minutt-oppløsning. For å gjøre det, kan vi ta `duration`-kolonnen vår og dele den på 60:

In [None]:
duration_minutt = bysykkel_data_mars['duration'] / 60

In [None]:
duration_minutt

Her har vi altså lengden på turene i minutter. Vi kan lagre denne som en ny kolonne i regnearket vårt. Her oppretter vi en kolonne med navn `duration_minutt`, hvor vi lagrer denne informasjonen

In [None]:
bysykkel_data_mars['duration_minutt'] = duration_minutt

Vi kan også lagre informasjonen i en kolonne direkte når vi regner den ut. 

In [None]:
bysykkel_data_mars['duration_minutt'] = bysykkel_data_mars['duration'] / 60

Så, hvis vi ber Python om å beskrive datasettet på nytt, kan vi regne ut hvor mange minutter en gjennomsnittlig sykkeltur tar.

In [None]:
bysykkel_data_mars.describe()

Hvis vi scroller til høyre her, ser vi at en gjennomsnittlig sykkeltur tar ca 13.5 minutter, og medianen (50%-persentilen) er litt høyere på 15 minutt og 20 sekunder. Dessverre er det fortsatt litt vanskelig å se hvor lang tid den lengste turen er. La oss derfor lage enda en kolonne, hvor vi har tiden på turene i timer.

In [None]:
bysykkel_data_mars['duration_timer'] = bysykkel_data_mars['duration_minutt'] / 60

In [None]:
bysykkel_data_mars.describe()

Her ser vi at den lengste sykkelturen var på 7.5 timer!

### Gruppere data

Ofte, når vi analyserer data, er vi interessert i hvordan gjennomsnittet ser ut for forskjellige "grupper". For eksempel, vi har et regneark, hvor hver rad representerer en bysykkeltur. En ting vi kan være interessert i er hvordan bysykkelturene som starter i en spesifikk stasjon ser ut. Vi vil altså *gruppere* datasettet vårt basert på start-stasjonen.

Når vi vil gruppere et datasett, så velger vi hvilken kolonne vi vil gruppere det basert på. Så vil Pandas gå igjennom regnearket vårt og finne alle mulige verdier i den kolonnen. Så vil Pandas lage et nytt regneark for hver av disse verdiene. Hvis vi for eksempel grupperer regnearket vårt basert på start-stasjon, vil vi få et regneark for hver bysykkel-stasjon. Regneark 1 vil inneholde alle turer som startet i "7 Juni Plassen", mens regneark 2 vil inneholde alle turer som startet i "AHO", osv. Figuren under viser hvordan dette fungerer i praksis.

<img src="groupby_bysykkel.png" width="800px" />

Så, når vi har gruppert regnearket vårt, kan vi regne ut gjennomsnittet av hver kolonne for hver stasjon. Dette vil gi oss en rand for hver bysykkel-stasjon, som vi så kan putte inn i et nytt regneark. Vi får altså et regneark, hvor hver rad representerer en bysykkelstasjon, og hver kolonne inneholder den er gjennomsnittsverdien for den bysykkelstasjonen. 

In [None]:
bysykkeldata_per_stasjon = bysykkel_data_mars.groupby("start_station_name").mean()
bysykkeldata_per_stasjon.sort_values("duration")

In [None]:
bysykkeldata_per_stasjon = bysykkel_data_mars.groupby("end_station_name").count()
bysykkeldata_per_stasjon.sort_values("duration")

## Funksjoner

Funksjoner har mange bruksområder i programmering, men en av de nyttigste er at de lar oss forenkle, navngi og gjenbruke utregninger.

Ta for eksempel koden over, hvor vi gjorde om sekunder til minutter. Denne koden alene er ikke veldig komplisert, men tenk deg at vi ønsker å gjøre sekunder om til minutter mange steder i koden. Da hadde det vært praktisk å bare fortalt Python: "Kan du ikke gjøre disse tallene om fra sekunder til minutter?" Det er dette funksjoner lar oss gjøre.

For å si det enkelt, så er en funksjon en "oppskrift" som forteller Python hvordan datamaskinen skal utføre en oppgave. Ofte er denne oppgaven en utregning av et slag. Vi navngir oppgaven med et funksjonsnavn, og forteller Python alt som trengs for å utføre denne oppgaven. Til slutt forteller vi vilket resultat vi ønsker ut etter at datamaskinen har "gjort jobben sin".

For å vise hvordan vi kan lage en funksjon i Python, kan vi ta et lite eksempel


In [None]:
def sekund_til_minutt(tid_i_sekunder):
    return tid_i_sekunder / 60

Her har vi opprettet en funksjon, med navnet `sekund_til_minutt`. Denne funksjonen beskriver hvordan Python gjør en tid i sekunder, til den samme tiden, men i minutter. Legg også merke til at vi har gitt funksjonen et beskrivende navn. Dette lar oss skrive kode som forklarer seg selv. La oss fortsette med å bruke denne funksjonen.

In [None]:
antall_sekunder = 1000
antall_minutter = sekund_til_minutt(antall_sekunder)
print(f"{antall_sekunder} sekund er {antall_minutter} minutter.")

Vi ser at vi oppretter en variabel `antall_sekunder`, som representerer en tidsperiode i sekunder, så ber vi Python regne om denne tiden fra sekunder til minutter og lagre resultatet i `antall_minutter` variabelen.

Det som skjer her, er at verdien til variabelen `antall_sekunder`, altså `1000` blir lagret inni variabelen `tid_i_sekunder`, før koden til `sekund_til_minutt`-funksjonen kalles. Det som så returneres blir "spyttet" ut av funksjonen og lagret i `antall_minutter`-variabelen, mens `tid_i_sekunder` variabelen blir glemt.

Syntaksen for en funksjon i Python ser altså slik ut

```python
def funksjonsnavn(inputvariabel):
    resultat = ... # behandle inputvariabelen
    return resultat
```

Alle variablene som opprettes inni funksjonen (inkludert inputvariabelen(e)) blir glemt etter at funksjonen er kjørt ferdig, mens det som returneres (altså uttrykket etter `return`-nøkkelordet) kan vi for eksempel lagre i en variabel.

En ting som er fint i Python, er at vi ikke forteller hva input-variabelen er på forhånd. Så lenge vi kan dele en variabel eller et uttrykk på 60, kan vi bruke `sekund_til_minutt`-funksjonen vår på det. Dette betyr at vi kan bruke funksjonen vår for å gjøre om hele kolonner i regnearket vårt fra sekunder til minutter (siden vi tross alt kan dele kolonner på 60).

In [None]:
def sekund_til_minutt(tid_i_sekunder):
    return tid_i_sekunder / 60

def sekund_til_time(tid_i_sekunder):
    return tid_i_sekunder / 3600

bysykkel_data_mars['duration_minutt'] = sekund_til_minutt(bysykkel_data_mars['duration'])
bysykkel_data_mars['duration_timer'] = sekund_til_time(bysykkel_data_mars['duration'])

Nå har vi sett på grunnleggende funksjoner, som tar inn en variabel, og returnerer en variabel. Men, i Python, kan vi ha mange forskjellige typer funksjoner, vi kan ha funksjoner som tar inn flere ting og ikke returnerer noe, og vi kan ha funksjoner som tar ikke tar inn noe, men returnerer flere ting. Det er nesten bare fantasien som setter grensen for hva en funksjon kan gjøre!

Hvis du er interessert i å lære mer om funksjoner i Python anbefaler vi at du ser på kapittel åtte i kompendiet vårt fra forrige kurs, som du kan finne her: https://github.com/kodeskolen/tekna_agder_v21/blob/master/kompendium.pdf

## Oppgaver

### Oppgave 1

Vi har hentet værdata fra metrologisk institutt, som du finner i samme mappe som denne Notebooken.

#### Oppgave 1a)
Bruk `pd.read_csv` funksjonen for å laste inn de historiske værdatene siden Januar 2018 i et regneark.

#### Oppgave 1b)
Bruk `head`-funksjonen til regnearket for å se innholdet i de første fem radene.

#### Oppgave 1b)
Bruk `describe`-funksjonen til regnearket for å finne nøkkelinformasjon om klimaet de siste årene. Hva var den høyeste temperaturen, og hva var den laveste temperaturen målt?

#### Oppgave 1c)
Hent ut `Maksimumstemperatur (døgn)` kolonnen til regnearket.

#### Oppgave 1d)
Regn ut temperaturendringen i løpet av et døgn. Det kan du gjøre med å regne ut `Maksimumstemperatur (døgn)` kolonnen minus `Minimumstemperatur (døgn)`. Legg denne informasjonen inn i regnearket som en kolonne med navne `Temperaturendring (døgn)`.

#### Oppgave 1e)
Bruk `describe`-funksjonen til regnearket en gang til for å finne ut hva den største og minste temperaturendringen var i løpet av et døgn.

#### Oppgave 1f)
For å regne om temperaturer fra Celsius til Farenheit kan du bruke formelen

$$^{\circ}\text{F} = {^{\circ}\text{C}} \times \frac{9}{5} + 32,$$

Ta utgangspunkt i denne formelen for å lage en funksjon `celsius_til_farenheit(temperatur_i_celsius)` som tar inn en temperatur i grader Celsius og regner dem om til grader Farenheit. Lagre så en kolonne i regnearket ditt som heter `Maksimumstemperatur i Farenheit (døgn)`, som inneholder maksimumstemperaturen for hvert døgn i farenheit.

#### Oppgave 1g) (bonusoppgave)
Nedenfor, har du kode som gjør klar data fra metrologisk institutt for analyse. Det var denne koden vi brukte for å lage værdataen vi har analysert her.

Besøk *Norsk Klimasenter* sine nettsider, og last ned værdata fra værstasjonen nermest deg. Nettsiden er her: https://seklima.met.no/observations/. Velg dagsoppløsning, og hent ut `Minimumstemperatur`, `Maksimumstemperatur` og `Middeltemperatur` data fra det siste året. Bruk så koden under for å gjøre denne dataen klar for analyse.

#### Oppgave 1e) (bonusoppgave)
Fortsett hva den maksimale temperaturendringen var i værstasjonen nermest deg.


In [None]:
#Lag celler og gjør oppgavene her!

## Bearbeiding av værdata

In [None]:
# Last inn værdata
# Siden det er en norsk fil, brukes semikolon istedenfor komma for å separere rader
# Og komma brukes for å indikere desimaltall
# I denne filen brukes også en bindestrek for å indikere manglende data
# Heldigvis har Pandas muligheter for å ta hensyn til dette, med
# delimiter, decimal og na_values
værdata = pd.read_csv(
    "værhistorikk_fra_metrologisk_institutt.csv",
    delimiter=";",
    decimal=",",
    na_values="-"
)

# Fjern siste kolonne (inneholder copyright-info)
# Data fra metrologisk insitutt kan fritt brukes, bearbeides og deles,
# Så lenge man passer på å si at den er fra metrologisk institutt (CC-BY 4.0 lisens)
værdata = værdata.drop(værdata.index[-1])

# Gjør om tidspunktene fra tekststrenger til datoer med spesifisert tidssone
værdata["Tid(norsk normaltid)"] = pd.to_datetime(
    værdata["Tid(norsk normaltid)"], dayfirst=True, utc=True
)

# Hent ut dagen i året og hvilket år det er
værdata["År"] = værdata["Tid(norsk normaltid)"].dt.year
værdata["Dag nummer"] = værdata["Tid(norsk normaltid)"].dt.dayofyear

# Lagre værdataen
værdata.to_csv("værhistorikk_fra_metrologisk_institutt_behandlet.csv")