# Python, Pandas og regneark

For å finne oppgavene, bla lengre ned!

Når vi analyserer data med, bruker vi ofte *regneark*. Et av de vanligste regneark-programmene, er Microsoft Excel. Excel kan være utrolig nyttig, spesielt om vi har små datamengder, eller ikke ønsker å gjøre mye databehandling.

I det øyeblikket at vi har store datamengder og avanserte utregninger, så kan Excel-arkene fort bli uhåndterbare. Og da kan det være lurt å velge et verktøy hvor man har litt mer kontroll. Et slik verktøy er Python-biblioteket *Pandas*.

I denne notatboken skal vi se på hva Pandas er, og hvordan vi kan behandle data med det. Vi starter med å importere Pandas.

In [1]:
import pandas as pd

## Bysykkel-analyse

Vi vil analysere bysykkel-data. Vi lurer på hvor folk reiser, og hvor lenge de er på reisefot. Men før vi ser på ekte data fra *Oslo Bysykkel*, kan vi dikte opp litt data som vi lagrer i oppslagsverk

In [2]:
bysykkel_turer = {
  'started_at': ['2021-03-01 12:00:10', '2021-03-01 13:10:10',],
  'ended_at':   ['2021-03-01 12:15:10', '2021-03-01 13:19:15',],
  'duration':   [900,  555,],
  'start_station_id': [513,  480,],
  'end_station_id': [421,  461,],
}

bysykkel_turer

{'started_at': ['2021-03-01 12:00:10', '2021-03-01 13:10:10'],
 'ended_at': ['2021-03-01 12:15:10', '2021-03-01 13:19:15'],
 'duration': [900, 555],
 'start_station_id': [513, 480],
 'end_station_id': [421, 461]}

Her har vi altså et oppslagsverk, hvor hvert element er en liste med data. Dette er en veldig naturlig måte å lagre data på i Python, og vi kan lett hente ut "kolonner" fra oppslagsverket vårt ved å indeksere det.

In [3]:
bysykkel_turer['start_station_id']

[513, 480]

### Vårt første regneark
La oss gjøre om oppslagsverket vårt til et regneark. I Python, så heter et regneark en `DataFrame`, og for å opprette en `DataFrame`, bruker vi Pandas biblioteket vi importerte på toppen av notatboken.

In [4]:
bysykkel_turer_regneark = pd.DataFrame(bysykkel_turer)

Hvis vi bare skriver navnet på regneark-variabelen vår, så printes den fint ut i nettleseren vår

In [5]:
bysykkel_turer_regneark

Unnamed: 0,started_at,ended_at,duration,start_station_id,end_station_id
0,2021-03-01 12:00:10,2021-03-01 12:15:10,900,513,421
1,2021-03-01 13:10:10,2021-03-01 13:19:15,555,480,461


Vi kan hente ut kolonner fra regnearkene med nøyaktig samme syntaks som vi bruker for å hente ut elementer fra oppslagsverk:

In [6]:
bysykkel_turer_regneark['start_station_id']

0    513
1    480
Name: start_station_id, dtype: int64

Vi kan også se hvilke kolonner som er i regnearket vårt

In [7]:
bysykkel_turer_regneark.columns

Index(['started_at', 'ended_at', 'duration', 'start_station_id',
       'end_station_id'],
      dtype='object')

Og til og med finne grunnleggende informasjon om regnearket, med `info()`-funksjonen

In [8]:
bysykkel_turer_regneark.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   started_at        2 non-null      object
 1   ended_at          2 non-null      object
 2   duration          2 non-null      int64 
 3   start_station_id  2 non-null      int64 
 4   end_station_id    2 non-null      int64 
dtypes: int64(3), object(2)
memory usage: 208.0+ bytes


Her ser vi at regnearket vårt har fem kolonner, `started_at`, `ended_at`, osv. Vi ser også at `started_at` og `ended_at` kolonnene har datatypen `object`, som rett og slett betyr at de kan inneholde hvilken som helst form for informasjon. I dette tilfellet inneholder de tekststrenger.

Kolonnene `duration`, `start_station_id` og `end_station_id`, derimot, har datatypen `int64`, altså inneholder de kun heltall.

Når vi har et regneark, kan vi også regne ut noen enkle matematiske funksjoner på kolonnene. Vi kan for eksempel finne gjennomsnittet til alle tallkolonnene med `mean`-funksjonen.

In [9]:
bysykkel_turer_regneark.mean()

duration            727.5
start_station_id    496.5
end_station_id      441.0
dtype: float64

Eller minimum- og maksimumsverdien til regnearket ved å henholdsvis bruke `min` og `max` funksjonene.

In [10]:
bysykkel_turer_regneark.min()

started_at          2021-03-01 12:00:10
ended_at            2021-03-01 12:15:10
duration                            555
start_station_id                    480
end_station_id                      421
dtype: object

Men hvis vi er interessert i mye slik "sammendragsinformasjon", kan vi like gjerne be Pandas om å beskrive regnearket for oss. Det gjør vi med `describe`-funksjonen.

In [11]:
bysykkel_turer_regneark.describe()

Unnamed: 0,duration,start_station_id,end_station_id
count,2.0,2.0,2.0
mean,727.5,496.5,441.0
std,243.95184,23.334524,28.284271
min,555.0,480.0,421.0
25%,641.25,488.25,431.0
50%,727.5,496.5,441.0
75%,813.75,504.75,451.0
max,900.0,513.0,461.0


### Analysere ekte data

Foreløpig har vi bare sett på vårt lille liksom-datasett. Men la oss heller se på et ekte dataset.

Det finnes mange måter man kan lagre regneark på en datamaskin. Den letteste er nok å ha en tekstfil, hvor hver linje er en rad, og man bruke komma for å separere kolonner. Dette filformatet heter komma-separerte filer, eller CSV-filer.

Kommaseparerte filer er fine for å lagre data man skal analysere i Python (du kan også åpne og lagre slike filer i Excel). Grunnen til det er at du kan åpne filene i en tekstbehandler (slik som notisblokken/notepad/spyder) og se på innholdet. Det er også mange som deler dataene sine som CSV-filer. For eksempel, så kan du laste ned CSV-filer fra Statistisk Sentralbyrå, Metrologisk Insitutt, og *Oslo Bysykkel*. 

La oss bruke Pandas til å laste inn en CSV-fil fra Oslo Bysykkel. Da bruker vi `read_csv`-funksjonen til Pandas. Denne funksjonen tar inn en filplassering på datamaskinen din, og laster inn regnearket til Python. Alternativt, så kan du skrive inn en nettadresse hvor filen kan lastes ned fra, og da vil Pandas automatisk laste ned filen og åpne den for oss. La oss gjøre det!

In [12]:
#bysykkel_data_mars = pd.read_csv("https://data.urbansharing.com/oslobysykkel.no/trips/v1/2021/03.csv")
# siden denne ga feilmelding, er datasettet lastet ned "manuelt" fra oslo bysykkel sine hjemmesider og lagt ved i mappen

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1108)>

In [13]:
bysykkel_data_mars=pd.read_csv("bysykkel_data_mars2021.csv")

Vi kan se på bysykkeldataen fra mars i år

In [14]:
bysykkel_data_mars

Unnamed: 0,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_name,end_station_description,end_station_latitude,end_station_longitude
0,2021-03-01 04:08:09.407000+00:00,2021-03-01 04:15:45.505000+00:00,456,513,Bøkkerveien,ved HasleLinje,59.927375,10.796015,734,Nylandsveien,ved Urtegata,59.915660,10.762281
1,2021-03-01 04:36:51.583000+00:00,2021-03-01 04:41:31.180000+00:00,279,458,Jenny Braatens Plass,langs Rosenhoffgata,59.928349,10.778370,507,Jens Bjelkes gate,langs Trondheimsveien,59.919179,10.764162
2,2021-03-01 04:39:15.629000+00:00,2021-03-01 04:46:16.480000+00:00,420,421,Alexander Kiellands Plass,langs Maridalsveien,59.928067,10.751203,491,Brugata,ved Chr Kroghs gate,59.913661,10.757294
3,2021-03-01 04:52:06.193000+00:00,2021-03-01 05:23:11.241000+00:00,1865,480,Helga Helgesens plass,langs Grønlandsleiret,59.912111,10.766194,478,Jernbanetorget,Europarådets plass,59.911901,10.749929
4,2021-03-01 05:01:03.586000+00:00,2021-03-01 05:30:13.785000+00:00,1750,461,Vålerenga,langs Ingeborgs gate,59.908576,10.786856,407,Sagene bussholdeplass,langs Kierschovs gate,59.937743,10.751648
...,...,...,...,...,...,...,...,...,...,...,...,...,...
64709,2021-03-31 22:40:38.579000+00:00,2021-03-31 23:34:08.861000+00:00,3210,380,Bentsebrugata,rett over busstoppet,59.939230,10.759170,471,Marienlyst,ved bensinstasjon,59.932432,10.721762
64710,2021-03-31 22:51:32.539000+00:00,2021-03-31 22:57:02.321000+00:00,329,398,Ringnes Park,ved Sannergata,59.928434,10.759430,493,Sofienbergparken nordvest,langs Helgesens Gate,59.924364,10.761586
64711,2021-03-31 22:51:52.012000+00:00,2021-03-31 23:02:10.088000+00:00,618,530,Holbergs Plass,ved Welhavens gate,59.919309,10.734305,479,Tjuvholmen,ved Bryggegangen,59.909467,10.722509
64712,2021-03-31 22:52:23.181000+00:00,2021-03-31 23:05:32.262000+00:00,789,447,Kværnerbyen,langs Smeltedigelen,59.904473,10.786167,489,Torggata,ved Bernt Ankers gate,59.915983,10.751551


Vi har altså over 62 tusen rader! Så det er kanskje like greit at Pandas ikke viste frem alle sammen... Om vi bare vil se på noen få rader, kan vi bruke `head`-funksjonen til regnearket vårt.

In [15]:
bysykkel_data_mars.head()

Unnamed: 0,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_name,end_station_description,end_station_latitude,end_station_longitude
0,2021-03-01 04:08:09.407000+00:00,2021-03-01 04:15:45.505000+00:00,456,513,Bøkkerveien,ved HasleLinje,59.927375,10.796015,734,Nylandsveien,ved Urtegata,59.91566,10.762281
1,2021-03-01 04:36:51.583000+00:00,2021-03-01 04:41:31.180000+00:00,279,458,Jenny Braatens Plass,langs Rosenhoffgata,59.928349,10.77837,507,Jens Bjelkes gate,langs Trondheimsveien,59.919179,10.764162
2,2021-03-01 04:39:15.629000+00:00,2021-03-01 04:46:16.480000+00:00,420,421,Alexander Kiellands Plass,langs Maridalsveien,59.928067,10.751203,491,Brugata,ved Chr Kroghs gate,59.913661,10.757294
3,2021-03-01 04:52:06.193000+00:00,2021-03-01 05:23:11.241000+00:00,1865,480,Helga Helgesens plass,langs Grønlandsleiret,59.912111,10.766194,478,Jernbanetorget,Europarådets plass,59.911901,10.749929
4,2021-03-01 05:01:03.586000+00:00,2021-03-01 05:30:13.785000+00:00,1750,461,Vålerenga,langs Ingeborgs gate,59.908576,10.786856,407,Sagene bussholdeplass,langs Kierschovs gate,59.937743,10.751648


Head funksjonen kan også ta inn antall rader vi ønsker som argument, og vi kan lagre resultatet i en variabel. Her henter vi ut de første ti radene.

In [16]:
første_ti_rader = bysykkel_data_mars.head(10)
første_ti_rader

Unnamed: 0,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_name,end_station_description,end_station_latitude,end_station_longitude
0,2021-03-01 04:08:09.407000+00:00,2021-03-01 04:15:45.505000+00:00,456,513,Bøkkerveien,ved HasleLinje,59.927375,10.796015,734,Nylandsveien,ved Urtegata,59.91566,10.762281
1,2021-03-01 04:36:51.583000+00:00,2021-03-01 04:41:31.180000+00:00,279,458,Jenny Braatens Plass,langs Rosenhoffgata,59.928349,10.77837,507,Jens Bjelkes gate,langs Trondheimsveien,59.919179,10.764162
2,2021-03-01 04:39:15.629000+00:00,2021-03-01 04:46:16.480000+00:00,420,421,Alexander Kiellands Plass,langs Maridalsveien,59.928067,10.751203,491,Brugata,ved Chr Kroghs gate,59.913661,10.757294
3,2021-03-01 04:52:06.193000+00:00,2021-03-01 05:23:11.241000+00:00,1865,480,Helga Helgesens plass,langs Grønlandsleiret,59.912111,10.766194,478,Jernbanetorget,Europarådets plass,59.911901,10.749929
4,2021-03-01 05:01:03.586000+00:00,2021-03-01 05:30:13.785000+00:00,1750,461,Vålerenga,langs Ingeborgs gate,59.908576,10.786856,407,Sagene bussholdeplass,langs Kierschovs gate,59.937743,10.751648
5,2021-03-01 05:01:24.497000+00:00,2021-03-01 05:09:01.643000+00:00,457,493,Sofienbergparken nordvest,langs Helgesens Gate,59.924364,10.761586,526,Lille Grensen,Ved Akersgata,59.913897,10.74231
6,2021-03-01 05:02:11.224000+00:00,2021-03-01 05:12:21.870000+00:00,610,568,Frognerveien,ved Vestheimgata,59.917085,10.71288,578,Hallings gate,langs Dalsbergstien,59.922777,10.738655
7,2021-03-01 05:03:27.416000+00:00,2021-03-01 05:12:31.124000+00:00,543,398,Ringnes Park,ved Sannergata,59.928434,10.75943,495,Vaterlandsparken,langs Brugata,59.913516,10.757335
8,2021-03-01 05:03:49.874000+00:00,2021-03-01 05:06:03.941000+00:00,134,489,Torggata,ved Bernt Ankers gate,59.915983,10.751551,527,Biskop Gunnerus' gate,ved Oslo City,59.912334,10.752292
9,2021-03-01 05:03:56.836000+00:00,2021-03-01 05:13:50.012000+00:00,593,444,AHO,langs Maridalsveien,59.925265,10.750462,615,Munkedamsveien,ved Haakon VIIs gate,59.913523,10.730106


Nå har vi altså hentet ut de første ti radene, men hva om vi vil se på en rad i midten av regnearket vårt? Altså, vi har en bestemt plass i regnearket vi vil se på. Da kan vi bruke `loc`-indeksen. 

Her henter vi ut raden med indeks 5678:

In [17]:
bysykkel_data_mars.loc[5678]

started_at                   2021-03-03 18:09:08.987000+00:00
ended_at                     2021-03-03 18:17:03.056000+00:00
duration                                                  474
start_station_id                                          433
start_station_name                                        Ila
start_station_description        langs Uelandsgt ved Colletts
start_station_latitude                                59.9318
start_station_longitude                               10.7487
end_station_id                                            564
end_station_name                                  Oscars gate
end_station_description                   ved Hegdehaugsveien
end_station_latitude                                  59.9224
end_station_longitude                                 10.7272
Name: 5678, dtype: object

Så, vi kan hente ut en enkelt rad med `loc`-indeksen, og det er nyttig nok i seg selv, men vi kan også hente ut flere rader på en gang! Da kan vi for eksempel bruke en liste.

In [18]:
bysykkel_data_mars.loc[[5000, 5001]]

Unnamed: 0,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_name,end_station_description,end_station_latitude,end_station_longitude
5000,2021-03-03 14:16:42.642000+00:00,2021-03-03 14:23:34.444000+00:00,411,402,Lørenveien,sør for Lørenparken,59.930877,10.791824,614,Sinsen T-bane,langs Hans Nielsen Hauges gate,59.938863,10.780603
5001,2021-03-03 14:16:47.021000+00:00,2021-03-03 14:23:40.731000+00:00,413,534,Filipstadveien,langs busslommen,59.910228,10.720879,613,Schives gate,ved Arno Bergs plass,59.920956,10.714056


Eller vi kan bruke *slicing*. Her starter vi på rad 5000 og slutter på rad 5050.

In [19]:
bysykkel_data_mars.loc[5000:5050]

Unnamed: 0,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_name,end_station_description,end_station_latitude,end_station_longitude
5000,2021-03-03 14:16:42.642000+00:00,2021-03-03 14:23:34.444000+00:00,411,402,Lørenveien,sør for Lørenparken,59.930877,10.791824,614,Sinsen T-bane,langs Hans Nielsen Hauges gate,59.938863,10.780603
5001,2021-03-03 14:16:47.021000+00:00,2021-03-03 14:23:40.731000+00:00,413,534,Filipstadveien,langs busslommen,59.910228,10.720879,613,Schives gate,ved Arno Bergs plass,59.920956,10.714056
5002,2021-03-03 14:17:19.203000+00:00,2021-03-03 14:47:57.421000+00:00,1838,418,Norsk Folkemuseum,utenfor inngangen,59.907674,10.686843,385,Søndre gate,ved Ankerbrua,59.918632,10.757867
5003,2021-03-03 14:17:30.361000+00:00,2021-03-03 14:22:37.514000+00:00,307,423,Schous plass,nærmest rundkjøringen,59.920335,10.760804,437,Sentrum Scene,ved Arbeidersamfunnets plass,59.915468,10.751141
5004,2021-03-03 14:18:32.425000+00:00,2021-03-03 14:37:53.680000+00:00,1161,462,Stensparken,ved Sporveisgata,59.92714,10.730981,582,Stavangergata,ved Uelands gate,59.941148,10.750775
5005,2021-03-03 14:18:40.641000+00:00,2021-03-03 14:25:00.116000+00:00,379,511,Henrik Ibsens gate,ved Parkveien,59.915088,10.72228,573,Tordenskiolds gate,ved Rådhusgata,59.911776,10.735113
5006,2021-03-03 14:19:01.795000+00:00,2021-03-03 14:31:47.986000+00:00,766,565,Mailundveien,sør for Torshovdalen,59.930918,10.77282,549,Linaaes gate,langs Møllergata,59.913824,10.745704
5007,2021-03-03 14:19:06.079000+00:00,2021-03-03 14:24:12.900000+00:00,306,457,Trondheimsveien,ved trikkestoppet,59.923058,10.771719,495,Vaterlandsparken,langs Brugata,59.913516,10.757335
5008,2021-03-03 14:19:19.316000+00:00,2021-03-03 14:32:42.921000+00:00,803,428,Olav Kyrres plass,ved den sveitsiske ambassade,59.919334,10.696895,590,Majorstua skole,langs Bogstadveien,59.929435,10.713682
5009,2021-03-03 14:19:33.621000+00:00,2021-03-03 14:37:06.281000+00:00,1052,537,St. Olavs gate,ved Pilestredet,59.917968,10.738629,737,Munkegata trikkestopp,langs Oslo gate,59.908255,10.7678


Vi kan også bruke `loc`-indeksen til å hente ut en liten "bit" av regnearket. For eksempel kan vi hente ut startstasjonen og endestasjonen til turene mellom indeks 5000 og 5050.

In [20]:
bysykkel_data_mars.loc[5000:5050, ['start_station_id', 'end_station_id']]

Unnamed: 0,start_station_id,end_station_id
5000,402,614
5001,534,613
5002,418,385
5003,423,437
5004,462,582
5005,511,573
5006,565,549
5007,457,495
5008,428,590
5009,537,737


Ok, så nå har vi sett litt på hva regnearket vårt inneholder, men la oss få en bedre oversikt. Da kan vi nok en gang bruke `info`-funksjonen til regnearket vårt.

In [21]:
bysykkel_data_mars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64714 entries, 0 to 64713
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   started_at                 64714 non-null  object 
 1   ended_at                   64714 non-null  object 
 2   duration                   64714 non-null  int64  
 3   start_station_id           64714 non-null  int64  
 4   start_station_name         64714 non-null  object 
 5   start_station_description  64700 non-null  object 
 6   start_station_latitude     64714 non-null  float64
 7   start_station_longitude    64714 non-null  float64
 8   end_station_id             64714 non-null  int64  
 9   end_station_name           64714 non-null  object 
 10  end_station_description    64700 non-null  object 
 11  end_station_latitude       64714 non-null  float64
 12  end_station_longitude      64714 non-null  float64
dtypes: float64(4), int64(3), object(6)
memory usag

Legg merke til at vi med over 62000 rader, bare bruker 6 MB med minne. På en moderne datamaskin har man ofte mellom 8 og 32 GB med RAM. Det er altså plass til å se på flere millioner rader på en gang!

La oss komme oss videre, hva om vi ber Pandas om å beskrive datasettet vårt numerisk:

In [22]:
bysykkel_data_mars.describe()

Unnamed: 0,duration,start_station_id,start_station_latitude,start_station_longitude,end_station_id,end_station_latitude,end_station_longitude
count,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0
mean,811.497682,512.797092,59.922432,10.74601,516.87862,59.919959,10.744636
std,910.937725,152.934281,0.010319,0.024203,158.559405,0.009444,0.023463
min,61.0,377.0,59.898126,10.651118,377.0,59.898126,10.651118
25%,355.0,427.0,59.914197,10.730476,435.0,59.91252,10.730476
50%,566.0,488.0,59.92208,10.75011,491.0,59.918636,10.749929
75%,919.75,565.0,59.928833,10.76224,564.0,59.925611,10.760926
max,26802.0,2280.0,59.953411,10.814314,2280.0,59.953411,10.814314


Her ser vi at en gnennomsnittlig sykkeltur tar litt over 800 sekunder. Altså mer enn 10 minutter. Den lengste sykkelturen tok nesten 27000 sekunder!

Men det er ikke så informativt å se på turene med sekundoppløsning. La oss heller se på turene med minutt-oppløsning. For å gjøre det, kan vi ta `duration`-kolonnen vår og dele den på 60:

In [23]:
duration_minutt = bysykkel_data_mars['duration'] / 60

In [24]:
duration_minutt

0         7.600000
1         4.650000
2         7.000000
3        31.083333
4        29.166667
           ...    
64709    53.500000
64710     5.483333
64711    10.300000
64712    13.150000
64713    15.533333
Name: duration, Length: 64714, dtype: float64

Her har vi altså lengden på turene i minutter. Vi kan lagre denne som en ny kolonne i regnearket vårt. Her oppretter vi en kolonne med navn `duration_minutt`, hvor vi lagrer denne informasjonen

In [25]:
bysykkel_data_mars['duration_minutt'] = duration_minutt

Vi kan også lagre informasjonen i en kolonne direkte når vi regner den ut. 

In [26]:
bysykkel_data_mars['duration_minutt'] = bysykkel_data_mars['duration'] / 60

Så, hvis vi ber Python om å beskrive datasettet på nytt, kan vi regne ut hvor mange minutter en gjennomsnittlig sykkeltur tar.

In [27]:
bysykkel_data_mars.describe()

Unnamed: 0,duration,start_station_id,start_station_latitude,start_station_longitude,end_station_id,end_station_latitude,end_station_longitude,duration_minutt
count,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0
mean,811.497682,512.797092,59.922432,10.74601,516.87862,59.919959,10.744636,13.524961
std,910.937725,152.934281,0.010319,0.024203,158.559405,0.009444,0.023463,15.182295
min,61.0,377.0,59.898126,10.651118,377.0,59.898126,10.651118,1.016667
25%,355.0,427.0,59.914197,10.730476,435.0,59.91252,10.730476,5.916667
50%,566.0,488.0,59.92208,10.75011,491.0,59.918636,10.749929,9.433333
75%,919.75,565.0,59.928833,10.76224,564.0,59.925611,10.760926,15.329167
max,26802.0,2280.0,59.953411,10.814314,2280.0,59.953411,10.814314,446.7


Hvis vi scroller til høyre her, ser vi at en gjennomsnittlig sykkeltur tar ca 13.5 minutter, og medianen (50%-persentilen) er litt høyere på 15 minutt og 20 sekunder. Dessverre er det fortsatt litt vanskelig å se hvor lang tid den lengste turen er. La oss derfor lage enda en kolonne, hvor vi har tiden på turene i timer.

In [28]:
bysykkel_data_mars['duration_timer'] = bysykkel_data_mars['duration_minutt'] / 60

In [29]:
bysykkel_data_mars.describe()

Unnamed: 0,duration,start_station_id,start_station_latitude,start_station_longitude,end_station_id,end_station_latitude,end_station_longitude,duration_minutt,duration_timer
count,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0,64714.0
mean,811.497682,512.797092,59.922432,10.74601,516.87862,59.919959,10.744636,13.524961,0.225416
std,910.937725,152.934281,0.010319,0.024203,158.559405,0.009444,0.023463,15.182295,0.253038
min,61.0,377.0,59.898126,10.651118,377.0,59.898126,10.651118,1.016667,0.016944
25%,355.0,427.0,59.914197,10.730476,435.0,59.91252,10.730476,5.916667,0.098611
50%,566.0,488.0,59.92208,10.75011,491.0,59.918636,10.749929,9.433333,0.157222
75%,919.75,565.0,59.928833,10.76224,564.0,59.925611,10.760926,15.329167,0.255486
max,26802.0,2280.0,59.953411,10.814314,2280.0,59.953411,10.814314,446.7,7.445


Her ser vi at den lengste sykkelturen var på 7.5 timer!

### Gruppere data

Ofte, når vi analyserer data, er vi interessert i hvordan gjennomsnittet ser ut for forskjellige "grupper". For eksempel, vi har et regneark, hvor hver rad representerer en bysykkeltur. En ting vi kan være interessert i er hvordan bysykkelturene som starter i en spesifikk stasjon ser ut. Vi vil altså *gruppere* datasettet vårt basert på start-stasjonen.

Når vi vil gruppere et datasett, så velger vi hvilken kolonne vi vil gruppere det basert på. Så vil Pandas gå igjennom regnearket vårt og finne alle mulige verdier i den kolonnen. Så vil Pandas lage et nytt regneark for hver av disse verdiene. Hvis vi for eksempel grupperer regnearket vårt basert på start-stasjon, vil vi få et regneark for hver bysykkel-stasjon. Regneark 1 vil inneholde alle turer som startet i "7 Juni Plassen", mens regneark 2 vil inneholde alle turer som startet i "AHO", osv. Figuren under viser hvordan dette fungerer i praksis.

<img src="groupby_bysykkel.png" width="800px" />

Så, når vi har gruppert regnearket vårt, kan vi regne ut gjennomsnittet av hver kolonne for hver stasjon. Dette vil gi oss en rand for hver bysykkel-stasjon, som vi så kan putte inn i et nytt regneark. Vi får altså et regneark, hvor hver rad representerer en bysykkelstasjon, og hver kolonne inneholder den er gjennomsnittsverdien for den bysykkelstasjonen. 

In [30]:
bysykkeldata_per_stasjon = bysykkel_data_mars.groupby("start_station_name").mean()
bysykkeldata_per_stasjon.sort_values("duration")

Unnamed: 0_level_0,duration,start_station_id,start_station_latitude,start_station_longitude,end_station_id,end_station_latitude,end_station_longitude,duration_minutt,duration_timer
start_station_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Bjerregaardsgate Øst,547.424000,617.0,59.927168,10.749755,526.020000,59.919705,10.748539,9.123733,0.152062
Lakkegata,553.703016,440.0,59.917209,10.762214,534.668213,59.915368,10.753448,9.228384,0.153806
Hallings gate,557.834646,578.0,59.922777,10.738655,499.354331,59.921194,10.741257,9.297244,0.154954
Skråninga,571.730627,553.0,59.913979,10.747467,520.121771,59.917702,10.750428,9.528844,0.158814
Lille Schous plass,572.834437,401.0,59.920259,10.760629,508.125828,59.916274,10.753892,9.547241,0.159121
...,...,...,...,...,...,...,...,...,...
Norsk Folkemuseum,1315.172619,418.0,59.907674,10.686843,514.333333,59.913098,10.710053,21.919544,0.365326
Sjølyst,1472.244186,445.0,59.921673,10.676660,512.569767,59.916926,10.720570,24.537403,0.408957
Furulund,1478.942308,454.0,59.919810,10.651118,478.615385,59.919849,10.695986,24.649038,0.410817
Monolittveien,1480.254717,531.0,59.935947,10.681138,531.716981,59.923688,10.714884,24.670912,0.411182


In [31]:
bysykkeldata_per_stasjon = bysykkel_data_mars.groupby("end_station_name").count()
bysykkeldata_per_stasjon.sort_values("duration")

Unnamed: 0_level_0,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_description,end_station_latitude,end_station_longitude,duration_minutt,duration_timer
end_station_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Kværnerveien,5,5,5,5,5,5,5,5,5,5,5,5,5,5
Salt,11,11,11,11,11,11,11,11,11,11,11,11,11,11
Hasle,23,23,23,23,23,23,23,23,23,23,23,23,23,23
Sirkustomta,24,24,24,24,24,24,24,24,24,24,24,24,24,24
HasleLinje,30,30,30,30,30,30,30,30,30,30,30,30,30,30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Bjørvika,884,884,884,884,884,884,884,884,884,884,884,884,884,884
Sjøsiden ved trappen,915,915,915,915,915,915,915,915,915,915,915,915,915,915
Rådhusbrygge 4,960,960,960,960,960,960,960,960,960,960,960,960,960,960
Ringnes Park,978,978,978,978,978,978,978,978,978,978,978,978,978,978


## Funksjoner

Funksjoner har mange bruksområder i programmering, men en av de nyttigste er at de lar oss forenkle, navngi og gjenbruke utregninger.

Ta for eksempel koden over, hvor vi gjorde om sekunder til minutter. Denne koden alene er ikke veldig komplisert, men tenk deg at vi ønsker å gjøre sekunder om til minutter mange steder i koden. Da hadde det vært praktisk å bare fortalt Python: "Kan du ikke gjøre disse tallene om fra sekunder til minutter?" Det er dette funksjoner lar oss gjøre.

For å si det enkelt, så er en funksjon en "oppskrift" som forteller Python hvordan datamaskinen skal utføre en oppgave. Ofte er denne oppgaven en utregning av et slag. Vi navngir oppgaven med et funksjonsnavn, og forteller Python alt som trengs for å utføre denne oppgaven. Til slutt forteller vi vilket resultat vi ønsker ut etter at datamaskinen har "gjort jobben sin".

For å vise hvordan vi kan lage en funksjon i Python, kan vi ta et lite eksempel


In [32]:
def sekund_til_minutt(tid_i_sekunder):
    return tid_i_sekunder / 60

Her har vi opprettet en funksjon, med navnet `sekund_til_minutt`. Denne funksjonen beskriver hvordan Python gjør en tid i sekunder, til den samme tiden, men i minutter. Legg også merke til at vi har gitt funksjonen et beskrivende navn. Dette lar oss skrive kode som forklarer seg selv. La oss fortsette med å bruke denne funksjonen.

In [33]:
antall_sekunder = 1000
antall_minutter = sekund_til_minutt(antall_sekunder)
print(f"{antall_sekunder} sekund er {antall_minutter} minutter.")

1000 sekund er 16.666666666666668 minutter.


Vi ser at vi oppretter en variabel `antall_sekunder`, som representerer en tidsperiode i sekunder, så ber vi Python regne om denne tiden fra sekunder til minutter og lagre resultatet i `antall_minutter` variabelen.

Det som skjer her, er at verdien til variabelen `antall_sekunder`, altså `1000` blir lagret inni variabelen `tid_i_sekunder`, før koden til `sekund_til_minutt`-funksjonen kalles. Det som så returneres blir "spyttet" ut av funksjonen og lagret i `antall_minutter`-variabelen, mens `tid_i_sekunder` variabelen blir glemt.

Syntaksen for en funksjon i Python ser altså slik ut

```python
def funksjonsnavn(inputvariabel):
    resultat = ... # behandle inputvariabelen
    return resultat
```

Alle variablene som opprettes inni funksjonen (inkludert inputvariabelen(e)) blir glemt etter at funksjonen er kjørt ferdig, mens det som returneres (altså uttrykket etter `return`-nøkkelordet) kan vi for eksempel lagre i en variabel.

En ting som er fint i Python, er at vi ikke forteller hva input-variabelen er på forhånd. Så lenge vi kan dele en variabel eller et uttrykk på 60, kan vi bruke `sekund_til_minutt`-funksjonen vår på det. Dette betyr at vi kan bruke funksjonen vår for å gjøre om hele kolonner i regnearket vårt fra sekunder til minutter (siden vi tross alt kan dele kolonner på 60).

In [34]:
def sekund_til_minutt(tid_i_sekunder):
    return tid_i_sekunder / 60

def sekund_til_time(tid_i_sekunder):
    return tid_i_sekunder / 3600

bysykkel_data_mars['duration_minutt'] = sekund_til_minutt(bysykkel_data_mars['duration'])
bysykkel_data_mars['duration_timer'] = sekund_til_time(bysykkel_data_mars['duration'])

Nå har vi sett på grunnleggende funksjoner, som tar inn en variabel, og returnerer en variabel. Men, i Python, kan vi ha mange forskjellige typer funksjoner, vi kan ha funksjoner som tar inn flere ting og ikke returnerer noe, og vi kan ha funksjoner som tar ikke tar inn noe, men returnerer flere ting. Det er nesten bare fantasien som setter grensen for hva en funksjon kan gjøre!

Hvis du er interessert i å lære mer om funksjoner i Python anbefaler vi at du ser på kapittel åtte i kompendiet vårt fra forrige kurs, som du kan finne her: https://github.com/kodeskolen/tekna_agder_v21/blob/master/kompendium.pdf

## Oppgaver

### Oppgave 1

Vi har hentet værdata fra metrologisk institutt, som du finner i samme mappe som denne Notebooken.

#### Oppgave 1a)
Bruk `pd.read_csv` funksjonen for å laste inn de historiske værdatene siden Januar 2018 i et regneark.

#### Oppgave 1b)
Bruk `head`-funksjonen til regnearket for å se innholdet i de første fem radene.

#### Oppgave 1b)
Bruk `describe`-funksjonen til regnearket for å finne nøkkelinformasjon om klimaet de siste årene. Hva var den høyeste temperaturen, og hva var den laveste temperaturen målt?

#### Oppgave 1c)
Hent ut `Maksimumstemperatur (døgn)` kolonnen til regnearket.

#### Oppgave 1d)
Regn ut temperaturendringen i løpet av et døgn. Det kan du gjøre med å regne ut `Maksimumstemperatur (døgn)` kolonnen minus `Minimumstemperatur (døgn)`. Legg denne informasjonen inn i regnearket som en kolonne med navne `Temperaturendring (døgn)`.

#### Oppgave 1e)
Bruk `describe`-funksjonen til regnearket en gang til for å finne ut hva den største og minste temperaturendringen var i løpet av et døgn.

#### Oppgave 1f)
For å regne om temperaturer fra Celsius til Farenheit kan du bruke formelen

$$^{\circ}\text{F} = {^{\circ}\text{C}} \times \frac{9}{5} + 32,$$

Ta utgangspunkt i denne formelen for å lage en funksjon `celsius_til_farenheit(temperatur_i_celsius)` som tar inn en temperatur i grader Celsius og regner dem om til grader Farenheit. Lagre så en kolonne i regnearket ditt som heter `Maksimumstemperatur i Farenheit (døgn)`, som inneholder maksimumstemperaturen for hvert døgn i farenheit.

#### Oppgave 1g) (bonusoppgave)
Nedenfor, har du kode som gjør klar data fra metrologisk institutt for analyse. Det var denne koden vi brukte for å lage værdataen vi har analysert her.

Besøk *Norsk Klimasenter* sine nettsider, og last ned værdata fra værstasjonen nermest deg. Nettsiden er her: https://seklima.met.no/observations/. Velg dagsoppløsning, og hent ut `Minimumstemperatur`, `Maksimumstemperatur` og `Middeltemperatur` data fra det siste året. Bruk så koden under for å gjøre denne dataen klar for analyse.

#### Oppgave 1e) (bonusoppgave)
Fortsett hva den maksimale temperaturendringen var i værstasjonen nermest deg.


In [None]:
#Lag celler og gjør oppgavene her!

In [35]:
værdata = pd.read_csv("værhistorikk_fra_metrologisk_institutt_behandlet.csv")

In [36]:
værdata.head()

Unnamed: 0.1,Unnamed: 0,Navn,Stasjon,Tid(norsk normaltid),Maksimumstemperatur (døgn),Middeltemperatur (døgn),Minimumstemperatur (døgn),Nedbør (døgn),Høyeste middelvind (døgn),År,Dag nummer
0,0,Oslo - Blindern,SN18700,2019-01-01 00:00:00+00:00,7.3,4.7,1.8,0.0,10.7,2019,1
1,1,Oslo - Blindern,SN18700,2019-01-02 00:00:00+00:00,4.9,1.0,-2.5,0.0,10.9,2019,2
2,2,Oslo - Blindern,SN18700,2019-01-03 00:00:00+00:00,3.2,1.0,-0.6,0.0,6.8,2019,3
3,3,Oslo - Blindern,SN18700,2019-01-04 00:00:00+00:00,4.9,2.3,-1.1,0.0,2.6,2019,4
4,4,Oslo - Blindern,SN18700,2019-01-05 00:00:00+00:00,10.4,3.3,0.6,0.0,5.7,2019,5


In [37]:
værdata.describe()
# maks: 31.700000
# min: -14.500000

Unnamed: 0.1,Unnamed: 0,Maksimumstemperatur (døgn),Middeltemperatur (døgn),Minimumstemperatur (døgn),Nedbør (døgn),Høyeste middelvind (døgn),År,Dag nummer
count,822.0,822.0,822.0,822.0,822.0,822.0,822.0,822.0
mean,410.5,10.840998,6.960827,3.558759,2.716788,5.803285,2019.666667,168.055961
std,237.435254,8.646187,7.493435,6.934225,5.594887,1.924672,0.666464,108.836978
min,0.0,-7.9,-11.3,-14.5,0.0,2.1,2019.0,1.0
25%,205.25,3.925,1.8,-1.075,0.0,4.4,2019.0,69.0
50%,410.5,9.7,5.6,2.7,0.1,5.7,2020.0,160.5
75%,615.75,18.3,13.0,9.075,2.9,6.9,2020.0,263.0
max,821.0,31.7,25.3,21.5,47.0,13.7,2021.0,366.0


In [38]:
værdata["Maksimumstemperatur (døgn)"]

0       7.3
1       4.9
2       3.2
3       4.9
4      10.4
       ... 
817     7.9
818    12.7
819    18.6
820    15.2
821    11.2
Name: Maksimumstemperatur (døgn), Length: 822, dtype: float64

In [39]:
værdata["Temperaturendring (døgn)"] = værdata["Maksimumstemperatur (døgn)"] - værdata["Minimumstemperatur (døgn)"]
værdata.describe()
# største endring: 17.9

Unnamed: 0.1,Unnamed: 0,Maksimumstemperatur (døgn),Middeltemperatur (døgn),Minimumstemperatur (døgn),Nedbør (døgn),Høyeste middelvind (døgn),År,Dag nummer,Temperaturendring (døgn)
count,822.0,822.0,822.0,822.0,822.0,822.0,822.0,822.0,822.0
mean,410.5,10.840998,6.960827,3.558759,2.716788,5.803285,2019.666667,168.055961,7.282238
std,237.435254,8.646187,7.493435,6.934225,5.594887,1.924672,0.666464,108.836978,3.861121
min,0.0,-7.9,-11.3,-14.5,0.0,2.1,2019.0,1.0,0.5
25%,205.25,3.925,1.8,-1.075,0.0,4.4,2019.0,69.0,4.0
50%,410.5,9.7,5.6,2.7,0.1,5.7,2020.0,160.5,7.1
75%,615.75,18.3,13.0,9.075,2.9,6.9,2020.0,263.0,10.175
max,821.0,31.7,25.3,21.5,47.0,13.7,2021.0,366.0,17.9


In [40]:
def celsius_til_farenheit(temperatur_i_celsius):
    temperatur_i_farenheit = temperatur_i_celsius * 9/5 + 32
    return temperatur_i_farenheit

In [41]:
værdata["Maksimumstemperatur i Farenheit (døgn)"] = celsius_til_farenheit(værdata["Maksimumstemperatur (døgn)"])
værdata.head()

Unnamed: 0.1,Unnamed: 0,Navn,Stasjon,Tid(norsk normaltid),Maksimumstemperatur (døgn),Middeltemperatur (døgn),Minimumstemperatur (døgn),Nedbør (døgn),Høyeste middelvind (døgn),År,Dag nummer,Temperaturendring (døgn),Maksimumstemperatur i Farenheit (døgn)
0,0,Oslo - Blindern,SN18700,2019-01-01 00:00:00+00:00,7.3,4.7,1.8,0.0,10.7,2019,1,5.5,45.14
1,1,Oslo - Blindern,SN18700,2019-01-02 00:00:00+00:00,4.9,1.0,-2.5,0.0,10.9,2019,2,7.4,40.82
2,2,Oslo - Blindern,SN18700,2019-01-03 00:00:00+00:00,3.2,1.0,-0.6,0.0,6.8,2019,3,3.8,37.76
3,3,Oslo - Blindern,SN18700,2019-01-04 00:00:00+00:00,4.9,2.3,-1.1,0.0,2.6,2019,4,6.0,40.82
4,4,Oslo - Blindern,SN18700,2019-01-05 00:00:00+00:00,10.4,3.3,0.6,0.0,5.7,2019,5,9.8,50.72


## Bearbeiding av værdata

In [None]:
# Last inn værdata
# Siden det er en norsk fil, brukes semikolon istedenfor komma for å separere rader
# Og komma brukes for å indikere desimaltall
# I denne filen brukes også en bindestrek for å indikere manglende data
# Heldigvis har Pandas muligheter for å ta hensyn til dette, med
# delimiter, decimal og na_values
værdata = pd.read_csv(
    "værhistorikk_fra_metrologisk_institutt.csv",
    delimiter=";",
    decimal=",",
    na_values="-"
)

# Fjern siste kolonne (inneholder copyright-info)
# Data fra metrologisk insitutt kan fritt brukes, bearbeides og deles,
# Så lenge man passer på å si at den er fra metrologisk institutt (CC-BY 4.0 lisens)
værdata = værdata.drop(værdata.index[-1])

# Gjør om tidspunktene fra tekststrenger til datoer med spesifisert tidssone
værdata["Tid(norsk normaltid)"] = pd.to_datetime(
    værdata["Tid(norsk normaltid)"], dayfirst=True, utc=True
)

# Hent ut dagen i året og hvilket år det er
værdata["År"] = værdata["Tid(norsk normaltid)"].dt.year
værdata["Dag nummer"] = værdata["Tid(norsk normaltid)"].dt.dayofyear

# Lagre værdataen
værdata.to_csv("værhistorikk_fra_metrologisk_institutt_behandlet.csv")