# Databehandling

* Finne gjennomsnittlig eller median reisetid mellom to stasjoner, basert på alle turer som har blitt gjort mellom stasjonene. 
* Finne ut hvor ofte hver stasjon brukes, enten som start -eller endestasjon. Resultatene kan presenteres på forskjellige måter; for eksempel kan stasjonene markeres som sirkler på et kart, der størrelsen på sirkelen viser hvor populær stasjonen er. 
* Vi lage et 24-timersdiagram for hver stasjon, som forteller hvilke tidspunkter stasjonen brukes mest. 
* Vi kan kombinere de to punktene ovenfor, og lage en kartanimasjon som viser hvordan populæriteten til stasjonene endrer seg gjennom en dag.

*For å gjøre aktivitetsforslagene i dette kapitlet bør du ha opprettet variablene `trips` og `stations` fra første seksjon.*  

## Innhenting og inspeksjon av data

I disse seksjonene skal vi bruke data fra [*Oslo bysykkel*](https://oslobysykkel.no/apne-data/historisk) som eksempel. Første steg er å importere dataene vi ønsker å bruke, som i vårt tilfelle er *JSON*-filen for Juni 2023. Vi trenger å laste ned filen, men kan i stedet kopiere nettadressen til datafilen:

[*https://data.urbansharing.com/oslobysykkel.no/trips/v1/2023/07.json*](https://data.urbansharing.com/oslobysykkel.no/trips/v1/2023/07.json)

Vi kan bruke Python-pakken `requests` til å hente innholdet på denne nettsiden:

In [1]:
import requests

url = "https://data.urbansharing.com/oslobysykkel.no/trips/v1/2023/07.json"
page_content = requests.get(url).text

print(page_content[0:1000])

[{"started_at": "2023-07-01 01:22:38.878000+00:00", "ended_at": "2023-07-01 01:40:04.748000+00:00", "duration": 1045, "start_station_id": "387", "start_station_name": "Studenterlunden", "start_station_description": "langs Karl Johan", "start_station_latitude": 59.914586, "start_station_longitude": 10.735453, "end_station_id": "499", "end_station_name": "Bjerregaards gate", "end_station_description": "ovenfor Fredrikke Qvams gate", "end_station_latitude": 59.925488, "end_station_longitude": 10.746058}, {"started_at": "2023-07-01 03:02:43.726000+00:00", "ended_at": "2023-07-01 03:13:45.064000+00:00", "duration": 661, "start_station_id": "2315", "start_station_name": "Rostockgata", "start_station_description": "utenfor Bj\u00f8rvika visningssenter", "start_station_latitude": 59.90691970255054, "start_station_longitude": 10.760311802881915, "end_station_id": "410", "end_station_name": "Landstads gate", "end_station_description": "langs Uelands gate", "end_station_latitude": 59.929005, "end

Siden vi bare har hentet nettsiden som en tekststreng, må vi oversette den til en dictionary:

In [2]:
import json

trips = json.loads(page_content)

print(type(trips))

<class 'list'>


Her ser vi at variabelen `trips` er en Python-liste. Det er fordi *Oslo Bysykkel* har lagret dataene som en liste av objekter, der hvert objekt svarer til en sykkeltur. Vi kan prøve å skrive ut det første elementet i lista:  

In [49]:
first = trips[0]

print(type(first))
print(first)

<class 'dict'>
{'started_at': '2023-07-01 01:22:38.878000+00:00', 'ended_at': '2023-07-01 01:40:04.748000+00:00', 'duration': 1045, 'start_station_id': '387', 'start_station_name': 'Studenterlunden', 'start_station_description': 'langs Karl Johan', 'start_station_latitude': 59.914586, 'start_station_longitude': 10.735453, 'end_station_id': '499', 'end_station_name': 'Bjerregaards gate', 'end_station_description': 'ovenfor Fredrikke Qvams gate', 'end_station_latitude': 59.925488, 'end_station_longitude': 10.746058}


Hvert element i lista er altså en dictionary! La oss prøve å skrive ut de to første elementene med penere formatering:

In [4]:
import pprint
pp = pprint.PrettyPrinter(indent=4)

two_first = trips[:2]
pp.pprint(two_first)

[   {   'duration': 1045,
        'end_station_description': 'ovenfor Fredrikke Qvams gate',
        'end_station_id': '499',
        'end_station_latitude': 59.925488,
        'end_station_longitude': 10.746058,
        'end_station_name': 'Bjerregaards gate',
        'ended_at': '2023-07-01 01:40:04.748000+00:00',
        'start_station_description': 'langs Karl Johan',
        'start_station_id': '387',
        'start_station_latitude': 59.914586,
        'start_station_longitude': 10.735453,
        'start_station_name': 'Studenterlunden',
        'started_at': '2023-07-01 01:22:38.878000+00:00'},
    {   'duration': 661,
        'end_station_description': 'langs Uelands gate',
        'end_station_id': '410',
        'end_station_latitude': 59.929005,
        'end_station_longitude': 10.7496755,
        'end_station_name': 'Landstads gate',
        'ended_at': '2023-07-01 03:13:45.064000+00:00',
        'start_station_description': 'utenfor Bjørvika visningssenter',
        'start

Her ser vi tydelig hvordan dataene er organisert. Dersom vi er usikre på noen av attributtene, kan vi lese [dokumentasjonen](https://oslobysykkel.no/apne-data/historisk) på sidene til *Oslo Bysykkel* (du finner den lengre nede på siden). Merk at alle dataene er skrevet som tekstrenger og tall.  

**Tidspunkt.** Start -og sluttidspunkt er skrevet i et standard datoformat ([ISO](https://en.wikipedia.org/wiki/ISO_8601)):

```
yyyy-MM-dd hh:mm:SS.ssssssZ
```
I dette formatet listes tidsenhetene fra størst til minst: 

| år   | måned | dag | time | minutt | sekund | mikrosekund | tidssone |
|------|-------|-----|------|--------|--------|-------------|----------|
| yyyy | MM    | dd  | hh   | mm     | SS     | ss          | Z        |

Merk at tidssonen angis til slutt. I dataene fra *Oslo bysykkel* benyttes tidssonen *+00:00*, som er London-tid. Dersom vi ønsker tidspunktene i norsk tid, må én time legges til.

**Varighet.** Varighet er angitt i antall sekunder. Dersom vi ønsker antall minutter og sekunder, må verdiene konverteres. 

**Posisjon.** Geografisk posisjon er angitt i henhold til [WGS](https://no.wikipedia.org/wiki/World_Geodetic_System), som er et universelt koordinatsystem for jordas overflate. I eksempelet ovenfor har vi koordinatene:

Startstasjon: *59.91944043984847, 10.7437646218726*   
Endestasjon: *59.922425, 10.758182*

Du kan kopiere disse koordinatene inn i søkefeltet på [Google Maps](https://www.google.no/maps) for å se den eksakte posisjonen. 

**Stasjoner.** Vi kan merke oss at en stasjon (start -eller endestasjon) er registrert med fem forskjellige verdier: *id*, *name*, *description*, *latitude*, *longitude*. En stasjon er for eksempel:

```
"id": "551",
"name": "Olaf Ryes plass",
"description": "langs Sofienberggata",
"latitude": 59.922425,
"longitude": 10.758182
```

Det kan være nyttig å opprette en dictionary som kun inneholder stasjonene, slik at vi raskt kan slå opp informasjon om en bestemt stasjon. Vi ønsker derfor en dictionary på formen: 

```json
{
    "551": {
        "name": "Olaf Ryes plass",
        "description": "langs Sofienberggata",
        "latitude": 59.922425,
        "longitude": 10.758182  
    },
    "384": {
        "name": "V\u00e5r Frelsers gravlund",
        "description": "langs Ullev\u00e5lsveien",
        "latitude": 59.91944043984847,
        "longitude": 10.7437646218726   
    },
    ...
}
```

Merk at vi bruker id'ene til stasjonene som nøkler. For å lage en slik dictionary, kan vi gå gjennom alle turer, og stoppe opp hver gang vi kommer til en stasjon vi ikke har registrert: 

In [5]:
stations = {}
for t in trips: 
    for s in ["start", "end"]:
        id = t[f"{s}_station_id"]
        if id not in stations:
            new_station = {
                "name": t[f"{s}_station_name"],
                "description": t[f"{s}_station_description"],
                "latitude": t[f"{s}_station_latitude"],
                "longitude": t[f"{s}_station_longitude"]
            }
            stations[id] = new_station

Nå kan vi enkelt slå opp en stasjon i variabelen `stations`. Dersom vi for eksempel ønsker mer informasjon om stasjonen med id-en *2358*: 

In [6]:
print(stations["2358"])

{'name': 'Aker Brygge 3 mot Fergene', 'description': 'ved bryggen', 'latitude': 59.91087115068967, 'longitude': 10.729828757277915}


Hvordan kan vi gå gjennom alle stasjoner? Det er ikke mulig å skrive `for s in stations`, siden en løkke kun fungerer på lister, og `stations` er en dictionary. I stedet kan vi hente alle nøklene i `stations`:

In [7]:
print(stations.keys())

dict_keys(['387', '499', '2315', '410', '384', '551', '584', '583', '600', '465', '408', '625', '593', '523', '518', '462', '412', '443', '603', '572', '563', '481', '2333', '619', '508', '597', '478', '2339', '2328', '444', '437', '392', '608', '446', '2305', '456', '425', '460', '489', '428', '576', '534', '2340', '421', '448', '382', '479', '578', '623', '436', '742', '480', '2350', '496', '442', '463', '621', '570', '577', '617', '531', '737', '403', '611', '569', '512', '485', '416', '400', '449', '404', '580', '529', '397', '2307', '620', '579', '502', '517', '535', '599', '2309', '383', '470', '519', '748', '447', '475', '450', '406', '2308', '503', '513', '484', '735', '549', '457', '627', '424', '435', '440', '396', '415', '388', '537', '2358', '507', '455', '2357', '626', '500', '525', '596', '744', '540', '581', '495', '550', '616', '469', '521', '2334', '393', '524', '426', '417', '1009', '398', '738', '614', '407', '491', '427', '558', '1023', '453', '545', '381', '493', '

Nå kan vi gå gjennom alle nøklene, og på den måten gå gjennom alle stasjoner! La oss lage en løkke som teller antall stasjoner:

In [8]:
i = 0
for id in stations.keys():
    s = stations[id]
    i += 1

print(i)

266


266 forskjellige stasjoner ble brukt av syklister i Juni 2023!

**Oppsummering.** I denne seksjonen har vi hentet data fra *Oslo Bysykkel* og lagt dem i variabelen `trips`. Dataene er strukturert som en liste, der hvert element i lista er en dictionary som inneholder informasjon om en tur. Vi har også hentet ut informasjon om alle stasjoner og lagt dem i variabelen `stations`. Dette er en dictionary, der stasjons-id'en brukes som nøkkel for å hente informasjon om en stasjon. 

**Aktivitetsforslag.** Opprett variablene `trips` og `stations` med turer og stasjoner fra [*Oslo bysykkel*](https://oslobysykkel.no/apne-data/historisk). Du kan velge selv hvilken måned du vil hente.

Bruk løkker, indekser og nøkler til å skrive ut følgende inforasjon: 

- Skriv ut en liste over alle stasjoner, på formen *navn,  beskrivelse*:
```
Olaf Ryes plass, langs Sofienberggate
Vår Frelsers gravlund, langs Ullevålsveien
...
```
- Skriv ut informasjon om de 50 første turene, på følgende form:
```

Tur 1:
Fra: Studenterlunden
Til: Bjerregaards gate
Varighet: 1045 sekunder

Tur 2:
Fra: Rostockgata
Til: Landstads gate
Varighet: 661 sekunder

Tur 3:
Fra: Vår Frelsers gravlund
Til: Olaf Ryes plass
Varighet: 718 sekunder

...
```

*Utfordring: Skriv ut varighet som antall minutter og sekunder.*

## Statistiske utregninger

**Oppsummering.** I denne seksjonen har vi lært hvordan man kan gjøre enkle statistiske operasjoner. På eksempeldataene fra *Oslo Bysykkel* har vi sett hvordan sykkelturene er fordelt på stasjoner, samt funnet følgende statiske verdier for varigheten av sykkelturene; gjennomsnitt, median, maksimum og minimum. Vi kan sammenligne statiske verdier for ulike utvalg av sykkelturer, og slik finne tendenser i dataene. 

## Håndtering av dato og tid

Nå ønsker vi å finne ut hvor mange som sykler mellom 7 og 10 på hverdager. Det må vi gå gjennom alle sykkelturer, og trekke ut turene som tilfredsstiller kravene. 

La oss for eksempel se på den tusende turen i Juni 2023:

In [9]:
print(json.dumps(trips[1000], indent=4))

{
    "started_at": "2023-07-01 10:07:16.682000+00:00",
    "ended_at": "2023-07-01 10:27:10.715000+00:00",
    "duration": 1194,
    "start_station_id": "464",
    "start_station_name": "Sukkerbiten",
    "start_station_description": "ved gangbroen",
    "start_station_latitude": 59.905124380703484,
    "start_station_longitude": 10.753763553726515,
    "end_station_id": "440",
    "end_station_name": "Lakkegata",
    "end_station_description": "ved Sundtkvartalet",
    "end_station_latitude": 59.9172088,
    "end_station_longitude": 10.7622135
}


Hva må vi få programmet vårt til å gjøre? Vi må sjekke om datostrengen `"2023-07-01 10:27:10.715000+00:00"` tilfredsstiller kravene, nemlig at det er en hverdag og mellom klokken 7 og 10!

Som et eksempel kan vi hente årstallet fra datostrengen:

In [10]:
my_date_string = "2023-07-01 10:27:10.715000+00:00"
year = int(my_date_string[:4])
print(year)

2023


Her har vi hentet ut de fire første tegnene i datostrengen, og konvertert det til et heltall. Denne metoden vil alltid fungere, fordi alle datostrengne er skrevet i samme format. Å hente ut informasjon fra slike strenger kalles *parsing*. 

Det finnes mange Python-pakker som kan brukes til parsing av bestemte formater. For eksempel, ved å søke etter *python parse date and time*, vil du antagelig komme over pakken [*datetime*](https://docs.python.org/3/library/datetime.html). 

En vanlig virkemåte for slike pakker er at vi kan konvertere en streng til et objekt. I vårt tilfelle kan vi bruke *datetime* til å konvertere en datostreng til et Python-objekt: 

In [11]:
from datetime import datetime
my_date_object = datetime.fromisoformat("2023-07-01 10:27:10.715000+00:00")

Et Python-objekt er kort sagt en enhet som består av variabler og funksjoner. Objektet `my_date_object` består for eksempel av følgende variabler: 

In [12]:
print(my_date_object.year)
print(my_date_object.month)
print(my_date_object.day)
print(my_date_object.hour)
print(my_date_object.minute)

2023
7
1
10
27


Objektet har funksjoner som utfører bestemte operasjoner på variablene. For eksempel finnes en funksjon som regner ut hvilken ukedag datoen svarer til: 

In [13]:
print(my_date_object.weekday())

5


Her må vi lese [dokumentasjonen](https://docs.python.org/3/library/datetime.html#datetime.datetime.weekday) for å forstå at ukedagene er nummerert fra 0 til 6. Tallet 5 betyr altså lørdag! 

Nå kan vi gå gjennom alle sykkelturer og dele dem inn i to lister, avhengig av om turen skjedde på hverdag eller helg:

In [14]:
weekday_trips = []
weekend_trips = []

n = len(trips)
for i in range(n):
    date_string = trips[i]["started_at"]
    date_object = datetime.fromisoformat(date_string)
    if date_object.weekday() < 5: 
        weekday_trips.append(i)
    else:
        weekend_trips.append(i)

print(weekday_trips[:10])
print(weekend_trips[:10])

[6989, 6990, 6991, 6992, 6993, 6994, 6995, 6996, 6997, 6998]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Her har vi laget to lister, `weekday_trips` og `weekend_trips`, og vi har printet ut de ti første turene i hver liste. I disse listene har vi kun lagret indeksen til turene! Dersom vi ønsker mer informasjon om en bestemt tur, for eksempel tur nummer 6989, kan vi hente dette i variabelen `trips`:

In [15]:
print(trips[6989])

{'started_at': '2023-07-03 03:06:45.130000+00:00', 'ended_at': '2023-07-03 03:13:54.871000+00:00', 'duration': 429, 'start_station_id': '403', 'start_station_name': 'Parkveien', 'start_station_description': 'ved trikkestoppet', 'start_station_latitude': 59.921768, 'start_station_longitude': 10.730476, 'end_station_id': '609', 'end_station_name': 'Fred Olsens gate', 'end_station_description': 'ved Karl Johans gate', 'end_station_latitude': 59.9110506, 'end_station_longitude': 10.7493737}


På samme måte kan vi hente turer som startet mellom 7 og 10:

In [16]:
morning_trips = []

n = len(trips)
for i in range(n):
    date_string = trips[i]["started_at"]
    date_object = datetime.fromisoformat(date_string)
    if date_object.hour >= 7 and date_object.hour <= 10: 
        morning_trips.append(i)

print(morning_trips[:10])

[190, 191, 192, 193, 194, 195, 196, 197, 198, 199]


Målet vårt var å hente alle turer som startet på en hverdag mellom 7 og 10. Da må vi hente turene som er i både `weekday_trips` og i `morning_trips`! Dette kan gjøres effektivt hvis vi først konverterer listene til *mengder* (*sets*): 

In [17]:
weekday_trips = set(weekday_trips)
morning_trips = set(morning_trips)

*En mengde er det samme som en liste, bortsett fra at den ikke er sortert, så vi ikke kan hente elementer med indekser.*

Nå kan vi bruke en spesiell operasjon som henter de elementene som finnes i begge mengdene:

In [18]:
weekday_morning_trips = weekday_trips & morning_trips

Resultatet er en ny mengde, og vi kan konvertere denne tilbake til en liste:

In [19]:
weekday_morning_trips = list(weekday_morning_trips)
print(weekday_morning_trips[:10])

[114883, 127533, 127388, 127909, 114884, 127389, 127910, 114885, 128117, 127390]


Nå kan vi sjekke hvor mange turer som ble gjort mellom 7 og 10 på hverdager:

In [20]:
k = len(weekday_morning_trips)
n = len(trips)

print(k)
print(n)
print(k/n)

18763
131381
0.14281364885333495


Her ser vi at 18.763 turer ble gjort på hverdager mellom 7 og 10, og at dette utgjør omtrent 14.3 % av alle turer. 

Hva om vi nå ønsker å finne gjennomsnittlig varighet for alle turer som ble gjort på hverdager mellom 7 og 10? 

**Oppsummering.** I denne seksjonen har vi lært følgende: 
- *Parsing* er å hente ut informasjon fra strenger som er skrevet i et strukturert format.
- Det finnes Python-pakker for parsing av kjente strengformater.
- Python-pakken *datetime* kan brukes til å hente informasjon fra en standard datostreng, som for eksempel *2023-07-03 03:06:45.130000+00:00*.

I vårt eksempel brukte vi *datetime* til å hente sykkelturer som startet mellom 7 og 10 på en hverdag. 

**Aktivitetsforslag:**

Opprett variabelen `evening_weekend_trips`, som skal være en liste over alle turer som ble gjort på kveldstid i helger, det vil si mellom 20 og 24 på enten fredag, lørdag eller søndag. Listen trenger kun å inneholde indeksen til de aktuelle turene. 

Hvor mange slike turer finnes og hvor stor prosentandel utgjør de? 

## Håndtering av geografisk data

Hvordan kan vi behandle geografiske koordinater i Python? For eksempel, hvordan kan vi finne ut hvor mange som sykler en lengre distanse for å komme til Oslo sentrum? Er det mulig å hente alle turer som er lengre enn tre kilometer og ender på en stasjon i sentrum? 

La oss igjen se på en tilfeldig tur:

In [21]:
print(json.dumps(trips[1000], indent=4))

{
    "started_at": "2023-07-01 10:07:16.682000+00:00",
    "ended_at": "2023-07-01 10:27:10.715000+00:00",
    "duration": 1194,
    "start_station_id": "464",
    "start_station_name": "Sukkerbiten",
    "start_station_description": "ved gangbroen",
    "start_station_latitude": 59.905124380703484,
    "start_station_longitude": 10.753763553726515,
    "end_station_id": "440",
    "end_station_name": "Lakkegata",
    "end_station_description": "ved Sundtkvartalet",
    "end_station_latitude": 59.9172088,
    "end_station_longitude": 10.7622135
}


Vi har følgende posisjoner: 

Start: *59.91944043984847, 10.7437646218726*   
Slutt: *59.922425, 10.758182*

Vi har ikke noe informasjon om hvilken rute syklisten tok mellom de to stasjonene, men som en forenkling kan vi regne ut avstanden mellom start -og sluttposisjonen. I Python kan vi bruke pakken [*GeoPy*](https://geopy.readthedocs.io/en/stable/) for å regne ut avstanden mellom to koordinater: 

In [22]:
from geopy import distance

start = (59.91944043984847, 10.7437646218726)
end = (59.922425, 10.758182)

d = distance.distance(start, end)

print(d.km)

0.8722726079461717


Forklaring:

1. Vi importerer den relevante delen av pakken *GeoPy*. Merk at *GeoPy* først må installeres med kommandoen `pip install geopy`på din maskin. 
2. Vi definerer de geografiske punktene som variabler. Et punkt defineres som et tuppel med skrivemåten `start = (latitude, longitude)`.
3. Vi regner ut avstanden mellom to punkter ved å bruke skrivemåten `d= distance.distance(start, end)`.
4. Variabelen `d` er nå et Python-objekt som inneholder ulike verdier, for eksempel avstanden i kilometer (`d.km`) eller avstanden i miles (`d.miles`). Resultatet svarer til den *[geodetiske kurven](https://no.wikipedia.org/wiki/Geodetisk_kurve)* mellom de to punktene.

Vi ser at den geodesiske avstanden mellom de to stasjonene er omtrent 0.87 km. Resultatet forteller oss at sykkelturen var **minst** 0.87 km. 

Vi kan bruke denne metoden til å hente alle turer som var **minst** 3 km: 

In [23]:
long_trips = []

n = len(trips)
for i in range(n):
    t = trips[i]
    start = (t["start_station_latitude"], t["start_station_longitude"])
    end = (t["end_station_latitude"], t["end_station_longitude"])
    d = distance.distance(start, end)
    if d.km > 3:
        long_trips.append(i)

print(long_trips[:10])

k = len(long_trips)
print(k)
print(k/n)

[3, 6, 37, 40, 60, 74, 78, 143, 163, 166]
11791
0.08974661480731613


Som i forrige seksjon lagrer vi kun indeksen til de aktuelle turene, siden all annen informasjon kan hentes i variabelen *trips*. Fra utskriften ser vi at 11791 turer var minst tre kilometer, og at dette utgjør omtrent 9% av alle turer.

Vi ønsket lange turer som ender i sentrum av Oslo. Dersom vi går inn på [*Google Maps*](https://www.google.no/maps/place//@59.9105115,10.7484254,17z) og høyreklikker på *Oslo S*, kan vi kopiere koordinatene og legge dem i en Python-variabel:

In [24]:
oslo_s = (59.91085305987858, 10.750512158605307)

Som en forenkling kan vi nå hente alle turer som endte i en viss nærhet til Oslo S. For eksempel kan vi kreve at endestasjonen er mindre enn 1 km fra Oslo S. 

In [25]:
trips_to_city_centre = []

n = len(trips)
for i in range(n):
    t = trips[i]
    end = (t["end_station_latitude"], t["end_station_longitude"])
    d = distance.distance(oslo_s, end)
    if d.km < 1:
        trips_to_city_centre.append(i)

print(trips_to_city_centre[:10])

k = len(trips_to_city_centre)
print(k)
print(k/n)

[4, 5, 6, 8, 11, 12, 14, 15, 16, 19]
44896
0.34172368911790896


Vi ser at omtrent 34.2% av turene endte i nærheten av *Oslo S*. Denne koden tok en del tid å kjøre, fordi vi gikk gjennom over 130.000 turer og gjorde en avstandsberegning hver gang. Men fra tidligere vet vi at det bare finnes 266 sykkelstasjoner:

In [26]:
print(len(stations))

266


Alt vi trenger er å regne ut avstanden til *Oslo S* én gang for hver stasjon! 

Variabelen `stations` inneholder en dictionary på følgende form: 

```json
{
    "551": {
        "name": "Olaf Ryes plass",
        "description": "langs Sofienberggata",
        "latitude": 59.922425,
        "longitude": 10.758182  
    },
    "384": {
        "name": "V\u00e5r Frelsers gravlund",
        "description": "langs Ullev\u00e5lsveien",
        "latitude": 59.91944043984847,
        "longitude": 10.7437646218726   
    },
    ...
}
```

Det vi ønsker er å legge til en ekstra attributt for hver stasjon, slik at vi ender opp med følgende dictionary:

```json
{
    "551": {
        "name": "Olaf Ryes plass",
        "description": "langs Sofienberggata",
        "latitude": 59.922425,
        "longitude": 10.758182,
        "distance_to_oslo_s": 1.3587591231552714
    },
    "384": {
        "name": "V\u00e5r Frelsers gravlund",
        "description": "langs Ullev\u00e5lsveien",
        "latitude": 59.91944043984847,
        "longitude": 10.7437646218726,
        "distance_to_oslo_s": 1.028501530622403
    },
    ...
}
```

Vi må altså gå gjennom hver stasjon, regne ut avstanden til *Oslo S*, og legge til dette som et ekstra attributt:

In [27]:
for id in stations.keys(): 
    s = stations[id]
    station_coordinates = (s["latitude"], s["longitude"])
    d = distance.distance(station_coordinates, oslo_s)
    stations[id]["distance_to_oslo_s"] = d.km

Nå kan vi enkelt hente avstanden fra en bestemt stasjon til *Oslo S*:

In [28]:
print(stations["384"]["distance_to_oslo_s"])

1.028501530622403


Nå som vi har lagret alle relevante avstander, kan vi mer effektivt hente alle turer som endte i nærheten av *Oslo S*:

In [29]:
trips_to_city_centre = []

n = len(trips)
for i in range(n):
    end_station_id = trips[i]["end_station_id"]
    d = stations[end_station_id]["distance_to_oslo_s"]
    if d < 1:
        trips_to_city_centre.append(i)

print(trips_to_city_centre[:10])

k = len(trips_to_city_centre)
print(k)
print(k/n)

[4, 5, 6, 8, 11, 12, 14, 15, 16, 19]
44896
0.34172368911790896


Målet vårt var å hente turer som både var lengre enn 3 km og endte i nærheten av *Oslo S*, altså turer som er i både listen `long_trips` og `trips_to_city_centre`. Da kan vi bruke samme metode som i forrige seksjon:

In [30]:
long_trips_to_city_centre =  set(long_trips) & set(trips_to_city_centre)
long_trips_to_city_centre = list(long_trips_to_city_centre)

Operasjonen `&` gir oss elementene som listene har til felles, men først må vi konvertere listene til mengder. I andre linje konverterer vi resultatet tilbake til en liste. 

In [31]:
print(long_trips_to_city_centre[:10])

k = len(long_trips_to_city_centre)
print(k)
print(k/n)

[6, 49158, 65545, 81933, 65553, 16406, 32793, 114714, 49186, 49188]
3056
0.023260593236464937


Her ser vi at 3056 turer, som utgjør omtrent 2.3% av alle turer, tilfredstiller begge kravene. 

**Oppsummering.** I denne seksjonen har vi lært følgende: 
* Hvordan vi kan lagre geografiske punkter som tupler av typen `(59.922425, 10.758182)`, og bruke `geopy` til å regne ut avstanden mellom punkter.
* Hvordan avstander kan lagres på en systematisk måte, slik at vi unngår å gjøre de samme utregningene mange ganger.

Vi har brukt dette til å hente alle sykkelturer som var minst 3 km og endte i Oslo sentrum. 

**Aktivitetsforslag 1:** 

Velg deg et geografisk punkt i Oslo og hent koordinatene tl punktet, for eksempel ved å høyreklikke på punktet i *Google Maps*. Gjør følgende oppgaver: 

1. Endre variabelen `stations` slik at den også inneholder avstanden fra stasjonene til ditt valgte punkt, på følgende måte:

```
{
    "551": {
        "name": "Olaf Ryes plass",
        "description": "langs Sofienberggata",
        "latitude": 59.922425,
        "longitude": 10.758182,
        "distance_to_my_point": 
    },
    "384": {
        "name": "V\u00e5r Frelsers gravlund",
        "description": "langs Ullev\u00e5lsveien",
        "latitude": 59.91944043984847,
        "longitude": 10.7437646218726,
        "distance_to_my_point": 
    },
    ...
}
```
Du kan selv velge navnet til det nye attributtet. 

Bruk avstandene du har lagret til å gjøre følgende oppgaver:

2. Opprett en liste med alle turer som **startet** i nærheten av ditt valgte punkt.
3. Opprett en liste med alle turer som **endte** i nærheten av ditt valgte punkt.
4. Opprett en liste med alle turer som **både** startet og endte i nærheten av stedet
5. Hvor mange turer finnes i hver av listene og hvor stor prosentandel utgjør de?

**Aktivitetsforslag 2 (utfordring)** 

Vi ønsker nå å legge til følgende informasjon i variabelen `stations`: 

```json
{
    "551": {
        "name": "Olaf Ryes plass",
        "description": "langs Sofienberggata",
        "latitude": 59.922425,
        "longitude": 10.758182,
        "distance_to_other_stations": {
            "387": 1.5424618400028995,
            "499": 0.7591003631405512,
            "2315": 1.731562337348591,
            "410": 0.8739156584845489,
            ...
        }
    },
    ...
}
```
For hver stasjon skal du altså opprette attributtet *distance_to_other_stations*, der du skal lagre avstanden til alle andre stasjoner. Husk at for å gå gjennom alle stasjoner kan du bruke løkken:

In [32]:
for id in stations.keys(): 
    s = stations[id]       

Bruk avstandene du har lagret til å hente alle turer som var minst 3 km.

## Tillegg: Geografiske områder

**Definere geografiske områder.** Hva om vi ønsker å selv definere et område og hente alle turer som endte i dette området? Under kan du se et eksempel på et område:

<img src="../fig3/oslo_region.png" width="300">

Dette området kan defineres i Python på følgende måte: 

In [33]:
from shapely.geometry import Point, Polygon, MultiPolygon

corners = [(59.92065829373027, 10.705038426191948),
           (59.904743048315424, 10.707183476660077),
           (59.902591754210164, 10.73549814283615),
           (59.89979486351757, 10.782689253130059),
           (59.91162625297167, 10.78826638434711),
           (59.92818311704261, 10.76896093013562),
           (59.93140751894279, 10.725201900590633)]

my_area = Polygon(corners)

Alt vi trenger å gjøre er å definere *hjørnepunktene* som en liste av koordinater. Disse hjørnepunktene danner en mangekant (*polygon*), og det er området innenfor mangekanten vi er interessert i. For å definere dette området bruker vi funksjonen ´ `Polygon(corners)`, som vi henter fra Python-pakken [*shapely*](https://shapely.readthedocs.io/en/stable/manual.html). Denne pakken brukes til å gjøre operasjoner på geometriske objekter, slik som punkter, linjer og mangekanter. Pakken må lastes ned på din maskin med kommandoen `pip install shapely`. 

Når vi har definert det geometriske objektet, gir `shapely` oss en rekke funksjoner, blant annet å sjekke om et punkt ligger innenfor objektet. Vi kan altså sjekke om et geografisk punkt ligger innenfor området vi definerte ovenfor: 

In [34]:
oslo_s = Point(59.91085305987858, 10.750512158605307)
vigelandsparken = Point(59.9286828181158, 10.697803494202565)

print(oslo_s.within(my_area))
print(vigelandsparken.within(my_area))

True
False


Resultatet er at *Oslo S* ligger innenfor vårt definerte område, mens *Vigelandsparken* ligger utenfor området. Metoden for å sjekke om et punkt ligger innenfor et område er altså: 
1. Definer området med kommandoen `my_area = Polygon(corners)`, der `corners` er en liste av koordinater. 
2. Definer punktet med kommandoen `my_point = Point(longitude, latitude)`. Her må vi bruke `Point()`-funksjonen, som vi importerer fra `shapely`. 
3. Bruk kommandoen `my_point.within(my_area)`. Dersom resultatet er `True`, betyr det at punktet er innenfor området, og dersom resultatet er `False` er punktet utenfor området.

Vi kan bruke en `if`-setning til å bestemme hva som skal gjøres hvis vi får et positivt resultat:

In [35]:
if oslo_s.within(my_area):
    print("Oslo S er innenfor mitt område!")

Oslo S er innenfor mitt område!


Det er også mulig å definere et område som består av flere mangekanter, som i figuren under: 

<img src="../fig3/oslo_regions.png" width="300">

For å definere dette området kan vi først definere de to mangekantene hver for seg, for eksempel med variabelnavnene `my_area1` og `my_area2`. Deretter kan vi kombinere disse med kommandoen `my_combined_area = MultiPolygon(my_area1, my_area2)`. 

**Hente sykkelturer innenfor et område.** Hva om vi nå ønsker å hente sykkelturer som både startet og endte innenfor området `my_area`, som vi definerte ovenfor? Vi går gjennom hver tur, definerer start -og endepunktet, og sjekker om begge er innenfor området: 

In [36]:
print(trips[0])

{'started_at': '2023-07-01 01:22:38.878000+00:00', 'ended_at': '2023-07-01 01:40:04.748000+00:00', 'duration': 1045, 'start_station_id': '387', 'start_station_name': 'Studenterlunden', 'start_station_description': 'langs Karl Johan', 'start_station_latitude': 59.914586, 'start_station_longitude': 10.735453, 'end_station_id': '499', 'end_station_name': 'Bjerregaards gate', 'end_station_description': 'ovenfor Fredrikke Qvams gate', 'end_station_latitude': 59.925488, 'end_station_longitude': 10.746058}


**Oppsummering.** I denne seksjonen har vi lært hvordan vi definerer et geografisk område i Python, og vi har sett hvordan vi kan sjekke om et geografisk punkt er innenfor et område.

**Aktivitetsforslag 1** 

1. Gå inn på [*geojson.io*](https://geojson.io/#map=10.68/59.9195/10.7298) og bruk funksjonen *Draw polygon* til å markere ett eller flere områder. Last deretter ned *GeoJSON*-filen med menyvalget *Save - GeoJSON*.
2. Opprett en liste som inneholder alle turene som endte i ditt valgte område. Hvor stor prosentandel utgjør dette av alle turer? 

**Aktivitetsforslag 2** Bruk [*geojson.io*](https://geojson.io/#map=10.68/59.9195/10.7298) til å lage to *GeoJSON*-filer: `startregion.geojson` og `enderegion.json`. Opprett en liste over alle turer som starter i det første området og slutter i det andre området. Hvor stor prosentandel utgjør dette av alle turer? 

## Gruppering av data (fjern)

**Gruppering etter time.** Vi kan gå mer systematisk til verks for å gruppere sykkelturene. For eksempel kan vi definere en kategori for hver klokketime:

```json
{
    0: "turer som startet 00:00-00:59",
    1: "turer som startet 01:00-01:59",
    2: "turer som startet 02:00-02:59",
    ...
    23: "turer som startet 23:00-23:59"
}
```
Merk at vi har gitt både en nøkkel og en beskrivelse til hver kategori. 

Nå ønsker vi å opprette en dictionary med de samme nøklene: 

In [37]:
trips_by_hour = {}

for hour in range(0, 24):
    key = hour
    trips_by_hour[key] = []

pp.pprint(trips_by_hour)

{   0: [],
    1: [],
    2: [],
    3: [],
    4: [],
    5: [],
    6: [],
    7: [],
    8: [],
    9: [],
    10: [],
    11: [],
    12: [],
    13: [],
    14: [],
    15: [],
    16: [],
    17: [],
    18: [],
    19: [],
    20: [],
    21: [],
    22: [],
    23: []}


Nå ønsker vi å plassere turene på de riktige nøklene. La oss for eksempel se på den første turen: 

In [38]:
pp.pprint(trips[0])

{   'duration': 1045,
    'end_station_description': 'ovenfor Fredrikke Qvams gate',
    'end_station_id': '499',
    'end_station_latitude': 59.925488,
    'end_station_longitude': 10.746058,
    'end_station_name': 'Bjerregaards gate',
    'ended_at': '2023-07-01 01:40:04.748000+00:00',
    'start_station_description': 'langs Karl Johan',
    'start_station_id': '387',
    'start_station_latitude': 59.914586,
    'start_station_longitude': 10.735453,
    'start_station_name': 'Studenterlunden',
    'started_at': '2023-07-01 01:22:38.878000+00:00'}


Turen med indeks 0 skjedde altså på tidspunktet *01:40:04*, og vi ønsker derfor å plassere den på nøkkelen 1: 

```json
{
    0: [],
    1: [0],
    2: [],
    ...
}
```

Vi kan få programmet vårt til å gjøre dette med følgende kode: 

In [39]:
i = 0
t = trips[i]
time = datetime.fromisoformat(t["started_at"])
key = time.hour
trips_by_hour[key].append(i)

Med denne koden gjør vi følgende operasjoner: 

* Linje 1-2: Vi henter den første turen.    
* Linje 3: Vi henter datostrengen.    
* Linje 4: Vi henter timen.    
* Linje 5: Før punktum går vi inn på den riktige nøkkelen i vår dictionary. På denne nøkkelen finner vi en liste. Etter punktum legger vi turen til i lista. Som vanlig holder det å legge til indeksen til turen. 

Nå kan vi gå gjennom alle turene og plassere dem på riktig nøkkel: 

In [40]:
n = len(trips)
for i in range(n):
    t = trips[i]
    start_time = datetime.fromisoformat(t["started_at"])
    key = start_time.hour
    trips_by_hour[key].append(i)

Nå har vi gruppert alle turene etter hvilken klokketime de startet! For eksempel kan vi gå inn på indeks 19 for å hente alle turer som startet mellom *19:00* og *19:59*: 

In [41]:
trips_at_19 = trips_by_hour[19]

k = len(trips_at_19)
n = len(trips)

print(k)
print(k/n)

5385
0.040987661838469795


Vi ser at omtrent 4 % av alle turer skjedde mellom *19:00* og *19:59*. 

**Gruppering etter ukedag.** Som et annet eksempel kan vi gruppere turene etter hvilken dag i uken turen startet. Vi starter igjen med å definere kategoriene: 

```json
{
    0: "turer som startet på en mandag",
    1: "turer som startet på en tirsdag",
    2: "turer som startet på en onsdag",
    3: "turer som startet på en torsdag",
    4: "turer som startet på en fredag",
    5: "turer som startet på en lørdag",
    6: "turer som startet på en søndag"
}
```

Vi oppretter en dictionary med de samme nøklene:

In [42]:
trips_by_weekday = {
    0: [],
    1: [],
    2: [],
    3: [],
    4: [],
    5: [],
    6: []
}

*Vi kan opprette en dictionary i Python ved å skrive innholdet direkte innenfor krøllparenteser `{}`.*

Nå ønsker vi å gå gjennom alle turene og plassere dem på riktig indeks. La oss for eksempel se på turen med indeks 5000: 

In [43]:
t = trips[50000]
start_time = datetime.fromisoformat(t["started_at"]) 
weekday = start_time.weekday()
print(weekday)

1


Som forklart i [dokumentasjonen](https://docs.python.org/3/library/datetime.html#datetime.date.weekday) til Python-pakken *datetime*, så er ukedagene nummerert fra 0 til 6. Turen med indeks 50000 startet altså på en tirsdag, og den kan plasseres i riktig kategori med kodelinjen `trips_by_weekday[1].append(50000)`, som vil oppdatere vår dictionary på følgende måte:

```json
{
    0: [],
    1: [50000, ...],
    ...
}
```
Vi går gjennom alle turer og plasserer dem i riktig attributt: 

In [44]:
n = len(trips)
for i in range(n):
    t = trips[i]
    start_time = datetime.fromisoformat(t["started_at"])
    key = start_time.weekday()
    trips_by_weekday[key].append(i)

Nå kan vi for eksempel printe ut alle turer som skjedde på en søndag:

In [45]:
sunday_trips = trips_by_weekday[6]

k = len(sunday_trips)
n = len(trips)

print(k)
print(k/n)

14751
0.11227650877980834


Her ser vi at omtrent 11% av alle turer startet på en søndag. 

**Oppsummering.** I denne seksjonen har vi sett hvordan vi kan gruppere data på en systematisk måte. Vi har gruppert sykkelturene på to måter: 
- I variabelen `trips_by_hour` er turene gruppert etter hvilken time på dagen de startet.
- I variabelen `trips_by_weekday` er turene gruppert etter hvilken ukedag de startet.

**Aktivitetsforslag 1.** 

Vi definerer følgende kategorier: 

```json
{
    0: "turer med varighet under 60 minutter",
    1: "turer med varighet 60 minutter eller mer"
}
```
Opprett variabelen `trips_by_duration` med følgende innhold: 
```json
{
    0: [],
    1: []
}
```
Gå gjennom alle turer i listen `trips`, og plasser dem på riktig nøkkelen (`0` eller `1`) avhengig av varigheten til turen. Husk at når du henter 

*Hint 1: Bruk en *if-else*-setning for å finne den riktige nøkkelen, avhengig av varigheten til turen.*

*Hint 2: Husk at varigheten er gitt som antall sekunder i dataene. For å sjekke om antall minutter er mindre enn 60, kan du sjekke om antall sekunder er mindre enn $60\cdot 60 = 3600*.

*Dersom du ønsker, kan du lage mer detaljerte kategorier, for eksempel:*
* *mellom 0 og 29 minutter*
* *mellom 30 og 59 minutter*
* *mellom 60 og 89 minutter*
* *mellom 90 og 119 minutter*
* *over 120 minutter*

**Aktivitetsforslag 2.** I denne oppgaven skal du gruppere turene etter distanse. Definer dine egne kategorier, for eksempel: 
* 0-1 km
* 1-2 km
* 2-3 km
* 3+ km

Opprett variabelen `trips_by_distance`og følg samme fremgangsmåte som i oppgaven ovenfor. 

## Statistiske utregninger (fjern)

Hvordan kan vi regne ut hva som er gjennomsnittlig varighet til en sykkeltur i datamengden vår? Den grunnleggende formelen er å summere varigheten til alle sykkelturene, og deretter dele på antall turer:

In [46]:
n = len(trips)

Diverse opptellingsoppgaver kan gjøres med løkker i Python:
    
* Kategorisere data
* Summarisk stastikk: antall registreringer, frekvenser, gjennomsnittsverdier, (medianverdier)
* Sammenligne relevante kategorier

Gi svar på oppgavene gitt i seksjonen om Oslo bysykkel.