# DO2021: Eksamensprojekt kode
*Af Anders Reinholdt Sindberg & Albert Neve Alsbjerg*

## Indholdsfortegnelse
1. Indledning
2. Web Scraping: Hent af data fra DSB's hjemmeside
3. "..."
4. "..."

## Indledning
**`Note: Dette er bare udkast til indledning. Når vi har overblikket kan vi skrive det ordenligt (og tilføje til listen over data vi burger) `**

Både DSB og Banedanmark har et mål om at forbedre punktligheden. Dertil foreslår Banedanmark en “forenkling” af Københavns Hovedbanegård, der indebære en ombygning af togsporene.

Hvorfor er det først efter 23 år med store problemer med punktligheden og store udgifter på KBH, at banedanmark foreslår en løsningsplan på?

Denne notebook vil gennemgå kode og dataanalyse nødvendig til at belyse ovenstående. Det kræver følgende data:
* Historisk data over togpunktlighed på Hovedbanegården
* Nuværende omkostninger 
* Simuleringsdata over gevinster ved forenkling af Hovedbanegården

### Klargøring
Til behandling af vores data vil vi bruge følgende biblioteker:
- **pandas** til [...]
- **requests** til at forbinde til en webside 
- **beautifulsoup** og **regex** til parsing af data fra web scraping.
- **time** til at formindske fejl i koden


In [2]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import re
# selenium bruges pt. ikke, slet herfra inden aflevering
# import selenium
import time

## Togpunktlighed: Web scraping
Historisk data over togpunktlighed og kompensationsgrad hentes fra DSB's hjemmeside.

Ved at inspicere hjemmesiden kan det ses, at data'en er opdelt i måned og år. Yderligere er data'en opdelt efter strækning, hvor der på hver strækning findes data for mål for kundepunktligheden, den faktiske punktlighed og kompensationen i procent.

Dette data vil blive hentet og gemt i et dataframe.

#### Den relevante data lokeres i html fra hjemmesiden
Ved brug af `requests`og `beautifulsoup` vil hjemmesidens html data blive hentet og parset, hvorefter den relevante data vil blive gemt i et `pandas` dataframe.

Først hentes html fra den relevante side hos DSB og gemmes med `beautifulsoup`:

In [3]:
# URL til data'en på DSB's hjemmeside indlæses, hentes, og gemmes som beuatifulsoup objekt:
url = "https://www.dsb.dk/find-produkter-og-services/dsb-rejsetidsgaranti/dsb-pendler-rejsetidsgaranti/kompensationsstorrelse/trafikdata-for-fr---ny/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
soup


<!DOCTYPE html>

<!--[if lt IE 8 ]>				<html class="ie lt-ie8 lt-ie9 lt-ie10 no-js" lang="da"> <![endif]-->
<!--[if IE 8 ]>					<html class="ie ie8 lt-ie9 lt-ie10 no-js" lang="da"> <![endif]-->
<!--[if IE 9 ]>					<html class="ie ie9 lt-ie10 no-js" lang="da"> <![endif]-->
<!--[if (gt IE 9)|!(IE)]><!-->
<html class="no-js" lang="da">
<!--<![endif]-->
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0" name="viewport"/>
<meta content="telephone=no" name="format-detection"/>
<title>
        DSB | Trafikdata for Fjern- og regionaltog - kundepunktlighed
    </title>
<meta content="Her finder du trafikdata for kundepunktligheden på din strækning opgjort på månedsbasis. Se din kompensationsgrad her." id="PageDescriptionID" name="description"/>
<script id="dsb-cached-fonts" type="text/javascript">
        !function(a){"use strict";function c(a,b,c){a.addEventListener?a.addEventListener(b

Ved at inspicere html data kan det ses, at html'en er opdelt i måned og år. Yderligere er html'en opdelt efter strækning, hvor der på hver strækning findes data for mål for kundepunktligheden, den faktiske punktlighed og kompensationen i procent.

Først gemmes en liste med html data over hvert år. Ved at inspicere html ovenfor ses det, at disse gemmes i `section` med `class`kaldet `customer-service__contact`:

In [4]:
year_sections = soup.find_all('section', attrs={'class':'customer-service__contact'})

#eksempel html på seneste år printes:
year_sections[0]

<section class="customer-service__contact">
<div>
<div class="container">
<h2 class="text--title--h2">
                    2021
                </h2>
</div>
</div>
<div class="customer-service__contact-info show-all--open" style="display: block">
<div class="container">
<div class="customer-service__contact-info-table">
<div class="customer-service__contact-info-column"><div><section>
<div class="contentblock background-white inline-campaign">
<div class="container">
<div class="inline-campaign__content">
<div class="inline-campaign__title">
<h2>
                            September
                        </h2>
</div>
<div class="inline-campaign__body text--wysiwyg">
<table border="1" style="height: 324px;">
<tbody>
<tr style="height: 18px;">
<td style="height: 18px; width: 190.8px;"><strong>Strækning</strong></td>
<td style="height: 18px; width: 186.8px;"><strong>Mål for kundepunktlighed</strong></td>
<td style="height: 18px; width: 64.4px;"><strong>September 21</strong></td>
<td st

#### Årstal
Hvert årstal gemmes som en header `h2` med `class` `text--title--h2`. Dog gemmes denne `string` med tomme linjer før og efter, som skal fjernes. 

Nedenfor ses eksempel:

In [7]:
# eksempel på udtræk af årstal:
year_sections[0]\
        .find('h2',attrs={'class':'text--title--h2'})\
        .text\
        .replace("\r\n","")\
        .strip()

'2021'

#### Måned
Under hvert år gemmes den relevante data for hver måned i en `div` container kaldet `inline-campaign__content`. Et eksempel på dette følger: 

In [19]:
# eksempel på html-udtræk på seneste opgjorte måned i 2021:
year_sections[0].find_all('div', attrs={'class':'inline-campaign__content'})[0]

<div class="inline-campaign__content">
<div class="inline-campaign__title">
<h2>
                            September
                        </h2>
</div>
<div class="inline-campaign__body text--wysiwyg">
<table border="1" style="height: 324px;">
<tbody>
<tr style="height: 18px;">
<td style="height: 18px; width: 190.8px;"><strong>Strækning</strong></td>
<td style="height: 18px; width: 186.8px;"><strong>Mål for kundepunktlighed</strong></td>
<td style="height: 18px; width: 64.4px;"><strong>September 21</strong></td>
<td style="height: 18px; width: 114px;"><strong>Kompensation</strong></td>
</tr>
<tr style="height: 18px;">
<td style="height: 18px; width: 190.8px;">København -  Roskilde</td>
<td headers="N1002A" style="height: 18px; width: 186.8px;">86,8%</td>
<td headers="N1002E" style="height: 18px; width: 64.4px;">87,2%</td>
<td headers="N10033" style="height: 18px; width: 114px;">0,0%</td>
</tr>
<tr style="height: 18px;">
<td style="height: 18px; width: 190.8px;">København -  Kalundb

Hertil kan det aflæses, at måneden som tekst kan findes i noden `h2` og at denne ligeledes som årstallet gemmes som en string med tomme linjer før og efter, som skal fjernes.

Et eksempel på dette følger:

In [35]:
#eksempel på udtræk af måned i tekst
year_sections[0]\
    .find_all('div', attrs={'class':'inline-campaign__content'})[0]\
    .find('h2')\
    .text\
    .replace("\r\n","")\
    .strip()

'September'

#### Strækning
Det er nu muligt at finde de relevante data på de enkelte strækinger. Det kan af ovenstående html udledes, at den ønskede data gemmes i en node `tr`. Disse er rækkerne i den ønskede data. Den første række indeholder overskrifter og må derfor springes over.

Et eksempel på html-udtræk af første strækning følger:

In [24]:
year_sections[0]\
        .find_all('div', attrs={'class':'inline-campaign__content'})\
        [0]\
        .find_all('tr')[1]

<tr style="height: 18px;">
<td style="height: 18px; width: 190.8px;">København -  Roskilde</td>
<td headers="N1002A" style="height: 18px; width: 186.8px;">86,8%</td>
<td headers="N1002E" style="height: 18px; width: 64.4px;">87,2%</td>
<td headers="N10033" style="height: 18px; width: 114px;">0,0%</td>
</tr>

#### Udtræk af data
Det er nu muligt at få den ønskede data hentet ud. Det kan udledes, at af ovenstående node `tr` har fire *children* af noden `td`. Disse indeholder i rækkefølge:
1. Navn på strækning
2. Mål for kundepunktlighed
3. Den faktiske punktlighed på strækningen i det pågældende år og måned
4. Kompensation i procent

Nedenfor følger et eksempel på hvordan disse data hentes ud:

In [29]:
# eksempel udtræk fra september 2021
test_sep21 = year_sections[0]\
                .find_all('div', attrs={'class':'inline-campaign__content'})\
                [0]\
                .find_all('tr')[1]\
                .find_all('td')

print("Eksempel udtræk:")
print("Strækning: " + test_sep21[0].text)
print("Mål for punktlighed: " + test_sep21[1].text)
print("Faktisk punktlighed: " + test_sep21[2].text)
print("Kompensation: " + test_sep21[3].text)

Eksempel udtræk:
Strækning: København -  Roskilde
Mål for punktlighed: 86,8%
Faktisk punktlighed: 87,2%
Kompensation: 0,0%


### Eksport til dataframe
Ovenstående gør det nu muligt at udtrække data'en og gemme i et dataframe. Den data der ønskes udtrækket er følgende:
- Årstal
- Måned
- Mål for kundepunktlighed
- Den faktiske punktlighed på strækningen
- Kompensation i procent

Dette gemmes i et samlet dataframe.

In [49]:
#initiér tid til debug
start_time = time.time()

#en tom liste oprettes for hvert af de ønskede data, der hver skal have sin egen kolonne i dataframet
year = []
month = []
train_line = []
goal = []
actual = []
compensation = []

#midlertiddige variable på årstal & måned oprettes til brug i loop
this_year = ""
this_month = ""

#et loop startes for hvert sektion af år på hjemmesiden 
#disse er allerede hentet og gemt i en liste kaldet year_sections
for i in range(len(year_sections)):
    #årstalet gemmes
    this_year = year_sections[i]\
                    .find('h2',attrs={'class':'text--title--h2'})\
                    .text\
                    .replace("\r\n","")\
                    .strip()
    
    #en liste over hver måned for pågældende år
    month_sections = year_sections[i].find_all('div', attrs={'class':'inline-campaign__content'})
    
    #hver måned loopes igennem
    for j in range (len(month_sections)):
        #måneden gemmes
        this_month = month_sections[j]\
                        .find('h2')\
                        .text\
                        .replace("\r\n","")\
                        .strip()
        
        #Det er nu muligt at loope yderligere gennem hver strækning
        #en liste over toglinjer defineres
        line_sections = month_sections[j].find_all('tr')
        
        #disse loopes igennem, hvor første springes over, da denne indholder kolonne navne
        for k in range (len(line_sections)-1):
            #det er nu muligt at udtrække den ønskede data
            #disse ligger i 4 children under toglinjen, som gemmes i en liste:
            data_sections = line_sections[k+1].find_all('td')
            
            #dataen kan nu gemmes
            year.append(this_year)
            month.append(this_month)
            train_line.append(data_sections[0].text)
            goal.append(data_sections[1].text)
            actual.append(data_sections[2].text)
            compensation.append(data_sections[3].text)
                

#DataFrame konstrueres
df_punktlighed = pd.DataFrame({'Årstal':year,
                               'Måned':month,
                               'Togstrækning':train_line,
                               'Målsætning':goal,
                               'Punktlighed':actual,
                               'Kompensation':compensation})
#tid printes
print("--- %s seconds ---" % round((time.time() - start_time),2))

--- 0.1 seconds ---


Dataframet er nu konstrueret, og inspiceres:

In [50]:
df_punktlighed

Unnamed: 0,Årstal,Måned,Togstrækning,Målsætning,Punktlighed,Kompensation
0,2021,September,København - Roskilde,"86,8%","87,2%","0,0%"
1,2021,September,København - Kalundborg,"86,8%","88,8%","0,0%"
2,2021,September,København - Nykøbing F,"86,8%","87,4%","0,0%"
3,2021,September,Køge - Næstved,"86,8%","88,5%","0,0%"
4,2021,September,København - Odense,"86,8%","72,0%","15,0%"
...,...,...,...,...,...,...
1716,2014,Januar,Odder - Aarhus - Grenaa,95%,"96,7%",99%
1717,2014,Januar,DSB Øresund,Mål for rettidighed,Januar 14,-
1718,2014,Januar,København - Helsingør,"92,0%","94,6%",-
1719,2014,Januar,København - CPH Lufthavn,"92,0%","91,5%",-


Det ses dog, at i årene 2014 og 2015 blev togpunktligheden opgjort på anden vis end de efterfølgende år. Dette er ikke blot en formatændring. Derfor er det ikke muligt at sammenligne 2014 og 2015 med de øvrige år og de må derfor fjernes:

In [64]:
#liste med årstal der skal fjernes:
del_years = ["2014", "2015"]

#årstalene fjernes fra dataframe'et
df_punktlighed = df_punktlighed[df_punktlighed.Årstal.isin(del_years) == False]

#dataframe printes
df_punktlighed

Unnamed: 0,Årstal,Måned,Togstrækning,Målsætning,Punktlighed,Kompensation
0,2021,September,København - Roskilde,"86,8%","87,2%","0,0%"
1,2021,September,København - Kalundborg,"86,8%","88,8%","0,0%"
2,2021,September,København - Nykøbing F,"86,8%","87,4%","0,0%"
3,2021,September,Køge - Næstved,"86,8%","88,5%","0,0%"
4,2021,September,København - Odense,"86,8%","72,0%","15,0%"
...,...,...,...,...,...,...
1236,2016,Januar,Aalborg - Frederikshavn,"81,8%","94,1%","0,0%"
1237,2016,Januar,Odder - Aarhus - Grenaa,"81,8%","90,9%","0,0%"
1238,2016,Januar,København - Helsingør,"81,8%","73,1%","9,0%"
1239,2016,Januar,København - CPH Lufthavn,"81,8%","78,2%","4,0%"
