# Marathon analyse

Het doel is om in dit notebook een analyse te maken van Marathon gegevens.
Het betreft de behaalde tijden van meer dan 37000 lopers van de 42 km Marathon.
De data is vanuit verschillende bronnen verzameld door Prof. Jake Vanderplas

De gegevensset: marathon.csv bevat de volgende gegevens:
- leeftijd
- geslacht M/V  (Man/Vrouw)
- halfweg (tijd na 21 km) (UU:MM:SS)
- finish (tijd na 42 km) (UU:MM:SS)



In [1]:
# importeren van relevante bibliotheken
import numpy as np
import pandas as pd

from bokeh.io import output_notebook, show
from bokeh.layouts import row, gridplot, widgetbox
from bokeh.charts import Histogram, BoxPlot, Scatter, Line, Bar
from bokeh.plotting import figure, ColumnDataSource
from bokeh.models import CustomJS, Slider

output_notebook()

### Opdracht A: data mungling

Doel is om de dataset om te vormen naar gegevens die we kunnen analyseren. Dit betekent dat de tijden de nu in uren:minuten en:seconden zijn weergegeven omgevormd moeten worden naar seconden. Een andere belangrijk kenmerk bij marathon lopers is hoe constant er gelopen wordt. Een indicatie hiervoor is het verschil in tijd tussen de eerste 21 km en de tweede 21 km. Dit wordt uitgedrukt in de zogenaande "split_frac" waarde. De formule daarvoor is: 1 - (2 * halfweg in seconden) / (finale in seconden)

1. Lees de gegevensset: marathon.csv in, in een DataFrame
2. laat zien welke gegevens (.head()) erin zitten met bebehorende type (.dtypes)
3. vorm halfweg en finish kolommen om naar de tijd in seconden:
     * splits kolommen kan met: h,m,s = map(int. s.split(':')  (s=kolom)
     * bereken de seconden: h * 3600 + m * 60 + s
4. Voeg een kolom split_frac toe 

Laat zien dat de dataset nu de volgende kolommen bevat: leeftijd, geslacht, halfweg, halfwegsec, finish, finishsec, split_frac



In [2]:
df = pd.read_csv('marathon.csv')

In [3]:
df.head()

Unnamed: 0,leeftijd,geslacht,halfweg,finish
0,33,M,01:05:38,02:08:51
1,32,M,01:06:26,02:09:28
2,31,M,01:06:49,02:10:42
3,38,M,01:06:16,02:13:45
4,31,M,01:06:32,02:13:59


In [4]:
df.dtypes

leeftijd     int64
geslacht    object
halfweg     object
finish      object
dtype: object

In [5]:
hwsec = []
for t in df.halfweg.str.split(':'):
    sec = (int(t[0])*3600) + (int(t[1])*60) + int(t[2])
    hwsec.append(sec)
    
fnsec = []
for t in df.finish.str.split(':'):
    sec = (int(t[0])*3600) + (int(t[1])*60) + int(t[2])
    fnsec.append(sec)
    
df["halfwegsec"] = hwsec
df["finishsec"] = fnsec

In [10]:
df["split_frac"] = df.finishsec - df.halfwegsec*2
df

Unnamed: 0,leeftijd,geslacht,halfweg,finish,halfwegsec,finishsec,split_frac
0,33,M,01:05:38,02:08:51,3938,7731,-145
1,32,M,01:06:26,02:09:28,3986,7768,-204
2,31,M,01:06:49,02:10:42,4009,7842,-176
3,38,M,01:06:16,02:13:45,3976,8025,73
4,31,M,01:06:32,02:13:59,3992,8039,55
5,31,M,01:06:13,02:14:11,3973,8051,105
6,27,M,01:06:40,02:14:28,4000,8068,68
7,31,M,01:06:31,02:15:16,3991,8116,134
8,30,M,01:05:39,02:15:57,3939,8157,279
9,30,M,01:05:40,02:16:39,3940,8199,319


### Opdracht B: data exploration
Doel is om inzicht te krijgen in de te analyseren gegegevens. N.B. we maken gebruik van Bokeh om de diagrammen te tonen. Maak hierbij zo veel mogelijk gebruik van high-level API van Bokeh.

1. Laat met 3 histogrammen op 1 rij zien hoe de halfwegtijden (in seconden), finishtijden (in seconden) en split_frac gegevens zijn verdeeld. 
    * wat kun je zeggen over de mate van normale verdeling ?
2. Laat met een histogram zien hoe de finishtijden (in seconden) tussen mannen en vrouwen zijn verdeeld. 
    * wat concludeer je daaruit ?
3. Laat met een Boxplot zien hoe de leeftijd verdeling per geslacht (M/V) is
    * wat zijn de bijbehorende waarden voor 25%, 50%, 75% en interkwartielafstand ?
4. Laat met een Scatterplot zien hoe de relatie ligt tussen de halfweg- en finishtijden (in seconden). Laat in de kleur uitkomen wat het geslacht is.
    * wat concludeer je hier uit ?



In [25]:
show(row([Histogram(df.halfwegsec), Histogram(df.finishsec), Histogram(df.split_frac)]))

In [73]:
# Get separated series
# m = df.loc[df.geslacht == 'M']
# v = df.loc[df.geslacht == 'V']
show(Histogram(df, values='finishsec', label='geslacht', color='geslacht'))

In [74]:
show(BoxPlot(df, values='leeftijd', label='geslacht', color='geslacht'))

In [35]:
show(Scatter(df, x='halfwegsec', y='finishsec', color='geslacht'))

### Opdracht C correlatie analyse
Zoals hierboven uitgelegd is de "split_frac" een maat voor hoe constant de loopsnelheid is geweest bij het lopen van de marathon. We gaan nu een onderzoek doen van de correlatie van Spilt_frac en de andere variabelen: leeftijd, halfwegtijd in seconden en finishtijd in seconden.

1. Laat met scatterplots in een grid zien hoe de correlatie is tussen de variabelen split_frac, leeftijd, halfwegtijd in seconden en finishtijd in seconden
    * wat concludeer je uit de diagrammen ?
2. Zoek op internet naar de mogelijheden van Seaborn voor wat betreft PairGrids. Wat haal je daaruit ?
    * Kun je zoiets ook voor Bokeh vinden ? 


In [36]:
show(row([Scatter(df, x='split_frac', y='leeftijd'),
          Scatter(df, x='split_frac', y='halfwegsec'),
          Scatter(df, x='split_frac', y='finishsec')]))

### Opdracht D leeftijdsonderzoek
Het is interessant om een onderzoek te doen naar de finishtijden voor de verschillende leeftijden en voor de 
verschillen tussen mannen en vrouwen.

Hiervoor willen we een interactieve oplossing hebben, met daarbij minimaal de volgende mogelijkheden:
- Basis is een diagram met op de X-as de leeftijden en op de Y-as de finishtijden
- Selectie op leeftijdgroep (suggestie: sliders voor minimumleeftijd en maximumleeftijd)

Doe dit in de volgende stappen:
1. Vorm de gegevensset om naar een gegevensset met de volgende inhoud: leeftijd, finishman, finischvrouw, finishbeide
    * aanwijzing: gebruik groupby en merge
2. Teken een figuur met daarin de drie lijnen van finishtijden per leeftijd. De leeftijd is de X-as.
3. Probeer nu interactiviteit toe te voegen met behulp van sliders
    * Dit is een hele uitdagende klus, begin heel eenvoudig met 1 grafiek en 1 slider

In [72]:
src = ColumnDataSource(data=dict(x=df.leeftijd, y=df.finishsec))

f = figure()
f.line('x', 'y', source=src)

cb = CustomJS(args=dict(source=src), code="""
    var data = data.source,
        age = age.value,
        x = data['x'],
        y = data['y'];
        console.log(data); // undefined
    for (i = 0; i < x.length; i++) {
        if (x[i] == age) {
            x[i].visible = true;
            y[i].visible = true;
        } else {
            x[i].visible = false;
            y[i].visible = false;
        }
    }
    source.trigger('change');
""")

age = Slider(title="Leeftijd", start=df.leeftijd.min(), end=df.leeftijd.max(), step=1, value=df.leeftijd.min(), callback=cb)

cb.args['age'] = age

layout = row(f, widgetbox(age))

show(layout)