In [1]:
import pandas as pd
import numpy as np
import locale

In [2]:
replace_values = [('Loil', 'Didam')]

In [3]:
# Create an URL object
url = 'https://www.uvponline.nl/uvponlineU/index.php/uvproot/wedstrijdschema/2023'
# Create object page
df = pd.read_html(url, header=0)

df = df[0]

In [4]:
# Reguliere expressie om tekst tussen haakjes of ' ONK ' met tekst erachter te extraheren
regex = r'\((.*?)\)|\sONK\s(.*?)$'

# Maak een nieuwe kolom 'Opmerking' en vul deze met de overeenkomende tekst
opmerking = df['Plaats'].str.extract(regex, expand=False).fillna('')
df['Opmerking'] = opmerking[0].combine_first(opmerking[1])

# Zuiver de plaatsnamen door de tekst tussen haakjes of ' ONK ' met tekst erachter te verwijderen
df['Plaats'] = df['Plaats'].str.replace(regex, '', regex=True).str.strip()

In [5]:
df

Unnamed: 0,Datum,Plaats,Klassement,Klassement.1,Klassement.2,Klassement.3,Klassement.4,Kwalif.,Afstanden(km),min.leeftijd,Organisator,Inschrijflink,Uitslag,Opmerking
0,16-09-2023,Udenhout,,,K,J,,KWALIFICATIERUN Deze survivalrun staat geregi...,"5,5 - 7 km",vanaf 10 jaar,Stichting Survive and Feelgood,>schrijf hier in<,,za
1,17-09-2023,Udenhout,L,M,,,,KWALIFICATIERUN Deze survivalrun staat geregi...,12 - 18 km,vanaf 15 jaar,Stichting Survive and Feelgood,>schrijf hier in<,,zo
2,24-09-2023,Enschede,,,,,,,5 - 7 km,vanaf 6 jaar,Stichting Rutbeeksurvival,>schrijf hier in<,,
3,24-09-2023,Ede,,,K,J,B,KWALIFICATIERUN Deze survivalrun staat geregi...,"4,5 - 7 - 8 km",vanaf 6 jaar,Tuxis Ede's Best Run,,,
4,01-10-2023,Leeuwarden,L,M,K,J,B,KWALIFICATIERUN Deze survivalrun staat geregi...,"5,5 - 8 - 11 km",vanaf 8 jaar,Stichting Survivalrun Friesland,Opent 11-06-2023 19:00,,
5,14-10-2023,Boerakker,,M,K,J,B,KWALIFICATIERUN Deze survivalrun staat geregi...,"4 - 6,5 - 9 - 14 km",vanaf 6 jaar,Stichting Survivalteam Boerakker,,,
6,15-10-2023,Rotterdam,,,,,,KWALIFICATIERUN Deze survivalrun staat geregi...,5 - 8 km,vanaf 8 jaar,Outdoor Valley,,,
7,22-10-2023,Neede,,,K,,,KWALIFICATIERUN Deze survivalrun staat geregi...,7 - 14 km,vanaf 10 jaar,Stichting Survivalrun Neede,Opent 02-07-2023 19:00,,
8,29-10-2023,Deest,,,K,,B,KWALIFICATIERUN Deze survivalrun staat geregi...,5 - 8 km,vanaf 10 jaar,Stichting Survivalrun Deest,Opent 01-07-2023 18:00,,
9,05-11-2023,Groningen,,,K,,,KWALIFICATIERUN Deze survivalrun staat geregi...,"1 - 5,5 - 8 km",vanaf 6 jaar,Stichting Survivalrun Groningen,,,


In [6]:
df_locatie = pd.read_csv('data/4pp_bobdenotter.csv', header=0)

In [7]:
# Maak een nieuwe DataFrame voor alternatieve schrijfwijzen
df_alternatief = df_locatie.copy()

# Split de alternatieve schrijfwijzen in afzonderlijke namen
df_alternatief['woonplaats'] = df_alternatief['alternatieve_schrijfwijzen'].str.split(',').str[0]

# Voeg de nieuwe DataFrame toe aan de oorspronkelijke DataFrame
df_locatie = pd.concat([df_locatie, df_alternatief], ignore_index=True)

# Verwijder de kolom 'alternatieve_schrijfwijzen'
df_locatie.drop('alternatieve_schrijfwijzen', axis=1, inplace=True)

# Verwijder dubbele plaatsnamen en behoud de eerste rij met die naam
df_locatie.drop_duplicates(subset='woonplaats', keep='first', inplace=True)

# Reset de index van de DataFrame
df_locatie.reset_index(drop=True, inplace=True)

df_locatie = df_locatie[['woonplaats', 'gemeente', 'latitude', 'longitude']]

In [8]:
df_locatie

Unnamed: 0,woonplaats,gemeente,latitude,longitude
0,Amsterdam,Amsterdam,52.336243,4.869444
1,Amsterdam-Zuidoost,Amsterdam,52.376863,4.820028
2,Diemen,Diemen,52.333151,4.955138
3,Duivendrecht,Ouder-Amstel,52.332886,4.941202
4,Schiphol,Haarlemmermeer,52.305278,4.799253
...,...,...,...,...
2874,WEHE DEN HOORN,De Marne,53.360658,6.417455
2875,ZUURDYK,De Marne,53.337607,6.377034
2876,HOUWERZYL,De Marne,53.335803,6.341288
2877,OLDENZYL,Eemsmond,53.393743,6.716321


In [9]:
for old_value, new_value in replace_values:
    df.loc[df['Plaats'] == old_value, 'Plaats'] = new_value

In [10]:
df_all = df.merge(df_locatie, left_on=df['Plaats'].str.lower(), right_on=df_locatie['woonplaats'].str.lower())
df_all.drop(['woonplaats'], axis=1, inplace=True)
df_all.rename(columns={'gemeente_y': 'gemeente', 'latitude_y': 'latitude', 'longitude_y': 'longitude'}, inplace=True)
df_all.drop(['key_0'], axis=1, inplace=True)

In [11]:
missing_plaatsen = df[~df['Plaats'].isin(df_all['Plaats'])]['Plaats'].unique()

In [12]:
for new_value, old_value in replace_values:
    df_all.loc[df_all['Plaats'] == old_value, 'Plaats'] = new_value

In [13]:
df_all['Datum_dt'] = pd.to_datetime(df_all['Datum'], format='%d-%m-%Y')

In [14]:
# Set de localetaal naar Nederlands
locale.setlocale(locale.LC_TIME, 'nl_NL')

# Voeg een nieuwe kolom 'dag' toe met de weekdagen in het Nederlands
df_all['dag'] = df_all['Datum_dt'].dt.strftime('%A')

# Reset de localetaal naar de standaard
locale.setlocale(locale.LC_TIME, '')

'English_Netherlands.1252'

In [15]:
df_all['Kwalificatie'] = np.where(df_all['Kwalif.'].notna(), 'Ja', 'Nee')

In [16]:
# Functie om waarden te combineren met ' - '
def combine_klassement(row):
    klassementen = [str(val) for val in row.values if not pd.isna(val)]
    return ' - '.join(klassementen)

# Nieuwe kolom 'Klassementen' toevoegen
df_all['Klassementen'] = df_all[['Klassement', 'Klassement.1', 'Klassement.2', 'Klassement.3', 'Klassement.4']].apply(combine_klassement, axis=1)

In [17]:
df_all

Unnamed: 0,Datum,Plaats,Klassement,Klassement.1,Klassement.2,Klassement.3,Klassement.4,Kwalif.,Afstanden(km),min.leeftijd,...,Inschrijflink,Uitslag,Opmerking,gemeente,latitude,longitude,Datum_dt,dag,Kwalificatie,Klassementen
0,16-09-2023,Udenhout,,,K,J,,KWALIFICATIERUN Deze survivalrun staat geregi...,"5,5 - 7 km",vanaf 10 jaar,...,>schrijf hier in<,,za,Tilburg,51.634838,5.209016,2023-09-16,zaterdag,Ja,K - J
1,17-09-2023,Udenhout,L,M,,,,KWALIFICATIERUN Deze survivalrun staat geregi...,12 - 18 km,vanaf 15 jaar,...,>schrijf hier in<,,zo,Tilburg,51.634838,5.209016,2023-09-17,zondag,Ja,L - M
2,24-09-2023,Enschede,,,,,,,5 - 7 km,vanaf 6 jaar,...,>schrijf hier in<,,,Enschede,52.204661,6.881229,2023-09-24,zondag,Nee,
3,10-12-2023,Enschede,,,K,,B,KWALIFICATIERUN Deze survivalrun staat geregi...,6 - 9 km,vanaf 8 jaar,...,,,,Enschede,52.204661,6.881229,2023-12-10,zondag,Ja,K - B
4,24-09-2023,Ede,,,K,J,B,KWALIFICATIERUN Deze survivalrun staat geregi...,"4,5 - 7 - 8 km",vanaf 6 jaar,...,,,,Ede,52.043107,5.668272,2023-09-24,zondag,Ja,K - J - B
5,01-10-2023,Leeuwarden,L,M,K,J,B,KWALIFICATIERUN Deze survivalrun staat geregi...,"5,5 - 8 - 11 km",vanaf 8 jaar,...,Opent 11-06-2023 19:00,,,Leeuwarden,53.223301,5.7517,2023-10-01,zondag,Ja,L - M - K - J - B
6,14-10-2023,Boerakker,,M,K,J,B,KWALIFICATIERUN Deze survivalrun staat geregi...,"4 - 6,5 - 9 - 14 km",vanaf 6 jaar,...,,,,Marum,53.199131,6.341617,2023-10-14,zaterdag,Ja,M - K - J - B
7,15-10-2023,Rotterdam,,,,,,KWALIFICATIERUN Deze survivalrun staat geregi...,5 - 8 km,vanaf 8 jaar,...,,,,Rotterdam,51.926789,4.421901,2023-10-15,zondag,Ja,
8,22-10-2023,Neede,,,K,,,KWALIFICATIERUN Deze survivalrun staat geregi...,7 - 14 km,vanaf 10 jaar,...,Opent 02-07-2023 19:00,,,Berkelland,52.11683,6.530712,2023-10-22,zondag,Ja,K
9,29-10-2023,Deest,,,K,,B,KWALIFICATIERUN Deze survivalrun staat geregi...,5 - 8 km,vanaf 10 jaar,...,Opent 01-07-2023 18:00,,,Druten,51.889231,5.666011,2023-10-29,zondag,Ja,K - B


In [19]:
import pandas as pd
from bokeh.io import output_file, show
from bokeh.models import ColumnDataSource, WheelZoomTool
from bokeh.plotting import figure
from bokeh.tile_providers import get_provider, CARTODBPOSITRON
from bokeh.palettes import Category10_3
from bokeh.io import output_notebook
from pyproj import Proj, transform
from bokeh.models import DateRangeSlider, RangeSlider, HoverTool
from bokeh.layouts import column, row
from bokeh.models import CustomJS
from bokeh.models.widgets import DataTable, DateFormatter, TableColumn
from bokeh.models.widgets import DataTable, DateFormatter, StringFormatter, NumberFormatter, SelectEditor, StringEditor, IntEditor

output_notebook()

# Breedtegraad en lengtegraad naar Mercator-projectie transformeren
in_proj = Proj(init='epsg:4326')
out_proj = Proj(init='epsg:3857')
df_all['mercator_x'], df_all['mercator_y'] = transform(in_proj, out_proj, df_all['longitude'].values, df_all['latitude'].values)

# Gegevensbron maken
source = ColumnDataSource(df_all)

# Definieer de kolommen van de tabel met de juiste formatters
columns = [
    TableColumn(field="Datum", title="Datum"),
    TableColumn(field="Dag", title="dag"),
    TableColumn(field="Plaats", title="Plaats", formatter=StringFormatter(font_style="bold")),
    TableColumn(field="Klassementen", title="Klassementen", formatter=StringFormatter(font_style="italic")),
    TableColumn(field="Kwalificatie", title="Kwalificatie"),
    TableColumn(field="Afstanden(km)", title="Afstanden(km)"),
    TableColumn(field="min.leeftijd", title="Min. leeftijd"),
    TableColumn(field="Organisator", title="Organisator"),
    TableColumn(field="gemeente", title="Gemeente"),
    TableColumn(field="Opmerking", title="Opmerking")
]

# Maak de DataTable-widget met de gegevensbron en kolommen
data_table = DataTable(source=source, columns=columns, editable=False, width_policy="fit", index_position=None)


# De kaart van Nederland weergeven vanaf de startpositie
x_range = (422075.1311397397, 766958.9312551429)
y_range = (6574807.400878754, 7071342.360802666)

# Tile Provider configureren
tile_provider = get_provider(CARTODBPOSITRON)

# Plot aanmaken
p = figure(x_range=x_range, y_range=y_range,
           x_axis_type="mercator", y_axis_type="mercator",
           title="Survivalrun Events")

# Cirkels toevoegen aan de kaart
circle_renderer = p.circle(x="mercator_x", y="mercator_y", size=10, fill_color=Category10_3[0], fill_alpha=0.6, source=source)

# Tegels (kaart) toevoegen
p.add_tile(tile_provider)

p.toolbar.active_scroll = p.select_one(WheelZoomTool)

# Voeg de HoverTool toe aan de plot en koppel deze aan de Circle-renderer
hover_tool = HoverTool(renderers=[circle_renderer],
                       tooltips=[("Plaats", "@Plaats"),
                                 ("dag", "@Dag"),
                                 ("Datum", "@Datum"),
                                 ("Klassementen", "@Klassementen"),
                                 ("Kwalificatie", "@Kwalificatie"),
                                 ("Afstanden(km)", "@{Afstanden(km)}"),
                                 ("Min. leeftijd", "@{min.leeftijd}"),
                                 ("Organisator", "@Organisator"),
                                 ("Gemeente", "@gemeente"),
                                 ("Opmerking", "@Opmerking"),])
p.add_tools(hover_tool)

# Datum filter widget
date_range_slider = DateRangeSlider(title="Datum", start=min(df_all['Datum_dt']), end=max(df_all['Datum_dt']), value=(min(df_all['Datum_dt']), max(df_all['Datum_dt'])), step=1)

# Kopieer de oorspronkelijke tabelgegevens
original_data = {key: value.copy() for key, value in source.data.items()}

# Callback-functie voor het bijwerken van de tabel
callback = CustomJS(args=dict(source=source, date_range_slider=date_range_slider, original_data=original_data), code="""
    const data = source.data;
    const dates = data['Datum_dt'];

    const selected_dates = date_range_slider.value;

    // Filteren op datum
    const indices = [];
    for (let i = 0; i < dates.length; i++) {
        const date = new Date(dates[i]);

        if (date >= selected_dates[0] && date <= selected_dates[1]) {
            indices.push(i);
        }
    }

    // Bijwerken van de tabelgegevens
    if (indices.length > 0) {
        const filtered_data = {};
        for (const key in original_data) {
            filtered_data[key] = original_data[key].filter((_, index) => indices.includes(index));
        }
        source.data = filtered_data;
    } else {
        source.data = original_data;
    }
""")

# Koppel de callback-functie aan de `DateRangeSlider`
date_range_slider.js_on_change('value', callback)

# HTML-bestand genereren
output_file("docs\index.html")

layout = column(date_range_slider, p, data_table)

# Het dashboard weergeven
show(layout)


  in_crs_string = _prepare_from_proj_string(in_crs_string)
  in_crs_string = _prepare_from_proj_string(in_crs_string)
  df_all['mercator_x'], df_all['mercator_y'] = transform(in_proj, out_proj, df_all['longitude'].values, df_all['latitude'].values)
