In [1431]:
import pandas as pd

# Load CSV files
match_results_df = pd.read_csv('csv/wedstrijden_onverwerkd.csv')
goal_events_df = pd.read_csv('csv/doelpunten_onverwerkd.csv')
standings_df = pd.read_csv('csv/klassement_onverwerkd.csv')

#Filter voor valid goals
goal_events_df = goal_events_df[goal_events_df['valid_goal'] == True]

# Filter of vervang niet-numerieke waarden
match_results_df['doelpunten_thuisploeg'] = pd.to_numeric(match_results_df['doelpunten_thuisploeg'], errors='coerce').fillna(0)
match_results_df['doelpunten_uitploeg'] = pd.to_numeric(match_results_df['doelpunten_uitploeg'], errors='coerce').fillna(0)

# Conversie naar int
match_results_df['doelpunten_thuisploeg'] = match_results_df['doelpunten_thuisploeg'].astype(int)
match_results_df['doelpunten_uitploeg'] = match_results_df['doelpunten_uitploeg'].astype(int)

In [1432]:
# Vind alle verplaatste matches, namelijk de match id zal dezelfde zijn als de vorige
match_results_df['same_as_previous_match'] = match_results_df['id_match'].eq(match_results_df['id_match'].shift())

# Selecteer alleen de rijen waar 'same_as_previous_match' True is
duplicate_matches = match_results_df[match_results_df['same_as_previous_match']]
duplicate_matches.head(30)

Unnamed: 0,seizoen,speeldag,datum,tijd,id_match,thuisploeg_stamnummer,thuisploeg,uitploeg_stamnummer,uitploeg,doelpunten_thuisploeg,doelpunten_uitploeg,same_as_previous_match


In [1433]:
# Bereken goals
goals_home_team = goal_events_df[goal_events_df['goal_team_stamnummer'] == goal_events_df['thuisploeg_stamnummer']].groupby('id_match').size()
goals_away_team = goal_events_df[goal_events_df['goal_team_stamnummer'] == goal_events_df['uitploeg_stamnummer']].groupby('id_match').size()

# Omzetting
goals_home_team_df = goals_home_team.reset_index(name='calculated_doelpunten_thuisploeg')
goals_away_team_df = goals_away_team.reset_index(name='calculated_doelpunten_uitploeg')

# Vervang NaN values in goal kolom met 0
merged_df = pd.merge(match_results_df, goals_home_team_df, on='id_match', how='outer')
merged_df = pd.merge(merged_df, goals_away_team_df, on='id_match', how='outer')
merged_df['calculated_doelpunten_thuisploeg'] = merged_df['calculated_doelpunten_thuisploeg'].fillna(0).astype(int)
merged_df['calculated_doelpunten_uitploeg'] = merged_df['calculated_doelpunten_uitploeg'].fillna(0).astype(int)

# Bereken verschil tussen berekening en resultaat
discrepancies_goals = merged_df[
    ((merged_df['calculated_doelpunten_thuisploeg'] != merged_df['doelpunten_thuisploeg']) |
    (merged_df['calculated_doelpunten_uitploeg'] != merged_df['doelpunten_uitploeg'])) &
    ~((merged_df['doelpunten_thuisploeg'] == 5) & (merged_df['doelpunten_uitploeg'] == 0)) &
    ~((merged_df['doelpunten_thuisploeg'] == 0) & (merged_df['doelpunten_uitploeg'] == 5))
]

# Toon alle matches waarbij de berekende goals niet overeenkomen met echte - Lommel 2002, Excelsior 2009 verwijderen we alles van, matches, klassement en doelpunten
discrepancies_goals.head(1000)

Unnamed: 0,seizoen,speeldag,datum,tijd,id_match,thuisploeg_stamnummer,thuisploeg,uitploeg_stamnummer,uitploeg,doelpunten_thuisploeg,doelpunten_uitploeg,same_as_previous_match,calculated_doelpunten_thuisploeg,calculated_doelpunten_uitploeg
13329,1977,14,1977/11/20,15:00:00,4012716,19,KV Kortrijk,4451,KSV Waregem,1,1,False,0,0
13330,1977,15,1977/11/26,19:30:00,4012718,22,R Charleroi SC,35,RSC Anderlecht,2,1,False,0,0
13335,1977,15,1977/11/27,15:00:00,4012722,2300,KSK Beveren,4,RFC Luik,2,0,False,0,0
13337,1977,15,1977/11/27,15:00:00,4012724,30,Lierse SK,19,KV Kortrijk,2,0,False,0,0
13340,1977,16,1977/12/03,20:00:00,4012726,35,RSC Anderlecht,2300,KSK Beveren,0,1,False,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15610,1969,15,1969/12/14,14:30:00,4010466,16,Standard Luik,4451,KSV Waregem,2,0,False,0,0
15611,1969,15,1969/12/14,14:30:00,4010467,35,RSC Anderlecht,7,KAA Gent,3,1,False,0,0
15612,1969,15,1969/12/14,14:30:00,4010468,373,Sint-Truidense VV,13,Beerschot,3,0,False,0,0
15613,1969,15,1969/12/14,14:30:00,4010469,2300,KSK Beveren,522,Beringen FC,2,1,False,0,0


In [1434]:
#Controle voor (5:0 of 0:5's)
discrepancies_goals = merged_df[
    (merged_df['calculated_doelpunten_thuisploeg'] != merged_df['doelpunten_thuisploeg']) |
    (merged_df['calculated_doelpunten_uitploeg'] != merged_df['doelpunten_uitploeg'])
]
#Wordt gebruikt om manueel alle 5:0 of 0:5's te controleren aangezien het technisch gezien een echt resultaat kan zijn
discrepancies_goals.head(1000)

Unnamed: 0,seizoen,speeldag,datum,tijd,id_match,thuisploeg_stamnummer,thuisploeg,uitploeg_stamnummer,uitploeg,doelpunten_thuisploeg,doelpunten_uitploeg,same_as_previous_match,calculated_doelpunten_thuisploeg,calculated_doelpunten_uitploeg
356,2022,14,2022/10/23,18:30:00,3851182,16,Standard Luik,35,RSC Anderlecht,5,0,False,3,1
380,2022,17,2022/11/12,20:45:00,3851244,22,R Charleroi SC,25,KV Mechelen,0,5,False,1,0
728,2021,22,2022/01/15,16:15:00,3598295,18,Oud-Heverlee Leuven,25,KV Mechelen,5,0,False,0,0
841,2021,34,2022/04/10,18:30:00,3598351,10,Union Saint-Gilloise,13,Beerschot,5,0,False,0,0
2427,2014,11,2014/10/19,14:30:00,2503727,16,Standard Luik,5381,SV Zulte Waregem,0,5,False,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15573,1969,10,1969/11/09,15:00:00,4010432,10,Union Saint-Gilloise,22,R Charleroi SC,2,0,False,0,0
15574,1969,10,1969/11/09,15:00:00,4010433,53,AS Oostende KM,4,RFC Luik,2,2,False,0,0
15576,1969,10,1969/11/11,15:00:00,4010435,373,Sint-Truidense VV,3,Club Brugge,2,2,False,0,0
15577,1969,10,1970/03/22,16:00:00,4010565,30,Lierse SK,35,RSC Anderlecht,1,0,False,0,0


In [1435]:
# controle van aantal_wedstrijden
# Geen enkel record met meer wedstrijden dan speeldagen
number_of_games_check = standings_df[standings_df.speeldag < standings_df.aantal_wedstrijden]
number_of_games_check.head(30)

Unnamed: 0,seizoen,speeldag,stand,naam_ploeg,id_ploeg,aantal_wedstrijden,aantal_gewonnen,aantal_gelijk,aantal_verloren,doelpunten_voor,doelpunten_tegen,verschil,punten


In [1436]:
# controle van aantal_wedstrijden
# wel records met minder wedstrijden dan speeldagen, maar bij nazicht van een aantal records klopt dit
number_of_games_check = standings_df[standings_df.speeldag > standings_df.aantal_wedstrijden]
number_of_games_check.seizoen.value_counts()

1975    551
2002    442
2009    360
Name: seizoen, dtype: int64

In [1437]:
# geen records met aantal wedstrijden != win + gelijk + verlies
number_of_games_check = standings_df[standings_df.aantal_wedstrijden != (standings_df.aantal_gewonnen + standings_df.aantal_gelijk + standings_df.aantal_verloren)]
number_of_games_check.count()

seizoen               0
speeldag              0
stand                 0
naam_ploeg            0
id_ploeg              0
aantal_wedstrijden    0
aantal_gewonnen       0
aantal_gelijk         0
aantal_verloren       0
doelpunten_voor       0
doelpunten_tegen      0
verschil              0
punten                0
dtype: int64

In [1438]:
# geen records met doelpunten voor - doelpunten tegen != doelpunten verschil
standings_df['calculated_goal_verschil'] = standings_df['doelpunten_voor'] - standings_df['doelpunten_tegen']
controle_aantal_wedstrijden = standings_df[standings_df['calculated_goal_verschil'] != standings_df['verschil']]
controle_aantal_wedstrijden.count()

seizoen                     0
speeldag                    0
stand                       0
naam_ploeg                  0
id_ploeg                    0
aantal_wedstrijden          0
aantal_gewonnen             0
aantal_gelijk               0
aantal_verloren             0
doelpunten_voor             0
doelpunten_tegen            0
verschil                    0
punten                      0
calculated_goal_verschil    0
dtype: int64

In [1439]:
# het totaal aantal gewonnen matchen per seizoen en per ploeg
points_df = standings_df.groupby(['seizoen','speeldag','id_ploeg', 'punten'])[['aantal_gewonnen','aantal_gelijk','aantal_verloren']].sum()
points_df = points_df.reset_index()
points_df = points_df.sort_values(['seizoen','speeldag','aantal_gewonnen','aantal_gelijk','aantal_verloren'], ascending = [True, True, False, False, False])

In [1440]:
#Controleer de punten, alle waarden voor 1960 herberekenen we later dus alles is goed
points_df['punten_check'] = points_df['aantal_gewonnen'] * 3 + points_df['aantal_gelijk'] + points_df['aantal_verloren'] * 0
discrepancies_df = points_df[points_df['punten'] != points_df['punten_check']]
discrepancies_df.head(100)

Unnamed: 0,seizoen,speeldag,id_ploeg,punten,aantal_gewonnen,aantal_gelijk,aantal_verloren,punten_check
1,1960,1,2,2:0,1,0,0,3
3,1960,1,4,2:0,1,0,0,3
5,1960,1,10,2:0,1,0,0,3
6,1960,1,13,2:0,1,0,0,3
7,1960,1,16,2:0,1,0,0,3
...,...,...,...,...,...,...,...,...
95,1960,6,3434,2:10,0,2,4,2
103,1960,7,16,12:2,5,2,0,17
97,1960,7,2,10:4,4,2,1,14
99,1960,7,4,10:4,4,2,1,14


In [1441]:
match_results_df['datum'] = pd.to_datetime(match_results_df['datum'])
goal_events_df['datum'] = pd.to_datetime(goal_events_df['datum'])

merged_df = pd.merge(goal_events_df, match_results_df, on='id_match', suffixes=('_goal', '_match'))

# Check dat de goal datum de matchdatum match
date_discrepancies_df = merged_df[merged_df['datum_goal'] != merged_df['datum_match']]
date_discrepancies_df.head(30)

Unnamed: 0,seizoen_goal,dag,datum_goal,tijd_goal,id_match,thuisploeg_stamnummer_goal,thuisploeg_goal,uitploeg_goal,uitploeg_stamnummer_goal,goal_time,...,speeldag,datum_match,tijd_match,thuisploeg_stamnummer_match,thuisploeg_match,uitploeg_stamnummer_match,uitploeg_match,doelpunten_thuisploeg,doelpunten_uitploeg,same_as_previous_match


In [1442]:
# Groepeer de gegevens op 'Day' en controleer de datums
sorted_dates = match_results_df.sort_values(by=['speeldag', 'datum'])
date_discrepancies_df = sorted_dates.groupby('speeldag')['datum'].apply(lambda x: x.is_monotonic_increasing)

date_discrepancies_df = date_discrepancies_df[date_discrepancies_df == False]
date_discrepancies_df.head(30)


Flushing oldest 200 entries.
  warn('Output cache limit (currently {sz} entries) hit.\n'


Series([], Name: datum, dtype: bool)

In [1443]:
# Sorting the data by season, day, and date
sorted_dates = match_results_df.sort_values(by=['seizoen', 'speeldag', 'datum'])

# Group by 'season' and 'day', and check if dates are in chronological order within each group
grouped = sorted_dates.groupby(['seizoen', 'speeldag'])
date_order_check = grouped['datum'].apply(lambda x: x.is_monotonic_increasing)

# Alle seizoenen hebben de datum in chronologische orde
date_discrepancies = date_order_check[date_order_check == False]
date_discrepancies.head(30)

Series([], Name: datum, dtype: bool)

In [1444]:
# Filter matches met 0-0
matches_0_0 = match_results_df[(match_results_df['doelpunten_thuisploeg'] == 0) & (match_results_df['doelpunten_uitploeg'] == 0)]

match_ids_0_0 = matches_0_0['id_match']

# Check dat deze matches oprecht geen goals hebben
goals_in_0_0_matches = goal_events_df[goal_events_df['id_match'].isin(match_ids_0_0)]
goals_in_0_0_matches.head(100)

Unnamed: 0,seizoen,dag,datum,tijd,id_match,thuisploeg_stamnummer,thuisploeg,uitploeg,uitploeg_stamnummer,goal_time,real_time_goal,goal_team_naam,goal_team_stamnummer,stand_thuis,stand_uit,valid_goal


In [1445]:
import pandas as pd

# Zet relevante kolommen om naar numeriek
standings_df['punten'] = pd.to_numeric(standings_df['punten'], errors='coerce')
standings_df['aantal_gewonnen'] = pd.to_numeric(standings_df['aantal_gewonnen'], errors='coerce')
standings_df['calculated_goal_verschil'] = pd.to_numeric(standings_df['calculated_goal_verschil'], errors='coerce')
standings_df['doelpunten_voor'] = pd.to_numeric(standings_df['doelpunten_voor'], errors='coerce')

#Bereken twee punten systeem
def calculate_two_point_system_left(row):
    return 2 * row['aantal_gewonnen'] + 1 * row['aantal_gelijk']

def calculate_two_point_system_right(row):
    total_games = row['aantal_gewonnen'] + row['aantal_gelijk'] + row['aantal_verloren']
    return 2 * total_games - calculate_two_point_system_left(row)

# Functie om punten in het driepuntensysteem te berekenen voor het gehele seizoen
def calculate_three_point_system(row):
    return 3 * row['aantal_gewonnen'] + 1 * row['aantal_gelijk']

# Voeg de berekende kolommen toe aan de DataFrame
standings_df['punten_2p_links'] = standings_df.apply(calculate_two_point_system_left, axis=1)
standings_df['punten_2p_rechts'] = standings_df.apply(calculate_two_point_system_right, axis=1)
standings_df['punten_3p'] = standings_df.apply(calculate_three_point_system, axis=1)

# Bereid een DataFrame voor om de resultaten op te slaan
all_seasons_ranked = pd.DataFrame()

# Loop over elk seizoen
for seizoen in standings_df['seizoen'].unique():
    # Filter de DataFrame voor het huidige seizoen
    filtered_df = standings_df[standings_df['seizoen'] == seizoen]

    # Sorteer en bereken rangorde
    sorted_df = filtered_df.sort_values(by=['speeldag', 'punten_3p', 'aantal_gewonnen', 'calculated_goal_verschil', 'doelpunten_voor'], ascending=[True, False, False, False, False])
    sorted_df['calculated_rank'] = sorted_df.groupby('speeldag')['stand'].rank(method='min', ascending=True)

    # Voeg de berekende rangorde toe aan de oorspronkelijke DataFrame
    filtered_df = filtered_df.merge(sorted_df[['seizoen', 'speeldag', 'id_ploeg', 'calculated_rank']], on=['seizoen', 'speeldag', 'id_ploeg'], how='left')

    # Voeg toe aan het totale resultaat
    all_seasons_ranked = pd.concat([all_seasons_ranked, filtered_df], ignore_index=True)

# Controleer op discrepanties voor alle seizoenen
discrepancies_standing = all_seasons_ranked[all_seasons_ranked['stand'] != all_seasons_ranked['calculated_rank']]

#De huidige errors hebben te maken met verwijderde data dat wij anders aanpakte dan de website. het resultaat klopt dus.
discrepancies_standing.head(1000)

Unnamed: 0,seizoen,speeldag,stand,naam_ploeg,id_ploeg,aantal_wedstrijden,aantal_gewonnen,aantal_gelijk,aantal_verloren,doelpunten_voor,doelpunten_tegen,verschil,punten,calculated_goal_verschil,punten_2p_links,punten_2p_rechts,punten_3p,calculated_rank
11246,2002,1,12,St-Truidense VV,373,1,0,0,1,2,3,-1,0.0,-1,0,2,0,11.0
11247,2002,1,12,KRC Genk,322,1,0,0,1,2,3,-1,0.0,-1,0,2,0,11.0
11248,2002,1,14,La Louviere,94,1,0,0,1,1,2,-1,0.0,-1,0,2,0,13.0
11249,2002,1,15,R Charleroi SC,22,1,0,0,1,0,1,-1,0.0,-1,0,2,0,14.0
11250,2002,1,16,KVC Westerlo,2024,1,0,0,1,0,2,-2,0.0,-2,0,2,0,15.0
11251,2002,1,17,RAEC Mons,44,1,0,0,1,0,3,-3,0.0,-3,0,2,0,16.0
11252,2002,1,17,Standard Luik,16,1,0,0,1,0,3,-3,0.0,-3,0,2,0,16.0
11268,2002,2,17,St-Truidense VV,373,1,0,0,1,2,3,-1,0.0,-1,0,2,0,16.0
11269,2002,2,18,KVC Westerlo,2024,2,0,0,2,1,4,-3,0.0,-3,0,4,0,17.0
11286,2002,3,18,KVC Westerlo,2024,3,0,0,3,1,6,-5,0.0,-5,0,6,0,17.0


In [1446]:
# Toon de eerste 10 rijen om te controleren manueel
standings_df.head(30)

Unnamed: 0,seizoen,speeldag,stand,naam_ploeg,id_ploeg,aantal_wedstrijden,aantal_gewonnen,aantal_gelijk,aantal_verloren,doelpunten_voor,doelpunten_tegen,verschil,punten,calculated_goal_verschil,punten_2p_links,punten_2p_rechts,punten_3p
0,2023,1,1,KRC Genk,322,1,1,0,0,4,0,4,3.0,4,2,0,3
1,2023,1,2,Union SG,10,1,1,0,0,2,0,2,3.0,2,2,0,3
2,2023,1,3,KAA Gent,7,1,1,0,0,3,2,1,3.0,1,2,0,3
3,2023,1,3,St-Truidense VV,373,1,1,0,0,1,0,1,3.0,1,2,0,3
4,2023,1,3,Antwerp FC,1,1,1,0,0,1,0,1,3.0,1,2,0,3
5,2023,1,6,R Charleroi SC,22,1,0,1,0,1,1,0,1.0,0,1,1,1
6,2023,1,6,KV Mechelen,25,1,0,1,0,1,1,0,1.0,0,1,1,1
7,2023,1,6,KVC Westerlo,2024,1,0,1,0,2,2,0,1.0,0,1,1,1
8,2023,1,6,KAS Eupen,4276,1,0,1,0,2,2,0,1.0,0,1,1,1
9,2023,1,6,Club Brugge,3,1,0,1,0,1,1,0,1.0,0,1,1,1


In [1447]:
standings_df = standings_df.drop(['punten', 'calculated_goal_verschil'], axis=1)
# Huidige volgorde van kolommen
huidige_volgorde = list(standings_df.columns)

# Index van de kolommen die moeten worden omgewisseld
index_kolom1 = huidige_volgorde.index('naam_ploeg')
index_kolom2 = huidige_volgorde.index('id_ploeg')

# Omwisselen van de volgorde
huidige_volgorde[index_kolom1], huidige_volgorde[index_kolom2] = huidige_volgorde[index_kolom2], huidige_volgorde[index_kolom1]

# Nieuwe DataFrame met gewijzigde kolomvolgorde
standings_df = standings_df[huidige_volgorde]
standings_df.to_csv('csv/klassement.csv', sep=';', header=False, index=False)
standings_df.tail(30)


Unnamed: 0,seizoen,speeldag,stand,id_ploeg,naam_ploeg,aantal_wedstrijden,aantal_gewonnen,aantal_gelijk,aantal_verloren,doelpunten_voor,doelpunten_tegen,verschil,punten_2p_links,punten_2p_rechts,punten_3p
35898,1960,29,3,35,RSC Anderlecht,29,15,7,7,53,28,25,37,21,52
35899,1960,29,4,2,Daring Club,29,13,7,9,42,37,5,33,25,46
35900,1960,29,5,13,Beerschot AC,29,13,6,10,47,38,9,32,26,45
35901,1960,29,6,553,Waterschei THOR,29,12,6,11,48,39,9,30,28,42
35902,1960,29,7,373,St-Truidense VV,29,12,6,11,32,33,-1,30,28,42
35903,1960,29,8,90,Eendracht Aalst,29,9,10,10,46,60,-14,28,30,37
35904,1960,29,9,1,Antwerp FC,29,10,7,12,43,44,-1,27,31,37
35905,1960,29,10,3,Club Brugge,29,8,11,10,42,48,-6,27,31,35
35906,1960,29,11,7,ARA Gent,29,9,8,12,47,42,5,26,32,35
35907,1960,29,12,30,Lierse SK,29,9,8,12,42,57,-15,26,32,35


In [1448]:
#Exporteer het doelpunten bestand in het gewenste formaat
goal_events_export_df = pd.read_csv('csv/doelpunten_onverwerkd.csv')
goal_events_export_df = goal_events_export_df[goal_events_export_df['valid_goal'] == True]
goal_events_export_df['stand_thuis'] = goal_events_export_df['stand_thuis'].astype(int)
goal_events_export_df = goal_events_export_df.drop(['valid_goal'], axis=1)
goal_events_export_df['real_time_goal'] = pd.to_datetime(goal_events_export_df['real_time_goal'], format='%H:%M:%S')
goal_events_export_df['real_time_goal'] = goal_events_export_df['real_time_goal'].dt.strftime('%H:%M')
goal_events_export_df['tijd'] = pd.to_datetime(goal_events_export_df['tijd'], format='%H:%M:%S')
goal_events_export_df['tijd'] = goal_events_export_df['tijd'].dt.strftime('%H:%M')
goal_events_export_df['datum'] = pd.to_datetime(goal_events_export_df['datum'], format='%Y/%m/%d')
goal_events_export_df['datum'] = goal_events_export_df['datum'].dt.strftime('%Y-%m-%d')
goal_events_export_df.to_csv('csv/doelpunten.csv', sep=';', header=False, index=False)

In [1449]:
#Exporteer het wedstrijden bestand in het gewenste formaat
match_results_export_df = pd.read_csv('csv/wedstrijden_onverwerkd.csv')
match_results_export_df['tijd'] = pd.to_datetime(match_results_export_df['tijd'], format='%H:%M:%S')
match_results_export_df['tijd'] = match_results_export_df['tijd'].dt.strftime('%H:%M')
match_results_export_df['datum'] = pd.to_datetime(match_results_export_df['datum'], format='%Y/%m/%d')
match_results_export_df['datum'] = match_results_export_df['datum'].dt.strftime('%Y-%m-%d')
match_results_export_df.to_csv('csv/wedstrijden.csv', sep=';', header=False, index=False)