In [43]:
# Importing the necessary packages
import numpy as np                                  # "Scientific computing"
import scipy.stats as stats   
import os                      # Statistical tests

import pandas as pd                                 # Data Frame
from pandas.api.types import CategoricalDtype

import matplotlib.pyplot as plt                     # Basic visualisation
from statsmodels.graphics.mosaicplot import mosaic  # Mosaic diagram
import seaborn as sns                               # Advanced data visualisation

In [44]:
columns = ['datum', 'thuisploeg', 'uitploeg', 'scoreThuis', 'scoreUit']
wedstrijden = pd.read_csv('../data/csv/scrappen/wedstrijden.csv', names=columns)
wedstrijden.head()

Unnamed: 0,datum,thuisploeg,uitploeg,scoreThuis,scoreUit
0,Vrijdag 14 juni 2024,Duitsland,Schotland,5,1
1,Zaterdag 15 juni 2024,Hongarije,Zwitserland,1,3
2,Zaterdag 15 juni 2024,Spanje,Kroatië,3,0
3,Zaterdag 15 juni 2024,Italië,Albanië,2,1
4,Zondag 16 juni 2024,Polen,Nederland,1,2


In [45]:
wedstrijden['datum_split'] = wedstrijden['datum'].str.split(' ')
wedstrijden.head()

Unnamed: 0,datum,thuisploeg,uitploeg,scoreThuis,scoreUit,datum_split
0,Vrijdag 14 juni 2024,Duitsland,Schotland,5,1,"[Vrijdag, 14, juni, 2024]"
1,Zaterdag 15 juni 2024,Hongarije,Zwitserland,1,3,"[Zaterdag, 15, juni, 2024]"
2,Zaterdag 15 juni 2024,Spanje,Kroatië,3,0,"[Zaterdag, 15, juni, 2024]"
3,Zaterdag 15 juni 2024,Italië,Albanië,2,1,"[Zaterdag, 15, juni, 2024]"
4,Zondag 16 juni 2024,Polen,Nederland,1,2,"[Zondag, 16, juni, 2024]"


In [46]:
wedstrijden['dag'] = wedstrijden['datum_split'].apply(lambda x: x[1])
wedstrijden['maand'] = wedstrijden['datum_split'].apply(lambda x: x[2])
wedstrijden['jaar'] = wedstrijden['datum_split'].apply(lambda x: x[3])
wedstrijden.head()

Unnamed: 0,datum,thuisploeg,uitploeg,scoreThuis,scoreUit,datum_split,dag,maand,jaar
0,Vrijdag 14 juni 2024,Duitsland,Schotland,5,1,"[Vrijdag, 14, juni, 2024]",14,juni,2024
1,Zaterdag 15 juni 2024,Hongarije,Zwitserland,1,3,"[Zaterdag, 15, juni, 2024]",15,juni,2024
2,Zaterdag 15 juni 2024,Spanje,Kroatië,3,0,"[Zaterdag, 15, juni, 2024]",15,juni,2024
3,Zaterdag 15 juni 2024,Italië,Albanië,2,1,"[Zaterdag, 15, juni, 2024]",15,juni,2024
4,Zondag 16 juni 2024,Polen,Nederland,1,2,"[Zondag, 16, juni, 2024]",16,juni,2024


In [47]:
map_maand = {
    'januari': 1,
    'februari': 2,
    'maart': 3,
    'april': 4,
    'mei': 5,
    'juni': 6,
    'juli': 7,
    'augustus': 8,
    'september': 9,
    'oktober': 10,
    'november': 11,
    'december': 12
}

wedstrijden['maand'] = wedstrijden['maand'].map(map_maand)
wedstrijden.head()

Unnamed: 0,datum,thuisploeg,uitploeg,scoreThuis,scoreUit,datum_split,dag,maand,jaar
0,Vrijdag 14 juni 2024,Duitsland,Schotland,5,1,"[Vrijdag, 14, juni, 2024]",14,6,2024
1,Zaterdag 15 juni 2024,Hongarije,Zwitserland,1,3,"[Zaterdag, 15, juni, 2024]",15,6,2024
2,Zaterdag 15 juni 2024,Spanje,Kroatië,3,0,"[Zaterdag, 15, juni, 2024]",15,6,2024
3,Zaterdag 15 juni 2024,Italië,Albanië,2,1,"[Zaterdag, 15, juni, 2024]",15,6,2024
4,Zondag 16 juni 2024,Polen,Nederland,1,2,"[Zondag, 16, juni, 2024]",16,6,2024


In [48]:
wedstrijden = wedstrijden[['jaar', 'maand', 'dag', 'thuisploeg', 'uitploeg', 'scoreThuis', 'scoreUit']]
wedstrijden.head()

Unnamed: 0,jaar,maand,dag,thuisploeg,uitploeg,scoreThuis,scoreUit
0,2024,6,14,Duitsland,Schotland,5,1
1,2024,6,15,Hongarije,Zwitserland,1,3
2,2024,6,15,Spanje,Kroatië,3,0
3,2024,6,15,Italië,Albanië,2,1
4,2024,6,16,Polen,Nederland,1,2


In [49]:
output_dir = '../data/csv/opgekuist/'

if not os.path.exists(output_dir):
    os.makedirs(output_dir)

output_file_path = os.path.join(output_dir, 'wedstrijden.csv')
wedstrijden.to_csv(output_file_path, index=False, header=False, encoding='utf-8')