# Data Preprocessing

De volgende code is gebruikt om de datasets op te schonen, te filteren en samen te voegen.

In [1]:
import pandas as pd

# Laad de datasets
atp_data = pd.read_csv('../original_datasets/ATP_Men - Sheet1.csv')
wta_data = pd.read_csv('../original_datasets/wta_matches_2022.csv')

# Functie om de nodige bewerkingen op elke dataset uit te voeren
def preprocess_data(data, gender):
    # Verwijderen van kolommen die van belang zijn (alleen wanneer ze data missen)
    columns_to_drop = ['winner_entry', 'loser_entry', 'winner_seed', 'loser_seed']
    data = data.drop(columns=columns_to_drop, errors='ignore')
    
    # Omzetten van tourney_date naar datetime
    data['tourney_date'] = pd.to_datetime(data['tourney_date'], format='%Y%m%d')
    
    # Verwijderen van rijen met ontbrekende 'winner_age', 'loser_age', 'winner_ht' of 'loser_ht'
    data = data.dropna(subset=['winner_age', 'loser_age', 'winner_ht', 'loser_ht'])
    
    # Controleren of de leeftijdskolommen van het type object zijn en vervangen van komma's door punten
    if data['winner_age'].dtype == object:
        data['winner_age'] = pd.to_numeric(data['winner_age'].str.replace(',', '.'))
    if data['loser_age'].dtype == object:
        data['loser_age'] = pd.to_numeric(data['loser_age'].str.replace(',', '.'))
    
    # Als de kolommen al numeriek zijn
    if data['winner_age'].dtype != object:
        data['winner_age'] = pd.to_numeric(data['winner_age'])
    if data['loser_age'].dtype != object:
        data['loser_age'] = pd.to_numeric(data['loser_age'])
    
    # Toevoegen van de 'gender' kolom zodat datasets gecombineerd kunnen worden
    data['gender'] = gender
    
    return data

# Toepassen van de functie op beide datasets
atp_data_cleaned = preprocess_data(atp_data, 'Men')
wta_data_cleaned = preprocess_data(wta_data, 'Women')

# Combineren van de datasets
combined_data = pd.concat([atp_data_cleaned, wta_data_cleaned], ignore_index=True)

# Opslaan van de gecombineerde dataset
# combined_data.to_csv('cleaned_datasets/combined_cleaned_tennis_data.csv', index=False)

combined_data.head(n=5)

  from pandas.core import (


Unnamed: 0,tourney_id,tourney_name,surface,draw_size,tourney_level,tourney_date,match_num,winner_id,winner_name,winner_hand,...,l_1stWon,l_2ndWon,l_SvGms,l_bpSaved,l_bpFaced,winner_rank,winner_rank_points,loser_rank,loser_rank_points,gender
0,2022-8888,Atp Cup,Hard,16,A,2022-01-03,298,105138,Roberto Bautista Agut,R,...,62.0,20.0,16.0,6.0,7.0,19.0,2260.0,9.0,3706.0,Men
1,2022-8888,Atp Cup,Hard,16,A,2022-01-03,296,106421,Daniil Medvedev,R,...,22.0,4.0,8.0,3.0,7.0,2.0,8640.0,11.0,3308.0,Men
2,2022-8888,Atp Cup,Hard,16,A,2022-01-03,295,133430,Denis Shapovalov,L,...,45.0,21.0,16.0,7.0,9.0,14.0,2475.0,167.0,409.0,Men
3,2022-8888,Atp Cup,Hard,16,A,2022-01-03,294,134770,Casper Ruud,R,...,24.0,9.0,10.0,3.0,7.0,8.0,4160.0,33.0,1591.0,Men
4,2022-8888,Atp Cup,Hard,16,A,2022-01-03,293,105936,Filip Krajinovic,R,...,27.0,10.0,10.0,7.0,11.0,42.0,1402.0,345.0,137.0,Men
