# Prepare Game Data

In [72]:
import pandas as pd
import os 

In [73]:
def clean_results(df: pd.DataFrame, columns_to_drop: list, isFirstLiga: bool) -> pd.DataFrame:
    # Split 'Spielpaarung' into home and away teams (and strip any extra whitespace)
    df["HeimTeam"] = df["Spielpaarung"].str.split("-").str[0].str.strip()
    df["GastTeam"] = df["Spielpaarung"].str.split("-").str[1].str.strip()
    
    # Convert the scores to integers for accurate comparisons
    heim_goals = df["Ergebnis"].str.split(":").str[0].astype(int)
    gast_goals = df["Ergebnis"].str.split(":").str[1].astype(int)
    
    # Determine wins based on numerical comparison
    df["HeimSieg"] = heim_goals > gast_goals
    df["GastSieg"] = heim_goals < gast_goals

    # Save the number of goals as integers
    df["HeimTore"] = heim_goals
    df["GastTore"] = gast_goals
    
    # 
    df["ErsteLiga"] = isFirstLiga
    
    # Drop the specified columns; columns_to_drop should be a list of column names
    df.drop(columns=columns_to_drop, inplace=True)
    
    return df


## Prepare the data for results of the first bl

In [74]:
cwd = os.getcwd()

# Construct the correct relative path
csv_path = os.path.join(cwd, "../gather/data/first/first_bl_results.csv")
print("CSV path:", csv_path)

# Load the CSV file with pandas
first_df = pd.read_csv(csv_path)
first_df

CSV path: c:\Users\Admin\dev\bl-predictions\backend\prepare\../gather/data/first/first_bl_results.csv


Unnamed: 0.1,Unnamed: 0,Season,Spieltag,Spielpaarung,Ergebnis,Datum
0,0,1. Bundesliga - Saison 1963/1964,1. Spieltag,1. FC Saarbrücken - 1. FC Köln,0:2,24.08.1963 15:30:00
1,1,1. Bundesliga - Saison 1963/1964,1. Spieltag,Hertha BSC Berlin - 1. FC Nürnberg,1:1,24.08.1963 15:30:00
2,2,1. Bundesliga - Saison 1963/1964,1. Spieltag,TSV 1860 München - Eintracht Braunschweig,1:1,24.08.1963 15:30:00
3,3,1. Bundesliga - Saison 1963/1964,1. Spieltag,Karlsruher SC - Meidericher SV,1:4,24.08.1963 15:30:00
4,4,1. Bundesliga - Saison 1963/1964,1. Spieltag,Preußen Münster - Hamburger SV,1:1,24.08.1963 15:30:00
...,...,...,...,...,...,...
18603,18603,1. Bundesliga - Saison 2023/2024: Alle Spiele,34. Spieltag,Bayer 04 Leverkusen - FC Augsburg,2:1,18.05.2024
18604,18604,1. Bundesliga - Saison 2023/2024: Alle Spiele,34. Spieltag,VfL Wolfsburg - 1. FSV Mainz 05,1:3,18.05.2024
18605,18605,1. Bundesliga - Saison 2023/2024: Alle Spiele,34. Spieltag,1. FC Union Berlin - Sport-Club Freiburg,2:1,18.05.2024
18606,18606,1. Bundesliga - Saison 2023/2024: Alle Spiele,34. Spieltag,TSG Hoffenheim - FC Bayern München,4:2,18.05.2024


In [None]:
colonns_to_drop = ["Unnamed: 0", "Spielpaarung", "Ergebnis"]
first_df = clean_results(first_df, colonns_to_drop, True)
first_df

Unnamed: 0,Spieltag,Datum,HeimTeam,GastTeam,HeimSieg,GastSieg,HeimTore,GastTore,ErsteLiga
0,1. Spieltag,24.08.1963 15:30:00,1. FC Saarbrücken,1. FC Köln,False,True,0,2,True
1,1. Spieltag,24.08.1963 15:30:00,Hertha BSC Berlin,1. FC Nürnberg,False,False,1,1,True
2,1. Spieltag,24.08.1963 15:30:00,TSV 1860 München,Eintracht Braunschweig,False,False,1,1,True
3,1. Spieltag,24.08.1963 15:30:00,Karlsruher SC,Meidericher SV,False,True,1,4,True
4,1. Spieltag,24.08.1963 15:30:00,Preußen Münster,Hamburger SV,False,False,1,1,True
...,...,...,...,...,...,...,...,...,...
18603,34. Spieltag,18.05.2024,Bayer 04 Leverkusen,FC Augsburg,True,False,2,1,True
18604,34. Spieltag,18.05.2024,VfL Wolfsburg,1. FSV Mainz 05,False,True,1,3,True
18605,34. Spieltag,18.05.2024,1. FC Union Berlin,Sport,True,False,2,1,True
18606,34. Spieltag,18.05.2024,TSG Hoffenheim,FC Bayern München,True,False,4,2,True


## Prepare Second Bundesliga Data

In [76]:
cwd = os.getcwd()

# Construct the correct relative path
csv_path = os.path.join(cwd, "../gather/data/second/second_bl_results.csv")
print("CSV path:", csv_path)

# Load the CSV file with pandas
second_df = pd.read_csv(csv_path)
second_df

CSV path: c:\Users\Admin\dev\bl-predictions\backend\prepare\../gather/data/second/second_bl_results.csv


Unnamed: 0,Season,Spieltag,Spielpaarung,Ergebnis,Datum
0,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,Hamburger SV - FC Schalke 04,5:3,28.07.2023
1,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,1. FC Kaiserslautern - FC St. Pauli,1:2,29.07.2023
2,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,Hannover 96 - SV Elversberg,2:2,29.07.2023
3,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,VfL Osnabrück - Karlsruher SC,2:3,29.07.2023
4,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,SV Wehen Wiesbaden - 1. FC Magdeburg,1:1,29.07.2023
...,...,...,...,...,...
19613,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,Wormatia Worms - 1. FSV Mainz 05,2:3,15.06.1975
19614,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,1. FC Saarbrücken - Stuttgarter Kickers,1:1,15.06.1975
19615,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,FC Schweinfurt 05 - Chio Waldhof 07,2:0,15.06.1975
19616,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,FC Homburg - SpVgg Bayreuth,1:0,15.06.1975


In [77]:
colonns_to_drop = ["Spielpaarung", "Ergebnis"]
second_df = clean_results(second_df, colonns_to_drop, False)
second_df

Unnamed: 0,Season,Spieltag,Datum,HeimTeam,GastTeam,HeimSieg,GastSieg,HeimTore,GastTore,ErsteLiga
0,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,28.07.2023,Hamburger SV,FC Schalke 04,True,False,5,3,False
1,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,29.07.2023,1. FC Kaiserslautern,FC St. Pauli,False,True,1,2,False
2,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,29.07.2023,Hannover 96,SV Elversberg,False,False,2,2,False
3,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,29.07.2023,VfL Osnabrück,Karlsruher SC,False,True,2,3,False
4,2. Bundesliga - Saison 2023/2024: Alle Spiele,1. Spieltag,29.07.2023,SV Wehen Wiesbaden,1. FC Magdeburg,False,False,1,1,False
...,...,...,...,...,...,...,...,...,...,...
19613,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,15.06.1975,Wormatia Worms,1. FSV Mainz 05,False,True,2,3,False
19614,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,15.06.1975,1. FC Saarbrücken,Stuttgarter Kickers,False,False,1,1,False
19615,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,15.06.1975,FC Schweinfurt 05,Chio Waldhof 07,True,False,2,0,False
19616,2. Bundesliga SÜD - Saison 1974/1975,38. Spieltag,15.06.1975,FC Homburg,SpVgg Bayreuth,True,False,1,0,False


In [78]:
all_results_df = pd.concat([first_df, second_df])
all_results_df.to_csv("../data/all_results.csv", index=False)
