In [2]:
import pdfplumber
import pandas as pd
import re
from pathlib import Path
from tqdm import tqdm

In [2]:
def standardize_name(name):
    if ',' in name:
        last, first = name.split(',', 1)
        return f"{first.strip()} {last.strip()}"
    return name.strip()

def standardize_birthyear(year):
    if pd.isna(year):
        return None
    
    year = str(year).strip()  # in String umwandeln
    
    # Sonderfall: '0' ‚Üí 2000
    if year == '0':
        return 2000
    
    # Vierstelliges Jahr, z.B. '2014'
    if len(year) == 4:
        return int(year)
    
    # Zweistelliges Jahr, z.B. '80', '98', '00', '01'
    if len(year) == 2:
        yy = int(year)
        if yy >= 20:        # alles >=50 ‚Üí 1900er
            return 1900 + yy
        else:               # alles <50 ‚Üí 2000er
            return 2000 + yy
    
    # Einstellige Zahl, z.B. '9' ‚Üí 2009?
    if len(year) == 1:
        return 2000 + int(year)
    
    # Alles andere: zur√ºckgeben als int, falls m√∂glich
    try:
        return int(year)
    except:
        return None

In [None]:


# Folder with PDFs
# pdf_folder = Path("data01-17")
# pdf_folder = Path("data24")
# pdf_folder = Path("data18-22")

# Regex for result lines (Platz wird ignoriert)
# 01-17


# 01-17
line_pattern_01_17 = re.compile(
    r"^(?:([1-9]\d?|50)\s+)?"                        # optional Platz
    r"(?P<leistung>("
    r"\d{1,2},\d{2}|"                               # SS,SS
    r"\d{1,2}:\d{2},\d{2}|"                         # M:SS,SS
    r"\d{1,2}:\d{2}:\d{2}|"                         # H:MM:SS
    r"\d{1,2}:\d{2}|"                               # M:SS
    r"\d{1,3}(?:\.\d{3})?"                          # Punkte, z.B. 8307
    r"))\s*"                                        # Leistung
    r"(?:\(?\s*(?P<wind>[+-]?\d,\d)\s*\)?\s+)?"     # optionaler Wind mit oder ohne ()
    r"(?P<name>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü ,\-]+?)\s+"           # Name
    r"(?P<geburtsjahr>\d{2,4})\s+"                  # Geburtsjahr
    r"(?P<verein>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü0-9 .\-()/]+)\s+"    # Verein
    r"(?P<datum>\d{2}\.\d{2}\.(?:\d{2,4})?)\s+"     # Datum
    r"(?P<ort>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü .\-()/]+)$"            # Ort
)

# 24
line_pattern_24 = re.compile(
    r"^(?:[1-9]\d?|50)\s+"                              # Platz 1‚Äì50, zwingend
    r"(?P<leistung>\d{1,2},\d{2})\s+"                  # Leistung
    r"(?:(?P<wind>[+-]?\d,\d)\s+)?"                    # optionaler Wind
    r"(?P<name>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü'¬¥`\- ]+?)\s+"            # Name
    r"(?P<geburtsjahr>\d{4})"                          # Geburtsjahr
    r"(?P<verein>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü0-9 .\-()/]+?)\s+"      # Verein, direkt danach m√∂glich
    r"(?P<datum>\d{2}\.\d{2}\.\d{4})\s+"               # Datum
    r"(?P<ort>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü .\-()]+)$"                # Ort
)

# 23
line_pattern_23 = re.compile(
    r"^(?:([1-9]\d?|50)\s+)?"                        # Platz optional (1‚Äì50)
    r"(?P<leistung>\d{1,2},\d{2})\s+"               # Leistung
    r"(?:(?P<wind>\(?[+-]?\d,\d\)?)\s+)?"           # optionaler Wind, auch in Klammern
    r"(?P<name>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü'¬¥`\- ]+?)\s+"         # Name
    r"(?P<geburtsjahr>\d{4})\s+"                    # Geburtsjahr
    r"(?P<verein>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü0-9 .\-()/]+?)\s+"   # Verein
    r"(?P<datum>\d{2}\.\d{2}\.\d{4})\s+"            # Datum
    r"(?P<ort>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü .\-()/]+)$"            # Ort
)

# 18-22
line_pattern_18_22 = re.compile(
    r"^(?:([1-9]\d?|50)\s+)?"                              # Platz optional
    r"(?P<leistung>("
        r"\d{1,2},\d{2}|"                                 # SS,SS
        r"\d{1,2}:\d{2},\d{2}|"                           # M:SS,SS
        r"\d{1,2}:\d{2}:\d{2}|"                           # H:MM:SS
        r"\d{1,2}:\d{2}|"                                 # M:SS
        r"\d{1,3}(?:\.\d{3})?"                            # Punkte, z.B. 8307
    r"))\s*"
    r"(?:(?:\(?\s*(?P<wind>[+-]?\d,[0-9])\s*\)?)\s+)?"     # Wind optional, auch mit ()
    r"(?P<name>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü'¬¥`\- ]+?)\s+"                # Name
    r"(?P<geburtsjahr>\d{2,4})\s+"                         # Geburtsjahr
    r"(?P<verein>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü0-9 .\-()/]+?)\s+"          # Verein
    r"(?P<datum>\d{2}\.\d{2}(?:\.\d{2,4})?)\.?\s+"         # HIER IST DIE KORREKTUR: \.? hinzugef√ºgt
    r"(?P<ort>[A-Za-z√Ñ√ñ√ú√§√∂√º√ü .\-()/]+)$",                  # Ort
    re.UNICODE
)

pdf_year = {
    "data01-17": line_pattern_01_17,
    "data18-22": line_pattern_18_22,
    "data24": line_pattern_24,
    "data23": line_pattern_23
}

# Laufdisziplinen priorisiert (lange zuerst)
lauf_pattern = (
    r"10\s?km Stra√üengehen|20\s?km Stra√üengehen|50\s?km Stra√üengehen|"
    r"(?:10|20|50)\s?km\s?Gehen|(?:10|20|50)\s?k\s?Gehen|"
    r"(?:5|10|20|50|100)\s?km|"
    r"(?:1\.?000|1\.?500|2\.?000|3\.?000|5\.?000|10\.?000)\s?m\s?(?:Bahngehen|Gehen|Hindernis|H√ºrden)?|"
    r"(?:60|80|100|110|200|300|400|800|1000|1500|2000|3000|5000|10000)\s?m\s?(?:Hindernis|H√ºrden)?|"
    r"^(60|80|100|110|200|300|400|800|1000|1500|2000|3000|5000|10000)\s*[\u00A0\u202F]?\s*m\b"
    r"Halbmarathon|Marathon"
)

lauf_regex = re.compile(lauf_pattern, re.IGNORECASE)


# Komplette Disziplin-Regex
discipline_pattern = re.compile(
    r"^("
    + lauf_pattern + "|" +
    r"Weitsprung|Hochsprung|Dreisprung|Stabhochsprung|"
    r"Kugelsto√ü|Speerwurf|Diskuswurf|Hammerwurf|"
    r"Zehnkampf|Siebenkampf|F√ºnfkampf|10-Kampf|7-Kampf|5-Kampf"
    r")",
    re.IGNORECASE
)

discipline_standardization = {
    # L√§ufe
    "60m": "60 m", "100m": "100 m", "200m": "200 m", "300m": "300 m",
    "400m": "400 m", "800m": "800 m", "1000m": "1000 m", "1500m": "1500 m",
    "3000m": "3000 m", "5000m": "5000 m", "10000m": "10 000 m",
    "5km": "5 km", "10km": "10 km", "20km": "20 km",
    "10 km Stra√üengehen": "10 km Gehen",
    "10 km Gehen": "10 km Gehen",
    "20 km Gehen": "20 km Gehen",
    "20 km Stra√üengehen": "20 km Gehen",
    "5000 m Bahngehen": "5000 m Gehen",

    # H√ºrden
    "100 m H√ºrden": "100 m H√ºrden", "110 m H√ºrden": "110 m H√ºrden", "400 m H√ºrden": "400 m H√ºrden",

    # Sprung / Wurf
    "Weitsprung": "Weitsprung", "Hochsprung": "Hochsprung", "Dreisprung": "Dreisprung",
    "Stabhochsprung": "Stabhochsprung", "Kugelsto√ü": "Kugelsto√ü", "Speerwurf": "Speerwurf",
    "Diskuswurf": "Diskuswurf", "Hammerwurf": "Hammerwurf",

    # Mehrkampf
    "Zehnkampf": "Zehnkampf", "Siebenkampf": "Siebenkampf"
}

# Funktion zum Parsen von Dateinamen
def parse_filename(filename):
    stem = Path(filename).stem

    # Jahr
    year_match = re.search(r"bestenliste(\d{4})", stem)
    year = year_match.group(1) if year_match else ""

    # Geschlecht
    if any(s in stem for s in ["maennliche", "maenner", "junioren"]):
        gender = "M"
    elif any(s in stem for s in ["weibliche", "frauen", "juniorinnen"]):
        gender = "W"
    else:
        gender = ""

    # Altersklasse
    if "maenner" in stem:
        age_class = "M√§nner"
    elif "frauen" in stem:
        age_class = "Frauen"
    elif "junioren" in stem or "juniorinnen" in stem:
        age_class = "U23"
    else:
        u_match = re.search(r"U\d{2}$", stem)
        if u_match:
            age_class = u_match.group(0)
        else:
            num_match = re.search(r"(\d{1,2})$", stem)
            age_class = num_match.group(1) if num_match else ""

    return year, gender, age_class

# Funktion zum Ersetzen von Umlauten
def replace_umlauts(text):
    if not isinstance(text, str):
        return text
    replacements = {
        "√§": "ae", "√∂": "oe", "√º": "ue",
        "√Ñ": "Ae", "√ñ": "Oe", "√ú": "Ue",
        "√ü": "ss"
    }
    for orig, repl in replacements.items():
        text = text.replace(orig, repl)
    return text

# Parse PDF
def parse_pdf(pdf_path):
    
    year, gender, age_class = parse_filename(pdf_path.name)

    results = []
    current_discipline = None
    ignore_section = False
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = page.extract_text()
            if not text:
                continue
            for line in text.split("\n"):
                line = line.strip()
                if not line:
                    continue
                if line.startswith("Ausl√§nder"):
                    ignore_section = True
                    continue
                if re.search(r"(?i)(mannschaft|staffel|\d+\s?x\s?\d+\s?m)", line):
                    ignore_section = True
                    continue
                
                # Wenn wir im Ausl√§nder-Abschnitt sind, bis zur n√§chsten Disziplin ignorieren
                if ignore_section:
                    # Disziplin erkannt ‚Üí Ausl√§nder-Abschnitt endet
                    if discipline_pattern.match(line):
                        ignore_section = False
                    else:
                        continue
                # Skip team results
                if "Mannschaft" in line or "Mannschaftswertung" in line:
                    continue
                # Skip lines in parentheses (individuals within team)
                if line.startswith("(") and line.endswith(")"):
                    continue
                # Skip Staffel lines
                if re.search(r"\dx\d+", line):
                    ignore_section = True
                    current_discipline = None
                    continue
                # Discipline detected
                match_d = discipline_pattern.match(line)
                if match_d:
                    current_discipline = match_d.group(0).strip()
                    # Standardisierte Schreibweise (immer Leerzeichen)
                    current_discipline = discipline_standardization.get(current_discipline, current_discipline)
                    continue
                # Result line detected
                match = line_pattern.match(line)

                if match and current_discipline:
                    data = match.groupdict()
                    data['name'] = standardize_name(data['name'])
                    data['geburtsjahr'] = standardize_birthyear(data['geburtsjahr'])
                    data.update({
                        "jahr": year,
                        "geschlecht": gender,
                        "altersklasse": age_class,
                        "disziplin": current_discipline
                    })
                    results.append(data)
    return results


# Alle PDFs durchgehen
# all_results = []
# idx = 0
# pdf_folder = Path("data18-22")
# line_pattern = line_pattern_18_22
# for pdf_file in pdf_folder.glob("*.pdf"):
#     if "2020" not in pdf_file.name:
#         continue
#     print(f"Processing: {pdf_file.name}")
#     all_results.extend(parse_pdf(pdf_file))
#     idx += 1
#     if idx >= 10:
#         break

all_results = []
for key in pdf_year:
    pdf_folder = Path(key)
    line_pattern = pdf_year[key]
    pdf_files = list(pdf_folder.glob("*.pdf"))
    
    print(f"\nüìÇ Verarbeite Ordner: {pdf_folder} ({len(pdf_files)} Dateien)")
    
    for pdf_file in tqdm(pdf_files, desc=f"{key}", unit="pdf"):
        all_results.extend(parse_pdf(pdf_file))


# DataFrame
df = pd.DataFrame(all_results)

# Umlaut-/Sonderzeichen konvertieren
df = df.applymap(replace_umlauts)

print(df)

# Spalten sortieren
df = df[["jahr", "geschlecht", "altersklasse", "disziplin",
         "leistung", "wind", "name", "geburtsjahr",
         "verein", "datum", "ort"]]


# # CSV speichern
df.to_csv("Data.csv", index=False, sep=";")

print("‚úÖ Fertig! Daten gespeichert in: Data.csv")
# df.head(10)
df



üìÇ Verarbeite Ordner: data01-17 (204 Dateien)


0.00s - make the debugger miss breakpoints. Please pass -Xfrozen_modules=off
0.00s - to python to disable frozen modules.
0.00s - Note: Debugging will proceed. Set PYDEVD_DISABLE_FILE_VALIDATION=1 to disable this validation.
data01-17: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 204/204 [06:32<00:00,  1.92s/pdf]



üìÇ Verarbeite Ordner: data18-22 (60 Dateien)


data18-22: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 60/60 [04:22<00:00,  4.37s/pdf]



üìÇ Verarbeite Ordner: data24 (12 Dateien)


data24: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 12/12 [00:28<00:00,  2.36s/pdf]



üìÇ Verarbeite Ordner: data23 (12 Dateien)


data23: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 12/12 [00:25<00:00,  2.15s/pdf]
  df = df.applymap(replace_umlauts)


       leistung  wind                name  geburtsjahr               verein  \
0         10,95  +1,3  Gina Lueckenkemper         1996  LG Olympia Dortmund   
1         11,06  +1,8       Rebekka Haase         1993     LV 90 Erzgebirge   
2         11,14  -0,2          Lisa Mayer         1996   Sprintteam Wetzlar   
3         11,24  +0,3       Tatjana Pinto         1992         LC Paderborn   
4         11,25  +1,9          Sina Mayer         1995     LAZ Zweibruecken   
...         ...   ...                 ...          ...                  ...   
222254    40,64  None       Tizian Zoeger         2010     LAC Aschersleben   
222255    40,48  None       Phil Matthias         2009             SV Halle   
222256    40,38  None        Laurin Steep         2009       MTV Dannenberg   
222257    40,36  None          Rico Lange         2009  TSV Chemie Premnitz   
222258    40,30  None     Johann Fichtner         2009   SV Preussen Berlin   

             datum                       ort  jahr 

Unnamed: 0,jahr,geschlecht,altersklasse,disziplin,leistung,wind,name,geburtsjahr,verein,datum,ort
0,2017,W,Frauen,100 m,1095,+13,Gina Lueckenkemper,1996,LG Olympia Dortmund,05.08.,London/GBR
1,2017,W,Frauen,100 m,1106,+18,Rebekka Haase,1993,LV 90 Erzgebirge,25.05.,Zeulenroda
2,2017,W,Frauen,100 m,1114,-02,Lisa Mayer,1996,Sprintteam Wetzlar,27.08.,Berlin
3,2017,W,Frauen,100 m,1124,+03,Tatjana Pinto,1992,LC Paderborn,15.07.,Ninove/BEL
4,2017,W,Frauen,100 m,1125,+19,Sina Mayer,1995,LAZ Zweibruecken,11.06.,Regensburg
...,...,...,...,...,...,...,...,...,...,...,...
222254,2023,M,14,Speerwurf,4064,,Tizian Zoeger,2010,LAC Aschersleben,29.04.2023,Schoenebeck
222255,2023,M,14,Speerwurf,4048,,Phil Matthias,2009,SV Halle,07.05.2023,Halle (Saale)
222256,2023,M,14,Speerwurf,4038,,Laurin Steep,2009,MTV Dannenberg,16.09.2023,Fallersleben (Wolfsburg)
222257,2023,M,14,Speerwurf,4036,,Rico Lange,2009,TSV Chemie Premnitz,02.09.2023,Berlin-Lichterfelde


In [3]:
df = pd.read_csv("Data.csv", sep=";")
sorted_years = sorted(df['jahr'].unique())
sorted_years

[np.int64(2001),
 np.int64(2002),
 np.int64(2003),
 np.int64(2004),
 np.int64(2005),
 np.int64(2006),
 np.int64(2007),
 np.int64(2008),
 np.int64(2009),
 np.int64(2010),
 np.int64(2011),
 np.int64(2012),
 np.int64(2013),
 np.int64(2014),
 np.int64(2015),
 np.int64(2016),
 np.int64(2017),
 np.int64(2018),
 np.int64(2019),
 np.int64(2020),
 np.int64(2021),
 np.int64(2022),
 np.int64(2023),
 np.int64(2024)]

In [11]:
df.describe(include='all')

Unnamed: 0,jahr,geschlecht,altersklasse,disziplin,leistung,wind,name,geburtsjahr,verein,datum,ort
count,222251.0,222251,222251.0,222251,222251.0,51930.0,222251,222251.0,222251,222251,222251
unique,,2,7.0,55,43394.0,144.0,34429,,5222,1575,4177
top,,M,20.0,Hochsprung,172.0,0.0,Carolin Schaefer,,TSV Bayer Leverkusen,15.06.,Berlin
freq,,111233,45405.0,13057,596.0,6723.0,180,,3585,1836,8151
mean,2012.609685,,,,,,,1993.644276,,,
std,6.844782,,,,,,,9.293718,,,
min,2001.0,,,,,,,1929.0,,,
25%,2007.0,,,,,,,1988.0,,,
50%,2013.0,,,,,,,1994.0,,,
75%,2019.0,,,,,,,2001.0,,,


In [8]:
print("\n### Eindeutige Werte in kategorischen Spalten ###")

print("\n--- Geschlecht ---")
print(df['geschlecht'].unique())

print("\n--- Altersklasse ---")
# Sortieren hilft, den Bereich zu sehen
print(sorted(df['altersklasse'].unique()))

print("\n--- Disziplin ---")
print(df['disziplin'].unique())


### Eindeutige Werte in kategorischen Spalten ###

--- Geschlecht ---
['W' 'M']

--- Altersklasse ---
['14', '16', '18', '20', 'Frauen', 'Maenner', 'U23']

--- Disziplin ---
['100 m' '200 m' '400 m' '800 m' '1500 m' '3000 m' '5000 m' '10 km'
 'Marathon' '100 km' '100 m Huerden' '400 m Huerden' '3000 m Hindernis'
 'Hochsprung' 'Stabhochsprung' 'Weitsprung' 'Dreisprung' 'Kugelstoss'
 'Diskuswurf' 'Hammerwurf' 'Speerwurf' '5000 m Gehen' '10 km Gehen'
 '20 km Gehen' '110 m Huerden' '2000 m Hindernis' '300 m' '1000 m' '5 km'
 '80 m Huerden' '300 m Huerden' '3000 m Bahngehen' '50 km Gehen' '2000 m'
 '10000 m Bahngehen' '50 km Strassengehen' '1500 m Hindernis' 'Zehnkampf'
 '10000 m Gehen' '10000 m' '1.500 m' '3.000 m' '5.000 m' '10.000 m'
 '3.000 m Hindernis' 'Siebenkampf' '5.000 m Bahngehen' '1.500 m Hindernis'
 '3.000 m Bahngehen' '1.000 m' 'Fuenfkampf' '10.000 m Bahngehen'
 '2.000 m Hindernis' '2.000 m' '5.000 M']


In [44]:
csv_files = ["list_01_17.csv", "list_18_22.csv", "list_23.csv", "list_24.csv"]

dfs = [pd.read_csv(f, sep=";") for f in csv_files]
df_gesamt = pd.concat(dfs, ignore_index=True)
df_gesamt.to_csv("list01-24_all.csv", index=False, sep=";")