In [None]:
import pandas as pd
import os

# 📁 Pfad zur Datei
# data_path = "../data/player_playing_time.csv"
data_path = r"C:\Users\valen\OneDrive\Dokumente\01_Studium\9\Probabilistic ML\CleanData\Umwandlung\player_pass_type.CSV"

# 🔧 Robustes Einlesen mit Encoding-Fallback und Quotechar-Schutz
def read_csv_robust(filepath):
    for enc in ["utf-8", "utf-8-sig", "cp1252"]:
        try:
            df = pd.read_csv(
                filepath,
                encoding=enc,
                quotechar='"',            # ← wichtig für "FW,MF"
                skip_blank_lines=True
            )
            print(f"✅ Datei erfolgreich geladen mit Encoding: {enc}")
            return df
        except Exception as e:
            print(f"⚠️ Fehler bei Encoding {enc}: {e}")
    raise ValueError("❌ Keine lesbare Kodierung gefunden.")

# 📥 Einlesen
df = read_csv_robust(data_path)

# 🧹 Bereinigen (optional: Entferne Leerzeichen)player_pass_type
df["Player"] = df["Player"].astype(str).str.strip()
df["Pos"] = df["Pos"].astype(str).str.replace('"', '').str.strip()
df["Squad"] = df["Squad"].astype(str).str.strip()
df["Age"] = df["Age"].astype(str).str.strip()
df["Born"] = df["Born"].astype(str).str.strip()

# 🆔 Neue ID generieren aus:
# Erste 2 Buchstaben von Player + Pos + Squad + Age + Born
df["ID"] = (
    df["Player"].str[:2] +
    df["Pos"].str[:2] +
    df["Squad"].str[:2] +
    df["Age"] +
    df["Born"]
)

# 🖨️ Vorschau
print("📊 Beispielhafte Zeilen mit neuer ID:")
print(df[["ID", "Player", "Pos", "Squad", "Age", "Born"]].head(10))

# 💾 Optional: Speichern
df.to_csv("../data/player_pass_type_with_id.csv", index=False)


✅ Datei erfolgreich geladen mit Encoding: utf-8
📊 Beispielhafte Zeilen mit neuer ID:
             ID                  Player    Pos           Squad Age  Born
0  ChFWsc271996               Che Adams     FW    sct Scotland  27  1996
1  MiDFch271997        Michel Aebischer     DF  ch Switzerland  27  1997
2  ArDFal301993            Arlind Ajeti     DF      al Albania  30  1993
3  MaDFch281995           Manuel Akanji     DF  ch Switzerland  28  1995
4  SaDFtr291994           Samet Akaydın     DF      tr Türkiye  29  1994
5  NaDFnl281995              Nathan Aké     DF  nl Netherlands  28  1995
6  YuFWtr232000             Yunus Akgün     FW      tr Türkiye  23  2000
7  KeFWtr251998        Kerem Aktürkoğlu  FW/MF      tr Türkiye  25  1998
8  TrMFen251998  Trent Alexander-Arnold  MF/DF     eng England  25  1998
9  DeFWro331991            Denis Alibec     FW      ro Romania  33  1991


In [23]:
import pandas as pd

# Datei einlesen (Pfad ggf. anpassen)
df = pd.read_csv("../data/player_playing_time.csv")

# 🔍 Vorher: Ein paar Einträge aus der Spalte anzeigen
print("Vorher (raw values):", df["Pos"].dropna().unique()[:10])

# 🧹 Bereinigungsschritte:
df["Pos"] = (
    df["Pos"]
    .astype(str)                   # Stelle sicher, dass es Strings sind
    .str.strip()                   # Entferne Leerzeichen an Anfang/Ende
    .str.replace(r'[\s"]+', '', regex=True)  # Entferne überflüssige Leerzeichen und Anführungszeichen
    .str.replace(",", "/", regex=False)      # Ersetze Komma durch Slash
)

# ✅ Kontrolle danach
print("Nachher (bereinigt):", df["Pos"].dropna().unique()[:10])

# 💾 Optional: Speichern
# df.to_csv("../data/player_playing_time_cleaned.csv", index=False)


Vorher (raw values): ['MF' 'FW' 'DF' 'GK']
Nachher (bereinigt): ['MF' 'FW' 'DF' 'nan' 'GK']
