In [1]:
import pandas as pd


In [2]:
import pandas as pd

def compare_submission_files(csv1_path, csv2_path):
    """
    Vergleicht zwei CSV-Dateien hinsichtlich:
    - Anzahl der Zeilen
    - Reihenfolge der Spalte 'client_id'
    - Fehlende Werte in der Spalte 'target' (nur wenn beide Dateien diese Spalte enthalten)

    Parameter:
    - csv1_path: Pfad zur ersten CSV-Datei
    - csv2_path: Pfad zur zweiten CSV-Datei
    """
    df1 = pd.read_csv(csv1_path)
    df2 = pd.read_csv(csv2_path)

    print("\n--- Vergleich der Dateistruktur ---")
    # Zeilenanzahl vergleichen
    if len(df1) != len(df2):
        print(f"❌ Unterschiedliche Zeilenanzahl: {len(df1)} vs. {len(df2)}")
    else:
        print(f"✅ Gleiche Anzahl an Zeilen: {len(df1)}")

    # Spalte 'client_id' prüfen
    if "client_id" not in df1.columns or "client_id" not in df2.columns:
        print("❌ 'client_id' muss in beiden Dateien vorhanden sein.")
        return

    # Reihenfolge der client_id prüfen
    if df1["client_id"].equals(df2["client_id"]):
        print("✅ 'client_id'-Reihenfolge identisch.")
    else:
        print("❌ Unterschiedliche Reihenfolge oder Werte in 'client_id'.")
        diffs = df1["client_id"] != df2["client_id"]
        mismatches = df1.loc[diffs, ["client_id"]].copy()
        mismatches["client_id_file2"] = df2.loc[diffs, "client_id"]
        print("\n🔍 Erste Abweichungen in 'client_id':")
        print(mismatches.head())

    print("\n--- Überprüfung auf fehlende Werte in 'target' ---")
    if "target" in df1.columns and "target" in df2.columns:
        missing1 = df1["target"].isna().sum()
        missing2 = df2["target"].isna().sum()

        if missing1 == 0:
            print("✅ Datei 1: Keine fehlenden Werte in 'target'")
        else:
            print(f"❌ Datei 1: {missing1} fehlende Werte in 'target'")

        if missing2 == 0:
            print("✅ Datei 2: Keine fehlenden Werte in 'target'")
        else:
            print(f"❌ Datei 2: {missing2} fehlende Werte in 'target'")
    else:
        print("ℹ️ Mindestens eine Datei enthält keine 'target'-Spalte – fehlende Werte werden nicht geprüft.")

In [3]:
compare_submission_files("./data/test/client_test.csv", "./fraud_predictions_zindi_scale_pos_weight_thr0.744.csv")


--- Vergleich der Dateistruktur ---
✅ Gleiche Anzahl an Zeilen: 58069
✅ 'client_id'-Reihenfolge identisch.

--- Überprüfung auf fehlende Werte in 'target' ---
ℹ️ Mindestens eine Datei enthält keine 'target'-Spalte – fehlende Werte werden nicht geprüft.


In [4]:
compare_submission_files("./data/SampleSubmission.csv", "./fraud_predictions_zindi_scale_pos_weight_thr0.744.csv")


--- Vergleich der Dateistruktur ---
✅ Gleiche Anzahl an Zeilen: 58069
✅ 'client_id'-Reihenfolge identisch.

--- Überprüfung auf fehlende Werte in 'target' ---
✅ Datei 1: Keine fehlenden Werte in 'target'
✅ Datei 2: Keine fehlenden Werte in 'target'


In [5]:
compare_submission_files("./data/SampleSubmission.csv", "./fraud_predictions_zindi_ADASYN_thr0.538.csv")


--- Vergleich der Dateistruktur ---
✅ Gleiche Anzahl an Zeilen: 58069
✅ 'client_id'-Reihenfolge identisch.

--- Überprüfung auf fehlende Werte in 'target' ---
✅ Datei 1: Keine fehlenden Werte in 'target'
✅ Datei 2: Keine fehlenden Werte in 'target'


In [6]:

compare_submission_files("./data/SampleSubmission.csv", "./fraud_predictions_zindi_SMOTE_thr0.548.csv")


--- Vergleich der Dateistruktur ---
✅ Gleiche Anzahl an Zeilen: 58069
✅ 'client_id'-Reihenfolge identisch.

--- Überprüfung auf fehlende Werte in 'target' ---
✅ Datei 1: Keine fehlenden Werte in 'target'
✅ Datei 2: Keine fehlenden Werte in 'target'


In [7]:
compare_submission_files("./data/SampleSubmission.csv", "./fraud_predictions_zindi_SMOTETomek_thr0.559.csv")


--- Vergleich der Dateistruktur ---
✅ Gleiche Anzahl an Zeilen: 58069
✅ 'client_id'-Reihenfolge identisch.

--- Überprüfung auf fehlende Werte in 'target' ---
✅ Datei 1: Keine fehlenden Werte in 'target'
✅ Datei 2: Keine fehlenden Werte in 'target'
