In [1]:
import os
import pandas as pd
import numpy as np
from sksurv.util import Surv
from sksurv.ensemble import GradientBoostingSurvivalAnalysis
from tqdm import tqdm
import clean_data_v3 as clean_data

# Aktuelles Arbeitsverzeichnis abrufen
current_dir = os.getcwd().replace("\\", "/")

# Trainings- und Testdaten einlesen
df_train = pd.read_csv(current_dir + "/data/train.csv")
df_test = pd.read_csv(current_dir + "/data/test.csv")

# Daten bereinigen
df_train = clean_data.clean_data(df_train)
df_test = clean_data.clean_data(df_test)

# Überprüfen, ob 'efs' und 'efs_time' nach dem Cleaning gültig sind
if 'efs' not in df_train or 'efs_time' not in df_train:
    raise ValueError("Fehlende Zielvariablen ('efs' oder 'efs_time') nach dem Cleaning!")

if df_train['efs_time'].isna().any():
    raise ValueError("Nach der Bereinigung gibt es noch fehlende Werte in 'efs_time'.")

# Zielvariable für das Training definieren
y_train = Surv.from_arrays(event=df_train['efs'].astype(bool), time=df_train['efs_time'])

# Features definieren (nur numerische Spalten außer 'efs' und 'efs_time')
X_train = df_train.drop(columns=['efs', 'efs_time'])
X_test = df_test.drop(columns=['efs', 'efs_time'], errors='ignore')

# Stellen sicher, dass Test-Features mit Trainings-Features übereinstimmen
missing_cols = set(X_train.columns) - set(X_test.columns)
if missing_cols:
    print(f"Warnung: Die Testdaten fehlen folgende Spalten {missing_cols}. Diese werden mit 0 aufgefüllt.")
    for col in missing_cols:
        X_test[col] = 0

# Sicherstellen, dass die Spalten in der gleichen Reihenfolge sind
X_test = X_test[X_train.columns]

# Modell initialisieren
xgb_model = GradientBoostingSurvivalAnalysis(n_estimators=500, learning_rate=0.05, max_depth=5, random_state=42)

# Training mit Fortschrittsbalken
with tqdm(total=1, desc="Training des Modells") as pbar:
    xgb_model.fit(X_train, y_train)
    pbar.update(1)

# Vorhersagen für Testdaten
predictions = xgb_model.predict(X_test)

# Ergebnisse speichern
results = pd.DataFrame({'ID': df_test.index, 'prediction': predictions})
results.head(5)

Eindeutige Werte in 'efs' vor Bereinigung: [0. 1.]
Eindeutige Werte in 'efs' nach Bereinigung: [0 1]
ℹ️ Kategorische Spalte 'dri_score': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'psych_disturb': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'cyto_score': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'diabetes': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Numerische Spalte 'hla_match_c_high': Fehlende Werte mit Median (2.00) auffüllen.
ℹ️ Numerische Spalte 'hla_high_res_8': Fehlende Werte mit Median (8.00) auffüllen.
ℹ️ Kategorische Spalte 'arrhythmia': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Numerische Spalte 'hla_low_res_6': Fehlende Werte mit Median (6.00) auffüllen.
ℹ️ Kategorische Spalte 'vent_hist': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'renal_issue': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'pulm_severe': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Numerische Spalte 'hla_high_r

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna("Unknown", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always

TypeError: __init__() got an unexpected keyword argument 'sparse'