In [3]:
import os
import pandas as pd
import numpy as np
from xgboost import XGBRegressor
from tqdm import tqdm
import clean_data_v3 as clean_data

# Aktuelles Arbeitsverzeichnis abrufen
current_dir = os.getcwd().replace("\\", "/")

# Trainings- und Testdaten einlesen
df_train = pd.read_csv(current_dir + "/data/train.csv")
df_test = pd.read_csv(current_dir + "/data/test.csv")

# Daten bereinigen
df_train = clean_data.clean_data(df_train, is_train=True)
df_test = clean_data.clean_data(df_test, is_train=False)

# Überprüfen, ob 'efs' nach dem Cleaning vorhanden ist
if 'efs' not in df_train:
    raise ValueError("Fehlende Zielvariable ('efs') nach dem Cleaning!")

# Features definieren (nur numerische Spalten außer 'efs')
X_train = df_train.drop(columns=['efs', 'efs_time'], errors='ignore')
X_test = df_test.drop(columns=['efs', 'efs_time'], errors='ignore')
y_train = df_train['efs'].astype(float)  # Sicherstellen, dass y_train numerisch ist

# Sicherstellen, dass Test-Features mit Trainings-Features übereinstimmen
missing_cols = set(X_train.columns) - set(X_test.columns)
if missing_cols:
    print(f"Warnung: Die Testdaten fehlen folgende Spalten {missing_cols}. Diese werden mit 0 aufgefüllt.")
    for col in missing_cols:
        X_test[col] = 0

# Sicherstellen, dass die Spalten in der gleichen Reihenfolge sind
X_test = X_test[X_train.columns]

# XGBRegressor initialisieren
xgb_model = XGBRegressor(
    n_estimators=500,
    learning_rate=0.05,
    max_depth=5,
    random_state=42
)

# Training mit Fortschrittsbalken
with tqdm(total=1, desc="Training des Modells") as pbar:
    xgb_model.fit(X_train, y_train)
    pbar.update(1)

# Vorhersagen für Testdaten (Risikoscore für efs)
risk_scores = xgb_model.predict(X_test)

# Ergebnisse speichern
results = pd.DataFrame({'ID': df_test.index, 'risk_score': risk_scores})
results.head(5)


ℹ️ Kategorische Spalte 'dri_score': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'psych_disturb': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'cyto_score': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'diabetes': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Numerische Spalte 'hla_match_c_high': Fehlende Werte mit Median auffüllen.
ℹ️ Numerische Spalte 'hla_high_res_8': Fehlende Werte mit Median auffüllen.
ℹ️ Kategorische Spalte 'arrhythmia': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Numerische Spalte 'hla_low_res_6': Fehlende Werte mit Median auffüllen.
ℹ️ Kategorische Spalte 'vent_hist': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'renal_issue': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Kategorische Spalte 'pulm_severe': Fehlende Werte mit 'Unknown' auffüllen.
ℹ️ Numerische Spalte 'hla_high_res_6': Fehlende Werte mit Median auffüllen.
ℹ️ Kategorische Spalte 'cmv_status': Fehlende Werte mit 'Unknown' auffüllen.
ℹ

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna("Unknown", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always

Numerische Spalten mit NaN-Werten: []
⚠️ Problematische Spalten: ['dri_score_High - TED AML case <missing cytogenetics', 'dri_score_Intermediate - TED AML case <missing cytogenetics', 'dri_score_Missing disease status', 'dri_score_N/A - disease not classifiable', 'dri_score_N/A - non-malignant indication', 'dri_score_N/A - pediatric', 'dri_score_TBD cytogenetics', 'dri_score_Very high', 'cyto_score_Not tested', 'tbi_status_TBI + Cy +- Other', 'tbi_status_TBI +- Other, -cGy, fractionated', 'tbi_status_TBI +- Other, -cGy, single', 'tbi_status_TBI +- Other, -cGy, unknown dose', 'tbi_status_TBI +- Other, <=cGy', 'tbi_status_TBI +- Other, >cGy', 'tbi_status_TBI +- Other, unknown dose', 'graft_type_Peripheral blood', 'prim_disease_hct_Other acute leukemia', 'prim_disease_hct_Other leukemia', 'prim_disease_hct_Solid tumor', 'cyto_score_detail_Not tested', 'conditioning_intensity_N/A, F(pre-TED) not submitted', 'conditioning_intensity_No drugs reported', 'ethnicity_Non-resident of the U.S.', '

Training des Modells:   0%|                               | 0/1 [00:00<?, ?it/s]


AttributeError: 'DataFrame' object has no attribute 'dtype'