In [31]:
# -------------- Imports und Einstellungen --------------
# Imports
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns

# Einstellungen
pd.set_option('display.max_colwidth', None)

# Ideen für Feature engineering: Durch prim_disease_hct	lässt sich vielleicht ein besseren füllwert für donor_age ermitteln. 

In [32]:
# -------------- Daten einlesen --------------

# Train Daten zum trainieren der ML-Modelle
path="/datasets/equity-post-HCT-survival-predictions/train.csv"
df=pd.read_csv(path)

# Spaltenbeschreibungen
path_description="/datasets/equity-post-HCT-survival-predictions/data_dictionary.csv"
df_description=pd.read_csv(path_description)

# Test Daten für die Competition
path_test="/datasets/equity-post-HCT-survival-predictions/test.csv"
df_test=pd.read_csv(path_test)


In [33]:
# ------------------------------------------------------------- Datacleaning ------------------------------------------------------------- 



In [34]:
# -------------- Zeilen mit vielen NaN-Werten bestimmen  -------------- 

# Verschiedene Schwellenwerte für NaN-Anteile (z. B. 10%, 30%, 50%, 70%)
thresholds = [0.2, 0.3,0.35,0.4,0.45, 0.5,0.64]  # Anteil an fehlenden Werten

# Überprüfung der Zeilen, die über jedem Schwellenwert liegen
for t in thresholds:
    threshold_value = t * df.shape[1]  # Berechne absolute Anzahl fehlender Werte
    count = (df.isna().sum(axis=1) > threshold_value).sum()
    print(f"Schwellenwert {int(t * 100)}%: {count} Zeilen haben mehr als {int(t * 100)}% NaN-Werte")



Schwellenwert 20%: 5200 Zeilen haben mehr als 20% NaN-Werte
Schwellenwert 30%: 2803 Zeilen haben mehr als 30% NaN-Werte
Schwellenwert 35%: 1212 Zeilen haben mehr als 35% NaN-Werte
Schwellenwert 40%: 409 Zeilen haben mehr als 40% NaN-Werte
Schwellenwert 45%: 220 Zeilen haben mehr als 45% NaN-Werte
Schwellenwert 50%: 149 Zeilen haben mehr als 50% NaN-Werte
Schwellenwert 64%: 2 Zeilen haben mehr als 64% NaN-Werte


In [35]:
# -------------- Zeilen mit vielen NaN-Werten löschen  -------------- 


threshold_value = 0.5 * df.shape[1]# Berechne absolute Anzahl fehlender Werte / Wert kann angepasst werden um zu überprüfen, ob geringere Werte besser sind für die ML-Modelle

before_cleaning = df.shape[0]

df = df[df.isna().sum(axis=1) <= threshold_value]

after_cleaning = df.shape[0]

# Ausgabe der Anzahl der gelöschten Zeilen
print(f"Anzahl der gelöschten Zeilen: {before_cleaning - after_cleaning}")

Anzahl der gelöschten Zeilen: 149


In [36]:
# -------------- NaN-Werte auffüllen für Kategorische spalten --------------

# Option 1: NaN-Werte mit dem am häfigsten vorkommenen platzhalter ersetzen 

placeholder_values = ['Not done', 'Not tested', 'TBD', 'N/A, F(pre-TED) not submitted', 'N/A, Mel not given']

# Iteriere über alle kategorischen Spalten
for col in df.select_dtypes(include=['object']).columns:
    # Filtere die Platzhalterwerte in der Spalte
    placeholders_in_col = df[col][df[col].isin(placeholder_values)]
    
    if not placeholders_in_col.empty:
        # Finde den häufigsten Platzhalterwert in der Spalte
        most_frequent_placeholder = placeholders_in_col.mode()[0]
        # Fülle NaN-Werte mit dem häufigsten Platzhalterwert
        df[col].fillna(most_frequent_placeholder, inplace=True)
    else:
        # Wenn keine Platzhalterwerte in der Spalte vorkommen, fülle NaN-Werte mit 'Unknown'
        df[col].fillna('Unknown', inplace=True)



In [28]:
# -------------- NaN-Werte auffüllen für Kategorische spalten --------------

# Option 2: Alle NaN-Werte durch "Unknown" ersetzen

# Iteriere über alle numerischen Spalten
for col in df.select_dtypes(include=['number']).columns:
    # Fülle NaN-Werte in numerischen Spalten mit 'Unknown'
    df[col].fillna('Unknown', inplace=True)

Anzahl der gelöschten Zeilen: 149


In [39]:
# -------------- NaN-Werte auffüllen für Kategorische spalten --------------

# Option 1: NaN-Werte mit dem Median ersetzen

# Iteriere über alle numerischen Spalten
for col in df.select_dtypes(include=['number']).columns:
    # Berechne den Median der Spalte und fülle NaN-Werte mit diesem Median
    median_value = df[col].median()
    df[col].fillna(median_value, inplace=True)


In [38]:
# Überprüfe, ob noch NaN-Werte im DataFrame vorhanden sind
nan_check = df.isna().sum().sum()

if nan_check == 0:
    print("Es sind keine NaN-Werte mehr im DataFrame.")
else:
    print(f"Es gibt noch {nan_check} NaN-Werte im DataFrame.")


Es sind keine NaN-Werte mehr im DataFrame.


In [42]:
# -------------- Kategorische Spalten One-Hot Encoden --------------

# Wende One-Hot-Encoding auf alle kategorialen Spalten an
df = pd.get_dummies(df, drop_first=False)

df.head()


Unnamed: 0,ID,hla_match_c_high,hla_high_res_8,hla_low_res_6,hla_high_res_6,hla_high_res_10,hla_match_dqb1_high,hla_nmdp_6,hla_match_c_low,hla_match_drb1_low,...,donor_related_Unknown,donor_related_Unrelated,melphalan_dose_MEL,"melphalan_dose_N/A, Mel not given",cardiac_No,cardiac_Not done,cardiac_Yes,pulm_moderate_No,pulm_moderate_Not done,pulm_moderate_Yes
0,0,2.0,8.0,6.0,6.0,10.0,2.0,6.0,2.0,2.0,...,0,1,0,1,1,0,0,1,0,0
1,1,2.0,8.0,6.0,6.0,10.0,2.0,6.0,2.0,2.0,...,0,0,0,1,1,0,0,0,0,1
2,2,2.0,8.0,6.0,6.0,10.0,2.0,6.0,2.0,2.0,...,0,0,0,1,1,0,0,1,0,0
3,3,2.0,8.0,6.0,6.0,10.0,2.0,6.0,2.0,2.0,...,0,1,0,1,1,0,0,1,0,0
4,4,2.0,8.0,6.0,6.0,10.0,2.0,5.0,2.0,2.0,...,0,0,1,0,1,0,0,1,0,0
