In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report

# Schritt 1: Daten laden und vorbereiten
file_path = "data/Obesity_Dataset_FE_WOBMI.xlsx"
data = pd.read_excel(file_path)

# Ziel- und Feature-Spalten definieren
target_column = 'Class'
X = data.drop(columns=[target_column])  # Features
y = data[target_column]  # Zielvariable

# Klassenlabels auf 0-basierte Indizes umstellen
y = y - y.min()

# Schritt 2: Daten in Training und Test aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Übersicht über Klassen in den Trainingsdaten
print("Gesamtzahl Datenpunkte Training: ", len(y_train))

for i in range(0,4):
    print("Anzahl Kategorie", str(i), list(y_train).count(i))

# Schritt 3: Baseline-Modell: Naive Bayes
# Pipeline erstellen
baseline_pipeline = Pipeline(steps=[
    ('scaler', StandardScaler()),  # Skalieren der Daten
    ('classifier', GaussianNB())    # Naive Bayes Klassifikator
])

# Modell mit den Trainingsdaten trainieren
baseline_pipeline.fit(X_train, y_train)

# Vorhersagen auf den Testdaten machen
y_pred = baseline_pipeline.predict(X_test)

# Ergebnisse auswerten
print(classification_report(y_test, y_pred))


Gesamtzahl Datenpunkte Training:  1288
Anzahl Kategorie 0 58
Anzahl Kategorie 1 526
Anzahl Kategorie 2 474
Anzahl Kategorie 3 230
              precision    recall  f1-score   support

           0       0.10      0.93      0.18        15
           1       0.66      0.20      0.31       132
           2       0.67      0.41      0.51       118
           3       0.52      0.65      0.58        57

    accuracy                           0.39       322
   macro avg       0.49      0.55      0.39       322
weighted avg       0.61      0.39      0.42       322

