# Problemdefinition und Ziel

In diesem Projekt soll untersucht werden, ob komplexe, generative KI-Modelle bei Klassifikationsaufgaben mit tabellarischen Daten bessere Ergebnisse erzielen als klassische Verfahren des überwachten Lernens und ob sich ihr Einsatz angesichts der höheren Ressourcenanforderungen lohnt.

Im Fokus stehen zwei Hypothesen:

- **H1:** Bei der Klassifikation strukturierter, tabellarischer Daten erzielen klassische Machine-Learning-Modelle (zum Beispiel Entscheidungsbaum, Random Forest oder XGBoost) vergleichbare oder bessere Ergebnisse als generative Modelle.
  
  *Begründung:* Da tabellarische Daten meist keine tiefen kontextuellen Abhängigkeiten enthalten, kommt die Fähigkeit generativer Modelle zur Kontextverarbeitung nicht voll zur Geltung.

- **H2:** Der Ressourcenaufwand (Trainingszeit, Rechenleistung, Speicherbedarf, Stromverbrauch) für generative Modelle ist bei tabellarischen Klassifikationsaufgaben unverhältnismäßig hoch im Vergleich zum Leistungsgewinn gegenüber klassischen Modellen.
  
  *Begründung:* Klassische Modelle sind für strukturierte Daten optimiert, lassen sich oft schneller trainieren und sind leichter interpretierbar. Komplexe Modelle benötigen dagegen mehr Infrastruktur und Zeit.

Das Ziel besteht darin, diese Hypothesen empirisch zu überprüfen. Dazu werden klassische Machine-Learning-Modelle mit DeepTabular-Modellen auf einem realen, tabellarischen Datensatz verglichen.

# Auswahl des Datensatzes

Für die Untersuchung wird der **Credit Score Classification Dataset** von [Kaggle](https://www.kaggle.com/datasets/parisrohan/credit-score-classification) verwendet.  

Der Datensatz enthält Merkmale zu Finanz- und Kreditinformationen von Individuen, darunter Einkommen, Schulden, Anzahl von Kreditkonten und Rückzahlungsverhalten.  
Die Zielvariable **`Credit_Score`** klassifiziert Personen in Kategorien wie *Poor*, *Standard* und *Good*.

| Eigenschaft | Beschreibung |
|--------------|--------------|
| **Datentyp** | Tabellarisch (strukturiert) |
| **Zielvariable** | `Credit_Score` |
| **Aufgabe** | Multiclass-Klassifikation |
| **Größe** | ca. 28.000 Zeilen, 26 Spalten |
| **Featuretypen** | numerisch + kategorial |
| **Besonderheiten** | Fehlende Werte, Ausreißer, unbalancierte Klassen |

Der Datensatz eignet sich besonders gut für diese Arbeit, da er typische Herausforderungen tabellarischer Daten abbildet und in der Praxis (z. B. Kreditwürdigkeitsprüfung) häufig vorkommt.

# Imports

In [1]:
import pandas as pd

# 1️⃣ Datenverständnis

Ein erster grober Einblick zeigt, dass die Daten grundsätzlich für die Thesen geeignet sind, jedoch noch Vorarbeit benötigen, um einen guten Vergleich zu ermöglichen.

## train

In [2]:
train_df = pd.read_csv("../data/train.csv")
train_df.head()

  train_df = pd.read_csv("../data/train.csv")


Unnamed: 0,ID,Customer_ID,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,...,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance,Credit_Score
0,0x1602,CUS_0xd40,January,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,...,_,809.98,26.82262,22 Years and 1 Months,No,49.574949,80.41529543900253,High_spent_Small_value_payments,312.49408867943663,Good
1,0x1603,CUS_0xd40,February,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,...,Good,809.98,31.94496,,No,49.574949,118.28022162236736,Low_spent_Large_value_payments,284.62916249607184,Good
2,0x1604,CUS_0xd40,March,Aaron Maashoh,-500,821-00-0265,Scientist,19114.12,,3,...,Good,809.98,28.609352,22 Years and 3 Months,No,49.574949,81.699521264648,Low_spent_Medium_value_payments,331.2098628537912,Good
3,0x1605,CUS_0xd40,April,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,...,Good,809.98,31.377862,22 Years and 4 Months,No,49.574949,199.4580743910713,Low_spent_Small_value_payments,223.45130972736783,Good
4,0x1606,CUS_0xd40,May,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,...,Good,809.98,24.797347,22 Years and 5 Months,No,49.574949,41.420153086217326,High_spent_Medium_value_payments,341.48923103222177,Good


In [3]:
train_df.describe()

Unnamed: 0,Monthly_Inhand_Salary,Num_Bank_Accounts,Num_Credit_Card,Interest_Rate,Delay_from_due_date,Num_Credit_Inquiries,Credit_Utilization_Ratio,Total_EMI_per_month
count,84998.0,100000.0,100000.0,100000.0,100000.0,98035.0,100000.0,100000.0
mean,4194.17085,17.09128,22.47443,72.46604,21.06878,27.754251,32.285173,1403.118217
std,3183.686167,117.404834,129.05741,466.422621,14.860104,193.177339,5.116875,8306.04127
min,303.645417,-1.0,0.0,1.0,-5.0,0.0,20.0,0.0
25%,1625.568229,3.0,4.0,8.0,10.0,3.0,28.052567,30.30666
50%,3093.745,6.0,5.0,13.0,18.0,6.0,32.305784,69.249473
75%,5957.448333,7.0,7.0,20.0,28.0,9.0,36.496663,161.224249
max,15204.633333,1798.0,1499.0,5797.0,67.0,2597.0,50.0,82331.0


In [4]:
train_df["Credit_Score"].value_counts()

Credit_Score
Standard    53174
Poor        28998
Good        17828
Name: count, dtype: int64

In [5]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 28 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   ID                        100000 non-null  object 
 1   Customer_ID               100000 non-null  object 
 2   Month                     100000 non-null  object 
 3   Name                      90015 non-null   object 
 4   Age                       100000 non-null  object 
 5   SSN                       100000 non-null  object 
 6   Occupation                100000 non-null  object 
 7   Annual_Income             100000 non-null  object 
 8   Monthly_Inhand_Salary     84998 non-null   float64
 9   Num_Bank_Accounts         100000 non-null  int64  
 10  Num_Credit_Card           100000 non-null  int64  
 11  Interest_Rate             100000 non-null  int64  
 12  Num_of_Loan               100000 non-null  object 
 13  Type_of_Loan              88592 non-null   ob

## test

In [6]:
test_df = pd.read_csv("../data/test.csv")
test_df.head()

Unnamed: 0,ID,Customer_ID,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,...,Num_Credit_Inquiries,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance
0,0x160a,CUS_0xd40,September,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,...,2022.0,Good,809.98,35.030402,22 Years and 9 Months,No,49.574949,236.64268203272132,Low_spent_Small_value_payments,186.26670208571767
1,0x160b,CUS_0xd40,October,Aaron Maashoh,24,821-00-0265,Scientist,19114.12,1824.843333,3,...,4.0,Good,809.98,33.053114,22 Years and 10 Months,No,49.574949,21.465380264657146,High_spent_Medium_value_payments,361.444003853782
2,0x160c,CUS_0xd40,November,Aaron Maashoh,24,821-00-0265,Scientist,19114.12,1824.843333,3,...,4.0,Good,809.98,33.811894,,No,49.574949,148.23393788500923,Low_spent_Medium_value_payments,264.67544623343
3,0x160d,CUS_0xd40,December,Aaron Maashoh,24_,821-00-0265,Scientist,19114.12,,3,...,4.0,Good,809.98,32.430559,23 Years and 0 Months,No,49.574949,39.08251089460281,High_spent_Medium_value_payments,343.82687322383634
4,0x1616,CUS_0x21b1,September,Rick Rothackerj,28,004-07-5839,_______,34847.84,3037.986667,2,...,5.0,Good,605.03,25.926822,27 Years and 3 Months,No,18.816215,39.684018417945296,High_spent_Large_value_payments,485.2984336755923


In [7]:
test_df.describe()

Unnamed: 0,Monthly_Inhand_Salary,Num_Bank_Accounts,Num_Credit_Card,Interest_Rate,Delay_from_due_date,Num_Credit_Inquiries,Credit_Utilization_Ratio,Total_EMI_per_month
count,42502.0,50000.0,50000.0,50000.0,50000.0,48965.0,50000.0,50000.0
mean,4182.004291,16.83826,22.92148,68.77264,21.05264,30.0802,32.279581,1491.304305
std,3174.109304,116.396848,129.314804,451.602363,14.860397,196.984121,5.106238,8595.647887
min,303.645417,-1.0,0.0,1.0,-5.0,0.0,20.509652,0.0
25%,1625.188333,3.0,4.0,8.0,10.0,4.0,28.06104,32.222388
50%,3086.305,6.0,5.0,13.0,18.0,7.0,32.28039,74.733349
75%,5934.189094,7.0,7.0,20.0,28.0,10.0,36.468591,176.157491
max,15204.633333,1798.0,1499.0,5799.0,67.0,2593.0,48.540663,82398.0


In [8]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 27 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID                        50000 non-null  object 
 1   Customer_ID               50000 non-null  object 
 2   Month                     50000 non-null  object 
 3   Name                      44985 non-null  object 
 4   Age                       50000 non-null  object 
 5   SSN                       50000 non-null  object 
 6   Occupation                50000 non-null  object 
 7   Annual_Income             50000 non-null  object 
 8   Monthly_Inhand_Salary     42502 non-null  float64
 9   Num_Bank_Accounts         50000 non-null  int64  
 10  Num_Credit_Card           50000 non-null  int64  
 11  Interest_Rate             50000 non-null  int64  
 12  Num_of_Loan               50000 non-null  object 
 13  Type_of_Loan              44296 non-null  object 
 14  Delay_