# Bucketization und kontinuierliche Variablen

Konzepte:

- Bucketization: Aufteilung kontinuierlicher Variablen in diskrete Kategorien oder "Buckets".
- Beispiel: Alter kann in Gruppen wie "jung", "mittel", "alt" unterteilt werden.


Python Beispiel  in oandas

In [1]:
import pandas as pd

# Beispiel-Daten
df = pd.DataFrame({
    'Alter': [2, 25, 30, 60, 35, 40, 70]
})


print(df)

# Beispiel für Bucketization (Aufteilung nach Altersgruppen)
df['Altersgruppe'] = pd.cut(df['Alter'], bins=[0, 18, 35, 60, 100], labels=['Kind', 'Jung', 'Mittel', 'Alt'])
print(df)


   Alter
0      2
1     25
2     30
3     60
4     35
5     40
6     70
   Alter Altersgruppe
0      2         Kind
1     25         Jung
2     30         Jung
3     60       Mittel
4     35         Jung
5     40       Mittel
6     70          Alt


Beispiel in sklearn

In [2]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import KBinsDiscretizer

# Beispiel-Daten
df = pd.DataFrame({
    'Alter': [2, 25, 30, 60, 35, 40, 70]
})

# KBinsDiscretizer-Objekt erstellen
discretizer = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='uniform')

# Alter spaltenweise in Bins aufteilen
df['Altersgruppe'] = discretizer.fit_transform(df[['Alter']])

# Mapping der Bins auf die Kategorien: Kind = 0, Jung = 1, Mittel = 2, Alt = 3
df['Altersgruppe'] = df['Altersgruppe'].map({
    0: 'Kind', # 0,  # Bin 0 entspricht 'Kind'
    1: 'Jung', # 1,  # Bin 1 entspricht 'Jung'
    2: 'Mittel', # 2,  # Bin 2 entspricht 'Mittel'
    3: 'Alt', # 3   # Bin 3 entspricht 'Alt'
})

print(df)


   Alter Altersgruppe
0      2         Kind
1     25         Jung
2     30         Jung
3     60          Alt
4     35         Jung
5     40       Mittel
6     70          Alt


Doc's: https://scikit-learn.org/1.5/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html

Diskussion:

- Vorteile: Erleichtert die Interpretation und Modellierung.
- Nachteile: Kann zu Informationsverlust führen, da die genaue Zahl durch Kategorien ersetzt wird.

