In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import numpy as np
import pandas as pd

In [2]:
# Load the Iris dataset
data = load_iris()
X, y = data.data, data.target

In [3]:
# Convert to DataFrame for demonstration purposes
df = pd.DataFrame(X, columns=data.feature_names)
df['species'] = y

In [4]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
# künstlich "missing values" hinzufügen
df.iloc[0, 2] = np.nan
df['species'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

In [6]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [7]:
# train test split
X_train, X_test, y_train, y_test = train_test_split(df.drop('species', axis=1), df['species'], test_size=0.2, random_state=42)

In [8]:
# numerische Werte (alle bis auf die letzter Wert)
numerical_features = df.columns[:-1]

In [13]:
# Transformer, um die verschiedenen Datentypen/Features zu "pre-processen"
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # fill missing values with mean
    ('scaler', StandardScaler())  # scale numerical features
])

In [14]:
# preprocessing anwenden
X_train_preprocessed = numerical_transformer.fit_transform(X_train)

In [15]:
# zur Demonstration zurück in die Dataframe (macht man sonst nicht eigentlich)
# nur numerische Werte, daher können wir diese direkt als Spaltennamen verwenden
X_train_preprocessed = pd.DataFrame(X_train_preprocessed, columns=numerical_features)

In [16]:
# ersten Einträge zeigen
print(X_train_preprocessed.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0          -1.473937          1.203658          -1.585627         -1.312603
1          -0.133071          2.992376          -1.296934         -1.045633
2           1.085898          0.085709           0.377484          0.289218
3          -1.230143          0.756479          -1.239196         -1.312603
4          -1.717731          0.309299          -1.412412         -1.312603


## Übersicht: Feature Types
### 1. Numerische Features
Numerische Features sind Datentypen, die quantitative Messungen darstellen und jeden Wert innerhalb eines Bereichs annehmen können. Diese Merkmale werden weiter in zwei Untertypen unterteilt:
- **Kontinuirliche Features**: repräsentieren Messungen und können eine unendliche Anzahl von Werten innerhalb eines gegebenen Bereichs annehmen. Beispiele: Größe, Gewicht, Temperatur und Gehalt. Die Werte können sehr präzise sein, wie z. B. 34,56743 Grad.
- **Diskrete Features**: repräsentieren zählbare Werte, die aufgezählt, aber nicht sinnvoll unterteilt werden können. Beispiele: sind die Anzahl der Zimmer in einem Haus, die Anzahl der Autos auf einem Parkplatz oder die Anzahl der Kinder in einer Familie.

### 2. Ordinale Features
Ordinale Features repräsentieren Daten, die eine klare Ordnung oder Rangfolge haben, aber bei denen die Intervalle zwischen den Werten nicht unbedingt konsistent oder bekannt sind. Die Reihenfolge der Werte ist bedeutungsvoll, aber die Größe zwischen aufeinanderfolgenden Werten ist möglicherweise nicht konsistent. Zum Beispiel:
- Bildungsstufen wie Grundschule, Mittelschule, Oberschule und Hochschule. Diese Ebenen haben eindeutig eine Reihenfolge, aber der Unterschied zwischen jeder Stufe ist qualitativ und nicht quantitativ.
- Zufriedenheitsbewertungen wie schlecht, ausreichend, gut, sehr gut, ausgezeichnet. Auch hier ist die Reihenfolge signifikant, aber der tatsächliche Unterschied zwischen "gut" und "sehr gut" ist nicht präzise quantifizierbar.

### 3. Kategoriale Features
Kategoriale Features, auch als nominale Merkmale bekannt, repräsentieren Daten, die eine begrenzte Anzahl von Kategorien annehmen können, aber bei denen es keine intrinsische Ordnung der Kategorien gibt. Diese Merkmale sind qualitativer Natur, und jede Kategorie wird typischerweise durch eine eigene Gruppe oder Klasse dargestellt. Beispiele:
- Farben eines Produkts
- Fahrzeugtypen
- Geschlecht


### Unterschiedliches Pre-Processing
- **Numerische Features**: erfordern oft eine Normalisierung oder Standardisierung, um sicherzustellen, dass das Modell nicht voreingenommen gegenüber Variablen mit höherer Größenordnung wird.
- **Ordinale Features**: können auf Weisen kodiert werden, die die Reihenfolge der Kategorien respektieren. Häufig verwendete Techniken sind die Label-Kodierung, bei der jeder Kategorie ein numerischer Wert zugewiesen wird (z. B. Oberschule = 3, Hochschule = 4).
- **Kategoriale Features**: werden üblicherweise durch Techniken wie die One-Hot-Kodierung behandelt, bei der jede Kategorie in eine neue binäre Spalte umgewandelt wird, die für das Training von Modellen geeignet ist. Bsp.: `{"grün", "rot", "blau"}` wird zu drei Vektoren: `{[1, 0, 0], [0, 1, 0], [0, 0, 1]}`