# Projekt 2: Klassifikation mit kategorischen Daten

In [None]:
from sklearn.datasets import fetch_openml

In [None]:
data = fetch_openml(data_id=1590, parser="auto")

## Datensatz explorieren

1. Welche Features enthält der Datensatz? Was repräsentiert das Label?

2. Erstelle eine Liste `categorical_features`, die die Namen aller kategorischen Features enthält und eine Liste `numerical_features`, die alle numerischen Features enthält.

Tipp: `numerical_features` muss alle Features aus `data.feature_names` enthalten, die nicht schon in `categorical_features` enthalten sind.

In [None]:
len(categorical_features) + len(numerical_features) == len(data.feature_names)

3. Splitte die Daten in einen Test- und einen Trainings-Datensatz

## Preprocessing aufbauen

4. Die Label müssen in ein binäres Format, also auf `0` (`<=50k`) und `1` (`>50k`), konvertiert werden. Dazu kann der `OrdinalEncoder` eingesetzt werden, um sowohl `y_train` als auch `y_test` entsprechend zu konvertieren.

Erzeuge zunächst eine Liste der möglichen Werte in `y`, die mit `categories` an den `OrdinalEncoder` übergeben werden kann (Dimensionen beachten!).

Tipp: Mit `y_train.values` kann auf ein Numpy-Array zugegriffen werden.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
label_encoder = OrdinalEncoder(categories=[target_values], handle_unknown="error")

5. Die kategorischen Features sollen One-Hot kodiert werden. Dazu kann der `OneHotEncoder` aus `sklearn.preprocessing` eingesetzt werden. Werte für die Features, die im Trainings-Set nicht vorkommen, sollen ignoriert werden.

Der Encoder für die kategorischen Features soll in diesem Schritt zunächst nur definiert werden, wir werden ihn später gemeinsam mit dem numerischen Encoder und dem Modell fitten.

6. Für die numerischen Features müssen wir bereits eine Pipeline aufbauen, denn einige Spalten enthalten unbekannte Werte.

- Überprüfe mit `x_train.isna().any()`, welche Spalten betroffen sind
- Wähle anhand der [Dokumentation für `SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) eine geeignete Strategie
- Kombiniere `SimpleImputer` und einen `StandardScaler` in einer `Pipeline`.



6. Mit dem `ColumnTransformer` können wir die Pipelines für numerische und kategorische Features nun zusammensetzen.

Fitte testweise den `preprocessor` auf dem Trainingsdatensatz und konvertiere den Testdatensatz. Vergleiche die Dimensionen von `x_test` und dem transformierten Datensatz. Was fällt dir auf?

In [None]:
from sklearn.compose import ColumnTransformer

In [None]:
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numerical_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)

## Pipeline aufbauen

7. Baue eine `Pipeline` bestehend aus zwei Schritten: Dem `preprocessor` und einem `RandomForestClassifier`.

Fitte diese testweise auf dem Trainings-Datensatz und evaluiere sie auf dem Test-Datensatz.

## Grid Search mit Cross Validation

8. Um die optimalen Parameter zu finden, setzen wir `GridSearchCV` ein, mit der Grid-Search und Cross-Validation kombiniert werden.

Lege einen sinnvollen Parameter-Raum fest und führe einen Fit der kompletten Modell-Pipeline durch.

Was ist die beste Parameter-Kombination? Lässt sich noch eine bessere Kombination finden?

Tipp: Es ist in aller Regel hilfreich, den Einfluss einzelner Parameter zumindest qualitativ zu untersuchen.