# Onsite: Übung End-to-End ML

Environment für dieses Notebook: `ads-ml-full` (*requirements-py3.11-ads-ml-full.txt*).

## Teil 1 - Daten einlesen + Baseline

In [None]:
# Daten einlesen mit Pandas
# Um die Umwandlung von Datentypen kümmern wir uns später

# Beispiellösung
import pandas as pd

data = pd.read_parquet("baumkataster_frankfurt_2022.parquet")

In [None]:
# Daten kurz angucken im Notebook

# Beispiellösung
data.sample(3)

In [None]:
# Daten angucken mit der Data Wrangler Extension

# Beispiellösung
# data

In [None]:
# Uppercase bei Spaltennamen auf Lowercase setzen
data.columns = [x.lower() for x in data.columns.to_list()]

In [None]:
# Descriptive Statistik der numerischen Spalten erstellen

# Beispiellösung
data.describe()

In [None]:
# Sind unplausible Werte dabei, die wir direkt behandeln wollen?

# Beispiellösung
# Korrektur unglaubwürdiger Werte
data = data[data["st_umfang"] < 1000]
data = data[data["pflanzjahr"] < 2023]

Fehlen Daten?

In [None]:
# Gibt es fehlende Daten?
# Tipp: Nutze die Methode `.isna()`

# Beispiellösung
data.isna().sum()

In [None]:
# Finden sich in den Daten Spalten, die den Charakter von eindeutigen Schlüsseln haben? Falls ja,
# entfernen wir diese in der Übung leichtfertig.

# Beispiellösung
data = data.drop(columns=["baumnummer", "standort"])

In [None]:
# Unterteile die Daten in Trainings- und Testdaten ohne zu Stratifizieren

# Beispiellösung
from sklearn.model_selection import train_test_split

y = "pflanzjahr"
X = data.columns.to_list()
X.remove(y)

test_size = 0.2
random_state = 43
train_data, test_data = train_test_split(data, test_size=test_size, random_state=random_state)

- Weshalb ist das Stratifizieren hier noch nicht möglich?
  - Beispielantwort: In den Spalten, die für das Stratifizieren in Betracht kommen, gibt es teils einzigartige Werte und es muss immer mindestens zwei Werte geben, damit das Stratifizieren funktioniert. Zunächst müssen wir die seltenen Werte behandeln, bevor wir stratifizieren können.

In [None]:
# Erstelle ein Baseline Modell mit einer linearen Regression, nutze nur die drei vorgegebenen,
# numerischen Features und skaliere diese

# Beispiellösung
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

baseline_features = ["st_durchm", "kr_durchm", "baumhoehe"]
pipeline_1 = Pipeline(steps=[("scale", StandardScaler()), ("model_linreg", LinearRegression())])

pipeline_1.fit(X=train_data[baseline_features], y=train_data[y])

In [None]:
# Score die Pipeline auf die Testdaten

# Beispiellösung
pipeline_1.score(X=test_data[baseline_features], y=test_data[y])

In [None]:
# Führe eine Kreuzvalidierung durch

# Beispiellösung
from sklearn.model_selection import cross_val_score

cross_val_score(estimator=pipeline_1, X=train_data[baseline_features], y=train_data[y], cv=5)

- Was fällt an den Ergebnissen auf, ist die Kreuzvalidierung stabil?
- Wie sehen die Ergebnisse aus, wenn die Outlier zuvor nicht entfernt wurden?

## Teil 2 - Ridge Regression mit allen Features

In [None]:
# Ersetze kategorische Werte, die selten vorkommen, mit der Kategorie "rare"
# Wandle die "object" Spalten anschließend um in "category"

thres_rare = 20
cat_cols = ...
for cat_col in cat_cols:
    counts = ...
    rare = ...

    if len(rare) > 0:
        ...

    data[cat_col] = data[cat_col].astype(...)

In [None]:
# Führe nun den Train-Test Split mit Stratifizierung an einer sinnvollen Spalte durch

...

Verändern sich die Ergebnisse des Baseline Modells mit den neuen Daten Splits? (einfach nochmal den Fit, das Scoring und die Kreuzvalidierung weiter oben ausführen)

In [None]:
# Erstelle eine Ridge-Regression mit allen Features
# Transformiere die kategorischen Daten und die numerischen Daten mit einem ColumnTransformer
# Eine Transformation der kategorischen Daten

from sklearn.compose import ColumnTransformer
...
...

num_cols = ...
cat_cols = ...

ct_2 = ColumnTransformer(
    transformers=[
        ...
    ],
    remainder="drop",
)
pipeline_2 = ...

...

In [None]:
# Score die Pipeline auf die Testdaten

...

In [None]:
# Führe eine Kreuzvalidierung durch

...