# Autopreise

Die Daten stammen von https://data.world/data-society/used-cars-data

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn.model_selection
import sklearn.linear_model

In [None]:
df = pd.read_csv("../../01 einfuehrende-beispiele/autos.csv", encoding="ISO-8859-1")
df_kleinwagen = df[df["vehicleType"] == "kleinwagen"]
df_kleinwagen = df_kleinwagen[~(df_kleinwagen["price"] > 20000)]
df_ford_fiesta = df_kleinwagen[df_kleinwagen["name"] == "Ford_Fiesta"]

In [None]:
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(df_ford_fiesta[
    ["kilometer", "yearOfRegistration"]], df_ford_fiesta["price"])

In [None]:
lm = sklearn.linear_model.LinearRegression()
lm.fit(X_train, y_train)
y_pred = lm.predict(X_test)

pd.DataFrame(data={
    "y_test": y_test.values, 
    "y_pred": y_pred})

In [None]:
(y_test - y_pred).plot.hist()
plt.xlabel("Preisdifferenz (€)")
plt.show()

## Metriken

Für den Vergleich von zwei Zahlen bieten sich andere Metriken als bei dem Vergleich von zwei Kategorien an.
Hier kann die Differenz der zwei Preise aufschlussreich sein.

In [None]:
print("Metriken")
for entry in dir(sklearn.metrics):
    if entry.startswith("_") or entry == entry.upper():
        continue
    print("-", entry)

Relativ einfach zu interpretieren ist der Mean Average Error:

$MAE = \frac{1}{n} \sum | \hat{y_i} - y_i |$

Das ist der Durchschnitt der Beträge der Differenzen.
Deswegen ist die Angabe auch wieder in der ursprünglichen Einheit (hier also €).

In [None]:
sklearn.metrics.mean_absolute_error(y_pred, y_test.values)

Ebenfalls gut interpretierbar ist der RMSE:

$RMSE = \sqrt{ \frac{1}{n} \sum ( \hat{y_i} - y_i ) ^2 }$

Auch diese Größe ist in der ursprünglichen Einheit (hier also €).

In [None]:
(sklearn.metrics.mean_squared_error(y_pred, y_test.values))**0.5

Eine ganz andere Metrik ist $R^2$.
Bei $R^2 = 1$ funktioniert das Modell perfekt (oh, da müssen wir kritisch sein, es gibt immer kleine Fehler)!
Bei $R^2 = 0$ ist das Modell genauso gut, wie wenn man einfach den Durchschnitt berechnet hätte.
Das heißt, die Mühe war eigentlich umsonst.
Bei negativen $R^2$-Werten heißt es, dass das Modell sogar schlechter als der Durchschnitt ist.
Dann sollte es erst recht nicht eingesetzt werden!

In [None]:
# Vergleich der Vorhersage mit dem Durchschnitt

sklearn.metrics.r2_score(y_pred, [y_test.values.mean() for _ in range(len(y_pred))])

In [None]:
# Vergleich

sklearn.metrics.r2_score(y_pred, y_pred)

In [None]:
sklearn.metrics.r2_score(y_pred, y_test.values)

Das heißt, das Modell ist besser als der Durchschnitt, aber es gibt noch Luft nach oben.

Vielleicht kann man bei der Linearen Regression mehr Attribute verwenden?
Vielleicht gibt es andere Lernalgorithmen (Neuronale Netze etc.), die hier besser funktionieren?