# Lineare Modelle

In dieser Übung werden wir die linearen Modelle, die in den Vorlesungsfolien vorkommen, selbst implementieren.
Wir starten mit den Iris-Daten, die Sie schon aus der Vorlesung kennen.

In [None]:
import pandas as pd

df = pd.read_csv("iris.csv", index_col=0)
df

Wie in der Vorlesung können wir die Daten plotten.

In [None]:
#plot iris 

import matplotlib.pyplot as plt

dfs = df.loc[df.Name != "Iris-setosa",:]

plt.plot(dfs.loc[:,"SepalWidth"],dfs.loc[:,"PetalLength"],'o')

Zunächst schauen wir uns das einfache lineare Modell an, das den Zusammenhang zwischen PetalLength und SepalWidth darstellt. Wir werden für das Fitten von linearen Modellen das Python-Paket statsmodels verwenden (`https://www.statsmodels.org`). Die Spezifikation von linearen Modellen funktioniert hier ganz ähnlich wie in den R-Beispielen, die in der Vorlesung vorkommen.

Um die `ols` Formeln besser zu verstehen, lohnt sich ein Blick hier: (https://patsy.readthedocs.io/en/latest/formulas.html)

In [None]:
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

results = smf.ols('PetalLength ~ SepalWidth', data=dfs).fit()

#?smf.ols
results.summary()

*Aufgabe*: Interpretieren Sie die Ergebnisse! Was bedeuten die Koeffizienten, $R^2$, p-Werte?

## Regularisierung

Betrachten Sie nun den stark korrelierten Datensatz von Seite 23 des Foliensatzes `Linear Models`.

In [None]:
df = pd.read_csv("corr_data.csv")
df
plt.plot(df.loc[:,"x1"],df.loc[:,"y"])

*Aufgabe*: Fitten Sie ein lineares Modell mit y als abhängiger Variablen und x1 und x2 als unabhängigen Variablen. Interpretieren Sie erneut die Ergebnisse. Was ist das Problem?

*Aufgabe*: Verwenden Sie Ridge Regression, um ein lineares Modell zu fitten.

# Logistische Regression mit sklearn

Im Machine Learning sind wir oft gar nicht so sehr an den Parametern des Modells interessiert, sondern daran, dass das Modell gute Vorhersagen liefert. Für solche Zwecke ist die logistische Regression aus dem Paket `sklearn` besser geeignet -- dort werden Dinge, die in statsmodels recht mühsam sind, wie das Encoding der Klasse, der Umgang mit mehr als zwei Klassen usw. direkt erledigt. Schauen Sie sich dafür die folgende Dokumentation an: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

*Aufgabe*: Teilen Sie den Iris-Datensatz in zwei Teilmengen auf: Eine Trainingsmenge, die 80% der Daten enthält, und eine Testmenge, die die restlichen 20% der Daten enthält. Trainieren Sie dann ein Logit-Modell mit den Trainingsdaten und erzeugen Sie eine Vorhersage für die Klasse der Testdaten. Welcher Anteil der Testdaten wurde korrekt klassifiziert?