# Inhaltsverzeichnis 

- **Aufgaben: Logistische Regression**
    - **Aufgabe 1: Imports**
    - **Aufgabe 2: Daten verstehen**
    - **Aufgabe 3: Daten aufteilen**
    - **Aufgabe 4: Modell trainieren & evaluieren**
    - **Aufgabe 5: Falsche Vorhersagen**


# Aufgaben: Logistische Regression

In dieser Aufgabe wollen wir eine Logistische Regression durchführen für den [Iris-Datensatz](https://en.wikipedia.org/wiki/Iris_flower_data_set).  Wir werden dafür erstmal die nötigen Bibliotheken importieren und die Daten ausgeben. Danach wird ein Modell auf dem Trainingsdatensatz trainiert und die Genauigkeit auf den Testdatensatz berechnet. Als letzten wollen wir uns noch die Samples anzeigen lassen, welche von unserem Modell _nicht_ korrekt klassifiziert wurden.

## Aufgabe 1: Imports

- Importiere `numpy` und `pandas`.
- Importiere `seaborn` und `matplotlib.pyplot`.
- Importiere das Modul [`datasets`](https://scikit-learn.org/stable/modules/classes.html?highlight=dataset#module-sklearn.datasets) von `sklearn`.
- Importiere das Modell [`LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) aus [`sklearn.linear_model`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model).
- Importiere die Funktion [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) aus `sklearn.model_selection`.
- Importiere die Funktion [`accuracy_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score) aus dem Modul [`sklearn.metrics`](https://scikit-learn.org/stable/modules/classes.html?highlight=metrics#module-sklearn.metrics).
- Lies die Datei `iris.csv` aus dem Kursbereich als ein Pandas [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) mit einem `\t` (*Tabulator*) Trennzeichen (delimiter) ein.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set_theme()

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [2]:
iris = pd.read_csv("iris.csv", delimiter = "\t")

## Aufgabe 2: Daten verstehen

- Gib das Shape des Datensatzes auf der Konsole aus.
- Wieviele Samples gibt es im Datensatz? Wieviele Features haben die Daten?
- Gib die ersten 3 Zeilen des Datensatzes auf der Konsole aus. 
- Gib den Mittelwert der Spalten auf der Konsole aus.
- Gib den maximalen und minimalen Wert der Spalten auf der Konsole aus.

In [3]:
# Es gibt 150 Samples und 5 features

iris.shape

(150, 5)

In [4]:
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [5]:
iris01 = iris.describe()
iris01.loc["mean"]

sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
class           1.000000
Name: mean, dtype: float64

In [6]:
iris01.loc["min"]

sepal_length    4.3
sepal_width     2.0
petal_length    1.0
petal_width     0.1
class           0.0
Name: min, dtype: float64

In [7]:
iris01.loc["max"]

sepal_length    7.9
sepal_width     4.4
petal_length    6.9
petal_width     2.5
class           2.0
Name: max, dtype: float64

## Aufgabe 3: Daten aufteilen

- Erstelle ein Numpy Array `X` mit den 4 Spalten aus dem Datensatz.
- Erstelle ein Numpy Array `y` mit der letzten Spalte aus dem Datensatz (dem Target).
- Teile die Daten mit der Funktion `train_test_split` in `X_train, X_test, y_train, y_test` auf. Hierbei sollten 80% die Trainingsdaten und die restlichen 20% die Testdaten ausmachen.

> <span style="color:red"> **_WICHTIG:_** </span> Damit die Ergebnisse vergleichbar sind, benutze beim `train_test_split` das Argument `random_state=301`. Dadurch erhalten wir immer den selben Split der Daten.

- Gib die Dimensionen von `X`, `X_train` und `X_test` auf der Konsole aus.

In [8]:
X = np.array(iris[["sepal_length", "sepal_width", "petal_length", "petal_width"]])
y = np.array(iris["class"])

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=301)

In [10]:
print(X.shape)
print(X_train.shape)
print(X_test.shape)

(150, 4)
(120, 4)
(30, 4)


## Aufgabe 4: Modell trainieren & evaluieren

- Erstelle ein Modell der Klasse `LogisticRegression`.
- Trainiere das Modell anhand der Trainingsdaten `X_train` und `y_train`.
- Nutze die Methode `predict` des Regressionsmodells auf die Testdaten `X_test` und speichere die ausgegebene Labels in `y_pred_test`.
- Gib den `accuracy_score` der Predictions für die Testdaten auf der Konsole aus.

In [11]:
clf = LogisticRegression()

In [12]:
clf.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [13]:
y_pred_test = clf.predict(X_test)

In [14]:
accuracy_score(y_test, y_pred_test)

0.9333333333333333

## Aufgabe 5: Falsche Vorhersagen

- Gib die Samples aus `X_test` aus, welche **falsch** klassifiziert wurden. Überlege dir dazu, wie man das erreichen kann.

In [15]:
def class_false(y_pred_test, y_test):

    falsch = []
    
    for i in range(len(y_pred_test)):
        if y_pred_test[i] != y_test[i]:
            falsch.append(i)
            
    return X_test[falsch]
    
class_false(y_pred_test, y_test)

array([[6. , 2.7, 5.1, 1.6],
       [6.7, 3. , 5. , 1.7]])