![image info](https://drive.google.com/uc?id=1AerT9299ijreLjEeIoGLv6SoT-SFC6-m)

# Inhaltsverzeichnis 

- **Aufgaben: Logistische Regression**
    - **Aufgabe 1: Imports**
    - **Aufgabe 2: Daten verstehen**
    - **Aufgabe 3: Daten aufteilen**
    - **Aufgabe 4: Modell trainieren & evaluieren**
    - **Aufgabe 5: Falsche Vorhersagen**


# Aufgaben: Logistische Regression

In dieser Aufgabe wollen wir eine Logistische Regression durchführen für den [Iris-Datensatz](https://en.wikipedia.org/wiki/Iris_flower_data_set).  Wir werden dafür erstmal die nötigen Bibliotheken importieren und die Daten ausgeben. Danach wird ein Modell auf dem Trainingsdatensatz trainiert und die Genauigkeit auf den Testdatensatz berechnet. Als letzten wollen wir uns noch die Samples anzeigen lassen, welche von unserem Modell _nicht_ korrekt klassifiziert wurden.

## Aufgabe 1: Imports

- Importiere `numpy` und `pandas`.
- Importiere `seaborn` und `matplotlib.pyplot`.
- Importiere das Modul [`datasets`](https://scikit-learn.org/stable/modules/classes.html?highlight=dataset#module-sklearn.datasets) von `sklearn`.
- Importiere das Modell [`LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) aus [`sklearn.linear_model`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model).
- Importiere die Funktion [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) aus `sklearn.model_selection`.
- Importiere die Funktion [`accuracy_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score) aus dem Modul [`sklearn.metrics`](https://scikit-learn.org/stable/modules/classes.html?highlight=metrics#module-sklearn.metrics).
- Lies die Datei `iris.csv` aus dem Kursbereich als ein Pandas [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) mit einem `\t` (*Tabulator*) Trennzeichen (delimiter) ein.

In [2]:
# Schreibe deinen Code hier

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import datasets
%matplotlib inline

df = pd.read_csv("iris.csv", sep='\t')

# Schreibe deinen Code hier

## Aufgabe 2: Daten verstehen

- Gib das Shape des Datensatzes auf der Konsole aus.
- Wieviele Samples gibt es im Datensatz? Wieviele Features haben die Daten?
- Gib die ersten 3 Zeilen des Datensatzes auf der Konsole aus. 
- Gib den Mittelwert der Spalten auf der Konsole aus.
- Gib den maximalen und minimalen Wert der Spalten auf der Konsole aus.

In [3]:
# Schreibe deinen Code hier

print(df.shape) # 150 Samples,5 Features
df.info() # 
df.head(3)
df.describe() # Mittelwert unter Mean, min u. max an 4ter und 8ter 

# Schreibe deinen Code hier

(150, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   class         150 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 6.0 KB


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


## Aufgabe 3: Daten aufteilen

- Erstelle ein Numpy Array `X` mit den 4 Spalten aus dem Datensatz.
- Erstelle ein Numpy Array `y` mit der letzten Spalte aus dem Datensatz (dem Target).
- Teile die Daten mit der Funktion `train_test_split` in `X_train, X_test, y_train, y_test` auf. Hierbei sollten 80% die Trainingsdaten und die restlichen 20% die Testdaten ausmachen.

> <span style="color:red"> **_WICHTIG:_** </span> Damit die Ergebnisse vergleichbar sind, benutze beim `train_test_split` das Argument `random_state=301`. Dadurch erhalten wir immer den selben Split der Daten.

- Gib die Dimensionen von `X`, `X_train` und `X_test` auf der Konsole aus.

In [4]:
# Schreibe deinen Code hier

X = np.array(df[['sepal_length','sepal_width','petal_length','petal_width']].values)
y = np.array(df['class'].values)

X_train, X_test, y_train, y_test= train_test_split(X,y,test_size=0.2,random_state=301)

print(X.shape)
print(X_train.shape)
print(X_test.shape)

# Schreibe deinen Code hier

(150, 4)
(120, 4)
(30, 4)


## Aufgabe 4: Modell trainieren & evaluieren

- Erstelle ein Modell der Klasse `LogisticRegression`.
- Trainiere das Modell anhand der Trainingsdaten `X_train` und `y_train`.
- Nutze die Methode `predict` des Regressionsmodells auf die Testdaten `X_test` und speichere die ausgegebene Labels in `y_pred_test`.
- Gib den `accuracy_score` der Predictions für die Testdaten auf der Konsole aus.

In [5]:
# Schreibe deinen Code hier

lr = LogisticRegression()

lr.fit(X_train, y_train)

y_pred_test = lr.predict(X_test)

ac_score = accuracy_score(y_test,y_pred_test)

# Schreibe deinen Code hier

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [7]:
print(ac_score)
print(y_test)
print(y_pred_test)

0.9333333333333333
[2 0 1 1 0 2 2 0 0 1 2 1 0 1 0 0 0 2 2 1 0 1 0 0 0 2 0 2 1 2]
[2 0 1 2 0 2 2 0 0 1 2 2 0 1 0 0 0 2 2 1 0 1 0 0 0 2 0 2 1 2]


## Aufgabe 5: Falsche Vorhersagen

- Gib die Samples aus `X_test` aus, welche **falsch** klassifiziert wurden. Überlege dir dazu, wie man das erreichen kann.

In [9]:
# Schreibe deinen Code hier

X_test[3]
X_test[11]

# Schreibe deinen Code hier

array([6.7, 3. , 5. , 1.7])