# Logistic Regression Exercise

## Aufgabe: 
You are walking in the forest and see an iris and measure:

4.8,2.5,5.3,2.4
Is this an Iris Virginica or not?

In [1]:
import pandas as pd 
import numpy as np 

from sklearn import datasets
from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

In [2]:
# Hier werden die iris-Daten geladen

iris = datasets.load_iris()

# Hier werden ein paar Informationen angezeigt, um die Struktur der Daten besser zu verstehen.

print("Target names:\n", iris.target_names)

print("\n\nFeature names:\n", iris.feature_names)

print("\n\nDescription:\n", iris.DESCR)


Target names:
 ['setosa' 'versicolor' 'virginica']


Feature names:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


Description:
 .. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing 

### Modell erzeugen, trainieren und anwenden

Modell erzeugen

In [3]:
# Modell erzeugen
model = LogisticRegression(max_iter=10000)

Modell trainieren

In [4]:
# Modell trainieren
model.fit(iris.data, iris.target_names[iris.target])

LogisticRegression(max_iter=10000)

Modell anwenden

In [5]:
# Modell anwenden
model.predict([[4.8,2.5,5.3,2.4]])

array(['virginica'], dtype='<U10')

### Ergebnis: => Wir haben eine Iris Virginica

Wenn man sich die Wahrscheinlichkeiten anguckt, sieht man, dass dieses Ergebnis mit einer  Wahrscheinlichkeit von 99% richtig ist.

In [6]:
prob = model.predict_proba([[4.8,2.5,5.3,2.4]])
# Hier wird die Reihenfolde der Namen angezeigt. Diese Reihenfolge ist auch die Reihenfolge der Ergebnisse
print("Target names: ", iris.target_names)
proba = np.round(prob, 2)[0]
print("Wahrscheinlichkeiten", proba )

print("\n\n")
print(iris.target_names[0],"=>" , proba[0])
print(iris.target_names[1],"=>" , proba[1])
print(iris.target_names[2],"=>" , proba[2])

Target names:  ['setosa' 'versicolor' 'virginica']
Wahrscheinlichkeiten [0.   0.01 0.99]



setosa => 0.0
versicolor => 0.01
virginica => 0.99


### Ergebnis validieren

Trainings- und Testdaten werden getrennt

In [7]:
x= iris.data
y = iris.target_names[iris.target]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

Das Modell wird erzeugt und mit Trainingsdaten trainiert.

In [8]:
model_val = LogisticRegression(max_iter=10000)
model_val.fit(x_train, y_train)

LogisticRegression(max_iter=10000)

In [9]:
#Evaluate  the model
predictions = model_val.predict(x_test)
print( classification_report(y_test, predictions) )
print( accuracy_score(y_test, predictions))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        11
  versicolor       1.00      1.00      1.00        13
   virginica       1.00      1.00      1.00         6

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

1.0


### Neues Modell anwenden

In [10]:
typePredict = model_val.predict([[4.8,2.5,5.3,2.4]])
print(typePredict)

prob_val = model_val.predict_proba([[4.8,2.5,5.3,2.4]])

['virginica']


Das Ergebnis ist immer noch "Iris Virginica".

In [11]:
proba_val = np.round(prob_val, 2)[0]
print(proba_val)
print("\n\n")
print(iris.target_names[0],"=>" , proba_val[0])
print(iris.target_names[1],"=>" , proba_val[1])
print(iris.target_names[2],"=>" , proba_val[2])

[0.   0.02 0.98]



setosa => 0.0
versicolor => 0.02
virginica => 0.98


Die Wahrscheinlichkeit ist ist 98% statt 99% aber sie ist immer noch sehr hoch. Es kann daran liegen, dass man bei der Validierung weniger Daten hatte.