
<img src="https://dsiag.ch/images/dsi_rgb.png" alt="dsi logo" width="100" style="position: absolute; right: 0px;"/>

# Basic Classification with scikit learn

Beispiel zur einfachen Erkennen von Iris Blumen mittels scikit-learn.



# Iris Datenset

Im Beispiel wird mit dem [Iris Datenset][Iris] von 1936 gearbeitet. Das Datenset besteht aus 150 Einträgen zu Iris Blumen. Vier verschiedene Merkmale sind pro Eintrag vorhanden. Jeder Datensatz gehört zu einer von drei Iris Arten. 

[Iris]: https://en.wikipedia.org/wiki/Iris_flower_data_set 


## Datenset laden

Das Datenset ist direkt in scikit learn verfügbar.


In [1]:
from sklearn import datasets
iris = datasets.load_iris()

## Drei Klassen 

Die Klassen (Iris Unterarten) sind im Feld `target_names` abrufbar.

In [2]:
print(iris.target_names)

['setosa' 'versicolor' 'virginica']



| Iris Setosa      | Iris Versicolor    | Iris virginica    |
| :------------- | :----------: | -----------: |
|  ![][setosa] | ![][versicolor]   | ![][virginica]  |



[setosa]: https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg/220px-Kosaciec_szczecinkowaty_Iris_setosa.jpg
[versicolor]: https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/220px-Iris_versicolor_3.jpg
[virginica]: https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/220px-Iris_virginica.jpg




## 150x4 Datenpunkte

Merkmale sind die jeweils Länge und Breite von Sepal und Petal

![](https://upload.wikimedia.org/wikipedia/commons/thumb/7/78/Petal-sepal.jpg/220px-Petal-sepal.jpg)

Die Merkmale sind im Datenset im Feld `data` abrufbar. Die dazugehörige Klasse im Feld `target`. `data` und `target` haben stets dieselbe Länge.

In [3]:
print(iris.data)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [4]:
print(iris.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


# Klassifikation 

Für die Klassifikation mit ein Naive Bayes Klassifikator trainiert. Um die Performance besser vorhersagen zu können wird die Datenmenge aufgeteilt. Dabei werden 50% der Daten für das Training (train) und 50% für die Evaluation (test) verwendet.

## Daten aufteilen in Trainings- und Testmenge

Das Aufteilen der Daten geschieht mit einer Hilfsfunktion von scikit learn. Die Aufteilung geschieht zufällig, um aber das Resultat reproduzierbar zu machen wird (mit `random_state=1`) steht dieselbe Zufallsauswahl gewählt.

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.5, random_state=1)

## Modell trainieren (fit)

In [6]:
from sklearn.naive_bayes import GaussianNB

modelGaussianNB = GaussianNB().fit(X_train, y_train)

## Trainiertes Modell anwenden (predict)

In [7]:
y_predGaussianNB = modelGaussianNB.predict(X_test)

print("Number of mislabeled points out of a total %d points : %d"
      % (len(X_test), (y_test != y_predGaussianNB).sum()))

Number of mislabeled points out of a total 75 points : 3


# Evaluation

Für die Evaluation berechnen wir Confusion Matrix und die Metriken Accurracy, Precision und Recall

## Accuracy

In [8]:
from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_predGaussianNB))

0.96


## Confusion Matrix

Aus der scikit-learn Dokumentation: 

*Confusion matrix whose i-th row and j-th column entry indicates the number of samples with true label being i-th class and prediced label being j-th class.*

In [9]:
from sklearn.metrics import confusion_matrix

print(confusion_matrix(y_test, y_predGaussianNB))

[[24  0  0]
 [ 0 22  2]
 [ 0  1 26]]


## Precision / Recall 

Precision und Recall werden jeweils pro Klasse ausgerechnet

    Precision = tp / (tp + fp)
    Recall = tp / (tp + fn)
    
    tp: True Positive 
    fp: False Positive
    fn: False Negative
    
Precision ist intuitiv die Fähigkeit des Klassifikators ein negatives Sample als positiv zu erkennen.

Recall ist intuitiv die Fähigkeit des Klassifikators alle positiven Fälle zu finden.

In [10]:
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score

print("Precision: " + str(precision_score(y_test, y_predGaussianNB, average=None)))
print("Recall: " + str(recall_score(y_test, y_predGaussianNB, average=None)))


Precision: [1.         0.95652174 0.92857143]
Recall: [1.         0.91666667 0.96296296]


## <span style="color:green">Aufgabe: Interpretieren der Evaluation</span>

**Frage 1:** Welche Lilienart wird am häufigsten falsch klassifiziert? 

**Frage 2:** Ist das Modell passend, wenn wir die Lilien Versicolor möglichst korrekt erkennen wollen?

**Frage 3:** Setosa wird stets korrekt erkannt. Heisst das, dass hier unser Klassifikation stets perfekt funktioniert?


## <span style="color:green">Bonus Aufgabe: Hands-on Aufgabe SVM</span>


- Neuer Klassifikator erstellen der mit einer [Support Vector Machine][SVM] funktioniert. Ist die Perfomance besser als Naive Bayes?


[SVM]: https://scikit-learn.org/stable/modules/svm.html



In [11]:
from sklearn import svm