<img src="header.png" align="center"/>

# Anwendungsbeispiel Classification IRIS Flowers


Das Ziel des Beispieles ist es, die Gattung einer Iris Blume anhand von 4 Messgrößen zu schätzen. Dazu verwenden wir 
verschiedene Klassifikationsmethoden.
Wir verwenden einen Datensatz von Edgar Anderson aus dem Jahr 1936 [1]. Der Datensatz enthält 150 Samples mit jeweils
4 Messwerten petal length, petal width, sepal length, sepal width als Features sowie der korrekten Klasse als Label. 

```
[1] Edgar Anderson (1936). "The species problem in Iris". Annals of the Missouri Botanical Garden. 23 (3): 457–509. doi:10.2307/2394164. JSTOR 2394164.
```

In [2]:
#
# Import der Module
#
import pandas
import numpy as np
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt

from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

In [3]:
# 
# Laden der Daten
# 
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pandas.read_csv('data/iris/iris.csv', names=names)

In [4]:
#
# Prüfen der Verteilung der Klassen
#
print(dataset.groupby('class').size())

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
dtype: int64


In [21]:
# 
# Aufteilen in Training Daten und Testdaten
#
array = dataset.values
X = array[:,0:4]
Y = array[:,4]
validation_size = 0.40
splits = 10
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=42)

In [22]:
#
# Trainieren eines einfachen Classifiers der kNN Methode
#

knn_classifier = KNeighborsClassifier(n_neighbors=4)
knn_classifier.fit(X_train, Y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=4, p=2,
                     weights='uniform')

In [24]:
#
# Schätzung und Prüfung der Qualität
#
predictions = knn_classifier.predict(X_validation)
print('Accuracy: {}'.format(accuracy_score(Y_validation, predictions)))

Accuracy: 0.9833333333333333


In [25]:
print(confusion_matrix(Y_validation, predictions))

[[23  0  0]
 [ 0 19  0]
 [ 0  1 17]]
