# Klassifikation

Für die Klassifikation wirst du das `digits`-Datenset nutzen (https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html).

## Datenset laden

In [None]:
import random
random.seed(0)

In [None]:
from sklearn import datasets
digits = datasets.load_digits()

In [None]:
digits

In [None]:
digits.images.shape

In [None]:
import matplotlib.pyplot as plt
plt.gray()
for i in range(9):
    plt.matshow(digits.images[i])
plt.show()

Für *Supervised Learning* wirst du die Konvention nutzen, dass die unabhängigen Daten immer `X` heißen, während du die abhängigen Daten `Y` nennst. Die Aufgabe ist also, `X` zu nutzen, um `Y` vorherzusagen.

In [None]:
X = digits["data"]
y = digits["target"]

## Naive Bayes

Zuerst probierst du das *Naive Bayer*-Verfahren zur Klassifikation aus. Im Gegensatz zum Clustering benötigst du hier einen Schritt mehr - das Modell muss zunächst *trainiert* werden. Dazu dient die Funktion `fit`. 

In [None]:
from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(X, y)

Wenn das Modell trainiert ist, kann es Vorhersagen durchführen. Du übergibst ihm dazu Daten und es sagt dir, welche Zahl sich dahinter verbirgt. Probier es aus:

In [None]:
mnb_pred = mnb.predict(X)

Um zu sehen, wie oft es richtig und falsch vorhergesagt hast, kannst du einfach die beiden Arrays miteinander vergleichen (weil es `numpy.array`s sind) und zählen, wie häufig `True` und `False` vorkommt.

In [None]:
import numpy as np
np.unique(mnb_pred == y, return_counts=True)

10% Fehler, das sieht gar nicht schlecht aus! Das Verhältnis von richtig klassifizierten Daten zu allen nennt sich *Accuracy* und kann einfach berechnet werden. Achtung, es ist nicht immer ein besonders gut geeignetes Maß.

In [None]:
(u, c) = np.unique(mnb_pred == y, return_counts=True)
c[1]/c.sum()

Andere Klassifikationsverfahren sind noch besser. *Naive Bayes* ist immer die *Baseline*, an der sich alles messen sollte - alle andere Verfahren müssten eigentlich besser sein.

## Andere Verfahren

Da `scikit-learn` ziemlich viele Verfahren hat, schreibst du dir dazu eine kleine Schleife.

In [None]:
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier

for clf in [MultinomialNB(), SVC(random_state=42), SGDClassifier(random_state=42),
            RandomForestClassifier(), GradientBoostingClassifier(random_state=42),
            AdaBoostClassifier(random_state=42), DecisionTreeClassifier(random_state=42),
            MLPClassifier(random_state=42), KNeighborsClassifier()]:
    clf.fit(X, y)
    clf_pred = clf.predict(X)
    (u, c) = np.unique(clf_pred == y, return_counts=True)
    print(clf, c[-1]/c.sum())

Die Ergebnisse unterscheiden sich sehr deutlich - genau wie auch die Rechenzeiten.

## Welches ist der richtige Algorithmus

Wie du siehst, ist eine Klassifikation mit `scikit-learn` sehr einfach durchführbar. Doch welches ist nun der richtige Algorithmus? Das kannst du noch nicht entscheiden, weil du die Abstraktionsfähigkeit der Klassifikatoren noch nicht bewerten kannst. Außerdem ist die *Accuracy* auch nicht immer das am besten geeignete Maß, um die Leistungsfähigkeit zu beurteilen.

Genaueres dazu erfährst du im nächsten Teil!