# Erkennung von Ziffern

Das Erkennen von Ziffern hat in dem Bereich Maschinelles Lernen Tradition.
Hiervon ausgehend kann mit Schrifterkennung gearbeitet werden, um z. B. automatisch Briefe der Adresse nach zu sortieren.

In diesem Jupyter Notebook werden die Ziffern klassifziert, die mit scikit-learn bereits mit ausgeliefert werden.

In [None]:
from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np

Zunächst wird der Datensatz mit den Ziffern geladen.

In [None]:
digits = datasets.load_digits()
print(digits.DESCR)

## Darstellung einer Ziffer

Nun wird exemplarisch die 0te Ziffer des Datensatzes dargestellt.

In [None]:
digits.images[0]

Die Pixel werden anscheinend als Fließkommazahlen zwischen 0 und 16 dargestellt, wobei die Nachkommastellen nicht genutzt werden.
Eine Ziffer wird durch eine $8 \times 8$-Matrix repräsentiert.

Schauen wir uns mal das allererste Bild an.

In [None]:
plt.imshow(digits.images[0], cmap="gray")
plt.show()

Es handelt sich scheinbar um eine 0, wobei aus der Matrix eine 0 als schwarz und eine 16 als weiß dargestellt wird.
Die Zahlen repräsentieren Intensitätswerte.

Wir als Menschen erkennen, dass es sich um eine Null handelt, aber ist dies auch richtig im Datensatz hinterlegt?
Beim Überwachten Lernen brauchen wir für die Automatisierung bereits erkannte Ziffern.

**Aufgabe 1)**

Auftrag:
Finden Sie heraus, an welcher Stelle im Object `digits` der Zielwert `0` für den nullten Eintrag hinterlegt ist.

Tipp: Mit dem Fragezeichen-Operator oder auch mit der `dir`-Funktion kann man Objekte erkunden.

In [None]:
# Ihr Code

Eine Möglichkeit, Abbildungen von Ziffern zu analysieren, ist, einfach jeden Pixel wie ein eigenes Attribut (also eine eigene Spalte in einer Tabelle) zu behandeln.
Beim Aufruf von `flatten` werden die Reihen der Matrix aneinandergehängt, vgl. die [numpy-Dokumentation](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.ndarray.flatten.html).
Dabei erhält man eine eindimensionale Liste.

In [None]:
flattened = digits.images[0].flatten()
flattened

Hier sind nun einfach alle Pixel aneinander gehängt worden.
So nimmt ein Bild nur eine Zeile ein.

In [None]:
fig, ax = plt.subplots(figsize=(16, .2))
ax.imshow(np.expand_dims(flattened, axis=0), cmap="gray", aspect="auto")
plt.yticks([]) # verstecke Y-Achse
plt.show()

## Vorverarbeitung der Bilder

Die eindimensionale Repräsentation von Bildern ist notwendig, weil die bislang vorgestellten Klassifizierungs-Algorithmen nur einfache Attribute (quasi Spalten) verstehen - die räumliche Nähe der Pixel kann von ihnen nicht ausgewertet werden.
Bei diesem Vorverarbeitungs-Schritt geht die Information über die räumliche Nähe im 2d-Bild offensichtlicherweise verloren.

In [None]:
images = [image.flatten() for image in digits.images]

Nun liegt die Eingabe so vor, dass damit wie bislang auch verfahren werden kann.
Die Kategorie ist in `digits.target` vermerkt.
Also `digits.images[22]` ist das Bild und in `digits.target[22]` steht dann, dass es sich bei dem Bild um eine Zwei handelt.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(images, digits.target, test_size=0.33, random_state=42)

clf = RandomForestClassifier(
    n_estimators=10,
    max_depth=7,
    n_jobs=-1,
    max_features="auto",
    class_weight=None
)
clf.fit(X_train, y_train)
accuracy = clf.score(X_test, y_test)
print("The accuracy reached {acc}%".format(acc=accuracy * 100))

Nun lasssen wir uns eine Konfusionsmatrix anzeigen.
Damit kann man sehen, welche Ziffern mit welchen anderen Ziffern am häufigsten vertauscht worden sind.

In [None]:
predicted = clf.predict(X_test)
confusion_matrix = metrics.confusion_matrix(
    y_test,
    predicted
)
normalized_confusion_matrix = confusion_matrix.astype('float') / confusion_matrix.sum(axis=1)[:,]
    
fig, ax = plt.subplots(figsize=(6, 6))
img = ax.imshow(normalized_confusion_matrix, interpolation='nearest', cmap=plt.cm.Blues)
plt.title("Konfusionsmatrix")
plt.colorbar(img, shrink=0.5)

plt.ylabel('Tatsächliche Ziffer')
plt.xlabel('Vorhergesagte Ziffer')
plt.xticks(list(range(0, 10)))
plt.yticks(list(range(0, 10)))
plt.show()

Eigentlich ist die Vorhersage relativ gut: 
Die tatsächliche und die vorhergesagte Ziffer stimmen ganz gut überein.
Man sieht nur, dass Fünfen häufiger für Neunen gehalten worden sind (in der Mitte rechts)
und dass Achten häufiger für eine Zwei gehalten worden sind (unten links).

Die Literatur zur Erkennung von Ziffern ist sehr umfangreich, ein Startpunkt ist bspw. die Webseite http://yann.lecun.com/exdb/mnist/

<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Creative Commons Lizenzvertrag" style="border-width:0; display:inline" src="https://i.creativecommons.org/l/by/4.0/88x31.png" /></a> &nbsp;&nbsp;&nbsp;&nbsp;Dieses Werk von Marvin Kastner ist lizenziert unter einer <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Creative Commons Namensnennung 4.0 International Lizenz</a>.