# Iris Klassifikation 

Ein klassisches Beispiel, um *Machine Learning* zu vermitteln, ist die Einteilung von Iris Blumen in die verschiedenen Unterarten. 

![Iris](iris-068d5c21-2a05-4324-82a7-73a04194bd70-3561978471.jpg)

Die Blumen werden nach folgenden Parametern eingeteilt:
- Kelchblatt Länge (engl: *Sepal Length*)
- Kelchblatt Breite (*Sepal width*)
- Kronblatt Länge (*Petal length*)
- Kronblatt Breite (*Petal width*)

Wer, wie ich, ein Kelchblatt nicht von einem Kronblatt unterscheiden kann, kann sich auf Wikipedia unter [Blüten-Schema](https://de.wikipedia.org/wiki/Datei:Bluete-Schema.svg) schlau machen. 


Dieses Daten, zusammen mit dem Namen der dazugehörigen Iris-Sorte, sind frei im Web erhältlich.

Im folgenden schreiben wir ein kleines [ruby](https://www.ruby-lang.org/en/) Programm, um mit Machine Learning die Iris Sorte zu bestimmen.

In [1]:
require 'datasets'
require 'charty'
require 'rumale'
require 'daru'

"if(window['d3'] === undefined ||\n   window['Nyaplot'] === undefined){\n    var path = {\"d3\":\"https://cdnjs.cloudflare.com/ajax/libs/d3/3.5.5/d3.min\",\"downloadable\":\"http://cdn.rawgit.com/domitry/d3-downloadable/master/d3-downloadable\"};\n\n\n\n    var shim = {\"d3\":{\"exports\":\"d3\"},\"downloadable\":{\"exports\":\"downloadable\"}};\n\n    require.config({paths: path, shim:shim});\n\n\nrequire(['d3'], function(d3){window['d3']=d3;console.log('finished loading d3');require(['downloadable'], function(downloadable){window['downloadable']=downloadable;console.log('finished loading downloadable');\n\n\tvar script = d3.select(\"head\")\n\t    .append(\"script\")\n\t    .attr(\"src\", \"http://cdn.rawgit.com/domitry/Nyaplotjs/master/release/nyaplot.js\")\n\t    .attr(\"async\", true);\n\n\tscript[0][0].onload = script[0][0].onreadystatechange = function(){\n\n\n\t    var event = document.createEvent(\"HTMLEvents\");\n\t    event.initEvent(\"load_nyaplot\",false,false);\n\t    win

true

In [2]:
# Lade die Daten vom Internet
irises = Datasets::Iris.new

#<Datasets::Iris:0x0000000120de1f90 @metadata=#<struct Datasets::Metadata id="iris", name="Iris", url="https://archive.ics.uci.edu/ml/datasets/Iris", licenses=[#<struct Datasets::License spdx_id="CC-BY-4.0", name=nil, url=nil>], description=#<Proc:0x0000000120de1270 /usr/local/lib/ruby/gems/3.4.0/gems/red-datasets-0.1.8/lib/datasets/iris.rb:19 (lambda)>>>

Die Iris Datensätze bestehen wie in einem Excel Sheet aus Zeilen mit den angegeben werden. Wir brauchen etwas Software, um das schön darzustellen.

In [3]:
df = Daru::DataFrame.new(irises.to_table.to_h)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,label
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


Wir haben noch ein kleines, typisches Problem: Die Daten sind schon sortiert nach dem Iris Typ: Zuerst die Setosa, dann die versicolor, und am Schluss die virginica. Wir brauchen aber die Daten unsortiert. 


In [4]:
df.sort! [:sepal_length], by: { sepal_length: lambda { |x| rand } }

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,label
15,5.7,4.4,1.5,0.4,Iris-setosa
32,5.2,4.1,1.5,0.1,Iris-setosa
97,6.2,2.9,4.3,1.3,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
14,5.8,4.0,1.2,0.2,Iris-setosa
148,6.2,3.4,5.4,2.3,Iris-virginica
123,6.3,2.7,4.9,1.8,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
24,4.8,3.4,1.9,0.2,Iris-setosa
135,7.7,3.0,6.1,2.3,Iris-virginica


Diese Daten haben schon 4 Dimensionen (*Sepal_length, sepal_width, petal_length, petal_width*) und eine Kategorie (auch `label` genannt). In unserer Welt können wir höchstens 3 Dimensionen darstellen, und auf der Fläche des Bildschirms nur zwei Dimensionen.

Wir brauchen also zwei Diagramme, um unsere 4 Kategorien oder Dimensionen darzustellen.

In [5]:
Charty::Backends.use(:plotly)
plot1 = Charty.scatter_plot(data: irises, x: :sepal_length, y: :sepal_width, color: :label, title: "Iris by Sepal")
plot1.save "iris-sepal.html"
plot2 = Charty.scatter_plot(data: irises, x: :petal_length, y: :petal_width, color: :label, title: "Irises by Petal")
plot2.save "iris-petal.html"

In [6]:
plot1

#<Charty::Plotters::ScatterPlotter:0x00000000000006d0>

In [7]:
plot2

#<Charty::Plotters::ScatterPlotter:0x00000000000006d8>

## Machine Learning
Die Aufgabe des Maschine Learnings ist jetzt wie folgt: 
- nehme eine noch unbekannte Iris
- Messe Sepal und Petal Längen und Breiten
- und bestimme davon, welcher Iris Typ die Blume ist.

Wenn man sich das visuell vorstellt, ist die Frage: Wenn ich einen neuen Punkt im Diagramm oben anbringe: Wem liegt er am nächsten?

In echten Anwendungen haben wir natürlich nicht nur 4 Kategorien, sondern Tausende oder sogar Millionen. Unser Gehirn kann sich das nicht räumlich vorstellen, die Mathematik aber schon.

## Trainings- und Testdaten
Das Vorgehen beim Machine Learning ist immer dasselbe:
1. Beginne mit kategorisierten Daten, die unsortiert sind
2. Teile sie in 80% Trainingsdaten und 20% Testdaten
3. Trainiere das mathematische Modell mit den Trainingsdaten
4. Überprüfe dann mit den Testdaten, ob die Vorhersagen gut genug sind.
5. Falls nicht, trainiere nochmals



In [8]:
# convert to raw data
# X are all the values we want to train on, i.e. the sizes of the leaves
X = df.to_a[0].map { |r| [ r[:sepal_length], r[:sepal_width], r[:petal_length], r[:petal_width] ] }
# Y are the categories or labels
Y = df.to_a[0].map { |r| r[:label] }

["Iris-setosa", "Iris-setosa", "Iris-versicolor", "Iris-versicolor", "Iris-setosa", "Iris-virginica", "Iris-virginica", "Iris-virginica", "Iris-setosa", "Iris-virginica", "Iris-virginica", "Iris-versicolor", "Iris-setosa", "Iris-versicolor", "Iris-setosa", "Iris-virginica", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-versicolor", "Iris-setosa", "Iris-versicolor", "Iris-setosa", "Iris-setosa", "Iris-setosa", "Iris-virginica", "Iris-versicolor", "Iris-virginica", "Iris-versicolor", "Iris-setosa", "Iris-virginica", "Iris-setosa", "Iris-versicolor", "Iris-versicolor", "Iris-virginica", "Iris-versicolor", "Iris-virginica", "Iris-setosa", "Iris-virginica", "Iris-versicolor", "Iris-versicolor", "Iris-versicolor", "Iris-versicolor", "Iris-virginica", "Iris-setosa", "Iris-versicolor", "Iris-virginica", "Iris-versicolor", "Iris-versicolor", "Iris-versicolor", "Iris-setosa", "Iris-versicolor", "Iris-virginica", "Iris-setosa", "Iris-setosa", "Iris-versicolor", "Iris-versicolo

Die Kategorien müssen auch noch in Zahlen umgewandelt werden.

In [9]:
numeric_labels = Y.uniq
Y = Y.map { |label| numeric_labels.index(label)}



[0, 0, 1, 1, 0, 2, 2, 2, 0, 2, 2, 1, 0, 1, 0, 2, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 2, 1, 2, 1, 0, 2, 0, 1, 1, 2, 1, 2, 0, 2, 1, 1, 1, 1, 2, 0, 1, 2, 1, 1, 1, 0, 1, 2, 0, 0, 1, 1, 0, 0, 1, 2, 2, 1, 1, 2, 2, 1, 1, 1, 0, 1, 1, 2, 2, 1, 1, 2, 1, 2, 2, 0, 2, 1, 2, 1, 1, 2, 0, 1, 0, 2, 2, 0, 1, 0, 2, 2, 0, 2, 1, 1, 2, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 2, 1, 1, 0, 0, 0, 2, 2, 2, 0, 2, 0, 1, 1, 0, 0, 2, 2, 0, 0, 1, 0, 1, 2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 0, 1, 2, 2]

Wir nehmen 80% der Daten zum Trainieren, und 20% der Daten für unsere Tests.

In [10]:
training_size = (df[:label].count * 0.8).to_i
X_train, X_test = X[0..training_size-1], X[training_size..]
Y_train, Y_test = Y[0..training_size-1], Y[training_size..]

[[0, 0, 1, 1, 0, 2, 2, 2, 0, 2, 2, 1, 0, 1, 0, 2, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 2, 1, 2, 1, 0, 2, 0, 1, 1, 2, 1, 2, 0, 2, 1, 1, 1, 1, 2, 0, 1, 2, 1, 1, 1, 0, 1, 2, 0, 0, 1, 1, 0, 0, 1, 2, 2, 1, 1, 2, 2, 1, 1, 1, 0, 1, 1, 2, 2, 1, 1, 2, 1, 2, 2, 0, 2, 1, 2, 1, 1, 2, 0, 1, 0, 2, 2, 0, 1, 0, 2, 2, 0, 2, 1, 1, 2, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 2, 1, 1, 0, 0, 0, 2], [2, 2, 0, 2, 0, 1, 1, 0, 0, 2, 2, 0, 0, 1, 0, 1, 2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 0, 1, 2, 2]]

Jetzt gibt es sehr viele mathematische Verfahren, um unser Modell zu trainieren. Wir benützen die [Support Vector Machine](https://de.wikipedia.org/wiki/Support_Vector_Machine) SVM Methode, die häufig für Klassifikationen benützt wird.

In [11]:
svm = Rumale::LinearModel::SVC.new
svm.fit(X_train, Y_train)

#<Rumale::LinearModel::SVC:0x0000000121646d98 @params={reg_param: 1.0, fit_bias: true, bias_scale: 1.0, max_iter: 1000, tol: 0.0001, probability: false, n_jobs: nil, verbose: false}, @classes=Numo::Int32#shape=[3]
[0, 1, 2], @weight_vec=Numo::DFloat#shape=[3,4]
[[0.0697863, 0.259393, -0.398401, -0.176025], 
 [-0.00145127, -0.232587, 0.134734, -0.062342], 
 [-0.184521, -0.128776, 0.244066, 0.233647]], @bias_term=Numo::DFloat#shape=[3]
[0.0428847, 0.0290285, -0.0978951], @prob_param=Numo::DFloat#shape=[3,2]
[[1, 0], 
 [1, 0], 
 [1, 0]]>

Das ging schnell. Wenn es allerdings Million von Parametern und Millionen von Datenreihen gibt, dann das Trainieren Tage dauern. 

## Wie gut sind wir?

Jetzt stellt sich die Frage, wie gut denn unser SVM Algorithmus funktioniert hat. Vereinfacht machen wir folgendes: Wir nehmen die Testdaten, die wir früher auf die Seite gestellt haben, und lassen das Modell diese Testdaten kategorisieren, d.h. den Iris Typ vorhersagen. Dann vergleichen wir, wie oft unser Modell richtig gelegen ist. 

Wenn nur willkürlich geraten wird, würden wir bei drei Iris Typen geschätzt 33% richtig liegen. Alles, was drüber ist, ist schon eine Verbesserung.

In [12]:
result = svm.predict(X_test)

Numo::Int32#shape=[30]
[2, 2, 0, 2, 0, 1, 1, 0, 0, 2, 2, 0, 0, 2, 0, 1, 2, 2, 0, 2, 2, 2, 2, 2, 2, ...]

In [13]:
# how many are correct? 
# convert both to an array
Y_a = Y_test.to_a
R_a = result.to_a
# zip them next to each other and count how many are equal, meaning that the prediction was correct
correct_predictions = Y_a.zip(R_a).count{ |a,b| a == b }
accuracy = correct_predictions.to_f / Y_a.size 
puts "total tests: #{Y_a.size}, correct predictions: #{correct_predictions}, accuracy: #{accuracy}"

total tests: 30, correct predictions: 29, accuracy: 0.9666666666666667


Das Ergbnis ist über 50%, d.h. unser Modell hat besser vorgergesagt als der Zufall. 

# Anwendungsfälle

Diese Art von Machine Learning wird angewandt für folgende Fälle:
- **Kategorisierung** aller Arten (Häuserpreise, Bilder, Messergebnisse, ...)
- **Ausreisser** entdecken, z.B. Kreditkartenbetrug oder Spam Mail
- **Sentiment detection** (Stimmungen erkennen) anhand von Emojiis in WhatsApp und Text Nachrichten

## Wo kommen die Labels her?
Typischerweise werden die Labels von Menschen von Hand vergeben. Es gibt Firmen in China, Indien, und auf den Philippinen, die solche *Video Labeling* Dienste anbieten.

# Was ist, wenn die Daten Bilder oder Text sind?

Machine Learning (und auch künstliche Intelligenz) kann nur mit Zahlen arbeiten. Bilder und Texte müssen also zuerst in Zahlen umgewandelt werden.

## Bilder
Bei Bildern kann man sich das einfach vorstellen: Ein Bild besteht ja aus vielen gerasterten Punkten. Bei einem Schwarz-Weiss Bild sind diese winzigen Punkte einfach 0 (für weiss) undn 1 (für schwarz), bei farbigen Punkten bestehen sie aus drei Zahlen, welche die rot, grün, und blaue Intensität der Farbe angeben. So kann ein Bild in eine lange Liste von Zahlenwerten umgewandelt werden.

