<img src="../img/KImS_Logo.png" width="130" align="left"/>

# Klassifikation von Brustkrebs-Arten &nbsp; <i class="fa fa-user-md" style="font-size:30px"></i> <i class="fa fa-medkit" style="font-size:30px"></i>
___

## Einführungsvideo

___

<video controls src="additional/intro_medicine.mp4" width="90%" />

Hinweis: Obwohl unsere Aufgaben auf echten Daten aus einer Studie von Wolberg et al. [1999] beruhen, haben wir die Daten etwas vereinfacht, um euch eine eindeutige Klassifikation zu ermöglichen. 

In [None]:
from kimachtschule.content.classification import MedicineClassification

Plot = MedicineClassification()

## Aufgabe 1 | Veranschaulichen von Messwerten [ Daten <i class="fa fa-database" style="font-size:22px"></i>&nbsp;]
___


Zunächst schauen wir uns die Tumordaten an.

<i class="fa fa-laptop" style="font-size:38px"></i> &nbsp; 
[Exkurs:](additional/medicine_data_exploration.py) Hier kannst du den gesamten Datensatz interaktiv erforschen.

In [None]:
Plot.with_line(m_range=(-1500,1500,100), b_range=(10,300,5))

Es ist schnell zu erkennen, dass die **Daten <i class="fa fa-database" style="font-size:15px"></i>** in zwei Punktwolken liegen. 
Wie kann man als Mensch diese Punktgruppen voneinander trennen?
Das geht ganz einfach, indem man eine Gerade einzeichnet.

<i class="fa fa-laptop" style="font-size:38px"></i> &nbsp;
Versuche in der Abbildung oben die Steigung $m$ und den y-Achsenabschnitt $b$ der Geraden so zu verändern, dass die Linie die Punktwolken trennt.

## Aufgabe 2 | Klassifikation durch ein Neuron [ Modell <i class="fa fa-sitemap" style="font-size:22px"></i>&nbsp;]
___


Bisher haben wir uns überlegt haben, wie wir als Menschen die Daten trennen würden.
Doch wie wird diese Aufgabe im Maschinellen Lernen gelöst?
Um diese Frage zu beantworten, müssen wir uns zunächst für ein **Modell <i class="fa fa-sitemap" style="font-size:16px"></i>** entscheiden.
Eine besonders mächtige und breit genutzte Klasse von Modellen ist die der _künstlichen neuronalen Netze_.
Aus diesem Grund wollen wir ein neuronales Netz benutzen, um unsere Klassifizierungsaufgabe zu lösen.
Wie also funktioniert ein solches neuronales Netz?
Schauen wir uns zunächst die Grundeinheit eines jeden neuronalen Netz an: das Neuron!  
Ein solches besteht aus drei Hauptkomponenten:
- Input
- Neuron
- Output

In der einfachsten Form hat ein neuronales Netz nur ein einziges Neuron, was in der folgenden Grafik dargestellt ist.
Auch wenn es simpel erscheint werden wir sehen, dass ein einzelnes Neuron bereits in der Lage ist, bestimmte Klassifizierungsaufgaben zu lösen!

<img src="../img/single_neuron_medicine.png" width="600"/>

Der Input des Neurons sind die Daten, die klassifiziert werden sollen.
In unserem Beispiel von Brustkrebs haben wir zweidimensionale Daten.
Das bedeutet, dass jeder Datenpunkt zwei Werte hat, den Anteil konkaver Punkte $K$ und den Zellkernumfang $U$.
Jede Dimension geht als einzelner Input in das Neuron.

Das Neuron selbst hat Gewichte, genannt $w_1$, $w_2$ oder generell $w_n$.
Dabei gibt es genauso viele Gewichte wie Inputs.
Die Gewichte werden benutzt, um eine interne Rechnung zu machen: $z = K \cdot w_1 + U \cdot w_2$. 
Sie legen damit fest, wie stark jedes Merkmal in die Einteilung der verschiedenen Klassen eingeht.
Je größer das Gewicht, desto mehr geht das zugehörige Merkmal, hier $K$ oder $U$, in die Rechnung ein.

Der letzte Teil ist der Output.
Hier wird das Ergebnis $z$ mit einem Schwellenwert $s$ verglichen.
Ist $z < s$, wird der Input der Klasse $A$ zugeordnet.
Ist jedoch $z > s$, so ordnet das Neuron den Input der Klasse $B$ zu.

<i class="fa fa-laptop" style="font-size:38px"></i> &nbsp; 
[Exkurs:](additional/neuron_calculation.py) Hier wollen wir nun die Neuronrechnung üben.


<i class="fa fa-laptop" style="font-size:38px"></i> &nbsp;
Nun wollen wir versuchen, die gleiche Klassifikationsaufgabe wie oben mithilfe eines Neurons zu lösen.
Verändere hierzu die Gewichte $w_1$ und $w_2$, bis die Punkte in zwei sinnvolle Klassen unterteilt sind.

In [None]:
import hints; hints.neuron_details()

In [None]:
Plot.with_colors(w1_range=(-1500,1500,100), w2_range=(0.7,2.7,0.1), legend_loc='upper left')

Das Anpassen der Gewichte, welches wir hier per Hand durchgeführt haben, entspricht dem _Lernen_ eines neuronalen Netzes.
Im Maschinellen Lernen werden genau diese Gewichte verändert und so lange an den Knöpfen gedreht, bis eine Klassifikation der Daten gelingt.

Doch wie schafft es das Neuron, dieselbe Aufgabe zu erfüllen wie die Gerade im ersten Beispiel?
Tatsächlich tut es genau das Gleiche!

Dies können wir auch mathematisch zeigen.

<details class="details-solution">
<summary><i class="fa fa-exclamation-triangle" style="font-size:20px"></i>  <u>Achtung: Mathematik!</u></summary>

Erinnern wir uns zunächst an die Geradengleichung:

\begin{equation}
U = m \cdot K + b
\end{equation}

Die Äquivalenz können wir nun sehen, wenn wir uns die Gleichung des Neurons genauer anschauen:

\begin{equation}
z = K \cdot w_1 + U \cdot w_2
\end{equation}

Nun wissen wir, dass das Neuron einen Punkt der Klasse $A$ zuordnet, wenn $z<s$ gilt, und der Klasse $B$, wenn $z>s$ gilt. 
Das bedeutet, dass wir bei $z=s$ eine Grenze zwischen den beiden Klassen ziehen können.
Wenn wir $z=s$ einsetzen und nach $U$ umformen, bekommen wir:

\begin{equation}
z = K \cdot w_1 + U \cdot w_2 = s \qquad \Leftrightarrow \qquad U \cdot w_2 = - K \cdot w_1 + s \qquad \Leftrightarrow \qquad U = \left(-\frac{w_1}{w_2}\right) \cdot K + \frac{s}{w_2}
\end{equation}

Hier sehen wir die selbe Geradengleichung wie zu Beginn, wenn wir $m=\left(-\frac{w_1}{w_2}\right)$ und $b=\frac{s}{w_2}$ setzen.
    

</details>

Du kannst veranschaulichen, dass Gewichte und Geradenparameter (Steigung, y-Achsenabschnitt) das Gleiche tun, wenn du auf den Knopf "mit Grenze" klickst, der die Gerade einblendet. 

In [None]:
import hints; hints.skalarprodukt_details()

## Aufgabe 3 | Maschinelles Lernen [ Fehlerfunktion <i class="fa fa-area-chart" style="font-size:22px"></i>&nbsp;]
___

Wir haben nun passende Werte für die Gewichte $w_1$ und $w_2$ unseres Neurons durch geschicktes Ausprobieren gefunden.
Doch wie soll ein Computer die besten Gewichte finden?

Diese Frage bringt uns zum Konzept der **Fehlerfunktion <i class="fa fa-area-chart" style="font-size:16px"></i>**, der wir das mathematische Symbol $\mathcal{L}$ geben (Englisch: loss function).
Diese berechnet, wie ihr Name schon verrät, den Verlust, der durch die aktuellen Gewichte $w_1$ und $w_2$ zustande kommt.  

__In ihrer einfachsten Form zählt sie auf, wie viele Punkte falsch klassifiziert wurden.__
Dies können wir uns am besten veranschaulichen, wenn wir eines der Gewichte konstant halten und $\mathcal{L}$ in Abhängigkeit vom verbliebenen Gewicht aufzeichnen. 
Hierzu wählen wir $w_2=1$.

<i class="fa fa-laptop" style="font-size:38px"></i> &nbsp;
Verändere in der Abbildung unten den Wert des Gewichts $w_1$, bis alle Punkte richtig klassifiziert sind.
Erforsche auch Regionen, in denen die Klassifikation nicht gut funktioniert.
Erinnert dich der grobe Verlauf der Fehlerfunktion $\mathcal{L}(w_1)$ an eine Funktion, die du aus dem Mathematikunterricht kennst?

In [None]:
Plot.with_colors_and_loss(w1_range=(-1500,8000,250), w2=1., ylims=(-1,400))

Hier können wir erkennen, dass eine optimale Klassifikation genau dann erreicht wird, wenn unsere Fehlerfunktion ein Minimum hat!
Also müssen wir dem Computer sagen, dass er $\mathcal{L}$ für viele verschiedene Gewichte ausrechnen soll, um dann genau die Gewichte zu wählen, für die $\mathcal{L}$ am geringsten ist.

## Aufgabe 4 | Automatisches Finden der besten Gewichte [ Optimierungsmethode <i class="fa fa-sliders" style="font-size:22px"></i> &nbsp;]
___



Nun müssen wir nur noch bestimmen, welche Gewichte ausprobiert werden sollen.

**1. Versuch: alle Gewichte**

    Der Computer probiert alle möglichen Gewichte aus und findet das perfekte Minimum.  

Hier gibt es einen entschiedenen Nachteil:
es dauert sehr lange, in vielen Fällen sogar unendlich lange.
Also müssen wir cleverer sein.
    
    
**2. Versuch: zufällige Gewichte**

    Der Computer probiert zufällig Gewichte aus und wählt daraus das beste aus.  

Dies garantiert uns, dass nach recht kurzer Zeit ein Ergebnis vorliegt.
Jedoch gibt es auch hier einen Nachteil:
Vielleicht ist das beste Minimum gar nicht unter den zufälligen Gewichten!
In diesem Fall haben wir eine schlechtere Klassifikation, als eigentlich möglich wäre.  

Um uns einen noch besseren Algorithmus zu überlegen, sollten wir erneut einen Blick auf die Fehlerfunktion werfen:
wir können sehen, dass sie keine großen Sprünge macht, wenn wir $w_1$ ändern, und dass sie außerdem ein klar definiertes Minimum hat.
Wenn wir an einem zufälligen Punkt, der nicht im Minimum liegt, einen kleinen Schritt "bergab" machen, nähern wir uns dem Minimum.
Gehen wir wiederholt bergab, können wir also iterativ zum Minimum gelangen!\
Wie finden wir allerdings heraus, in welche Richtung es bergab geht, ohne den gesamten Verlauf der Funktion vorher zu kennen?
Dies ist möglich mit etwas, das einigen von euch aus dem Mathematikunterricht bekannt sein dürfte: der Ableitung! Mithilfe der Ableitung können wir berechnen, ob es nach links oder rechts bergab geht.
Diese Überlegung führt uns zum finalen Versuch.
    
    
**3. Versuch: zufälliger Startwert, dann Schritte in Richtung des Minimums**:

Auf Englisch wird dies _gradient descent_ genannt, also "Gradientenabstieg".
Der Gradient ist eine mehrdimensionale Verallgemeinerung der Ableitung.
In unserem Beispiel, wo $w_2$ auf 1 fixiert ist, wird der Gradient einfach zur bekannten Ableitung.  
Die Methode ist in der folgenden Abbildung näher beschrieben.  


<img src="../img/Gradient Descent.png" width="900"/>

Mithilfe des Gradientenabstiegs können also effizient Minima gefunden werden!
Eine solche Methode, um diejenigen Parameter zu finden, für die das Fehlermaß zwischen dem gewählten Modell und den Datenpunkten minimal wird, nennt man **Optimierungsmethode <i class="fa fa-sliders" style="font-size:16px"></i>**.
Da kompliziertere Modelle viele Tausend (wenn nicht gar Millionen) Parameter haben, würde das Suchen ohne diesen hilfreichen Algorithmus Jahrtausende dauern, was die Optimierungsmethode essentiell im Maschinellen Lernen macht.

Zurück zu unserem Neuron:
Wenn wir den Computer mit der Methode des Gradientenabstieges die optimalen Gewichte finden lassen, kann unser Neuron die Daten klassifizieren!
Die Zutaten die wir hierfür gebraucht haben sind also:
- Daten <i class="fa fa-database" style="font-size:15px"></i>
- Modell <i class="fa fa-sitemap" style="font-size:16px"></i>
- Fehlerfunktion <i class="fa fa-area-chart" style="font-size:16px"></i>
- Optimierungsmethode <i class="fa fa-sliders" style="font-size:16px"></i>

In der Tat ist dies eine Aussage, die ganz generell im Feld des Maschinellen Lernens gilt:
Genau diese vier Zutaten sind essentiell für _jede_ Form des Maschinellen Lernens!  
Was wir als nächstes sehen wollen ist, wie unser Neuron nun wirklich die Daten klassifiziert.

## Aufgabe 5 | Testen unseres Modells

### Teil a | Klassifizieren eines neuen Datenpunkts
___
Nachdem wir die Werte für die Gewichte des Neurons gefunden haben, nennen wir es "trainiert".
Eine der wichtigsten Eigenschaften von neuronalen Netzen wollen wir nun am Beispiel unseres einzelnen Neuron veranschaulichen.
Diese ist die Fähigkeit der Generalisierung, also das Klassifizieren von bisher noch unbekannten Werten.

<i class="fa fa-pencil-square-o" style="font-size:38px"></i> & &nbsp; <i class="fa fa-laptop" style="font-size:38px"></i> &nbsp;
Trage zunächst deine gefundenen Werte für $w_1$ und $w_2$ aus Aufgabe 2 ein.
Welcher Klasse ordnet unser Neuron den Punkt (0,18, 230) zu, wenn wir als Schwellenwert 160 nehmen?
Trage deine Antwort weiter unten durch Drücken des Knopfes "Gutartig" oder "Bösartig" ein.

In [None]:
Plot.with_manual_classification(w1_range=(-1500,1500,100), w2_range=(0.7,1.7,0.1), new_point=(0.18,230), legend_loc='upper left')

Wunderbar!
Wir können also neue Daten mit unserem Neuron klassifizieren!
Wenn dieses eine Neuron doch bereits ausreicht, warum ist dann immer die Rede von _Netzen_ von Neuronen?
Warum wird nicht immer dieses eine benutzt?

### Teil b | Eine neue Messreihe
___
Stellen wir uns nun vor, dass ein Kollege neue Daten gemessen hat.
Er fragt uns, zu welcher Klasse seine gemessenen Punkte gehören.
Wir können unser trainiertes Neuron benutzen, um diese Daten zu klassifizieren.

<i class="fa fa-laptop" style="font-size:38px"></i> &nbsp;
Aktiviere die Klassifizierung durch unser Neuron, indem du auf 'nachher' klickst.

In [None]:
Plot.before_after(w1=500,w2=1., legend_loc='upper left')

Unser Neuron konnte diese neuen Daten den beiden Klassen zuordnen, ohne sie jemals vorher gesehen zu haben!
Doch wenn wir uns das Ergebnis genauer anschauen stellen wir fest, dass etwas schief gelaufen ist bei der Klassifikation.
Mit dem eigenen Auge ist klar erkennbar, dass sich die neuen Daten nicht gut einer der beiden Klassen zuordnen lassen.
Dieser Teil beschreibt eine ganz neue Klasse, zum Beispiel eine andere Tumorart!  
In der praktischen Anwendungen kommen solche Fälle häufig vor. Wie können wir unser Dilemma lösen?

## Aufgabe 6 | Klassifizieren in mehrere Klassen
____

### <i class="fa fa-compass" style="font-size:22px"></i> Kompass 
##### Wo sind wir?
Wir haben verstanden, dass wir zweidimensionale Daten mit einer Gerade trennen und damit auch klassifizieren können, wenn wir die Steigung $m$ und den y-Achsenabschnitt $b$ richtig wählen.
Weiterhin haben wir gesehen, dass ein Neuron die gleiche Aufgabe erfüllen kann, wenn wir dem Neuron passende Gewichte $w_1$ und $w_2$ geben.
##### Wo wollen wir hin?
Wir wollen nicht per Hand die Gewichte herausfinden, die eine "gute" Klassifikation ermöglichen, sondern die Aufgabe dem Computer geben.
##### Was machen wir konkret?
Damit der Computer entscheiden kann ob eine Klassifikation "gut" oder "schlecht" ist müssen wir diese Begriffe definieren.

<i class="fa fa-pencil-square-o" style="font-size:38px"></i> &nbsp;
Sammle Ideen, wie wir diese neue Klasse identifizieren können!  
Schau dir dazu noch einmal die erste Abbildung an, in der die Funktionsweise eines Neurons erklärt wird.

<details class="details-solution">
<summary><i class="fa fa-exclamation-triangle" style="font-size:20px"></i>  <u>Antwort</u></summary>

_Erinnern wir uns erneut, was die Funktion unseres einzelnen Neurons ist.
Es beschreibt eine Grenzlinie, anhand derer die beiden Klassen unterschieden werden können.
Wenn wir nun eine weitere Klasse haben, können wir diese unterscheiden, indem wir eine weitere Grenzlinie hinzufügen.
Das ist damit gleichzusetzen, dass wir ein weiteres Neuron hinzufügen!_ 

<img src="../img/double_neuron_medicine.png" width="1200"/>

</details>

Sobald wir erneut die richtigen Gewichte gefunden haben, entspricht dies den folgenden beiden Geraden in unserem Klassifikationsplot:

In [None]:
Plot.two_lines(w1=500., w2=1., line_loc=0.09, new_x_lims=(-0.05,0.2), legend_loc='upper left')

Nun müssen wir nur noch festlegen, welcher Output welcher Klasse entspricht.

<i class="fa fa-pencil-square-o" style="font-size:38px"></i> &nbsp;
Ordne die Outputs unseres kleinen Zwei-Neuronen-Netzwerkes den drei Klassen gutartiger Tumor, bösartiger Tumor und neue Tumorart zu!

AC =  

BC =  

AD =  

BD =  

Dies können wir auch ein Neuron machen lassen, welches wir an die Outputs unserer zwei Neuronen anschließen:

<img src="../img/small_network_medicine.png" width="1200"/>

Dies ist unser erstes kleines Netzwerk!

Anhand dieses Beispiels lässt sich bereits erkennen, warum nicht nur ein einziges Neuron ausreicht.
Sobald die Aufgabe komplexer wird, sind mehrere Neuronen strikt notwendig, um sie noch lösen zu können.
Dies ist zum Beispiel der Fall, wenn noch mehr Klassen existieren oder wenn die Klassen nicht durch Geraden voneinander trennbar sind.

## <i class="fa fa-graduation-cap" style="font-size:32px"></i>  Herzlichen Glückwünsch, du hast erfolgreich die Grundlagen von Klassifikation und neuronalen Netzwerken gemeistert! 
Was wir anhand von Brustkrebsdaten betrachtet haben, ist für das Maschinelle Lernen, zum Beispiel in der Bilderkennung, eine wichtige Grundlage.
Wir hoffen, du hattest Spaß an diesem kleinen Beispiel und freust dich auf die anstehenden Anwendungsbeispiele.