# Klassifizierung von Murmeln

Das Schöne an Spielzeug ist, man kann bedenkenlos darüber reden ohne gleich Geheimnisse zu verraten. Deshalb beziehen sich die folgenden Beispiele auf einen Datensatz von farbigen Glaskugeln. Die Daten bestehen aus Lichtintensitätsmessungen für rotes (**R**), grünes (**G**) und blaues (**B**) Licht bei einer Abtastrate von ca. 20 Millisekunden. Während der Messungen wurden die Kugeln in Rotation versetzt, so dass auch mehrfarbige Kugeln sinnvolle Daten liefern.

Die Daten entstammen einer kleinen Maschine, deren Aufgabe es ist die Kugeln zu einem Sensor zu transportieren, Messdaten zu nehmen und anhand der ausgewerteten Daten die Kugeln zu sortieren. Für jeden Kugeltyp sind 100.000 RGB-Datenpunkte aufgenommen worden.

Wir wollen uns nun mit verschiedenen Aspekten an diesem Beispiel im Detail beschäftigen:
* Trennung von zwei oder mehr verschiedenen Klassen
* Schwierigkeiten, die sich aus echten Messungen ergeben
* Die Bedeutung von guten Features (Feature Engineering)


In [1]:
import os
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from IPython.display import display, clear_output, Image

from kiml.data import data_path

%matplotlib inline

ModuleNotFoundError: No module named 'kiml'

### Hilfsfunktion

Diese Funktion erleichtert den Umgang mit den Rohdaten, die wir als nächstes direkt einlesen.

In [None]:
def parse_lines(lines):
    """ Parse string resulting from an ms_reco test case
    """
    lines = lines[0][2:-2]
    rows = [d.split(', ') for d in lines.split('), (')]
    data = [[int(v.replace(')][(', '')) for v in r] for r in rows]
    df = pd.DataFrame(data)[[0, 1, 2]]
    return df

## Einlesen der Daten

Die Daten liegen in einem besonderen Format vor. Dieser Codeblock wandelt die Daten in **`pandas.DataFrame`** Objekte um.

In [None]:
data = []

files = [
    'blue-white-glass.data',
    'cyan-glass.data',
    'glass-blue.data',
    'glass-green.data',
    'glass-red.data',
    'glass-yellow.data',
    'planet-black-blue.data',
    'planet-green.data',
    'planet-ocean.data',
]

dfs = []

for i, f in enumerate(files):
    print(f'Lade Datei {i}: {f}')
    with open(os.path.join(data_path(), f'marbles/{f}'), 'r') as infile:
        content = infile.readlines()
        dfs.append(parse_lines(content))

## Vorbereitung und Exploration der Daten
Jetzt sind Sie gefragt. Wir müssen nun die Daten vorbereiten und besser kennenlernen.

### Setzen der Spaltennamen
Akutell sind die Namen der Spalten noch nicht zugewiesen. Die Reihenfolge ist **`R`**, **`G`**, **`B`**. Aber aufgepasst: **`dfs`** ist eine Liste von **`Dataframes`**.

In [None]:
for df in dfs:
    df.columns=['R','G','B']

### Definition eines Colorcodes
Damit wir im Weiteren nicht durcheinander kommen, definieren wir uns die folgenden Farben mit zugehörigem Nummern von null bis acht.


In [None]:
plt.figure(figsize=(18,2))
for i in range(9):
    plt.scatter([i],[1],s=5000)
plt.xticks(np.linspace(0,8,9))
plt.yticks([])
plt.show()

In [None]:
display(Image(os.path.join(data_path(), 'marbles/Murmeln.png')))

### Data Exploration und manuelle Trennung
#### Eigenschaften und Kennzahlen
Schauen sich doch einmal die einzelnen Listen an. Wenn Sie nicht mehr wissen, welche Befehle interessante Eigenschaften zusammenfassen wie Länge oder Mittelwerte, dann schauen Sie nochmal in Notebook: `03-02-python-scientific`

* Wieviele Einträge sind es? 
* Was sind die Zentralwerte?
* Was sind die minimal/maximal Werte? Gibt es vielleicht Ausreißer die kompensiert werden müssen?
* Sehen Sie bereits interessante Unterschiede zwischen den einzelnen Murmelsorten?

In [None]:
# Probieren Sie es aus





#### Erste Plots der Daten
Betrachten Sie einmal zwei Spalten der verschiedenen Datensätze. Sie können hier zwischen den neun Datensätzen (von 0 bis 8) wechseln. Wechseln sie auch einmal die Spalten auf den Achsen.


In [None]:
# Ein Kugeltyp: Wechseln Sie den Datensatz und die Spalten
dataset = 5
X = 'R'
Y = 'G'

plt.scatter(dfs[dataset][X], dfs[dataset][Y], s=10, alpha=0.01, color=f'C{dataset}')
plt.title(f'{files[dataset]}')
plt.xlabel(X)
plt.ylabel(Y);

In [None]:
# Zwei Kugeltypen: Wechseln Sie die Datensätze und Spalten
dataset_A = 1
dataset_B = 3
X = 'R'
Y = 'G'

plt.scatter(dfs[dataset_A][X], dfs[dataset_A][Y], s=10, alpha=0.01, color=f'C{dataset_A}')
plt.scatter(dfs[dataset_B][X], dfs[dataset_B][Y], s=10, alpha=0.01, color=f'C{dataset_B}')
plt.title(f'{files[dataset_A]}, {files[dataset_B]}')
plt.xlabel(X)
plt.ylabel(Y);

In [None]:
# Drei Kugeltypen: Wechseln Sie die Datensätze und Spalten
dataset_A = 1
dataset_B = 3
dataset_C = 5
X = 'R'
Y = 'G'

plt.scatter(dfs[dataset_A][X], dfs[dataset_A][Y], s=10, alpha=0.01, color=f'C{dataset_A}')
plt.scatter(dfs[dataset_B][X], dfs[dataset_B][Y], s=10, alpha=0.01, color=f'C{dataset_B}')
plt.scatter(dfs[dataset_C][X], dfs[dataset_C][Y], s=10, alpha=0.01, color=f'C{dataset_C}')
plt.title(f'{files[dataset_A]}, {files[dataset_B]}, {files[dataset_C]}')
plt.xlabel(X)
plt.ylabel(Y);

In [None]:
# Erstellen Sie einen Scatterplot für vier Kugeltypen.
# Und können Sie noch leicht eine manuelle Trennung durchführen?
# Probieren Sie es aus






#### Komplettes Chaos
Wie sieht es nun aus, wenn alle Kugeltypen betrachtet werden. Eigentlich ist eine Trennung anhand der drei Inputwerte nicht möglich. Aber probieren Sie es aus.

In [None]:
# Gibt es eine Kombination von zwei Farbwerten, die eine Trennung zulassen?
X = 'R'
Y = 'B'

plt.figure()
for df in dfs:
    plt.scatter(df[X], df[Y], s=10, alpha=0.01)
plt.title('Alle Kugeltypen')
plt.xlabel(X)
plt.ylabel(Y);

### Feature Engineering I

Selbst ML ist keine Wunderwaffe und wird auch nicht mit dieser Ausgangslage weiterkommen. Daher ist das Expertenwissen gefragt, wie man aus den Farbwerte vielleicht zusätzliche Features entwickeln kann.

Anschaulich können die RGB-Werte in einen bekannten Farbraum umgewandelt werden. Trägt man die RGB-Werte in dem in der Abbildung dargestellten Koodinatensystem in einer Ebene auf, kann man Farbe und Farbsättigung durch zwei Werte darstellen. Die Farbe ist dann durch den Winkel rund um den Koordinatenursprung gegeben.

In [None]:
display(Image(os.path.join(data_path(), 'marbles/Koordinaten.png'), width=400, height=400))

Die Kombination von R,G und B ist nicht die einzige mögliche Darstellung von Farben. Hier werden weitere Variablen eingeführt:

  * X und Y sind die Koordinaten in einer 2-dimensionalen Ebene, die durch R, G, B Basisverktoren aufgespannt wird, welche einen Winkel von je 120° zueinander aufweisen. Die verschiedenen Farben liegen in dieser Ebene auf einem Kreis um den Nullpunkt.
  * Phi ist der Winkel des XY-Vectors
  * I und I2 bezeichnen Magnituden der RGB und XY Vectoren.

In [None]:
def generate_xy_values(df):
    df['X'] = 0.5 * np.sqrt(3) * df['G'] - 0.5 * np.sqrt(3) * df['B']
    df['Y'] = df['R'] - (1 / 3 * df['G']) - (1 / 3 * df['B'])
    
def generate_intensity_values(df):
    df['I'] = np.square(df['X']) + np.square(df['Y'])
    df['I2'] = np.square(df['R']) + np.square(df['G']) + np.square(df['B'])

def generate_angles(df):
    df['Phi'] = np.arctan2(df['Y'], df['X'])

In [None]:
# Wir speichern einmal die originale Liste der DataFrames ab, bevor wir sie ändern
from copy import deepcopy
dfs_orig = deepcopy(dfs)

# Wir wenden die oben definierten Funktionen an
for df in dfs:
    generate_xy_values(df)
    generate_intensity_values(df)
    generate_angles(df)

Schauen Sie sich einmal an, was sich geändern hat.

In [None]:
dfs_orig[0].head()

In [None]:
dfs[0].head()

### Data Exploration und manuelle Trennung II
Gehen Sie vor wie zuvor und versuchen Sie ein paar Kennzahlen zu betrachten und mit Hilfe von Streudiagrammen gute Trennbarkeiten zu identifizieren. Zur Erinnerung: Die Plots sind nach dem Schema  ```plt.scatter(x, y, s=size, alpha=alpha, color=color)``` aufgebaut. Die Bedeutung der Parameter ist: 

  * *x*: x-Werte der (x,y)-Wertepaare
  * *y*: y-Werte der (x,y)-Wertepaare
  * *s*: Größe der Markerpunkte im Plot
  * *alpha*: Deckkraft der Markerpunkte
  * *color*: C1, C2,..., C8 für den jeweiligen Datensatz
  
(Durch das Verstellen von Größe und Deckkraft der Markerpunkte können unterschiedliche Aspekte des Plots sichtbar gemacht werden.)

Diese vier Kugeltypen lassen sich zum Beispiel sehr gut visuell Trennen.

In [None]:
plt.scatter(dfs[1]['X'], dfs[1]['Y'], s=10, alpha=0.01, color='C1')
plt.scatter(dfs[2]['X'], dfs[2]['Y'], s=10, alpha=0.01, color='C2')
plt.scatter(dfs[3]['X'], dfs[3]['Y'], s=10, alpha=0.01, color='C3')
plt.scatter(dfs[7]['X'], dfs[7]['Y'], s=10, alpha=0.01, color='C7')
plt.xlabel('X')
plt.ylabel('Y');

Aber plottet man wieder alle Kugelntypen verliert man die Übersicht und es wird schwer hier eine manuelle Trennung durchzuführen.

In [None]:
plt.figure()
for df in dfs:
    plt.scatter(df['X'],df['Y'],s=10, alpha=0.01)

In [None]:
### Probieren Sie es aus.




