# Datenanalyse mit KI & Machine Learning
## Klassifikation mit KNN

<h3>KNN steht für <b>k-nächste Nachbarn</b><br></h3>
<p>Es handelt sich hierbei um keine Regression, bei der Werte ausgerechnet werden, sondern um <b>Klassifikation</b>, bei der Entitäten (Zeilen) passende Klassen (Werte aus y) zugeordnet werden.</p>
<p>Die Zugehörigkeit von Punkten zu Klassen und damit zu Clustern wird über eine
gewisse Anzahl von Nachbarn aus einer Klasse gesteuert.</p>
<p>Sagen wir, dass z.B. die 3 nächsten Nachbarn die Zugehörigkeit bestimmen,
dann wird unser Modell bei jedem Punkt schauen, welches die nächsten drei Punkte sind
und je nach ihrer Klassenzugehörigkeit dem aktuellen Punkt ein Label verpassen.</p>

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, \
	classification_report
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
import seaborn as sns
import pandas as pd

In [2]:
# Mit make_classification erstellen wir Daten, die eine gewählte Anzahl Cluster
# enthalten

In [3]:
# Fall 1: Klar getrennte Cluster erzeugen (und danach mit KNN finden):


In [4]:
# Datenpunkte:


In [5]:
# Klassenzugehörigkeiten


In [6]:
# Lasst uns zunächst die "Wahrheit" plotten, also die Datenpunkte mit 
# der Klasse, der sie in y zugeordnet werden (0 oder 1):



In [7]:
# Aufsplitten in Trainings- und Testdaten (Validierung sparen wir uns)


In [8]:
# KNN-Modell instantiieren (ein Objekt der Klasse erstellen)
# (Mit Hyperparameter n_neighbors standardmäßig auf 5 eingestellt)


In [9]:
# Modell an Trainingsdaten trainieren:


In [10]:
# Treffergenauigkeit (accuracy) bestimmen anhand des Testdatensatzes
# Sprich: Wie viele der Vorhersagen waren korrekt?


In [11]:
# Anschauen, wie die vorhergesagten Cluster aussehen:


In [12]:
# Wahrheit und Vorhersage nebeneinander plotten:


In [13]:
# Fazit: Ja, in diesem einfachen Fall war es tatsächlich möglich, alle Punkte
# korrekt zu bestimmen.

In [14]:
# Fall 2: Cluster mit Überschneidungen erzeugen (und danach mit KNN finden):


In [15]:
# Zunächst wieder der Plot der "wahren" Cluster (mit Labels):


In [16]:
# Quizfrage: Wird hier KNN funktionieren?

In [17]:
# Aufsplitten in Trainings- und Testdaten (Validierung sparen wir uns noch):


In [18]:
# Modelltraining:


In [19]:
# Modell-Performance:


In [20]:
# Predictions als Array generieren:


In [21]:
# Plotten von Testdaten mit Labels vs. Predictions:


In [22]:
# Quizfrage: Warum sind die beiden Punkte bei Predictions gelb?
# Tipp: default values

In [23]:
# Wie sieht das Clustering der Testdaten aus? 
# Plotten von Testdaten mit Labels vs. Predictions:


In [24]:
# Mit Hyperparametern spielen. 
# Was für ein Ergebnis gibt es, wenn nur 2 nächste Nachbarn die Clusterzugehörigkeit bestimmen? 

In [25]:
# Quizfrage: Was ist denn hier passiert?
# Unten links ist die Nachbarschaft doch ganz "klar"!

In [26]:
# Das Modell hat von den Trainingsdaten und nicht von den Testdaten gelernt.
# Es wird immer Punkte nach ihrer Nähe zu Punkten bestimmen, wie sie in den Trainingsdaten
# vorlagen!

In [27]:
# Bei welchem n macht unser Modell die beste Arbeit? (bzw. hat es die geringste Fehlerrate)
# Gridsearch mit for-Schleife 

In [28]:
# Eigener Gridsearch mit For-Schleife
# Training mit verschiedenen k's und Vergleich der Fehlerraten


In [29]:
# Fehlerraten visualisieren und die besten sehen:


In [30]:
# Die besten n mit for-Schleife rausholen:


In [31]:
# Dann lasst uns die Visualisierung für n=18 durchspielen!

In [32]:
# Aber Vorsicht, das lag nur daran, dass Test so angenehm wenig Punkte hatte.
# Für die Trainingsdaten (mit viel mehr Punkten) sind die Cluster nicht ganz so perfekt.


# Jetzt wird es ernst: <br>Bestimmung der Gut-/Bösartigkeit von Tumoren

## Mit KNN: K-Nearest Neighbour (K-Nächste Nachbarn)

In [33]:
cancer = pd.read_csv('breast_cancer.csv', index_col='id')
cancer.head()

Unnamed: 0_level_0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


In [34]:
# In der Spalte 'diagnosis' gibt es genau zwei Werte. 'M' und 'B'.
# Wir werden eine binäre Klassifikation durchführen, sodass das Modell neuen
# Datenpunkten 'M' oder 'B' zuordnet.
# Quizfrage: Wofür stehen diese Buchstaben eigentlich?


In [35]:
cancer_na = cancer.isna().sum()
cancer_na

diagnosis                    0
radius_mean                  0
texture_mean                 0
perimeter_mean               0
area_mean                    0
smoothness_mean              0
compactness_mean             0
concavity_mean               0
concave points_mean          0
symmetry_mean                0
fractal_dimension_mean       0
radius_se                    0
texture_se                   0
perimeter_se                 0
area_se                      0
smoothness_se                0
compactness_se               0
concavity_se                 0
concave points_se            0
symmetry_se                  0
fractal_dimension_se         0
radius_worst                 0
texture_worst                0
perimeter_worst              0
area_worst                   0
smoothness_worst             0
compactness_worst            0
concavity_worst              0
concave points_worst         0
symmetry_worst               0
fractal_dimension_worst      0
Unnamed: 32                569
dtype: i

In [36]:
cancer.drop('Unnamed: 32', axis=1, inplace=True)

In [37]:
X = cancer.select_dtypes('number')
y = cancer['diagnosis']

In [38]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
knn.score(X_test, y_test)

test_score = knn.score(X_test, y_test)
print(f'Score für Test: {test_score:.3f}')

Score für Test: 0.965


In [39]:
train_score = knn.score(X_train, y_train)
print(f'Score für Train: {train_score:.3f}')

Score für Train: 0.934


In [56]:
y_pred = knn.predict(X_test)
y_pred

array(['B', 'M', 'M', 'B', 'B', 'M', 'M', 'M', 'B', 'B', 'B', 'M', 'B',
       'B', 'B', 'M', 'B', 'B', 'B', 'M', 'M', 'B', 'M', 'B', 'B', 'B',
       'B', 'B', 'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'B', 'M',
       'B', 'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'M',
       'B', 'B', 'B', 'B', 'B', 'M', 'B', 'B', 'B', 'M', 'M', 'B', 'B',
       'B', 'M', 'M', 'B', 'B', 'M', 'M', 'B', 'B', 'B', 'B', 'B', 'M',
       'B', 'B', 'M', 'B', 'B', 'M', 'M', 'M', 'M', 'M', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'M', 'M', 'B', 'M', 'M', 'B', 'M', 'M',
       'B', 'B', 'B', 'M', 'B', 'B', 'M', 'B', 'B', 'M', 'B', 'M', 'B',
       'B', 'B', 'M', 'B', 'B', 'B', 'M', 'B', 'M', 'M', 'B', 'B', 'M',
       'M', 'M', 'B', 'B', 'M', 'M', 'B', 'B', 'B', 'M', 'B', 'M', 'B'],
      dtype=object)

In [57]:
y_test

id
87930       B
859575      M
8670        M
907915      B
921385      B
           ..
861598      B
877500      M
905520      B
849014      M
90317302    B
Name: diagnosis, Length: 143, dtype: object

In [41]:
# Aufsplitten in Trainings-, Validierungs- und Testdaten


In [42]:
# Bonusaufgabe für die, die später Lust haben:
# Schreibt eine Funktion train_val_test!

In [43]:
# Modell trainieren


In [44]:
# Treffergenauigkeit (accuracy) bestimmen anhand des Testdatensatzes
# Sprich: Wie viele der Vorhersagen waren korrekt?


In [45]:
# Und wie gut war die Genauigkeit beim Trainingsdatensatz?


In [46]:
# Quizfrage: Ende gut alles gut?
# Ist unser Modell perfekt, um in der Medizin zum Einsatz zu kommen?
# Bemerkung: ...

In [47]:
# Übersicht über die verschiedenen (richtigen und falschen) Voraussagen 
# --> Confusion Matrix (zu Deutsch etwa: Matrix der Verwechslungen)


In [48]:
# Visuell ansprechender mit ConfusionMatrixDisplay:


In [49]:
# Accuracy (R²) – Anteil richtiger Vorhersagen an Gesamtheit)


In [50]:
# Precision (Genauigkeit) – Anteil richtiger Positiver an richtig Positiven und falsch Positiven
# In unserem Fall:
# wirklich bösartige Tumoren / wirklich bösartige Tumoren + fälschlich als bösartig diagnostizierte gutartige Tumoren


In [51]:
# Dasselbe für gutartige:
# wirklich gutartige Tumoren / wirklich gutartige Tumoren + fälschlich als gutartig diagnostizierte bösartige Tumoren


In [52]:
# Recall (Sensitivität) – Anteil richtiger Positiver an richtig Positiven und falsch Negativen (eigentlich Tumoren)


In [53]:
# f1-score – stellt das harmonische Mittel bei insbesondere unbalancierten Klassen her


In [54]:
# Was ist die wichtigste Metrik für Krebsspezialisten?
# Und auf was sollten wir unser Modell trimmen?

In [55]:
# Statt händisches Ausrechnen:
