# 8.3 Training eines Perzeptrons mit Scikit-Learn

Nachdem wir im letzten Abschnitt ein Perzeptron händisch für die
Klassifikationsaufgabe des logischen Oders trainiert haben, benutzen wir nun
Scikit-Learn.

## Lernziele

```{admonition} Lernziele
:class: important
* Sie können das Perzeptron-Modell von Scikit-Learn laden und mit den gegebenen Trainingsdaten trainieren.
* Sie wissen, wie Sie auf die Gewichte des gelernten Modells zugreifen.
```


## Das logische Oder Klassifikationsproblem - diesmal mit Scikit-Learn 

Im letzten Abschnitt {ref}`perzeptron_training_logisches_oder` haben wir
händisch ein Perzeptron trainiert. Zur Erinnerung, wenn wir die Bias-Einheit
weglassen, lautet das logische Oder in Tabellenform wie folgt:

x1 | x2 | y
---|----|---
 0 | 0  | 0
 0 | 1  | 1
 1 | 0  | 1
 1 | 1  | 1

Diese Daten packen wir in ein DataFrame.

In [1]:
import pandas as pd

data =  pd.DataFrame({'x1' : [0, 0, 1, 1], 'x2'  : [0, 1, 0, 1], 'y' : [0, 1, 1, 1]})
data.head()

Unnamed: 0,x1,x2,y
0,0,0,0
1,0,1,1
2,1,0,1
3,1,1,1


Nun wählen wir das Perzeptron als das zu trainierende ML-Modell aus. Direkt beim
Laden des Modells legen wir die Hyperparameter des Modells fest. Welche
Hyperparameter ein Modell hat, steht in der
[Perzeptron-Dokumentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html?highlight=perceptron#sklearn.linear_model.Perceptron).
In diesem Fall wäre beispielsweise die Lernrate ein Hyperparameter. Laut
Dokumentation wird die Lernrate beim Scikit-Learn-Perzeptron mit `eta0`
bezeichnet. Der Python-Code, um das Perzeptron-Modell mit einer Lernrate von 1
zu laden, lautet also wie folgt:

In [2]:
from sklearn.linear_model import Perceptron 
model = Perceptron(eta0 = 1.0)

Nun können wir das Perzeptron-Modell mit den Input- und Outputdaten trainieren,
indem wir die `.fit()`-Methode aufrufen. Zuvor bereiten wir die Daten noch
passend für das Perzeptron auf.

In [3]:
X = data[['x1', 'x2']]
y = data['y']

model.fit(X,y)

Nachdem wir den letzten Python-Befehl ausgeführt haben, passiert scheinbar
nichts. Nur der Klassenname `Perceptron()` des Objekts `model` wird ausgegeben
(wenn Sie den Code interaktiv ausführen). Intern wurde jedoch das
Perzeptron-Modell trainiert, d.h. die Gewichte des Perzeptrons wurden iterativ
bestimmt. Die Gewichte sind nun in dem Objekt `model` gespeichert. Davon können
wir uns überzeugen, indem wir auf die Attribute des Objekts zugreifen und diese
anzeigen lassen. Die Gewichte sind in dem Attribut `.coef_` gespeichert, während
das Gewicht der Bias-Einheit sich im Attribut `.intercept_` befindet.

In [4]:
print(model.coef_)
print(model.intercept_)

[[2. 2.]]
[-1.]


Zuletzt können wir das trainierte Perzeptron-Modell Prognosen treffen lassen.
Was prognostiziert das Modell beispielsweise für $x_1=0$ und $x_2=1$? Das
tatsächliche Ergebnis der logischen Oder-Verknüpfung ist $y=1$, was liefert das
Perzeptron?

In [5]:
y_prognose = model.predict([[0, 1]])
print(y_prognose)

[1]




Wir können auch gleich für alle Datensätze eine Prognose erstellen.

In [6]:
y_prognose = model.predict(X)
print(y_prognose)

[0 1 1 1]


Tatsächlich funktioniert unser trainiertes Perzeptron zu 100 % korrekt und ist
damit validiert. Bei nur vier Datensätzen lässt sich relativ leicht überblicken,
dass alle vier Prognosen korrekt sind. Sobald die Datenanzahl zunimmt, wird es
schwieriger, den Überblick zu behalten. Daher stellt Scikit-Learn die Methode
`.score()` zur Verfügung, die bei Klassifikatoren die Anzahl der korrekt
prognostizierten Outputs im Verhältnis zur Gesamtanzahl berechnet. Das Ergbnis
ist also eine Bewertung zwischen 0 (keine einzige korrekte Prognose) und 1
(perfekt Prognose).

In [7]:
genauigkeit = model.score(X, y)
print(genauigkeit)

1.0


## Erkennung von Brustkrebs 

Als nächstes betrachten wir einen sehr bekannten ML-Datensatz, nämlich Daten zur
Erkennung von Brustkrebs, siehe
https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset.

In [8]:
# Importieren des Breast Cancer Datensatzes aus Scikit-Learn
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
data = pd.DataFrame(np.c_[cancer['data'], cancer['target']],
                  columns= np.append(cancer['feature_names'], ['target']))
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

Wie immer berschaffen wir uns einen Überblick über die statistischen Kennzahlen.

In [9]:
data.describe()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
count,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,...,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0
mean,14.127292,19.289649,91.969033,654.889104,0.09636,0.104341,0.088799,0.048919,0.181162,0.062798,...,25.677223,107.261213,880.583128,0.132369,0.254265,0.272188,0.114606,0.290076,0.083946,0.627417
std,3.524049,4.301036,24.298981,351.914129,0.014064,0.052813,0.07972,0.038803,0.027414,0.00706,...,6.146258,33.602542,569.356993,0.022832,0.157336,0.208624,0.065732,0.061867,0.018061,0.483918
min,6.981,9.71,43.79,143.5,0.05263,0.01938,0.0,0.0,0.106,0.04996,...,12.02,50.41,185.2,0.07117,0.02729,0.0,0.0,0.1565,0.05504,0.0
25%,11.7,16.17,75.17,420.3,0.08637,0.06492,0.02956,0.02031,0.1619,0.0577,...,21.08,84.11,515.3,0.1166,0.1472,0.1145,0.06493,0.2504,0.07146,0.0
50%,13.37,18.84,86.24,551.1,0.09587,0.09263,0.06154,0.0335,0.1792,0.06154,...,25.41,97.66,686.5,0.1313,0.2119,0.2267,0.09993,0.2822,0.08004,1.0
75%,15.78,21.8,104.1,782.7,0.1053,0.1304,0.1307,0.074,0.1957,0.06612,...,29.72,125.4,1084.0,0.146,0.3391,0.3829,0.1614,0.3179,0.09208,1.0
max,28.11,39.28,188.5,2501.0,0.1634,0.3454,0.4268,0.2012,0.304,0.09744,...,49.54,251.2,4254.0,0.2226,1.058,1.252,0.291,0.6638,0.2075,1.0


Für das Training des Perzeptrons teilen wir die Daten in Trainings- und Testdaten auf.

In [10]:
from sklearn.model_selection import train_test_split 
data_train, data_test = train_test_split(data, test_size=0.2, random_state=42)

X_train = data_train.loc[:, 'mean radius' : 'worst fractal dimension']
X_test  = data_test.loc[:, 'mean radius' : 'worst fractal dimension']

y_train = data_train['target']
y_test = data_test['target']

Nun laden wir das Perzeptron-Modell und trainieren es mit den Trainingsdaten.

In [11]:
# Create a Perceptron model 
model = Perceptron(eta0=0.1)

# Train the model 
model.fit(X_train, y_train)

Wie üblich können wir es nun zu Prognosen nutzen.

In [12]:
# Make predictions 
y_test_prognose = model.predict(X_test) 
print(y_test_prognose)

[0. 0. 0. 1. 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1.
 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 0. 1. 1. 1. 1. 1. 1.
 1. 1. 0. 0. 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 1. 1. 0. 0.
 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 1. 1. 1.
 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0.]


Vor allem aber die systematische Bestimmung der Scores für Trainingsdaten und
Testdaten ist interessant:

In [13]:
score_train = model.score(X_train, y_train)
score_test = model.score(X_test, y_test)

print(f'Score Trainingsdaten: {score_train}')
print(f'Score Testdaten: {score_test}')

Score Trainingsdaten: 0.8923076923076924


Score Testdaten: 0.9473684210526315


Wir könnten vermuten, dass wir bereits im Bereich des Overfittings sind.
Allerdings ist auch die Initialisierung der Zufallszahlen fixiert. Ohne
`random_state=42` kommen andere Scores für Trainings- und Testdaten heraus, so
dass wir das Perzeptron-Modell zunächst für eine erste Schätzung nehmen dürfen.


## Zusammenfassung und Ausblick

Mit Scikit-Learn steht schon eine Implementierung des Perzeptrons zur Verfügung,
die auch bei größeren Datenmengen eine binäre Klassifikation erlaubt. Welche
Daten dabei überhaupt binär klassifiziert können, klären wir in einem der
folgenden Abschnitte.