# Brustkrebs Wisconsin (Diagnostik) 

## 1. Installieren der Bibliotheken

Ich habe für mein KI-Projekt den Datensatz "Breast Cancer Wisconsin (Diagnostic)" aus dem UCI Maschine Learning Repository gewählt, welcher medizinische Daten zur Diagnose von Brustkrebs enthält.

Zunächst müssen wir sicherstellen, dass wir die benötigten Bibliotheken installiert haben. In diesem Fall benötigen wir Pandas, Scikit-Learn und Seaborn.


In [1]:
!pip install pandas
!pip install scikit-learn
!pip install seaborn


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## 2. Datensatz einbinden

Dann können wir den Datensatz aus dem UCI-Repository laden und in ein Pandas DataFrame umwandeln.

In [2]:
import pandas as pd
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data'
breast_cancer_data = pd.read_csv(url, header=None)


Dies lädt den Brustkrebs-Datensatz und speichert ihn in der Variable "breast_cancer_data". Die Spaltennamen des DataFrame werden in der ursprünglichen Datenbeschreibung angegeben und müssen daher manuell hinzugefügt werden.

In [3]:
columns = ['id', 'diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave_points_mean', 'symmetry_mean', 'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 'concave_points_se', 'symmetry_se', 'fractal_dimension_se', 'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst', 'smoothness_worst', 'compactness_worst', 'concavity_worst', 'concave_points_worst', 'symmetry_worst', 'fractal_dimension_worst']
breast_cancer_data.columns = columns

Jetzt können wir uns einen Überblick über die Daten verschaffen, indem wir die ersten fünf Zeilen des DataFrame ausgeben.

In [4]:
print(breast_cancer_data.head())

         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38          122.80     1001.0   
1    842517         M        20.57         17.77          132.90     1326.0   
2  84300903         M        19.69         21.25          130.00     1203.0   
3  84348301         M        11.42         20.38           77.58      386.1   
4  84358402         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave_points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030           0.13280          0.1980              0.10430   

   ...  radius_worst  texture_worst  perimeter_worst  area_wor

## 3. Datenanalyse

Als nächstes können wir die Daten analysieren, um herauszufinden, wie die verschiedenen Merkmale miteinander korrelieren und wie die Diagnose von Brustkrebs bestimmt werden kann.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.pairplot(breast_cancer_data, hue='diagnosis')
plt.show()

Dies erstellt eine Paarplot-Matrix mit den verschiedenen Merkmalen als Achsen und Farbkodierung nach der Diagnose von Brustkrebs. Dies hilft uns, Muster in den Daten zu erkennen und zu verstehen, wie die verschiedenen Merkmale miteinander korrelieren.

### Dokumentation zu Abschnitt 3:

**Zeile 1:** Am Anfang wird die Bibliothek `matplotlib` importiert und der Namespace mit dem Alias `plt` versehen, um darauf zugreifen zu können. Dies ermöglicht die Verwendung von Funktionen und Klassen aus dieser Bibliothek in dem Programm, in dem diese Zeile aufgerufen wird.

**Zeile 2:** Es wird die Bibliothek "seaborn" importiert. Seaborn ist eine Python-Datenvisualisierungsbibliothek, die auf der Bibliothek "matplotlib" basiert. Sie bietet eine einfache Möglichkeit, ansprechende Grafiken zu erstellen und ist besonders nützlich für die Darstellung statistischer Daten.

**Zeile 4:** Die Funktion `sns.pairplot()` aus dem Python-Modul Seaborn erstellt ein Raster von Scatterplots für alle möglichen Kombinationen von Merkmalen in einem gegebenen Datensatz. Jeder Scatterplot zeigt die Beziehung zwischen zwei Merkmalen als Punktwolke an. Der Parameter hue definiert eine Kategorievariable, die zur Färbung der Punktwolken verwendet wird.

In diesem Fall wird die Funktion `sns.pairplot()` auf den Datensatz `breast_cancer_data` angewendet und die Punktwolken werden nach der Diagnose der Brustkrebs-Patienten (M für maligne und B für benign) eingefärbt. Das resultierende Raster von Scatterplots kann helfen, Zusammenhänge zwischen verschiedenen Merkmalen und der Diagnose von Brustkrebs zu visualisieren.

**Zeile 5:** Die Funktion `plt.show()` zeigt das aktuelle Diagramm an.

## 4. KI-Modell trainieren

Schließlich können wir ein KI-Modell trainieren, um die Diagnose von Brustkrebs zu bestimmen. In diesem Fall verwenden wir eine logistische Regression mit Scikit-Learn.

In [6]:
from sklearn.model_selection import train_test_split  # Importieren der fehlenden Bibliothek
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
import pandas as pd

# Laden der Daten
breast_cancer_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data', header=None)

# Setzen der Spaltennamen
breast_cancer_data.columns = ['id', 'diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave_points_mean', 'symmetry_mean', 'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 'concave_points_se', 'symmetry_se', 'fractal_dimension_se', 'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst', 'smoothness_worst', 'compactness_worst', 'concavity_worst', 'concave_points_worst', 'symmetry_worst', 'fractal_dimension_worst']

# Auswahl der Merkmale, die als Eingabe in das Modell verwendet werden sollen
features = ['radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave_points_mean', 'symmetry_mean', 'fractal_dimension_mean']

# Aufteilen der Daten in Trainings- und Testdatensätze
X = breast_cancer_data[features]
y = breast_cancer_data['diagnosis']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Training des KI-Modells
model = LogisticRegression()
model.fit(X_train, y_train)

# Vorhersage auf Testdaten und Bewertung des Modells
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
confusion = confusion_matrix(y_test, y_pred)
print('Accuracy:', accuracy)
print('Confusion Matrix:\n', confusion)

Accuracy: 0.9298245614035088
Confusion Matrix:
 [[66  5]
 [ 3 40]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Zunächst wählen wir die Merkmale aus, die als Eingabe in das Modell verwendet werden sollen. Dann teilen wir die Daten in Trainings- und Testdatensätze auf.

Wir erstellen ein Objekt der Klasse LogisticRegression und trainieren das Modell mit den Trainingsdaten.

Dann führen wir Vorhersagen auf den Testdaten durch und berechnen die Genauigkeit des Modells sowie die Confusion Matrix, um zu sehen, wie gut das Modell bei der Vorhersage von positiven und negativen Diagnosen abschneidet.

### Dokumentation zu Abschnitt 4:

**Zeile 1-4:** Zu Beginn werden die benötigten Bibliotheken für die logistische Regression geladen. `train_test_split` wird verwendet, um die Daten in Trainings- und Testdatensätze aufzuteilen. `LogisticRegression` ist der Klassifikationsalgorithmus, der für das Training des Modells verwendet wird. `accuracy_score` und `confusion_matrix` werden verwendet, um die Leistung des Modells zu bewerten. pandas wird verwendet, um die Daten als DataFrame zu laden und zu manipulieren.

**Zeile 7:** Anschließend wird der Datensatz "Breast Cancer Wisconsin (Diagnostic)" von der UCI Machine Learning Repository über die URL https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data heruntergeladen und in ein Pandas DataFrame-Objekt namens `breast_cancer_data` eingelesen. Der Parameter `header=None` gibt an, dass der Datensatz keine Spaltenüberschriften enthält.

**Zeile 10:** Zunächst werden die Spaltennamen des Dataframes `breast_cancer_data` neu definiert. Es wird eine Liste mit den Namen der Spalten erstellt und diese dann dem Dataframe als neue Spaltennamen zugewiesen.

**Zeile 13:** Als Nächstes wird eine Liste mit den Namen der ausgewählten Features erstellt. Es handelt sich um 10 Merkmale der Brustkrebs-Diagnose, die aufgrund ihrer medizinischen Relevanz ausgewählt wurden. Diese Merkmale werden später für das Training des Modells verwendet.

**Zeile 16-18:** Im Folgenden wird der Datensatz in Trainings- und Testdaten aufgeteilt, um das Modell zu trainieren und zu testen.

Zunächst werden die Features, also die unabhängigen Variablen, aus dem Datensatz extrahiert und in die Variable X gespeichert. Die abhängige Variable, also die zu prognostizierende Variable, wird in der Variable y gespeichert.

Dann werden die Trainings- und Testdaten mit Hilfe der Funktion `train_test_split` aus dem `sklearn.model_selection`-Modul erstellt. Dabei werden X und y übergeben, sowie der Testdatenanteil `test_size=0.2` (also 20% des Datensatzes), und der Zufallszahlengenerator `random_state=42`, um die Ergebnisse reproduzierbar zu machen. Die Funktion teilt die Daten zufällig in Trainings- und Testdaten auf und gibt vier Variablen zurück, nämlich `X_train` (die Trainingsdaten für X), `X_test` (die Testdaten für X), `y_train` (die Trainingsdaten für y) und `y_test` (die Testdaten für y).

**Zeile 21f.:** Zeile 21 erstellt eine Instanz des LogisticRegression-Klassifikators aus Scikit-Learn. Danach wird das Modell mit den Trainingsdaten `X_train` und den zugehörigen Zielwerten `y_train` trainiert. Das Modell versucht dabei, eine Entscheidungsgrenze zu finden, die die Trainingsdaten möglichst gut voneinander trennt.

**Zeile 25:** Es wird die Vorhersage des Modells für die Testdaten `X_test` durchgeführt und das Ergebnis in `y_pred` gespeichert. Die predict-Methode des Modells verwendet die trainierten Gewichte, um eine Vorhersage für jede Instanz in `X_test` zu treffen.

**Zeile 26:** Die `accuracy_score` Funktion berechnet die Genauigkeit des Modells, indem sie die Vorhersagen des Modells (y_pred) mit den tatsächlichen Labels (y_test) vergleicht und die Anzahl der korrekten Vorhersagen durch die Gesamtzahl der Vorhersagen teilt. Die Genauigkeit ist ein gängiges Maß für die Leistung von Klassifikatoren und gibt an, wie gut das Modell in der Lage ist, korrekte Vorhersagen zu treffen. Eine Genauigkeit von 1,0 bedeutet, dass alle Vorhersagen des Modells korrekt sind, während eine Genauigkeit von 0,5 bedeutet, dass das Modell zufällig vorhersagt.

**Zeile 27:** `confusion_matrix` ist eine Funktion aus dem `sklearn.metrics `Modul und wird verwendet, um eine Konfusionsmatrix für die Vorhersagen eines Klassifikators zu berechnen. Eine Konfusionsmatrix ist eine Tabelle, die den Vergleich zwischen den tatsächlichen und den vorhergesagten Werten darstellt. In der Regel wird eine Konfusionsmatrix für eine binäre Klassifikation verwendet und zeigt die Anzahl der Vorhersagen, die korrekt und inkorrekt waren.

**Zeile 28:** Die Zeile gibt die Genauigkeit (Accuracy) des trainierten Modells aus. Die Genauigkeit gibt an, wie viele der Vorhersagen des Modells tatsächlich korrekt waren, d.h. wie gut das Modell in der Lage ist, zwischen den beiden Klassen (Maligne und Benigne) zu unterscheiden. Die Accuracy ist definiert als die Anzahl der korrekten Vorhersagen geteilt durch die Gesamtanzahl der Vorhersagen.

**Zeile 29:** Die Konfusionsmatrix ist in der Regel in der Form [ [TN FP] [FN TP] ] dargestellt, wobei TN, FP, FN und TP die Abkürzungen für die vier möglichen Ergebnisse *True Negative*, *False Positive*, *False Negative* und *True Positive* sind.

In dieser spezifischen Confusion Matrix bedeutet das:

*    Die obere linke Zelle (66) zeigt, wie viele Datenpunkte vom Modell korrekt als Negative (TN) klassifiziert wurden.
*   Die obere rechte Zelle (5) zeigt, wie viele Datenpunkte vom Modell fälschlicherweise als Positive (FP) klassifiziert wurden.
*   Die untere linke Zelle (3) zeigt, wie viele Datenpunkte vom Modell fälschlicherweise als Negative (FN) klassifiziert wurden.
*   Die untere rechte Zelle (40) zeigt, wie viele Datenpunkte vom Modell korrekt als Positive (TP) klassifiziert wurden.

Zusammenfassend bedeutet dies, dass das Modell 66 von 71 negativen Fällen korrekt klassifiziert hat und 40 von 43 positiven Fällen korrekt klassifiziert hat. Das Modell hat 5 Fälle fälschlicherweise als positiv eingestuft und 3 Fälle fälschlicherweise als negativ eingestuft.

## 5. Testen des KI-Models anhand eines Patienten

In [7]:
test_features = [13.25, 20.38, 88.44, 538.0, 0.1045, 0.1552, 0.253, 0.086, 0.1928, 0.0654]
test_features = pd.DataFrame([test_features], columns=features)
prediction = model.predict(test_features)
print('Prediction:', prediction)

Prediction: ['M']


### Dokumentation zu Abschnitt 5:

**Zeile 1:** Es wird eine Liste test_features erstellt, die die Werte der 10 ausgewählten Merkmale für ein Beispiel von Brustkrebsdaten enthält. Diese Werte wurden manuell eingegeben und repräsentieren ein hypothetisches Beispiel für einen Patienten.

**Zeile 2:** Es wird die Liste der Testmerkmale in ein Pandas DataFrame umgewandelt. Dabei wird die Liste in einer Zeile mit den Spaltennamen aus der Variable features angeordnet. So wird sichergestellt, dass die Daten im richtigen Format vorliegen, um vom trainierten KI-Modell verarbeitet werden zu können.

**Zeile 3:** Jetzt wird das trainierte Modell `model` verwendet, um Vorhersagen für die übergebenen Testdaten `test_features` zu machen. `model.predic(test_features)`wendet das Modell auf die Testdaten an und gibt die Vorhersage für jede Zeile zurück. In diesem Fall wird nur eine Zeile von Testdaten verwendet, so dass die Vorhersage für diese eine Zeile zurückgegeben wird.

**Zeile 4:** Die Ausgabe der Vorhersage wird mit dieser Zeile ausgegeben. `prediction` enthält das Ergebnis des Modells auf den Testdaten, die durch `test_features` repräsentiert werden. In diesem Fall ist die Vorhersage 'M', was bedeutet, dass das Modell vorhersagt, dass der Tumor bösartig ist.

# Hintergrundwissen:

### pandas

Pandas ist eine Python-Bibliothek, die speziell für die Datenanalyse und -manipulation entwickelt wurde. Pandas bietet leistungsstarke und flexible Funktionen, mit denen Daten in verschiedenen Formaten wie CSV, Excel, SQL-Datenbanken und mehr eingelesen, verarbeitet, transformiert und ausgegeben werden können. Die Bibliothek ist in der Lage, große Datensätze zu handhaben und bietet eine Vielzahl von Funktionen, einschließlich:

1.   Datenfilterung und -abfrage
2.   Datenmanipulation und -transformation
3.   Zusammenfassung und statistische Analyse von Daten
4.   Zeitreihenanalyse
5.   Visualisierung von Daten
6.   Datensatz-Zusammenführung und -Verknüpfung

Pandas ist eine der beliebtesten Bibliotheken für Datenanalyse in Python und wird häufig in der Wissenschaft, Finanzen, Statistik, Ökonomie und anderen Bereichen eingesetzt, in denen Datenanalysen durchgeführt werden.

### Scikit-Learn

Scikit-Learn ist eine in Python geschriebene Open-Source-Bibliothek, die eine Vielzahl von Machine-Learning-Algorithmen und -Tools für Datenanalyse und -verarbeitung bereitstellt. Sie bietet eine konsistente API und ermöglicht es Entwicklern und Data Scientists, Machine-Learning-Modelle schnell zu erstellen, zu trainieren und zu evaluieren. Die Bibliothek bietet auch Funktionen für Daten-Vorverarbeitung, Dimensionsreduktion, Feature-Extraktion, Clustering, Regression und Klassifikation sowie Modellvalidierung und -auswahl. Scikit-Learn ist eine der am häufigsten verwendeten Bibliotheken für Machine-Learning in Python.

### Seaborn

Seaborn ist eine Python-Bibliothek zur Erstellung von Datenvisualisierungen. Die Bibliothek basiert auf der beliebten Matplotlib-Bibliothek und bietet eine höhere Abstraktionsebene sowie attraktivere Standarddesigns für Diagramme und Plots. Mit Seaborn können Benutzer leicht verschiedene Arten von Diagrammen wie Streudiagramme, Balkendiagramme, Boxplots und Heatmaps erstellen.

Einige der wichtigsten Funktionen von Seaborn sind:

1.   Einfache Erstellung von Standardplots und komplexeren statistischen Plots.
2.   Möglichkeit zur Anpassung von Farbpaletten und Stilen für die Darstellung von Daten.
3.   Verwendung von Datenframes von Pandas, um Diagramme zu erstellen, wodurch es einfacher wird, Daten zu manipulieren und zu visualisieren.
4.   Unterstützung für mehrere Diagramme in einer Figur sowie Erstellung von Subplots.

Seaborn wird häufig von Datenwissenschaftlern und Analysten verwendet, um komplexe Datenmuster zu visualisieren und Erkenntnisse aus Daten zu gewinnen.

### logistische Regression

Die logistische Regression ist eine statistische Methode zur Vorhersage binärer (zweiwertiger) Ereignisse. Sie wird häufig in der medizinischen Forschung, in der Psychologie und anderen Sozialwissenschaften eingesetzt, um die Wahrscheinlichkeit zu bestimmen, dass ein bestimmtes Ereignis eintritt, z.B. ob ein Patient an einer bestimmten Krankheit erkrankt oder nicht.

Das Ziel der logistischen Regression ist es, eine Beziehung zwischen einer abhängigen Variablen (die binäre Klassifikation) und einer oder mehreren unabhängigen Variablen (den Merkmalen) zu modellieren. Die logistische Regression verwendet eine Sigmoid-Funktion, um die Wahrscheinlichkeit der Klassenzugehörigkeit zu schätzen und diese Vorhersagen als "Ja" oder "Nein" zu klassifizieren. Das Modell wird auf der Grundlage der Eingabevariablen trainiert, indem es die optimalen Parameter schätzt, um die Wahrscheinlichkeit zu maximieren, dass das Modell die beobachteten Daten korrekt vorhersagt.

In der Praxis wird die logistische Regression oft als einfache und effektive Methode zur Vorhersage von Ereignissen eingesetzt, insbesondere wenn die abhängige Variable binär ist.

### DataFrame

Ein DataFrame ist ein Datenobjekt in Pandas, das aus einer zweidimensionalen, tabellenartigen Datenstruktur besteht, die Spalten mit potenziell unterschiedlichen Datentypen enthält. Es ähnelt einer Tabelle in einer relationalen Datenbank oder einer Excel-Tabelle. DataFrame-Objekte können aus verschiedenen Quellen wie CSV-Dateien, Datenbankabfragen oder Excel-Dateien geladen werden und ermöglichen es, Daten zu manipulieren, zu transformieren und zu analysieren.

### Confusion Matrix

Eine Konfusionsmatrix, auch Fehlermatrix genannt, ist eine Tabelle, die verwendet wird, um die Leistung eines Klassifikationsmodells zu visualisieren. Sie zeigt, wie gut das Modell in der Lage ist, Datenpunkte in verschiedenen Kategorien oder Klassen korrekt zu klassifizieren.

Eine Konfusionsmatrix hat in der Regel zwei Achsen: Die erste Achse zeigt die tatsächlichen Klassen und die zweite Achse zeigt die vom Modell vorhergesagten Klassen. Die Zellen in der Matrix geben an, wie viele Datenpunkte vom Modell in eine bestimmte Kategorie klassifiziert wurden und wie viele tatsächlich in dieser Kategorie waren.

Es gibt vier mögliche Ergebnisse, die in der Konfusionsmatrix angezeigt werden können:
*   True Positive (TP): Das Modell hat die positive Klasse korrekt vorhergesagt.
*   False Positive (FP): Das Modell hat die positive Klasse fälschlicherweise vorhergesagt.
*   True Negative (TN): Das Modell hat die negative Klasse korrekt vorhergesagt.
*   False Negative (FN): Das Modell hat die negative Klasse fälschlicherweise vorhergesagt.

Die Konfusionsmatrix ist ein nützliches Werkzeug, um verschiedene Metriken zur Bewertung der Leistung von Klassifikationsmodellen zu berechnen, wie z.B. Genauigkeit, Präzision, Empfindlichkeit und Spezifität.

### Maligne und Benigne

Die beiden Klassen beziehen sich auf die Diagnose "Maligne" (bösartig) und "Benigne" (gutartig) von Brustkrebs. In diesem Fall wird ein Modell trainiert, um aufgrund von bestimmten Merkmalen einer Gewebeprobe (z.B. Radius, Textur, Perimeter usw.) vorherzusagen, ob der Brustkrebs bösartig oder gutartig ist. Die Klasse "Maligne" steht dabei für eine bösartige Diagnose und die Klasse "Benigne" steht für eine gutartige Diagnose.