# Logistische Regression mit Scikit-learn

Eine logistische Regression modelliert die Beziehung zwischen den Werten “erklärender” Merkmale und den Werten eines kategorialen Zielmerkmals.

Zuerst werden alle benötigten Module in das Programm importiert.

In [None]:
# Importiere die nötigen Module
from sklearn import linear_model, datasets, model_selection
import plotly.express as px
import plotly.offline as pyo
import plotly.graph_objects as go

## Vorbereitung des Datensatzes

Um die Funktionsweise der _logistischen Regression_ besser zeigen zu können, laden wir den <a href="https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)">_Breast Cancer Wisconsin (Diagnostic)_</a> Datensatz mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html">_load_breast_cancer()_</a>. Die Merkmale dieses Datensatzes beschreiben einige Eigenschaften der Zellkerne in digitalisierten Bildern von der Feinnadelaspiration der Brustmasse. Die Werte des Zielmerkmals geben an, ob der Tumor gutartig (_benign_) oder bösartig (_malignant_) ist. Dabei steht die Merkmalsausprägung 1 für einen gutartigen und 0 für einen bösartigen Tumor.

In [None]:
# Lade den Datensatz "Breast Cancer Wisconsin (Diagnostic)"
X_breast_cancer, y_breast_cancer = \
    datasets.load_breast_cancer(return_X_y=True)

Wir beschränken uns wieder auf die Betrachtung des ersten Merkmals, das dem Radius des Zellkerns entspricht, und visualisieren diesen in Abhängigkeit von dem Zielmerkmal.

In [None]:
# Wähle nur die erste Spalte des Arrays X_breast_cancer
X_breast_cancer = X_breast_cancer[:, 0]

pyo.init_notebook_mode()
fig1 = px.scatter(x=X_breast_cancer, y=y_breast_cancer)
fig1.update_layout(xaxis_title='Radius des Zellkerns',
                   yaxis_title='Wahrscheinlichkeit für '
                               'den gutartigen Tumor')
fig1.show()

Das Datenarray wird um eine Dimension erweitert und in eine Trainings- und eine Testmenge aufgeteilt.

In [None]:
# Erweitere das Datenarray um eine Dimension
X_breast_cancer = X_breast_cancer[:, None]
print(X_breast_cancer.shape)

# Zerlege den Datensatz in eine Training- und eine Testmenge
X_train_bc, X_test_bc, y_train_bc, y_test_bc =\
    model_selection.train_test_split(X_breast_cancer,
                                     y_breast_cancer,
                                     test_size=0.1,
                                     random_state = 45)

## Logistisches Regressionsmodell

Das logistische Regressionsmodell wird mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html">_LogisticRegression()_</a> des _Scikit-learn_-Untermoduls _Linear Models_ erstellt. Mit dem Parameter _max\_iter_ kann man die Anzahl der Iterationen beschränken, die der Optimierungsalgorithmus durchlaufen soll. Das Trainieren des Modells erfolgt wieder mit der Funktion _fit()_.

In [None]:
# Erstelle ein logistisches Regressionsmodell
log_reg = linear_model.LogisticRegression(max_iter = 1000)

# Trainiere das Modell mit der Trainingsmenge
log_reg.fit(X_train_bc, y_train_bc)

Die Wahrscheinlichkeitswerte für die Zugehörigkeit zu den beiden Ausprägungen des Zielmerkmals werden für die Testmenge mit der Funktion _predict\_proba()_ vorhergesagt. Mit deren Hilfe kann die Regressionskurve andeutungsweise visualisiert werden.

In [None]:
# Erstelle die Vorhersagen für die gesamte Testmenge
y_pred_bc = log_reg.predict_proba(X_test_bc)

Um sehen zu können, wie gut unser Regressionsmodell die Wahrscheinlichkeiten der Zugehörigkeit der neuen Beobachtungen zu allen Ausprägungen des Zielmerkmals schätzen kann, geben wir exemplarisch für die erste Beobachtung der Testmenge den Radius des Zellkerns, die tatsächliche und die durch unser Modell geschätzten Wahrscheinlichkeiten aus, dass die entsprechende Zelle aus einem bösartigen bzw. einem gutartigen Tumor entnommen wurde.

In [None]:
# Gebe den Wert des beschreibenden Merkmals für
# die erste Beobachtung der Testmenge aus
print("Der Radius des Zellkerns der ersten "
      "Beobachtung aus der Testmenge:", X_test_bc[0,0])

# Gebe den tatsächlichen Wert des Zielmerkmals für
# die erste Beobachtung der Testmenge aus
print("Die tatsächliche Zugehörigkeit zu einem bösartigen "
      "bzw. gutartigen Tumor der ersten Beobachtung "
      "aus der Testmenge:", y_test_bc[0])

# Gebe die geschätzten Wahrscheinlichkeiten der Zugehörigkeit
# der ersten Beobachtung aus der Testmenge zu allen
# Ausprägungen des Zielmerkmals aus
print("Die geschätzten Wahrscheinlichkeiten der Zugehörigkeit "
      "der ersten Beobachtung aus der Testmenge zu einem bösartigen "
      "bzw. gutartigen Tumor:", y_pred_bc[0])

Die Regressionskurve wird andeutungsweise anhand der Zugehörigkeitswerte zu der Ausprägung „gutsartig“ grafisch dargestellt.

In [None]:
fig2 = px.scatter(x=X_test_bc[:,0], y=y_pred_bc[:,1],
                  color_discrete_sequence=['red'])
fig3 = go.Figure(data=fig1.data + fig2.data)
fig3.update_layout(xaxis_title='Radius des Zellkerns',
                   yaxis_title='Wahrscheinlichkeit für '
                               'den gutartigen Tumor')
fig3.show()