# Regression mit Scikit-learn

<a href="https://scikit-learn.org/stable/">_Scikit-learn_</a> ist ein Modul für Machine Learning in Python. Neben den Machine Learning Methoden stellt Scikit-learn auch Methoden für Datenvorverarbeitung und zum Laden der Datensätze zur Verfügung, die in der Forschung zum Testen und Vergleichen verschiedener Methoden eingesetzt werden.

## Lineare Regression

Lineare Regression modelliert die Beziehung zwischen den Werten "erklärender" Merkmale und den _kontinuierlichen_ also fortlaufenden Werten eines Zielmerkmals. Die entsprechende Funktion dafür ist im Untermodul <a href="https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model">_Linear Models_</a> enthalten. Das Untermodul <a href="https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets">_Datasets_</a> enthält Hilfsprogramme zum Laden von Referenzdatensätzen. Das Untermodul <a href="https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection">_Model Selection_</a> stellt viele Funktionen zum Aufteilen der Datensätze in _Trainings-_ und _Testteilmengen_ zur Verfügung.

In [None]:
from sklearn import linear_model, datasets, model_selection
import plotly.express as px
import plotly.offline as pyo
import plotly.graph_objects as go

Im Folgenden arbeiten wir mit dem <a href="https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html">_California Housing Dataset_</a>, der Informationen über die Blockgruppen in Kalifornien wie mittleres Einkommen, mittleres Alter der Häuser, durchschnittliche Anzahl der Haushaltsmitglieder in der Blockgruppe enthält. Das Zielmerkmal enthält den mittleren Hauswert (in 100.000 $) für den kalifornischen Bezirk, in dem sich die Blockgruppe befindet.

Der Datensatz _California Housing_ kann mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html">_fetch_california_housing()_</a> geladen werden. Damit die Werte der beschreibenden Merkmale und des Zielmerkmals in getrennte _ndarrays_ geladen werden, wird der Parameter _return\_X\_y_ auf _True_ gesetzt.

In [None]:
# Lade den Datensatz "California Housing"
X_california_housing, y_california_housing =\
    datasets.fetch_california_housing(return_X_y=True)

Einfachheitshalber wird nur das erste Merkmal, also das mittlere Einkommen in der Blockgruppe, als "erklärendes" Merkmal benutzt.

In [None]:
# Selektiere nur die erste Spalte des Arrays X_california_housing
X_california_housing = X_california_housing[:, 0]

Die Beobachtungen werden durch ihre Werte für das mittlere Einkommen und den mittleren Hauswert grafisch dargestellt. Anhand der Grafik kann man einen linearen Zusammenhang zwischen diesen beiden Merkmalen bereits vermuten.

In [None]:
pyo.init_notebook_mode()
fig1 = px.scatter(x=X_california_housing, y=y_california_housing)
fig1.update_layout(xaxis_title='Mittleres Einkommen',
                   yaxis_title='Mittlerer Hauswert')
fig1.show()

Da aus der gesamten Datenmatrix nur ein Merkmal verwendet wurde, wurde das Datenarray zu einem eindimensionalen _ndarray_ reduziert. Wie wir später sehen werden, erfordert die Funktion zum Trainieren des Regressionsmodells eine zweidimensionale Datenmatrix als Eingabe. Um das Datenarray um eine Dimension zu erweitern, wird ihm eine zweite Dimension ohne Werte hinzugefügt. Dafür wird der Wert _None_ verwendet, der in Python die Abwesenheit eines Wertes repräsentiert.

In [None]:
# Erweitere das Datenarray um eine Dimension
X_california_housing = X_california_housing[:, None]
print(X_california_housing.shape)

Bevor ein Regressionsmodell auf den Daten trainiert werden kann, muss die Datenmatrix in Trainings- und Testmenge zerlegt werden. Dafür kann die Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html">_train\_test\_split()_</a> des Untermoduls von _Scikit-learn_ _Model Selection_ genutzt werden. Diese Funktion erwartet als Eingabe die Datenmatrix mit dem entsprechenden Zielmerkmal. Mit dem Parameter _test\_size_ kann man die Größe der Testmenge angeben. In den Voreinstellungen der Funktion ist festgelegt, dass die Beobachtungen vor dem Zerlegen gemischt werden. Wenn man das nicht erwünscht ist, muss der Parameter _shuffle_ auf _False_ gesetzt werden.

In [None]:
# Zerlege den Datensatz in die Trainings- und Testmenge
X_train, X_test, y_train, y_test =\
    model_selection.train_test_split(X_california_housing,
                                     y_california_housing,
                                     test_size = 0.1,
                                     random_state = 45)

Ein lineares Regressionsmodell wird mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html">_LinearRegression()_</a> des _Scikit-learn_-Untermoduls _Linear Models_ erstellt. Das Trainieren des Modells erfolgt mit der Funktion _fit()_, die die Trainingsmenge und das entsprechende Zielarray als Eingabe erhält.

In [None]:
# Erstelle ein lineares Regressionsmodell
lin_reg = linear_model.LinearRegression()

# Trainiere das Modell mit der Trainingsmenge
lin_reg.fit(X_train, y_train)

Mit der Funktion _predict()_ werden die Vorhersagen für alle Beobachtungen der Testmenge getroffen.

In [None]:
# Erstelle die Vorhersagen für die gesamte Testmenge
y_pred = lin_reg.predict(X_test)

Im Folgenden wird der Wert des beschreibenden Merkmals, der tatsächliche und der geschätzte Wert des Zielmerkmals für die erste Beobachtung der Testmenge ausgegeben.

In [None]:
# Gebe den Wert des beschreibenden Merkmals für
# die erste Beobachtung der Testmenge aus
print("Das mittlere Einkommen der ersten "
      "Beobachtung aus der Testmenge:", X_test[0,0])

# Gebe den tatsächlichen Wert des Zielmerkmals für
# die erste Beobachtung der Testmenge aus
print("Der tatsächliche mittlere Hauswert der "
      "ersten Beobachtung aus der Testmenge:", y_test[0])

# Gebe den geschätzten Wert des Zielmerkmals für
# die erste Beobachtung der Testmenge aus
print("Der geschätzte mittlere Hauswert der "
      "ersten Beobachtung aus der Testmenge:", y_pred[0])

Mit dem Befehl _coef\__ können die geschätzten Koeffizienten für das lineare Regressionsproblem ausgegeben werden. Diese entsprechen der Steigung der Regressionsgerade.

In [None]:
# Gebe die Koeffizienten aus
print("Koeffizienten: \n", lin_reg.coef_)

Mithilfe der Vorhersagewerten kann die Regressionsgerade visualisiert werden.

In [None]:
fig2 = px.line(x=X_test[:,0], y=y_pred, color_discrete_sequence=['red'])
fig3 = go.Figure(data=fig1.data + fig2.data)
fig3.update_layout(xaxis_title='Mittleres Einkommen', yaxis_title='Mittlerer Hauswert')
fig3.show()

## Logistische Regression

Logistische Regression modelliert die Beziehung zwischen den Werten “erklärender” Merkmale und den Werten eines kategorialen Zielmerkmals. Um die Funktionsweise dieser Methode besser zeigen zu können, laden wir den <a href="https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)">_Breast Cancer Wisconsin (Diagnostic)_</a> Datensatz mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html">_load_breast_cancer()_</a>. Die Merkmale dieses Datensatzes beschreiben einige Eigenschaften der Zellkerne in digitalisierten Bildern von der Feinnadelaspiration der Brustmasse. Die Werte des Zielmerkmals geben an, ob der Tumor gutartig (_benign_) oder bösartig (_malignant_) ist. Dabei steht die Merkmalsausprägung 1 für einen gutartigen und 0 für einen bösartigen Tumor.

In [None]:
# Lade den Datensatz "Breast Cancer Wisconsin (Diagnostic)"
X_breast_cancer, y_breast_cancer = \
    datasets.load_breast_cancer(return_X_y=True)

Wir beschränken uns wieder auf die Betrachtung des ersten Merkmals, das dem Radius des Zellkerns entspricht, und visualisieren diesen in Abhängigkeit von dem Zielmerkmal.

In [None]:
# Wähle nur die erste Spalte des Arrays X_breast_cancer
X_breast_cancer = X_breast_cancer[:, 0]

fig4 = px.scatter(x=X_breast_cancer, y=y_breast_cancer)
fig4.update_layout(xaxis_title='Radius des Zellkerns',
                   yaxis_title='Wahrscheinlichkeit für '
                               'den gutartigen Tumor')
fig4.show()

Das Datenarray wird um eine Dimension erweitert und in Trainings- und Testmenge aufgeteilt.

In [None]:
# Erweitere das Datenarray um eine Dimension
X_breast_cancer = X_breast_cancer[:, None]
print(X_breast_cancer.shape)

# Zerlege den Datensatz in die Training- und Testmenge
X_train_bc, X_test_bc, y_train_bc, y_test_bc =\
    model_selection.train_test_split(X_breast_cancer,
                                     y_breast_cancer,
                                     test_size=0.1,
                                     random_state = 45)

Das logistische Regressionsmodell wird mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html">_LogisticRegression()_</a> des _Scikit-learn_-Untermoduls _Linear Models_ erstellt. Mit dem Parameter _max\_iter_ kann man die Anzahl der Iterationen beschränken, die der Optimierungsalgorithmus durchlaufen soll. Das Trainieren des Modells erfolgt wieder mit der Funktion _fit()_.

In [None]:
# Erstelle ein logistisches Regressionsmodell
log_reg = linear_model.LogisticRegression(max_iter = 1000)

# Trainiere das Modell mit der Trainingsmenge
log_reg.fit(X_train_bc, y_train_bc)

Die Wahrscheinlichkeitswerte für die Zugehörigkeit zu den beiden Ausprägungen des Zielmerkmals werden für die Testmenge mit der Funktion _predict\_proba()_ vorhergesagt. Mit deren Hilfe kann die Regressionskurve andeutungsweise visualisiert werden.

In [None]:
# Erstelle die Vorhersagen für die gesamte Testmenge
y_pred_bc = log_reg.predict_proba(X_test_bc)

In [None]:
# Gebe den Wert des beschreibenden Merkmals für
# die erste Beobachtung der Testmenge aus
print("Der Radius des Zellkerns der ersten "
      "Beobachtung aus der Testmenge:", X_test_bc[0,0])

# Gebe den tatsächlichen Wert des Zielmerkmals für
# die erste Beobachtung der Testmenge aus
print("Die tatsächliche Zugehörigkeit zu einem bösartigen "
      "bzw. gutartigen Tumor der ersten Beobachtung "
      "aus der Testmenge:", y_test_bc[0])

# Gebe die geschätzten Wahrscheinlichkeiten der Zugehörigkeit
# der ersten Beobachtung aus der Testmenge zu allen
# Ausprägungen des Zielmerkmals aus
print("Die geschätzten Wahrscheinlichkeiten der Zugehörigkeit "
      "der ersten Beobachtung aus der Testmenge zu einem bösartigen "
      "bzw. gutartigen Tumor:", y_pred_bc[0])

In [None]:
fig5 = px.scatter(x=X_test_bc[:,0], y=y_pred_bc[:,1],
                  color_discrete_sequence=['red'])
fig6 = go.Figure(data=fig4.data + fig5.data)
fig6.update_layout(xaxis_title='Radius des Zellkerns',
                   yaxis_title='Wahrscheinlichkeit für '
                               'den gutartigen Tumor')
fig6.show()