# Iris-Dataset modelled by logistic regression with scikit-learn 
Training a logistic regression model with scikit-learn

Import and load of Iris dataset

In [1]:
from sklearn import datasets
import numpy as np

iris = datasets.load_iris()
X = iris.data[:, [2, 3]]
y = iris.target
print('Class labels:', np.unique(y))

Class labels: [0 1 2]


## Daten-Preprocessing

Definition von Netz-input X und und Labels y and normalization of feature inputs X

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# split data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

# standardize the features
# StandardScaler is a class that is used to standardize the dataset
sc = StandardScaler()
sc.fit(X_train) # estimate the sample mean and standard deviation for each feature dimension
# The transform method is then used to standardize the training data using those estimated parameters
X_train_std = sc.transform(X_train) # standardize the training data
X_test_std = sc.transform(X_test) # standardize the test data

## Model training

In [3]:
from sklearn.linear_model import LogisticRegression
# C is the inverse of the regularization parameter lambda
lr = LogisticRegression(C=100.0, random_state=1, solver='lbfgs', multi_class='ovr')
lr.fit(X_train_std, y_train)

In [None]:
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt 

from decision_region_plotter import plot_decision_regions

X_combined_std = np.vstack((X_train_std, X_test_std)) # stack arrays in sequence vertically (row wise)
y_combined = np.hstack((y_train, y_test)) # stack arrays in sequence horizontally (column wise)

plot_decision_regions(X_combined_std, y_combined,
                      classifier=lr, test_idx=range(105, 150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')
plt.tight_layout()
# plt.savefig('images/03_06.png', dpi=300)
plt.show()

NameError: name 'lr' is not defined

Mit der predict_proba-Methode können wir die Wahrscheinlichkeiten der Klassenzugehörigkeit
der Objekte vorhersagen, beispielsweise für die ersten drei Exemplare
der Testdatenmenge:

In [None]:
lr.predict_proba(X_test_std[:3, :])


array([[6.63770505e-09, 1.44747233e-01, 8.55252760e-01],
       [8.34031210e-01, 1.65968790e-01, 3.20815954e-13],
       [8.48822884e-01, 1.51177116e-01, 2.57998350e-14]])

Die erste Zeile gibt die Wahrscheinlichkeiten der Klassenzugehörigkeit der ersten
Blume an, die zweite Zeile die Wahrscheinlichkeiten der zweiten Blume usw. Beachten
Sie, dass die Summe der drei Spalten jeder Zeile erwartungsgemäß 1 ergibt.
Sie können das durch die Ausführung von

In [None]:
lr.predict_proba(X_test_std[:3, :]).sum(axis=1) 
# sum of the probabilities of the three classes for each sample is 1

array([1., 1., 1.])

Der höchste Wert in der ersten Zeile ist rund 0,85, also gehört das erste Exemplar mit einer vorhergesagten Wahrscheinlichkeit von 85 % zur dritten Klasse (Iris virginica). Wir können also die vorhergesagte Klasse anhand des höchsten Wertes einer Zeile ermitteln, z.B. mittels NumPys argmax-Funktion:

In [None]:
lr.predict_proba(X_test_std[:3, :]).argmax(axis=1)


array([2, 0, 0], dtype=int64)

Im letzten Codebeispiel haben wir die bedingten Wahrscheinlichkeiten berechnet und mittels NumPys argmax-Funktion manuell in Klassenbezeichnungen konvertiert. In der Praxis ist es bei der Verwendung von scikit-learn komfortabler, die predict-Methode direkt aufzurufen:

In [None]:
lr.predict(X_test_std[:3, :])


array([2, 0, 0])

Zum Abschluss noch eine Warnung, für den Fall, dass Sie die Klassenbezeichnung
einer einzelnen Blume vorhersagen möchten: scikit-learn erwartet als Eingabe
ein zweidimensionales Array. Ein einzelner Slice muss also zunächst in
dieses Format konvertiert werden. Zum Hinzufügen einer weiteren Dimension
können Sie NumPys reshape-Methode verwenden:

In [None]:
lr.predict(X_test_std[0, :].reshape(1, -1))

array([2])