# Was wir in der Einführung zu Scikit-Learn behandeln

Dieses Notebook umreißt den Inhalt, der in der Einführung zu Scikit-Learn behandelt wird.

Es ist ein schneller Überblick über alle Scikit-Learn Funktionen und Module für jede beschriebene Sektion.

Das, was wir behandeln, folgt dem folgenden Diagramm, das einen Scikit-Learn Arbeitsablauf detailliert darstellt.

<img src="../images/sklearn-workflow-title.png"/>


## 0. Importieren der Standardbibliotheken

In vielen Machine-Learning-Projekten werden oft diese Bibliotheken (Matplotlib, NumPy und pandas) zu Beginn importiert.


In [40]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [41]:
# Classification data
heart_disease = pd.read_csv("../data/heart-disease.csv") ## get  a data 

In [42]:
x = heart_disease.drop("target",axis=1) # split out the target colum 
y = heart_disease["target"]  # get only the target colum

In [81]:
from sklearn.ensemble import RandomForestClassifier

# Initialize RandomForestClassifier with default hyperparameters
clf = RandomForestClassifier(n_estimators=100)
# clf = RandomForestClassifier()

# Retrieve the default hyperparameters of the classifier
default_params = clf.get_params()
default_params

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

## from sklearn.model_selection import train_test_split

die verwendet wird, um einen Datensatz in Trainings- und Testsets aufzuteilen. 
Dies ist eine grundlegende Methode, um die Leistung eines Machine-Learning-Modells zu bewerten.

In [82]:
# 3. Fit the model to the training data 
from sklearn.model_selection import train_test_split
# Diese Daten werden für das Training des Modells verwendet
# test_size=0.2 bedeutet, dass 20 % der Daten für das Testen verwendet werden, während 80 % für das Training verwendet werden
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [119]:
# Modell mit Trainingsdaten trainieren
clf.fit(X_train, y_train)

# Vorhersagen auf dem Testdatensatz machen
y_preds = clf.predict(X_test)

# Vorhersagen mit Wahrscheinlichkeiten treffen (für Klassifikationsmodelle)
y_probs = clf.predict_proba(X_test)
y_preds, y_probs

(array([0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
        0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0,
        1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0], dtype=int64),
 array([[0.82222222, 0.17777778],
        [0.93333333, 0.06666667],
        [0.21111111, 0.78888889],
        [0.26666667, 0.73333333],
        [0.31111111, 0.68888889],
        [0.07777778, 0.92222222],
        [0.7       , 0.3       ],
        [0.32222222, 0.67777778],
        [0.56666667, 0.43333333],
        [0.06666667, 0.93333333],
        [0.78888889, 0.21111111],
        [0.88888889, 0.11111111],
        [0.75555556, 0.24444444],
        [0.21111111, 0.78888889],
        [0.65555556, 0.34444444],
        [0.42222222, 0.57777778],
        [0.3       , 0.7       ],
        [0.78888889, 0.21111111],
        [0.76666667, 0.23333333],
        [0.5       , 0.5       ],
        [0.37777778, 0.62222222],
        [0.85555556, 0.14444444],
        [0.52222222, 0.4777777

# 4. Evaluierung des Modells

Jedes Modell in Scikit-Learn verfügt über eine Standardmetrik, die über die Funktion `score()` zugänglich ist.

Es gibt jedoch eine Vielzahl verschiedener Evaluierungsmetriken, die je nach verwendetem Modell verwendet werden können.

Eine vollständige Liste der Evaluierungsmetriken kann [in der Dokumentation](https://scikit-learn.org/stable/modules/model_evaluation.html) gefunden wrden.


### score(): 
Der score()-Befehl berechnet die Genauigkeit des Modells auf den Trainingsdaten, indem es die Vorhersagen des Modells auf den Trainingsdaten macht und diese mit den tatsächlichen Trainingslabels vergleicht. Für Klassifikationsmodelle ist die Genauigkeit das Verhältnis der korrekt vorhergesagten Instanzen zur Gesamtanzahl der Instanzen im Trainingsdatensatz.

In [84]:
clf.score(X_train,y_train)

1.0

In [85]:
clf.score(X_test,y_test)

0.8852459016393442

In [86]:
# Die Evaluierung eines Modells mit Kreuzvalidierung ist möglich mit cross_val_score
from sklearn.model_selection import cross_val_score

# scoring=None bedeutet, dass die Standard-Score-Metrik score() verwendet wird
print(cross_val_score(estimator=clf, 
                      X=x, 
                      y=y, 
                      cv=5, # Verwendung von 5-facher Kreuzvalidierung
                      scoring=None)) 

# Evaluierung eines Modells mit einer anderen Bewertungsmethode
print(cross_val_score(estimator=clf, 
                      X=x, 
                      y=y,
                      cv=5, # Verwendung von 5-facher Kreuzvalidierung
                      scoring="precision"))


[0.78688525 0.85245902 0.81967213 0.8        0.81666667]
[0.80555556 0.93333333 0.84375    0.84848485 0.76923077]


In [87]:
# Different classification metrics

# Accuracy
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_preds))

# Reciver Operating Characteristic (ROC curve)/Area under curve (AUC)
from sklearn.metrics import roc_curve, roc_auc_score
false_positive_rate, true_positive_rate, thresholds = roc_curve(y_test, y_probs[:, 1])
print(roc_auc_score(y_test, y_preds))

# Confusion matrix
from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_preds))

# Classification report
from sklearn.metrics import classification_report
print(classification_report(y_test, y_preds))

0.8852459016393442
0.8849462365591398
[[26  4]
 [ 3 28]]
              precision    recall  f1-score   support

           0       0.90      0.87      0.88        30
           1       0.88      0.90      0.89        31

    accuracy                           0.89        61
   macro avg       0.89      0.88      0.89        61
weighted avg       0.89      0.89      0.89        61



In [88]:
# Different regression metrics
from sklearn.ensemble import RandomForestRegressor

boston_df = heart_disease
# Make predictions first
X = boston_df.drop("target", axis=1)
y = boston_df["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestRegressor()
model.fit(X_train, y_train)
y_preds = model.predict(X_test)

# R^2 (pronounced r-squared) or coefficient of determination
from sklearn.metrics import r2_score
print(r2_score(y_test, y_preds))

# Mean absolute error (MAE)
from sklearn.metrics import mean_absolute_error
print(mean_absolute_error(y_test, y_preds))

# Mean square error (MSE)
from sklearn.metrics import mean_squared_error
print(mean_squared_error(y_test, y_preds))

0.44433066666666665
0.27475409836065573
0.1344


## 5. Verbesserung durch Experimente

Zwei der Hauptmethoden, um die Ausgangsmetriken eines Modells zu verbessern (die ersten Bewertungsmetriken, die Sie erhalten).

Von einem Datenperspektive aus betrachtet:
* Könnten wir mehr Daten sammeln? Im maschinellen Lernen sind mehr Daten im Allgemeinen besser, da sie einem Modell mehr Möglichkeiten bieten, Muster zu lernen.
* Könnten wir unsere Daten verbessern? Dies könnte bedeuten, fehlende Werte zu ergänzen oder eine bessere Kodierungsstrategie (Umformung von Dingen in Zahlen) zu finden.

Von einem Modellperspektive aus betrachtet:
* Gibt es ein besseres Modell, das wir verwenden könnten? Wenn Sie mit einem einfachen Modell begonnen haben, könnten Sie ein komplexeres verwenden? (Wir haben ein Beispiel dafür gesehen, als wir uns die [Scikit-Learn-Maschinenlernkarte](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html) angesehen haben - Ensemble-Methoden gelten im Allgemeinen als komplexere Modelle).
* Könnten wir das aktuelle Modell verbessern? Wenn das Modell, das Sie verwenden, bereits gut funktioniert, können die **Hyperparameter** eingestellt werden, um es noch besser zu machen?

**Hyperparameter** sind wie Einstellungen an einem Modell, die Sie anpassen können, damit einige der Methoden, die es zum Finden von Mustern verwendet, verändert und potenziell verbessert werden. Die Anpassung von Hyperparametern wird als Hyperparameter-Tuning bezeichnet.


In [89]:
# How to find a model's hyperparameters
clf = RandomForestClassifier()
clf.get_params() # returns a list of adjustable hyperparameters

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

In [121]:
# 5. Improve a model 
# Try different amount of n_estimators
np.random.seed(10)
for i in range(10,100,10):
    print(f"Trying mpdel with {i} n_estimators")
    clf = RandomForestClassifier(n_estimators=i).fit(X_train,y_train)
    print(f"Model accuracy on test set: {clf.score(X_test,y_test)*100:.2f}%")

Trying mpdel with 10 n_estimators
Model accuracy on test set: 80.33%
Trying mpdel with 20 n_estimators
Model accuracy on test set: 86.89%
Trying mpdel with 30 n_estimators
Model accuracy on test set: 80.33%
Trying mpdel with 40 n_estimators
Model accuracy on test set: 78.69%
Trying mpdel with 50 n_estimators
Model accuracy on test set: 83.61%
Trying mpdel with 60 n_estimators
Model accuracy on test set: 80.33%
Trying mpdel with 70 n_estimators
Model accuracy on test set: 83.61%
Trying mpdel with 80 n_estimators
Model accuracy on test set: 81.97%
Trying mpdel with 90 n_estimators
Model accuracy on test set: 81.97%


In [91]:
import pickle
# clf = RandomForestClassifier(n_estimators=30).fit(X_train,y_train)
# Annahme: 'clf' ist das Modell, das gespeichert werden soll
# Speichern des Modells in einer Datei mit 'pickle'
with open("rs_random_forest_model_1.pkl", "wb") as file:
    pickle.dump(clf, file)

In [122]:
# Load a saved pickle model
loaded_pickle_model = pickle.load(open("rs_random_forest_model_1.pkl", "rb"))

# Evaluate loaded model
loaded_pickle_model.score(X_test, y_test)*100

81.9672131147541