<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/udemy/mlaz/Part%2010%20-%20Model%20Selection%20_%20Boosting/Section%2048%20-%20Model%20Selection/Python/model_evaluation_techniques.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modellbewertungstechniken (engl. Model evaluation techniques)

Mit der Erstellung eines Machine Learning Modells ist es oft nicht getan. Bevor wir ein Modell in die Wildnis entlassen, müssen wir wissen, ob es tatsächlich funktioniert und folglich, ob wir seinen Vorhersagen oder Klassifizierungen vertrauen können. 

Meist beginnen wir damit ein geeignetes Modell auf einem Datensatz zu trainineren. Wollen wir nun wissen wie es um die Leistung des Modells in Bezug auf die Verallgemeinerung (Generalization) geht, dann verwendet man meist die folgenden Methoden:

* **Kreuzvalidierung** - Hierbei verwendet man einen Teil der Trainingsdaten um bereits während des Trainings einen guten Eindruck über die Verallgemeinerungsleistung eines Modells zu erhalten. Eine der bekanntesten Methoden ist hierbei die k-fache Kreuzvalidierung (engl. k-fold cross validation).
* **Holdout** - Ist nichts anderes als die Messung der Leistung auf einem Testdatensatz, welche das Modell noch nicht gesehen hat. 

Die oben erwähnten Bewertungsmethoden messen die Verallgemeinerung eines Modells spezifisch geht es jedoch um folgende wesentliche Leistungsmetriken nach welchen ein Modell gemessen werden sollte:

* **Genauigkeit** (Accuracy) - Bei dieser Metrik geht es darum in wievielen Fällen das Modell eine korrekte Klassifikation vorgenommen hat (True Positiv, True Negativ, False Positiv, False Negativ). Diese Metrik wird in vielen Lektüren als die wichtigste Masseinheit in Bezug auf die Messung der Leistung eines Modells angesehen. Aber gerade bei der Messung von Klassifikatoren mit einem stark unausgewogenen Datensatz (bspw. viele Ausreisser) kann dieses Qualitätsmass versagen. Weshalb auch andere Metrik bei der Messung in Betracht gezogen werden sollten.
* **Relevanz** (Precision) - Hier geht es im wesentlichen um die positiven Vorhersagen. Dabei werden vor allem die True Positves angesehen. Die Formel für die Relevanz ist:

 $\frac{True Positive(TP)}{True Positive (TP) + False Positive (FP)}$

* **Sensitivität** (Recall) - Da wir bei der Relevanz vorwiegen das positive Resultat der Vorhersagen beachten, müssen wir in diesem Zusammenhang auch die positive Bilanz gegenüber der negativen Bilanz ziehen. Diese Qualitätsmass wird auch Sensitivität genannt. Die Formel dazu ist:

 $\frac{True Positive (TP)}{True Positive (TP) + False Negative (FN)}$

Bevor wir nun aber eine Bewertung eines Modells durchführen, müssen wir uns zuerst darüber im klaren sein, welche ML-Methode angewendet wurde bzw. es sich um Regression, Klassifikation oder Clustering handelt. Jeder der genannten Methoden hat eine andere Vorgehensweise und demzufolge müssen auch andere Bewertungstechniken eingesetzt werden. 


## Build and train a regression and classification model

In [None]:
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
# Importing the dataset
datloc = 'https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%203%20-%20Classification/Section%2018%20-%20Naive%20Bayes/Python/Social_Network_Ads.csv'
daturl = 'https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%202%20-%20Regression/Section%2010%20-%20Model%20Selection%20Regression/Data.csv'

dataset = pd.read_csv(datloc)
dataset2 = pd.read_csv(daturl)

X = dataset.iloc[:,:-1].values
y = dataset.iloc[:,-1].values

X2 = dataset2.iloc[:,:-1].values
y2 = dataset2.iloc[:,-1].values

In [None]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size = 0.25, random_state = 0)

In [None]:
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [None]:
# Training a classifier model on the Training- and Testset
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, y_train)

y_pred_clf = classifier.predict(X_test)

In [None]:
# Training a regressor model on the Training- and Testset
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
poly_reg = PolynomialFeatures(degree = 4)
X_poly = poly_reg.fit_transform(X2_train)
regressor = LinearRegression()
regressor.fit(X_poly, y2_train)

y_pred_reg = regressor.predict(poly_reg.transform(X2_test))

## Bewertungstechniken für Regressionsmodelle

Die Regression ist ja bekanntlich eine rein zahlenbasierte Methode um Vorhersagen (Predictions) zu tätigen. Demzufolge verwenden wir hierbei auch Bewertungsmetriken die auf diesen Aspekt eingehen. 

Mehr Informationen zu Bewertungsmethoden der Regression sind [hier](https://towardsdatascience.com/ways-to-evaluate-regression-models-77a3ff45ba70) zu finden.

### Coefficient of Determination (R2)

Das R-Quadrat (R2) ist ein statistisches Maß, das den Anteil der Varianz für eine abhängige Variable darstellt, der durch eine unabhängige Variable oder Variablen in einem Regressionsmodell erklärt wird. Während die Korrelation die Stärke der Beziehung zwischen einer unabhängigen und einer abhängigen Variablen erklärt, erklärt das R-Quadrat, inwieweit die Varianz einer Variablen die Varianz der zweiten Variablen erklärt. Wenn also R2 eines Modells 0,50 beträgt, kann ungefähr die Hälfte der beobachteten Variation durch die Eingaben des Modells erklärt werden.

Nachteil dieser Bewertungsmethode ist, dass das R2 berücksichtigt keine Überanpassung

In [None]:
from sklearn.metrics import r2_score

print(r2_score(y2_test,y_pred_reg))

## Bewertungstechniken für Klassifikationsmodelle

Im Gegensatz zu den rein zahlenbasierten Modellen verwendet man bei der Klassifikation 

### Confusion Matrix

Die Bewertung der Leistung eines Klassifizierungsmodells basiert auf der Anzahl der vom Modell korrekt und falsch vorhergesagten Testdaten. Die Confusion Matrix liefert ein aufschlussreicheres Bild, das nicht nur die Leistung eines Vorhersagemodells darstellt, sondern auch, welche Klassen korrekt und falsch vorhergesagt werden und welche Art von Fehlern gemacht werden.

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred_clf)
print(cm)
accuracy_score(y_test, y_pred_clf)

### Matthews Correlation Coefficient (MCC)

Information wie der MCC funktioniert findet man [hier](https://towardsdatascience.com/the-best-classification-metric-youve-never-heard-of-the-matthews-correlation-coefficient-3bf50a2f3e9a).

In [None]:
from sklearn.metrics import matthews_corrcoef

print(round(matthews_corrcoef(y_test,y_pred_clf),3))

### k-Fold Cross Validation

In [None]:
from sklearn.model_selection import cross_val_score
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10)
print("Accuracy: {:.2f} %".format(accuracies.mean()*100))
print("Standard Deviation: {:.2f} %".format(accuracies.std()*100))

### Receiver Operating Characteristic Curve (ROC AUC)

In [None]:
from sklearn.metrics import roc_auc_score
print(roc_auc_score(y_test,y_pred_clf))


## Bewertungstechniken für Clustering-Modelle