# Maschinelles Lernen

Nun kommen wir (endlich) zum eigentlichen Machine Learning

In [None]:
#import some necessary librairies

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
%matplotlib inline
import matplotlib.pyplot as plt  # Matlab-style plotting
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')
import warnings
def ignore_warn(*args, **kwargs):
    pass
warnings.warn = ignore_warn #ignore annoying warning (from sklearn and seaborn)
warnings.warn_explicit = ignore_warn

from scipy import stats
from scipy.stats import norm, skew #for some statistics


pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x)) #Limiting floats output to 3 decimal points


from subprocess import check_output
print(check_output(["ls", "../data/house-prices-advanced-regression-techniques"]).decode("utf8")) #check the files available in the directory

import pickle

# Daten aus dem vorigen Schritt laden


In [None]:
with open('../data/house-prices-advanced-regression-techniques/x_preprocessed_train.pkl', 'rb') as handle:
    X_preprocessed_train = pickle.load(handle)

with open('../data/house-prices-advanced-regression-techniques/y_train.pkl', 'rb') as handle:
    y_train = pickle.load(handle)
    
with open('../data/house-prices-advanced-regression-techniques/x_test.pkl', 'rb') as handle:
    X_test = pickle.load(handle)


# Verfahren maschinellen Lernens

# Supervised Learning

<br>
<img src="../img/ml-overview.png" width="70%" align="center">
<br>

## Supervised Learning
Der Bereich des Supervised Learnings (das überwachte maschinelle Lernen) lässt sich in drei wichti-ge Bereiche unterteilen: die Klassifikation, die Regression und die Segmentierung. Für die Klassifikation kann die logistische Regression eingesetzt werden. Vor allem die Support Vector Machine (SVM) und verschiedene Decision-Tree-Verfahren sind hier als Alternativen hervorzuheben. Tiefe neuronale Netze sind in diesem Bereich die wichtigsten Vertreter. Beim überwachten maschinellen Lernen werden Algorithmen verwendet, um ein Modell zu trainieren, das Muster in einem Datensatz mit Bezeichnungen und Merkmalen findet. Das trainierte Modell wird sodann verwendet, um die Bezeichnungen für die Merkmale eines neuen Datensatzes vorherzusagen. Entscheidend hierbei ist, dass für das Training Annotationen – d. h. manuelle Zuordnungen zwischen Eingangsdaten und Ausgangsdaten – vorliegen. Ist das Modell trainiert, dann kann für unbekannte Daten („New Data“) durch die Benut-zung des Modells ein Label vorhergesagt werden („Use Model“).

<br>
<img src="../img/supervised.png" width="70%" align="center">
<br>

# Prognose, Verlust und Optimierung
Bei vielen Verfahren des maschinellen Lernens ist das Ziel, ausgehend von bekannten Eingangsdaten eine Vorhersage über eine unbekannte Zielgröße zu treffen. Beim überwachten Lernen trainiert man ein Modell mit Eingangsdaten, für die der „richtige“ Wert der Zielgröße bekannt ist, um das Modell dahingehend zu optimieren, dass es auch für Eingangsdaten die Zielgröße vorhersagen kann, zu denen diese nicht bekannt ist. Wichtige Begriffe sind Prognose, Verlust und Optimierung. Ausgegangen wird von Eingangsdaten, die in der Abbildung mit (1) bezeichnet sind.
Das können je nach Verfahren Bilder, Töne, numerische Werte, Texte oder andere Daten (z. B. Sensordaten aus dem Betrieb von Maschinen) sein. Für diese Daten ist die Zielgröße – auch als Y bezeichnet – bekannt, in der Abbildung als (2) bezeichnet. Im Beispiel geht es um eine Klassifizierung, d. h. die Entscheidung, welche Zahl eine handgeschriebene Ziffer darstellt. Man spricht davon, dass die Eingangsdaten – auch als X bezeichnet – einer bestimmten Klasse zugehören (hier sind dies die Klassen 0 bis 9). Man führt nun die Eingangsdaten dem Modell zu und berechnet mit Hilfe des Modells die Zielgröße. Dies wird als Prognose (3) bezeichnet und mit Y ̂ gekennzeichnet. An anderen Stellen ist auch vom Abschätzen oder einer Vorhersage die Rede. Dies wird für alle Trainingsdaten wiederholt. In Schritt (4) wird nun für alle Ergebnisse Y mit Y ̂ verglichen und die „Abweichung“ zwischen Y und Y ̂ für diesen Durchlauf ermittelt. Diese Abweichung bezeichnet man als Verlust. Hierfür kommt die Verlustfunktion zum Einsatz, mit deren Hilfe diese Abweichung berechnet werden kann. Das Ergebnis der Verlustfunktion wird nun genutzt, um die internen Parameter – die so genannten Modellparameter – derart zu verändern, dass im nächsten Durchlauf der Verlust verringert wird. Dieses Verfahren wird Optimierung genannt und in der Abbildung mit (5) bezeichnet. Mit Hilfe eine Optimierungsverfahrens, z. B. dem so genannten Gradientenabstieg, können nun die Modellparameter optimiert werden. Ergänzend sei erwähnt, dass es neben dem Gradientenabstieg viele weitere Optimierungsverfahren gibt, die unterschiedliche Eigenschaften, Vor- und Nachteile haben.

<br>
<img src="../img/prozess.png" width="70%" align="center">
<br>

# Regression

## Interpolation

<br>
<img src="../img/interpolation.png" width="70%" align="center">
<br>

## Extrapolation

<img src="../img/extrapolation.png" width="70%" align="center">
<br>

## Decision Tree
<img src="../img/decisiontree.png" width="70%" align="center">
<br>

# Gradient Boosted Decision Trees (GBDT)

Bei GBDT – Gradient Boosted Decision Trees – werden mehrere solcher Entscheidungsbäume kom-biniert. Die Idee dahinter ist, dass über ein Gradient-Descent-Verfahren der Verlust mehrerer für sich genommen möglicherweise schwacher Decision-Tree-Modelle insgesamt der Verlust minimiert werden kann.

Beim Gradient Boosting werden nicht mehr spezielle Datensätze besonders (durch die Gewichte) berücksichtigt, sondern es wird der Gradient zwischen den korrekt vorhergesagten (klassifizierten, berechneten) Mustern und den Antworten der vorherigen Hypothese betrachtet. Für die Optimierung, dem Gradientenabstieg, wird eine differenzierbare Verlustfunktion benötigt; das kann für eine Klassifizierung der „squared error“ und für die Regression der „logarithmische Verlust“ sein. Anstatt die Parameter des Modells mit Hilfe des Gradientenabstiegs zu optimieren, werden – in Richtung der stärksten Verringerung des Gradienten – die Parameter der nächsten Hypothese, also des nächsten Modells, angepasst. 

**XGBoost**

Der XGBoost-Algorithmus ist eine Implementierung des GBDT für hochparallele Verarbeitung z. B. auf GPU-Prozessoren, die gegenüber CPU-Prozessoren sehr viel mehr Recheneinheiten zur Verfügung haben, die derartige Optimierungsprozesse – also Lernprozesse – parallelisieren und damit die Geschwindigkeit des Trainings steigern können. XGBoost ist eine Open-Source-Implementierung, die Gradient Boosting zusammen mit Pruning und Regularisierung einsetzt.

<img src="../img/gbdt.png" width="70%" align="center">
<br>


# Laden der Daten und Aufteilung in Train und Test Daten

Um die Güte eines trainierten Modells zu testen, werden sogenannte Test-Daten zurückgehalen. Diese Daten hat das Modell noch nie gesehen. So kann gemessen werden, wie gut das Netz generalisiert, also mit unbekannten Daten umgehen kann.

**Cross Validation**
Mit der n-fachen Kreuzvalidierung werden innerhalb der Validierungsdaten nun zwei Subsets definiert: Das Trainings-Set und das Validieruns-Set. Dieses wird über den gesamten Traingings-Datenbestand mutiert.

<img src="../img/test_train_split.png" width="70%" align="center">
<br>

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV, KFold, cross_val_score

# Split the data into training and testing sets
from sklearn.model_selection import train_test_split
seed = 4354 # Random_state ist ein seed, damit gegebenenfalls immer mit der selben pseudo Random Folge gearbeitet wird.
X_train, X_validate, y_train, y_test = train_test_split(X_preprocessed_train, y_train, test_size=0.2, random_state=seed) 


# Grid-Search
Machine Learning Modelle benötigen in der Regel Hyperparameter, d.h. Steurungsparameter, die außerhalb der eigenentlichen internen (angelernten) Modell-Parameter liegen.
Diese können über eine systematische Suche gefunden werden.


In [None]:
# Wir wollen drei Modelle untercuchen
models = {
    'LinearRegression': LinearRegression(),
    'RandomForest': RandomForestRegressor(random_state=seed),
    'XGBoost': XGBRegressor(random_state=seed)
}

# Define the hyperparameter grids for each model
param_grids = {
    'LinearRegression': {},
    'RandomForest': {
        'n_estimators': [100, 200, 500],
        'max_depth': [None, 10, 30],
        'min_samples_split': [2, 5, 10],
    },
    'XGBoost': {
        'n_estimators': [100, 200, 500],
        'learning_rate': [0.01, 0.1, 0.3],
        'max_depth': [3, 6, 10],
    }
}

## Festlegung der Kreuzvalidierung

In [None]:
# 3-fold cross-validation
cv = KFold(n_splits=3, shuffle=True, random_state=seed)

## Training, Gridsearch und Kreuzvalidierung

Training, Gridsearch und Kreuzvalidierung können dank der vorbereiteten Funktion in scikit-learn einfach ausgeführt werden:

In [None]:
# Train and tune the models
grids = {}
for model_name, model in models.items():
    #print(f'Training and tuning {model_name}...')
    grids[model_name] = GridSearchCV(estimator=model, param_grid=param_grids[model_name], cv=cv, scoring='neg_mean_squared_error', n_jobs=-1, verbose=2)
    grids[model_name].fit(X_train, y_train)
    best_params = grids[model_name].best_params_
    best_score = np.sqrt(-1 * grids[model_name].best_score_)
    
    print(f'Optimale Parameter für {model_name}: {best_params}')
    print(f'Bester RMSE Score für {model_name}: {best_score}\n') #Root-mean-square deviation
    
# Vgl. https://www.kaggle.com/code/kenjee/housing-prices-example-with-video-walkthrough