# Machine Learning Grundlagen

- ## Machine Learning

- ## Perzeptron

- ## XOR-Problem

- ## Multi-Layer-Perzeptron

- ## Forward and Backward Propagation

- ## Neural Networks

## Machine Learning Bausteine

- Sammeln, Säubern und Aufbereiten von Trainingsdaten

- Aufstellen eines Lernmodells mit fixer Struktur und Modellparametern (z.B. Perzeptron)

- Auswahl einer Kostenfunktion (Funktion von Daten und Parametern), z.B. Zahl der falsch klassifizierten Datenpunkte; gutes Modell hat geringe Kosten
 
- Optimierung dieser Kostenfunktion mithilfe einer Lernregel, um das beste Modell zu finden => optimale Parameter finden



## Machine Learning Modell

![learning_model.png](attachment:learning_model.png)

## Supervised Learning 

- Anwendungsfall: Klassifikation
- im Training sind Inputs und Outputs beide vorhanden. Bei der Testphase kennt das Modell nur die Inputs und versucht die Outputs korrekt vorherzusagen
- simpelster Fall eines Klassifikators: <b>linearer Klassifikator</b>
- besonders nützlich bei großer Inputmenge
- bei kleiner Inputmenge kann man die Inputdaten in einen höher-dimenisonalen Raum transformieren und dort den linearen Klassifikator anwenden (XOR-Problem)

# Perzeptron

![perceptron.png](attachment:perceptron.png)



## Perzeptron

- $x_{i,j}$: Inputs (z.B. j-tes Wort im i-ten Satz)
- $y_i$: Outputs (z.B. Sentiment des i-ten Satzes)
- $w_j$: Gewicht des j-ten Worts => Modellparameter
- $h_i = \sum_{j=0}^M w_j x_{i,j}$: gewichtete Summe
- $f(x)$: Ausgabefunktion
- $\hat{y_i}$: vorhergesagte Outputs, bei binärer Klassifikation $y_i \in \{-1,1\}$: $\hat{y_i} = f(x)= sign(h_i)$
- $h(x)=0$: <b>seperating hyperplane</b>

### 1-dimensionaler Input - Hyperebene

![1dim_perceptron.png](attachment:1dim_perceptron.png)

### 2-dimensionaler Input

![2dim_hyperplane.png](attachment:2dim_hyperplane.png)

### 2-dimensionaler Input - Hyperebene

![hyperplane.png](attachment:hyperplane.png)

## Alternative Interpretation

Beispiel: $x_{i,j} \in \{0,1\}$

Perzeptron => gewichtetes Wahlsystem

![perceptron.png](attachment:perceptron.png)

## Kostenfunktion

Ziel: korrekte Klassifikation der Trainingsdaten

=> Gleiche korrektes Label ($y_i$) mit Vorhersage ($h_i$) ab

$$\text{cost} = \sum_{i=1}^N |-y_ih_i|_+$$

$|arg|_+ = max(arg,0)$

$\text{cost}=0$ wenn für alle Punkte $y_i = h_i$, sonst $\text{cost}>0$

## Kostenfunktion

Sei $M \subseteq \{1, \dots, N\}$ die Indexmenge der aktuell falsch klassifizierten Punkte

$$\text{cost}(w)= \sum_{i=1}^N |-y_ih_i|_+ = - \sum_{i \in M} y_ih_i = - \sum_{i \in M} y_i (\sum_{j=0}^M w_j x_{i,j})$$

<u>Optimierung der Kostenfunktion</u> 

1) Initialisiere die Gewichte zufällig

2) 1.Ableitung der Kostenfunktion = 0 setzen und nach $w_j$ auflösen

3) Gewichte aktualisieren mit $w_j \leftarrow w_j + \eta \sum_{i\in M}y_i x_{i,j}$ ($\eta$ = Lernrate)

### Gradient Descent

![gradient_descent.png](attachment:gradient_descent.png)

In [1]:
# Perceptron in Scikit learn

# Load required libraries
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

In [2]:
# Load the iris dataset
iris = datasets.load_iris()

# Create our X and y data
X = iris.data
y = iris.target

# What are the shapes of X and y?

In [6]:
# View the first five observations of our y data

# View the first five observations of our x data.

[0 0 0 0 0]
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
(150, 4)
(150,)


In [None]:
# Split the data into 70% training data and 30% test data

In [None]:
# Train the scaler, which standarizes all the features to have mean=0 and unit variance

In [None]:
# Apply the scaler to the X training data

# Apply the SAME scaler to the X test data

In [None]:
# Create a perceptron object with the parameters: 40 iterations (epochs) over the data, and a learning rate of 0.1

# Train the perceptron

In [None]:
# Apply the trained perceptron on the X data to make predicts for the y test data

In [None]:
# View the predicted y test data

# View the true y test data

In [None]:
# View the accuracy of the model, which is: 
# 1 - (observations predicted wrong / total observations)


## Grenzen des Perzeptrons - Konvergenz und Nicht-Eindeutigkeit

![convergence_nonunique.png](attachment:convergence_nonunique.png)



## Grenzen des Perzeptrons - Linear nicht trennbare Klassen

![nonlinearseparable.png](attachment:nonlinearseparable.png)

# XOR - Problem

![xor_problem.png](attachment:xor_problem.png)

# Von Perzeptron zu Multi-Layer-Perzeptron

![perceptron2.png](attachment:perceptron2.png)

# Von Perzeptron zu Multi-Layer-Perzeptron

![mlp.png](attachment:mlp.png)

# Multi-Layer-Perzeptron (MLP)

- nicht nur Gewichte für jeden Trainingsinput, sondern für jede Kombination von Trainingsinputs

- hidden layer a1, a2: Gewichtete Summe wird zum Input für <b>nicht-lineare Aktivierungsfunktion</b>, die Werte in einen bestimmten Wertebereich transformiert

- output layer: Gewichtung der einzelnen hidden layer Knoten wird wieder durch Aktivierungsfunktion transformiert

## Typische Aktivierungsfunktionen

<b>Heaviside Step function</b>: $f(x) = \begin{cases} 0 & x < 0 \\ 1 & x \leq 0 \end{cases}$

![step_function.png](attachment:step_function.png)

## Typische Aktivierungsfunktionen

<b>Sigmoid function</b>: $f(x) = \frac{1}{1+e^{-x}}$

![sigmoid.png](attachment:sigmoid.png)

## Typische Aktivierungsfunktionen

<b>tanh function</b>: $f(x) = \frac{2}{1+e^{-2x}}$

![tanh.png](attachment:tanh.png)

## Typische Aktivierungsfunktionen

<b>Rectified Linear Unit (ReLU) function</b>: $f(x) = max(0,x)$

![relu.jpg](attachment:relu.jpg)

# Forward and Backward Propagation

![forward_backward.png](attachment:forward_backward.png)

# Forward and Backward Propagation

![animation.gif](attachment:animation.gif)

# Neural Networks

![nn.png](attachment:nn.png)

# Neural Networks - Matrix perspective

![nn_matrices.png](attachment:nn_matrices.png)

# Übung

![xor.png](attachment:xor.png)

In [8]:
# Baue ein MLP für das XOR-Problem von oben
from sklearn.neural_network import MLPClassifier

# Wie sieht die Matrix X aus?

# Wie sieht y aus?

# Stelle den Klassifikator zusammen, wähle zwei Layer mit 5 bzw. 2 Neuronen
# setze random_state=1 für die Reproduzierbarkeit


In [14]:
# Wende das Modell auf die Daten an

# Was ist die Vorhersage für die Datenpunkt 
# (0.6,0.7) und (0.4,0.7)

array([1, 0])

![xor_graph.png](attachment:xor_graph.png)

# References

[Perzeptron](https://www.dbs.ifi.lmu.de/cms/studium_lehre/lehre_master/ml18/index.html)

[Perzeptron in Scikit Learn](https://chrisalbon.com/machine_learning/basics/perceptron_in_scikit-learn/)

[Activation Functions](https://medium.com/the-theory-of-everything/understanding-activation-functions-in-neural-networks-9491262884e0)

[Forward and Backward Propagation](https://medium.com/datathings/neural-networks-and-backpropagation-explained-in-a-simple-way-f540a3611f5e)

[Neural Networks](https://ml-cheatsheet.readthedocs.io/en/latest/forwardpropagation.html)