In [None]:
!jupyter nbconvert Week7_T1.ipynb --to slides --post serve

In [2]:
import seaborn as sns
import numpy as np
import pandas as pd
from  sklearn import linear_model
import matplotlib.pyplot as plt

# Neural networks

* Wat zijn dat?
* Wat kunnen ze wat andere leer modellen niet kunnen?
* Hoe zien ze eruit? Hoe trainen we ze?

## Beide taken

* Zowel **regressie** (numerieke waarde voorspellen) als **classificatie** (klasse voorspellen)
* Heel simpel: net als bij lineare regressie: gebruik de logistic/sigmoid functie om van elke output een getal tussen 0 en 1 (een kans dus) te maken.
    * Voor multi-class classificatie: bereken de kans per klasse, en neem de argmax. (meestal `softmax` genoemd).

# Neural network

* Een (feedforward) neuraal netwerk is een **gewogen gericht acyclisch netwerk**: 
    * knopen, 
    * pijlen,
    * gewichten op de pijlen
* Drie soorten knopen
    * Inputs
    * Output
    * Hidden
    
  

# simplest neural network

![](../img/nn/onenodeperceptron.jpg)

# Hey but don't we know that already?

![](../img/nn/onenodeperceptron.jpg)

# Hey but don't we know that already? Sure logistic regression! 


$$y = \sigma(w_0 + w_1x_1 + w_2x_2 + w_3x_3)$$
* With $\sigma(x)$ the sigmoid/logistic (activation) function. 
![](../img/nn/onenodeperceptron.jpg)

# Don't be dissappointed

* A neural network is nothing more than a bunch of one node perceptrons stacked next to and after each other.

### two directions

1. More nodes inside one layer
2. More layers.

### Two architectures are "spurious"

* one hidden layer with several nodes,  all fully connected to inoput and output
* "kralenketting": several layers, all with one node.

### so the simplest real one is then.....

# Your first real neural network

![](../img/nn/2layarNN.png)

# Your first real neural network with the equations and the loss

* Note that we added bias as well to the second layer
* For the loss: recall that $y\in \{0,1\}$, we do **binary cllassification**.

![](../img/nn/2layarNN2.png)

# Nog even die logloss functie

$$ -y\log \hat y - (1-y)\log (1-\hat y )$$

* als $y=1$ dan loss = $-log \hat y$
* als $y=0$, dan loss = $-log (1- \hat y)$

In [3]:
# als y=1, wil je dat y-hat hoog zit.
ys= [1/x for  x in range(1,10)]

-1*np.log(ys)

array([-0.        ,  0.69314718,  1.09861229,  1.38629436,  1.60943791,
        1.79175947,  1.94591015,  2.07944154,  2.19722458])

In [4]:
# als y=0, wil je dat y-hat juist laag zit.

ys= np.array([1/x for  x in range(1,10)])

-1*np.log(1-ys)

  -1*np.log(1-ys)


array([       inf, 0.69314718, 0.40546511, 0.28768207, 0.22314355,
       0.18232156, 0.15415068, 0.13353139, 0.11778304])

# Now, lets train it! 

* Remember, what does training entail?

* Finding those weights and biases which **reduce the loss**
    * How many do we have? And where are they in the picture?

* How do we do that?

* With gradient descent
    * and of course the **partial derivatives** of each weight and bias with respect to the loss function

# Partial derivatives

* Can all be calculated using
    * chain rule
    * basic derivative calculus rules.
    

# [Ketting regel](https://www.google.com/search?q=ketting+regel)

>Hoe werkt de kettingregel? De kettingregel werkt als volgt: als h(x) = f(g(x)) dan is h'(x) = f'(g(x))*g'(x). Je neemt dus eerst de afgeleide van de buitenste functie en hierbij laat je de binnenste functie staan. Vervolgens vermenigvuldig je dit met de afgeleide van de binnenste functie.

$$  h(x) = f(g(x))  \Rightarrow  h'(x) = f'(g(x))\cdot g'(x)$$

#### Dus je kunt de afgeleide van $g(x)$ hergebruiken. bij het bepalenn van de afgeleide van $ h(x) = f(g(x)) $.

#  Vb $h(x) = f(g(x))= (3 - 6x^2)^5$

* $f(x)= x^5$
* $g(x)=3 - 6x^2$.
* Dus $f'(x)= 5x^4$ en $g'(x)=- 2\cdot 6x^1= -12x$


### dus

$$h'(x) =  f'(g(x))\cdot g'(x). = 5\cdot (3 - 6x^2)^4\cdot -12x = -60x\cdot (3 - 6x^2)^4$$

# Back propagation

* The more layers we have, we more complex the expressions of the partial derivatives 
    * the more to the beginning, the "longer the chain rule"
* but, if you calculate those partial derivatives from right to left (from easy to hard)
    * you can **reuse** earlier partial derivatives
        * because the chain rule is a product of partial derivatives
* Storing those already calculated partial derivatives and reusing them, "when you walk back (towrds the input layer)", is called
    * back propagation.
* Illustration and example from [Coursera course Calculus for ML and DS](https://www.coursera.org/learn/machine-learning-calculus/lecture/51n2T/gradient-descent-and-backpropagation)

# Back propagation, notation

![](../img/nn/bp.png)

# Back propagation, reuse

![](../img/nn/bp1.png)

# Back propagation, reuse

![](../img/nn/bp2.png)

# Voorbeeld MLP

* Uit het boek

In [5]:
import mglearn
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,
                                                    random_state=42)

ModuleNotFoundError: No module named 'mglearn'

#  MLP 10 layers van elk 10 knopen

```
MLPClassifier(solver='lbfgs', 
              activation='tanh', 
              max_iter=1000,
              random_state=0, 
              hidden_layer_sizes=[10, 10],
              alpha=.5)
```

* `alpha=.5` is de l2 regularisatie, net als bij regressie.

In [None]:
from sklearn.neural_network import MLPClassifier 

# using two hidden layers, with 10 units each, now with tanh nonlinearity
mlp = MLPClassifier(solver='lbfgs', activation='tanh', max_iter=1000,
                    random_state=0, hidden_layer_sizes=[10, 10], alpha=.5)
mlp.fit(X_train, y_train)
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3);
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train);
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")

# Wat is er nou anders dan bij lineare regressie?

* Dit is duidelijk een niet lineaire scheider.
* Dat komt door die **niet lineaire activatie functies**
    * sigmoid
    * tanh
    * relu
    
## tanh

* net alls sigmoid, maar range is (-1,1)

## relu

* Maakt alle waardes groter of gelijk aan 0
    * als waarde positief is blijft het hetze;fde
    * als het negatief is, wordt het 0.

# Tuning

>As you probably have realized by now, there are many ways to control the complexity of a neural network: the number of hidden layers, the number of units in each hidden layer, and the regularization (alpha). There are actually even more, which we won’t go into here. 

## Let op

* gewichten worden elke keer random ingesteld
* dus het getrainede netwerk kan elke keer (ietsje) anders zijn.
* hoe veel hangt af van de kwaliteit en hoeveelheid van je data, en de complexiteit van je model.

## Complexiteit van het model

* Wordt meestal gegeven in het aantal parameters (= gewichten + biastermen) dat geleerd moet worden.

### visueel

* aantal gewichten = aantal pijlen
* bias wordt vaak vergeten in de plaatjes,
    * zo ja, dan moet je er dus voor elke laag 1 parameter bij optellen.
    
### Wat is veel?

* ChatGPT heet 20 miljard parameters. GPT3 heeft er 175 miljard. 

# Scaling

> Neural networks also expect all input features to vary in a similar way, and ideally to have a mean of 0, and a variance of 1. 


Gaat heel makkelijk met sklearn's StandardScalar.

### Hoe kunnen we het zelf doen?

* trek voor elke waarde in elke kolom het gemiddelde van die kolom eraf.
    * krijg je mean van 0
* en deel door de std van die kolom
    * std van 1

# Tuning 

```
mlp = MLPClassifier(max_iter=1000, random_state=0)
    mlp.fit(X_train_scaled, y_train)
print("Accuracy on training set: {:.3f}".format( mlp.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.3f}".format(mlp.score(X_test_scaled, y_test)))
```

## output

```
Out[100]:
    Accuracy on training set: 0.995
    Accuracy on test set: 0.965
```


### How do you call this situation and what can we do about it?

* Overfitting, and we may overcome it by more regularaisation

# Optimizers

* **How** to learn a model?

#### Hordes waar je tegenaan loopt

* Vaak is de data te enorm om gradient descent/backpropagation zo toe te passen als "in theorie" (duurt veel te lang)
* Data is heterogeen (ook nog na herschalen)
* learning rate is lastig in te stellen en zou misschie ook niet alktijd hetzelfde moeten zij
    * eerst grote stappenn, later veel kleiner
    * niet voor elke feature gelijk
    
#### Wat te doen, wat te kiezen?

* Eigenlijk te vergevorderd voor deze cursus
* Volg goede voorbeelden
    * `adam` : Adaptive Moment Estimation (Diederik Kingma, eerste cum laude promovendus hier aan UvA Informatica sinds tientallen jaren)
    * `lbfgs` : limited memory BFGS (namen van 4 mensen)
    * `sgd` : stochastic gradient descent
        * neem steeds steekproeven waarop je de gradiennt berekend, dus niet over alle data
        * zijn ook weer heel veel mogelijkheden/varianten




# Wrap up AML course

### 3 types of learning

* Unsupervised
    * clustering
    * dimensionality reduction 
* Supervised
    * regression
    * classification
* Reinforcement learning (not covered)

# Wrap up AML course

###  How to learn?

1. Just remember all past examples: KNN
2. Parametric
    * Neem maar aan dat de data een bepaalde "vorm" heeft, en 
    * gebruik een leertechniek die daar goed bij aan sluit
        * linear models: lin regression, SVM
        * non linear models: Neural networks
3. Non parametric: 
    * maak geen enkele aanname
        * decision trees
4. Ensemble learning
    * soort wisdom of the crowd
    * random forest

# Wrap up AML course

### Focus on *evaluation*

* ingebakken in het hele idee van ML
* train-validatie-test
* Ook bij unsupervised learning!
* Heerlijke manier van werken:
    * je hoeft iemand niet met een verhaal te overtuigen
    * maar je hebt de standaard maten en de data.

# Wrap up AML course

### Techniek

* `sklearn` kan al heel erg veel, en heel erg handig en efficient.
* als je echt NN wilt gaan doen, andere libraries.

### Data,.......

* een groot deel van de "kunst" van ML zit em in 
    * data preprocessing, feature engineering
    * het **voorbereidende werk** (tot wel 80% van al het werk)
* daar hebben we hier niet veel aandacht aan besteed.
* meer in de Data Science cursus.

# The book: what did we do?

* *In fact, quite a lot!* 

1. Chap 1: introduction $\checkmark$
2. Chap 2: Supervised learning: all except 2.4 $\checkmark$
3. Chap 3: Unsupervised Learning and Preprocessing: $\checkmark$
    * preprocessing, most
    * dimensionality reduction: PCA (NMF you did inn CI),
    * clustering: most 
4. Chap 4: Representing Data and Engineering Features
    * only 4.5 PolynomialFeatures $\checkmark$
    * Much more in your DS course
5. Chap 5: Model Evaluation and Improvement $\checkmark$
6. Chap 6: Pipelines. NONE
    * Handy! Invest in it if you will do ML seriously.
    * Engineering.
7. Chap 7: working with Text: NONE.
    * But some done in CI
        * TF-IDF count vectors
        * cosine similarity

# Tips voor tentamen

* Ga door de opgaven. Bekijk ook oplossingen van anderen.
* Doe boek/internet/voorbeeldopgave dicht, en maak een opgave uit je hoofd/met een notebook.
* Idem voor de slides.
* Bestudeer de opgegeven stukken van het boek goed.
    * Je hebt het boek op het tentamen als PDF.
    * Je krijgt dus geen "weet-vraagjes", maar inzicht vragen.
    * Het is dus onhandig om weetjes uit je hoofd te gaan leren.
        * Maar wel handig als je ze snel weet te vinden in het boek.
* Wordt echt handig met je Jupyter notebook:
    * puntje TAB
    * vraagteken
    * autocompletion
* Snap de hints gegeven in de `assert` tests.
    * juiste datatype
    * valt in een bepaalde range (als gevraagd wordt om een kans, geef je geen percentage)
* Schrijf en herschrijf en herschrijf je spiekbrief. 
    * Eerst gewoon maar lekker groot
    
### Heel veel succes!!

# Bedankt! 

* Studenten, heel erg bedankt voor de leuke cursus!
* Misschien zie ik sommigen van jullie volgend jaar wel bij een scriptie.