# Gradient descent

### Wat is gradient descent

Gradient Descent is een optimalisatie-algoritme dat wordt gebruikt in machine learning en deep learning om de waarden van parameters (coefficiënten) van een functie (f) te minimaliseren die de kostenfunctie (fout) minimaliseert.

Het werkt door iteratief de helling van de kostenfunctie te berekenen met betrekking tot de parameters en de parameters dienovereenkomstig aan te passen om de kosten te minimaliseren.

Hier is een eenvoudige uitleg van de stappen:

1. Initialiseer willekeurige waarden voor de parameters.
2. Bereken de afgeleiden van de functie
3. Bepaal de learning rate
4. Update de parameterwaarden door de huidige waarden te verminderen met de berekende gradient vermenigvuldigd met een leerfactor (ook wel learning rate genoemd).
5. Herhaal de stappen 2 tot 4 tot de kosten niet meer significant verminderen of na een vastgesteld aantal iteraties.
Het doel is om de set parameters te vinden die de kosten minimaliseren en dus de beste voorspellingen geven.


### Waarom gradient descent

Gradient Descent is een fundamenteel onderdeel van veel machine learning algoritmen om verschillende redenen:

1. **Efficiëntie**: Gradient Descent kan efficiënter zijn dan andere optimalisatie methoden, vooral bij het werken met grote datasets. Het is een iteratief algoritme, wat betekent dat het kan worden gestopt wanneer de verbetering onder een bepaalde drempel valt, waardoor onnodige berekeningen worden voorkomen.

2. **Schaalbaarheid**: Het werkt goed met datasets van elke grootte. Dit is vooral belangrijk in het tijdperk van Big Data, waar datasets vaak enorm groot zijn.

3. **Optimalisatie**: Het helpt bij het vinden van de optimale waarden van de parameters van een model, wat leidt tot de laagst mogelijke kosten (fout). Dit is cruciaal voor het trainen van effectieve machine learning modellen.

4. **Generalisatie**: Het kan worden toegepast op een breed scala aan machine learning modellen, waaronder lineaire regressie, logistieke regressie, neurale netwerken, enz.

5. **Aanpasbaarheid**: Het kan worden aangepast en verbeterd door verschillende varianten zoals Stochastic Gradient Descent (SGD), Mini-batch Gradient Descent, en adaptieve methoden zoals Adam, die verschillende leerfrequenties voor verschillende parameters gebruiken.

### Gradient descent in python

Gradient descent is een optimalisatie-algoritme dat wordt gebruikt om de minimale kostenfunctie te vinden. We passen het toe op de functie J(θ)= 𝜃^2. Hier zijn de stappen:

1. Initialiseer willekeurige waarden voor de parameters. We stellen een willekeurige waarde in voor θ.

    ```python
    theta = np.random.randn()
    ```

2. Bereken de afgeleiden van de functie. De afgeleide van onze functie J(θ)= 𝜃^2 is 2θ.

    ```python
    gradient = 2 * theta
    ```

3. Bepaal de learning rate. Dit is een hyperparameter die bepaalt hoe snel we naar de minimale kostenfunctie bewegen. Een te hoge learning rate kan leiden tot het overslaan van de minimale kostenfunctie, terwijl een te lage learning rate kan leiden tot een langzaam convergentieproces.

    ```python
    learning_rate = 0.01
    ```

4. Update de parameterwaarden door de huidige waarden te verminderen met de berekende gradient vermenigvuldigd met een leerfactor (ook wel learning rate genoemd). Dit wordt gedaan met de formule:

    θ = θ - α * ∇J(θ)

    waarbij α de learning rate is en ∇J(θ) de gradient is.

    ```python
    theta = theta - learning_rate * gradient
    ```

5. Herhaal de stappen 2 tot 4 tot de kosten niet meer significant verminderen of na een vastgesteld aantal iteraties. In dit geval herhalen we het proces voor 1000 iteraties.

    ```python
    for i in range(1000):
        gradient = 2 * theta
        theta = theta - learning_rate * gradient
    ```

6. Aan het einde van de loop hebben we de waarde van θ die de kosten minimaliseert.

    ```python
    print("De waarde van theta die de kosten minimaliseert is: ", theta)
    ```

In [2]:
import numpy as np

# 1. Initialiseer willekeurige waarden voor de parameters.
theta = np.random.randn()

# 3. Bepaal de learning rate
learning_rate = 0.01

# 5. Herhaal de stappen 2 tot 4 tot de kosten niet meer significant verminderen of na een vastgesteld aantal iteraties.
for i in range(1000):
    # 2. Bereken de afgeleiden van de functie
    gradient = 2 * theta

    # 4. Update de parameterwaarden door de huidige waarden te verminderen met de berekende gradient vermenigvuldigd met een leerfactor (ook wel learning rate genoemd).
    theta = theta - learning_rate * gradient

print("De waarde van theta die de kosten minimaliseert is: ", theta)

De waarde van theta die de kosten minimaliseert is:  1.51112775399588e-09


### Gradient descent op MSE

De Mean Squared Error (MSE) kostenfunctie is een veelgebruikte kostenfunctie voor regressieproblemen. Het wordt gedefinieerd als het gemiddelde van de kwadraten van de verschillen tussen de werkelijke en de voorspelde waarden.

De MSE kostenfunctie is gedefinieerd als:

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

waarbij:

- $n$ is het aantal observaties,
- $y_i$ is de werkelijke waarde van de i-de observatie,
- $\hat{y}_i$ is de voorspelde waarde van de i-de observatie.

Dit is de afgeleiden van de MSE kosten functie waarmee ik verder ga.

$$ \frac{\partial f}{\partial b} = \frac{1}{n} \sum_{i=1}^{n} -2(y_i - (mx_i + b)) $$

1. Initialiseer willekeurige waarden voor de parameters $m$ en $b$.

2. Bereken de partiële afgeleiden van de MSE-functie met betrekking tot $m$ en $b$. Deze afgeleiden geven de richting aan waarin de kosten het snelst veranderen.

3. Bepaal de learning rate (leerfactor), die aangeeft hoe groot de stap moet zijn die we nemen in de richting van de negatieve gradiënt om de kosten te verlagen. De learning rate is meestal een kleine waarde, zoals α=0.01 

4. Herhaal de stappen 2 en 3 tot de kosten niet meer significant verminderen of na een vastgesteld aantal iteraties. Dit betekent dat we doorgaan met het aanpassen van de parameters totdat we een minimaal punt bereiken waar de kosten niet langer significant dalen.

    Door deze stappen herhaaldelijk uit te voeren, zullen de parameterwaarden convergeren naar een set waarden die de kosten minimaliseren en dus de beste voorspellingen mogelijk maken. Dit is het doel van gradient descent in het optimaliseren van de parameters van een model.


### Backpropagation

![Design](NN_Design.png)