# Differentieren

### Wat is differentieren?
Differentiëren is een fundamenteel concept in calculus dat verwijst naar het proces van het vinden van de afgeleide van een functie. De afgeleide van een functie geeft de snelheid van verandering van de functie weer op een bepaald punt. In andere woorden, het geeft de helling van de tangentlijn aan de functie op dat punt.

### Waarom zijn afgeleide van functies belangrijk voor AI?
Afgeleiden van functies zijn belangrijk voor AI om verschillende redenen. Een van de belangrijkste redenen is dat ze worden gebruikt in optimalisatiealgoritmen zoals gradient descent, die veel worden gebruikt in machine learning. Deze algoritmen gebruiken de afgeleide van een functie om de richting van de steepest descent te vinden, wat helpt bij het minimaliseren van een kostenfunctie. Dit is essentieel voor het trainen van modellen zoals neurale netwerken. Bovendien worden afgeleiden ook gebruikt in backpropagation, een algoritme dat wordt gebruikt om de gewichten in een neuraal netwerk bij te werken.

### Wat zijn activatie functies?
Activatiefuncties zijn een essentieel onderdeel van neurale netwerken. Ze worden gebruikt om de output van een neuron (of node) in het netwerk te bepalen. De activatiefunctie neemt de gewogen som van de inputs van het neuron en transformeert deze in een output signaal. Deze output wordt dan gebruikt als input voor de volgende laag in het netwerk.

Er zijn verschillende soorten activatiefuncties, waaronder lineaire, niet-lineaire (zoals sigmoid, tanh, ReLU), en meer complexe varianten zoals softmax. De keuze van de activatiefunctie kan een grote invloed hebben op de prestaties van het neurale netwerk.

- [ReLU](deeplearning/NLP/spam_filter_step_by_step.ipynb) (Rectified Linear Unit): Deze activatiefunctie is een van de meest gebruikte in neurale netwerken. Het is een niet-lineaire functie die alle negatieve waarden in de input naar nul zet, terwijl positieve waarden ongewijzigd blijven. Dit betekent dat de functie de vorm f(x) = max(0, x) heeft. ReLU is populair omdat het helpt om het probleem van de verdwijnende gradiënt te verminderen, wat een probleem kan zijn bij diepe neurale netwerken.

- [Softmax](deeplearning\NLP\gesproken_woorden.ipynb): De softmax-functie wordt vaak gebruikt in de outputlaag van een classificatiemodel. Het transformeert de outputs zodat ze kunnen worden geïnterpreteerd als waarschijnlijkheden voor elke klasse in een meerklassenprobleem. De som van alle outputwaarden van de softmax-functie is altijd 1. De formule voor de softmax-functie is f(x_i) = e^(x_i) / sum(e^(x_j) for j in range(len(x))).

- [Sigmoid](deeplearning\NLP\spam_filter_step_by_step.ipynb): De sigmoid-functie is een andere populaire activatiefunctie die wordt gebruikt in neurale netwerken. Het transformeert elke input naar een waarde tussen 0 en 1, wat handig kan zijn voor outputneuronen in een binair classificatiemodel. De functie heeft de vorm van een "S" en de formule is f(x) = 1 / (1 + e^-x). Net als bij de ReLU-functie, kan de sigmoid-functie helpen om de output van neuronen te normaliseren en de impact van extreme waarden te beperken.


### Backpropegation
De afgeleiden van de activatiefunctie spelen een belangrijke rol,
aangezien geldt dat hoe groter de helling is, hoe efficiënter het
netwerk leert als geheel
Backpropegation wordt gebruikt om te bepalen welke waardes
groter en welke waardes kleiner moeten worden na invoer van één of
meerdere trainingsafbeeldingen.
Differentiëren speelt een belangrijke rol bij backpropagation.
- Welke waardes moeten groter en kleiner moeten worden na invoer
van één of meerdere trainingsafbeeldingen.
- Bepaald aan de hand van de grootte van hellingen.
- Om de grootte van een helling te bepalen gebruik je differentiëren

### Differentieren met standard functies - met hun afgeleiden

| Functie | Afgeleide |
|---------|-----------|
| $f(x) = c$ (c is een constante) | $f'(x) = 0$ |
| $f(x) = ax + b$ | $f'(x) = a$ |
| $f(x) = x^n$ | $f'(x) = nx^{n−1}$ |
| $f(x) = \sqrt{x} = x^{1/2}$ | $f'(x) = \frac{1}{2} x^{-1/2} = \frac{1}{2\sqrt{x}}$ |
| $f(x) = \frac{1}{x} = x^{-1}$ | $f'(x) = -x^{-2} = -\frac{1}{x^2}$ |

### Differentieren met Goniometrische functies

| Functie | Afgeleide |
|---------|-----------|
| $f(x) = \sin(x)$ | $f'(x) = \cos(x)$ |
| $f(x) = \cos(x)$ | $f'(x) = -\sin(x)$ |
| $f(x) = \tan(x)$ | $f'(x) = \frac{1}{\cos^2(x)}$ |
| $f(x) = \sin^{-1}(x)$ | $f'(x) = \frac{1}{\sqrt{1-x^2}}$ |
| $f(x) = \cos^{-1}(x)$ | $f'(x) = -\frac{1}{\sqrt{1-x^2}}$ |
| $f(x) = \tan^{-1}(x)$ | $f'(x) = \frac{1}{1+x^2}$ |

### Differentieren met Exponentiële en logaritmische functies

| Functie | Afgeleide |
|---------|-----------|
| $f(x) = e^x$ | $f'(x) = e^x$ |
| $f(x) = a^x$ | $f'(x) = a^x \ln(a)$ |
| $f(x) = \ln(x)$ | $f'(x) = \frac{1}{x}$ |
| $f(x) = a\log(x)$ | $f'(x) = \frac{1}{x \ln(a)}$ |

### Somregel
$
y = f(x) + g(x) \rightarrow y' = f'(x) + g'(x)
$

Voorbeeld:
$
y = 2x^3 - 5x^4 + 2x^{\frac{1}{2}} + 3x + 15 \rightarrow y' = 6x^2 - 20x^3 + x^{-\frac{1}{2}} + 3
$


### Product regel
$
y = f(x) * g(x) \rightarrow y' = f'(x) * g(x) + f(x) * g'(x)
$

Gegeven de functie $y = f(x) * g(x)$, waarbij $f(x) = (-2x + x^2)$ en $g(x) = (2 - x)$.

Stap 1) Bereken de afgeleiden van $f(x)$ en $g(x)$:

$f'(x) = -2 + 2x$ en $g'(x) = -1$

Stap 2) Vervang de waarden in de productregel:

$y'(x) = f'(x)g(x) + f(x)g'(x) = (-2 + 2x)(2 - x) + ((-2x + x²)(-1))$

Stap 3) Vereenvoudig de uitdrukking:

$y'(x) = (-4 + 4x + 4x – 2x²) + (2x - x²) = -3x² + 8x - 4$


### Quotiëntregel
Als $y = \frac{f(x)}{g(x)}$, dan is de afgeleide gegeven door:

$
y' = \frac{f'(x)g(x) - f(x)g'(x)}{g(x)^2}
$

Voorbeeld:
Stel $y = \frac{x^2 - 2x}{x + 1}$, dan is $f(x) = x^2 - 2x$ en $g(x) = x + 1$.

Stap 1) Bereken de afgeleiden van $f(x)$ en $g(x)$:

$f'(x) = 2x - 2$ en $g'(x) = 1$

Stap 2) Vervang de waarden in de quotiëntregel:

$y'(x) = \frac{(2x - 2)(x + 1) - (x^2 - 2x)(1)}{(x + 1)^2}$


### Kettingregel
Als $y = f(g(x))$, dan is de afgeleide gegeven door:

$
y' = f'(g(x)) * g'(x)
$

Voorbeeld:
Stel $y = (5x^3 - 2x + 1)^4$, dan is $f(u) = u^4$ en $g(x) = 5x^3 - 2x + 1$.

Stap 1) Bereken de afgeleiden van $f(u)$ en $g(x)$:

$f'(u) = 4u^3$ en $g'(x) = 15x^2 - 2$

Stap 2) Vervang de waarden in de kettingregel:

$y'(x) = f'(g(x)) * g'(x) = 4(5x^3 - 2x + 1)^3 * (15x^2 - 2)$

### Oefenopdrachten standaard functies

1. Differentieer de functie $y = 7$ (een constante functie).
$ y' = 0 $

2. Differentieer de functie $y = 5x + 3$ (een lineaire functie).
$ y' = 5 $

3. Differentieer de functie $y = x^3$ (een macht functie).
$ y' = 3x^2 $

4. Differentieer de functie $y = \sqrt{x}$ (een wortelfunctie).
$ y' = \frac{1}{2\sqrt{x}} $

5. Differentieer de functie $y = \frac{1}{x}$ (een omgekeerde functie).
$ y' = -\frac{1}{x^2} $

### Oefenopdrachten reken regels

1. **Productregel**: Differentieer de functie $y = (3x^2 - 2)(x^3 + 1)$.   
$ f' = 6x $ en $ g' = 3x^2 $   
$ y' = 6x(x^3 + 1) + (3x^2)(3x^2 - 2) $   
$ y' = 6x^4 + 6x + 9x^4 -6x^2 $   
$ y'= 15x^4 -6x^2 + 6x $   

2. **Somregel**: Differentieer de functie $y = 4x^3 + 2x^2 - x + 7$.   
$ y' = 12x^2 + 4x - 1 $   

3. **Quotiëntregel**: Differentieer de functie $y = \frac{x^2 - 3x + 2}{x^2 + x - 2}$.   
$ y' = \frac{f'(x)g(x) - f(x)g'(x)}{g(x)^2} $   
$ f' = 2x - x $ en $ g' = 2x + 1 $   
$ y' = \frac{(2x - x)(x^2 + x - 2) - (x^2 - 3x + 2)(2x + 1)}{(x^2 + x - 2)^2} $    

4. **Kettingregel**: Differentieer de functie $y = (2x^3 - 3x^2 + 1)^5$.   
$ y' = f'(g(x)) * g'(x) $    
$f'(u) = 5u^4 $ en $ g'(x) = 6x^2 - 6x $   
$ y' = 5(2x^3 - 3x^2 + 1)^4 * (6x^2 - 6x) $   


Hier is een voorbeeld van het differentiëren van een veelgebruikte activatiefunctie in neurale netwerken: de Sigmoid  functie.

1. **Sigmoid functie**: De sigmoid functie is gedefinieerd als $f(x) = \frac{1}{1 + e^{-x}}$. De afgeleide kan worden berekend als volgt:

   Stap 1: Differentieer de functie met betrekking tot $x$.
   
   $ f'(x) = \frac{d}{dx} \left( \frac{1}{1 + e^{-x}} \right) $

   Stap 2: Gebruik de kettingregel en de quotiëntregel.

   - We hebben een quotiënt van twee functies, dus we moeten de quotiëntregel toepassen. De quotiëntregel is als volgt: als je een functie hebt die eruitziet als $\frac{u(x)}{v(x)}$, dan is de afgeleide van die functie $\frac{u'(x)v(x) - u(x)v'(x)}{v(x)^2}$.

   - In dit geval is onze $u(x) = 1$ en $v(x) = 1 + e^{-x}$. De afgeleide van een constante (zoals $u(x) = 1$) is 0, dus $u'(x) = 0$. De afgeleide van $v(x)$, $v'(x)$, kan worden berekend met de kettingregel, omdat we een functie van $x$ in de exponent hebben. De afgeleide van $e^{-x}$ met betrekking tot $x$ is $-e^{-x}$, dus $v'(x) = -e^{-x}$.

   - Nu we $u'(x)$, $v(x)$ en $v'(x)$ hebben, kunnen we deze waarden in de formule van de quotiëntregel invullen:
   
   $ f'(x) = \frac{u'(x)v(x) - u(x)v'(x)}{v(x)^2} = \frac{0*(1 + e^{-x}) - 1*(-e^{-x})}{(1 + e^{-x})^2}  = \frac{e^{-x}}{(1 + e^{-x})^2} $
   
   Stap 3: Herschrijf de uitdrukking in termen van de oorspronkelijke functie $f(x)$.
   
   $$ f'(x) = f(x)(1 - f(x)) $$
   


### Partieel differentieren

We gebruiken partiële afgeleiden om te vinden hoe elk individueel parameter van invloed is op de MSE, daar komt het woord "partieel" vandaan. We nemen deze afgeleiden met betrekking tot $m$ en $b$ afzonderlijk. Kijk eens naar de formule hieronder. Deze is bijna hetzelfde als MSE, maar dit keer hebben we $f(m,b)f(m,b)$ eraan toegevoegd. Dit verandert in feite niets, behalve dat we nu getallen voor $m$ en $b$ kunnen invoeren en het resultaat kunnen berekenen.

$$ f(m, b) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (mx_i + b))^2 $$

Met betrekking tot $m$ betekent dat we de parameter $m$ afleiden en in feite negeren wat er met $b$ gebeurt, of we kunnen zeggen dat het 0 is en vice versa. Om partiële afgeleiden te nemen, gebruiken we de kettingregel. We gebruiken deze wanneer we de afgeleide van een functie moeten nemen die een andere functie bevat.

$$ [f(g(x))]' = f'(g(x)) * g(x)' - chain rule $$

De kettingregel zegt dat we de afgeleide van een buitenste functie moeten nemen, de binnenste functie ongewijzigd moeten laten en vervolgens alles moeten vermenigvuldigen met de afgeleide van de binnenste functie. Het enige wat we nu moeten doen is een partiële afgeleide nemen met betrekking tot $m$ en $b$ van de onderstaande functie:

$$ (f - (mx +b))^2 $$

Laten we nu elke stap volgens de kettingregel nader bekijken:

1. Neem de afgeleide van een buitenste functie: $()2$ wordt $2()$
2. Laat de binnenste functie ongewijzigd: $y−(mx+b)$
3. Neem een partiële afgeleide met betrekking tot $m$: $0−(x+0)$ of $−x$. Laten we uitleggen hoe we tot dit resultaat komen: we behandelen alles wat geen mm is als een constante. Constanten zijn altijd gelijk aan 0. De afgeleide van $mx$ is $x$, omdat de afgeleide van $m gelijk is aan 1, en elk getal of elke variabele die aan $m$ is gekoppeld, blijft op zijn plaats, wat betekent $1*x$, of gewoon $x$.

Als we alles samenvoegen, krijgen we het volgende: $2(y−(mx+b))×−x$. Dit kan herschreven worden als $−2x(y−(mx+b))$. We kunnen dit opnieuw herschrijven om de juiste notatie te volgen:

$$ \frac{\partial f}{\partial m} = \frac{1}{n} \sum_{i=1}^{n} -2x_i(y_i - (mx_i + b)) $$

Om af te leiden met betrekking tot $b$, volgen we dezelfde stappen van de kettingregel:

1. $()2$ wordt $2()$
2. $y−(mx+b)$ blijft hetzelfde
3. Hier wordt de afgeleide van $y−(mx+b)$ dit: $(0−(0+1))$ of $−1$. Dit is waarom: we behandelen yy en mxmx opnieuw als constanten, dus ze worden 0. $b$ wordt 1.

Als we alles samenvoegen: $2(y−(mx+b))×−1$, of $−2(y−(mx+b))$. Opnieuw zou de juiste notatie er als volgt uitzien:

$$ \frac{\partial f}{\partial b} = \frac{1}{n} \sum_{i=1}^{n} -2(y_i - (mx_i + b)) $$