# Lineaire Regressie

Deze notebook toont de essentie van **gradient descent** a.d.h.v. **enkelvoudige lineaire regressie**.

In [None]:
# Importeer de bibliotheken die we gebruiken.
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

In [None]:
def genereer_data(m=50, low=-5, high=5, sigma=0.5, seed=42):
    """ Genereer m datapunten die ongeveer een lineair verband hebben
        met een willekeurige richtingscoëfficiënt en bias.

        m    : aantal datapunten
        low  : laagste x-waarde
        high : hoogste x-waarde
        sigma: standaardafwijking van de Gaussiaanse ruis
        seed : bepaalt de gegenereerde random waarden

        returns: x, y, a, b met x en y vectoren met n elementen terwijl a en b 
                 de "geheime" richtingscoëfficiënt en bias zijn
    """
    rng = np.random.default_rng(seed=seed)
    a = rng.uniform(-2, 2, size=1)[0]
    b = rng.uniform(2, 5, size=1)[0]
    
    x = np.linspace(low,high,50)
    y = a*x + b + rng.normal(loc=0, scale=sigma, size=m)
    
    return x, y, a, b

def plot_data(x, y, a=None, b=None):   
    """ Plot data, al dan niet met een rechte erbij.
    """
    fig, ax = plt.subplots()
    ax.scatter(x, y, alpha=0.5)
    ax.set_xticks([])
    ax.set_yticks([])    
    if a is not None:
        xs = np.linspace(min(x), max(x), 100)
        ys = a * xs + b
        ax.plot(xs, ys, color='red')

We genereren een aantal datapunten $(x_i, y_i)$ die ongeveer een lineair verband hebben, 
t.t.z.
$$
y \approx a \times x + b
$$
voor een onbekende $a$ en $b$ en we plotten deze data. Om het moeilijker te maken om de $a$ en $b$ met het blote oog in te schatten verwijderen we de schaal op de $X$- en $Y$-as.

In [None]:
x, y, a_geheim, b_geheim = genereer_data(sigma=1,seed=42)
plot_data(x, y);

Plot de horizontale rechte 
$$
y = 0
$$
over de datapunten.

In [None]:
plot_data(x, y, a=0, b=0)

## Opdracht 1: Experimenteer met $a$ en $b$

Experimenteer met verschillende waarden voor $a$ en $b$ om een "goed passende" rechte te vinden.

Probeer minstens 3 verschillende combinaties van $a$ en $b$ en noteer wat volgens jou 
de beste en slechtste combinatie is.

In [None]:
plot_data(x, y)

Mijn drie combinaties zijn:

- 
-
-

## Opdracht 2: Bereken de kost voor deze verschillende $a$ en $b$ waarden

Met het blote oog kunnen we misschien wel ongeveer
inschatten hoe goed een rechte past bij de gegeven punten 
maar het is niet altijd zo gemakkelijk om verschillende 
rechten met elkaar te vergelijken.

Daarom definiëren we een wiskundige formule die in een getal uitdrukt hoe "goed" de rechte bij de gegeven datapunten past.
Hoe kleiner dit getal het beter de rechte bij de gegeven datapunten past.

We stellen
$$
\hat y_i = a \times x_i + b
$$
Dus bv. als $a = 2$ en $b=-1$, en $x_i = 3$, dan is 
$$
\hat y_i = 2 \times 3 - 1 = 5.
$$

Veronderstel nu dat het juiste antwoord $y_i$ gelijk is aan 7, dan zeggen we dat de **kost** voor
dit voorbeeld gelijk is aan 
$$
(\hat y_i - y_i)^2 = (5 - 7)^2 = (-2)^2 = 4. 
$$



In [None]:
def figuur_kost_illustratie():
    """ Creëer een figuur om de kost voor een enkel datapunt te illustreren.
    """
    fig, ax = plt.subplots()
    x = np.linspace(0,2,10)
    rng = np.random.default_rng(seed=42)
    y = 2*x + 1 + rng.normal(loc=0, scale=1.5, size=10)
    ax.scatter(x, y, alpha=0.5)      
    xs = np.linspace(min(x), max(x), 100)
    ys = 2 * xs + 1
    ax.plot(xs, ys, color='red')
    
    xi = x[5]
    yi = 2*xi+1
    ax.plot(xi, yi, color='black', marker="+")
    ax.vlines([xi], ymin=y[5], ymax=yi, color='black')
    ax.text(xi+0.05, (yi+y[5])/2, "(vkw) kost", size="x-large")
    ax.text(xi+0.05, y[5], "$y_i$", size="x-large" )
    ax.text(xi, yi+0.25, "$\haty_i$", size="x-large")
        
figuur_kost_illustratie();

De volledige kost is dan de som (of eigenlijk het gemiddelde) van de kosten voor alle punten.
$$
\text{kost}(a,b) = \frac{1}{m}\sum_{i=1}^{m} (\hat y_i - y_i)^2 = \frac{1}{m}\sum_{i=1}^{m} (a\times x_i + b - y_i)^2
$$

De kost hangt dus af van $a$ en $b$: als we $a$ en $b$ variëren, dan krijgen we andere waarden voor de kost. 
De officiële naam voor deze kost is de **Mean Squared Error**, dikwijls afgekort tot MSE.

In [None]:
def kost(x, y, a, b):
    """ Bereken de kost voor de gegeven datapunten x en y, en de coëfficiënten 
        a en b. De assumptie is straks dat x en y vast zijn en dat a en b 
        variëren.
    """
    yhat = a*x + b             # Bereken de voorspelling
    residuals = (yhat-y)**2    # Bereken de kwadraten van de verschillen
    return np.mean(residuals)  # Bereken het gemiddelde

Bij wijze van voorbeeld berekenen we de kost voor $a=0$ en $b=0$. 

Merk op: op zijn eentje betekent dit getal niet zo veel, je moet het vooral gaan vergelijken met de kost voor andere combinaties van $a$ en $b$.

In [None]:
kost(x, y, a=0,b=0)

Bereken de kost voor de drie combinaties van $a$ en $b$ die je hierboven hebt opgeschreven. 
Komt de kost overeen met je intuïtie van wat de beste en slechtste combinatie was?

De drie berekende kosten waren:

- 
- 
- 

# Opdracht 3: De beste combinatie van $a$ en $b$ zoeken m.b.v. de gradiënt

Het doel is nu om de beste combinatie van $a$ en $b$ te vinden. Er zijn twee verschillende manieren om dit te doen:

1. We gebruiken wiskundige analyse en bepalen de positie van het minimum m.b.v. *afgeleide functies* die we analytisch bepalen en gelijk stellen aan nul. In het geval van lineaire regressie is het niet zo moeilijk om op deze manier een gesloten formule te vinden voor de optimale combinatie van $a$ en $b$, maar eens men meer complexe problemen probeert aan te pakken met machinaal leren dan is het dikwijls onmogelijk om deze aanpak te gebruiken.  
2. We werken *iteratief*: d.w.z. dat we starten met random waarden van $a$ en $b$. Vervolgens bepalen we wat **lokaal** de richting is waarin de kostfunctie het sterkst daalt, en dan nemen we een kleine stap in die richting. Dan hebben we nieuwe waarden voor $a$ en $b$ (die hopelijk al iets beter zijn), en dan herhalen we het proces: we zoeken de richting waarin, lokaal gezien, de kost het sterkst daalt en we nemen 
opnieuw een klein stapje in die richting. Dit herhalen we een groot aantal keer, tot we zien dat de kost ongeveer gelijk blijft.

We maken het probleem nog iets eenvoudiger en gaan er nu van uit dat $b = 0$, 
d.w.z. dat de rechte die we zoeken steeds door de oorsprong gaat.

Daarom maken we een **nieuwe** vector `y_zonder_b` waarvan we weten dat 
een rechte door de oorsprong goed zal passen. Dat doen we door van 
de oorspronkelijke vector `y` de geheime waarde `b` af te trekken.

Vervolgens plotten we de kost voor verschillende waarden van `a`.

In [None]:
y_zonder_b = y - b_geheim

def plot_kost_zonder_b(x, y):
  fig, ax = plt.subplots()
  a_s = np.linspace(-6, 6, 200)
  kosten = [kost(x, y, a, b=0) for a in a_s]
  ax.plot(a_s, kosten)
  ax.set_xlabel("a")
  ax.set_ylabel("kost")


plot_kost_zonder_b(x, y_zonder_b)

Veronderstel dat we nu starten met $a=-4$. Dan zien we op de figuur dat we $a$ **groter** moeten maken om de kost te laten dalen, want de grafiek is dalend 
voor $a=-4$.  Als we daarentegen zouden starten in $a=4$ dan moeten we $a$
kleiner maken om de kost de laten dalen want in $a=4$ is de kostfunctie stijgend.

Hoe kunnen we nu weten of de kostfunctie stijgt of daalt in een bepaald punt zonder naar de figuur te kijken?  Dit kan a.d.h.v. de **afgeleide** in dat punt. We zullen echter de afgeleide functie niet analytisch berekenen maar we zullen de waarde ervan eenvoudigweg benaderen.

$$
\text{afgeleide kost in}(a=a_0) \approx \frac{\text{kost}(a_0 + h) - \text{kost}(a_0)} {h} \qquad \text{voor een kleine waarde van } h 
$$

Laat ons deze berekening eens maken voor de kost in $a=4$.

In [None]:
def afgeleide_kost(x, y, a, h):
  kost_a_plus_h = kost(x, y, a+h, b=0)
  kost_a = kost(x,y,a,b=0)
  return (kost_a_plus_h - kost_a) / h

for h in [1/10, 1/100, 1/1000, 1/10_000, 1/100_000, 1/1_000_000,  1/10_000_000]:
  print(f"Voor h={h:.7f} is de benadering voor de afgeleide {afgeleide_kost(x, y_zonder_b, a=4, h=h)}")

Opdracht: bepaal de waarde van de afgeleide van de kost (tot op drie cijfers na de komma) in $a=-4$ en voor $a=1$.

- Voor $a=-4$ is de waarde van de afgeleide kost:
- Voor $a=1$ is de waarde van de afgeleide kost:

We keren terug naar het originele probleem waarbij we zowel $a$ als $b$ willen bepalen. In dit geval is de kost een functie van 2 variabelen, wat betekent
dat de grafiek van de kost nu een drie-dimensionale figuur is, waarbij 
de waarden van $a$ en $b$ variëren in een vlak en waarbij de waarde van 
kostfunctie er bovenuit steekt in de derde dimensie. Dit is uiteraard moeilijker om te plotten maar Python beschikt over plotting-bibliotheken die dit mogelijk maken en waarbij je ook met de grafiek kan interageren.

De volgende code plot de waarde van kostfunctie als functie van $a$ en $b$.

In [None]:
def plot_kost(x, y):
    """ Plot de waarde van de kostfunctie als functie van a en b
    """
    start, end, step = -5, 5, 0.1
    ms, bs = np.arange(start, end, step), np.arange(2*start, 2*end, step*2)
    
    params_list = []
    for b in bs:
        for a in ms:
            params_list.append((b,a))
                
    kosten = []
    for (b,a) in params_list:        
        kosten.append(kost(x, y, a, b))
        
    
    axis_length = len(ms)
    kosten_matrix = np.array(kosten).reshape(axis_length, axis_length)
    
    import plotly.graph_objects as go

    # plot oppervlak
    fig = go.Figure(data=go.Surface(z=kosten_matrix,
                                x=ms,
                                y=bs))
    
    fig.update_traces(contours_z=dict(
                    show=True, usecolormap=True,
                    highlightcolor="limegreen", project_z=True))
    

    fig.update_layout(title='Kost Oppervlak',
                  scene=dict(
                    xaxis_title='a',
                    yaxis_title='b',
                    zaxis_title='Kost'),
                  width=700, height=700)

    fig.show()
    
plot_kost(x, y)        

We kunnen ook enkel de contouren plotten. Dit is een beetje zoals de hoogtelijnen op een landkaarten. De lijnen zijn een soort van hoogtelijnen die punten met gelijke hoogte met elkaar verbinden.

In [None]:
def plot_contour_kost(x, y):
    """ Plot een contour plot van de kost
    """
    start, end, step = -5, 5, 0.1
    ms, bs = np.arange(start, end, step), np.arange(2*start, 2*end, step*2)
    
    params_list = []
    for b in bs:
        for a in ms:
            params_list.append((b,a))
                
    kosten = []
    for (b,a) in params_list:        
        kosten.append(kost(x, y, a, b))
        
    
    axis_length = len(ms)
    kosten_matrix = np.array(kosten).reshape(axis_length, axis_length)
    
    import plotly.graph_objects as go

    fig = go.Figure(data = go.Contour(z=kosten_matrix, x=bs, y=ms))

    fig.show()

plot_contour_kost(x, y)

Uit deze figuren zien we duidelijk dat als we $a$ en $b$ veranderen dat dan ook de kost verandert. 

We kunnen nu bekijken wat er gebeurt met de kost als we $a$ een heel klein
beetje veranderen (en $b$ vasthouden), en omgekeerd, wat er gebeurt met de 
kost als we $b$ een heel klein beetje veranderen (en $a$ vasthouden).
Deze twee getallen samen noemen we de **gradiënt** van de kost in een bepaald punt.  De gradiënt is m.a.w. een veralgemening van het begrip afgeleide 
in één dimensie naar een willekeurig aantal dimensies. In ons geval is 
het aantal dimensies gelijk aan twee omdat we twee parameters willen schatten, nl. $a$ en $b$.

In [None]:
def gradient_kost(x, y, a, b, h=10**-6):
  """ Bereken de gradiënt van de kost via een eenvoudige benaderingsformule.
      x : de x-waarden
      y : de correcte y-waarden
      a : de richtingscoëfficiënt
      b : de bias
      h : de waarde van h in de limietformule voor de afgeleide.
  """
  kost_origineel = kost(x, y, a, b)

  kost_a_plus_h  = kost(x, y, a + h, b)
  kost_b_plus_h   = kost(x, y, a, b + h)

  kost_richting_a = (kost_a_plus_h - kost_origineel) / h
  kost_richting_b = (kost_b_plus_h - kost_origineel) / h

  return kost_richting_a, kost_richting_b

In [None]:
a, b = 0, 0 # We starten in de oorsprong
da, db = gradient_kost(x, y, a, b)
print(f"a={a:3.3f}, b={b:3.3f}, da={da:3.3f}, db={db:3.3f}, kost={kost(x, y, a, b):3.3f}")
# da en db zijn negatief, dus als we a en b groter maken dan wordt de kost kleiner
# we nemen dus een kleine stap in de richting tegengesteld aan de gradient
alpha = 0.1
a, b = a - alpha  * da, b - alpha * db
da, db = gradient_kost(x, y, a, b)
print(f"a={a:3.3f}, b={b:3.3f}, da={da:3.3f}, db={db:3.3f}, kost={kost(x, y, a, b):3.3f}")
# de kost is kleiner geworden
# da is positief, dus moeten we a een beetje kleiner maken
# db is negatief, dus b mag nog een beetje groter
a, b = a - alpha  * da, b - alpha * db
da, db = gradient_kost(x, y, a, b)
print(f"a={a:3.3f}, b={b:3.3f}, da={da:3.3f}, db={db:3.3f}, kost={kost(x, y, a, b):3.3f}")

Doe nog twee stappen van dit algoritme. Wat is de waarde van $a$ en $b$ ondertussen? En de kost?

We kunnen dit proces in een eenvoudige lus schrijven.

```
herhaal lang genoeg
  da, db = bepaal gradiënt in huidig punt
  a = a - stap_grootte * da
  b = b - stap_grootte * da
```

Dit kan ook eenvoudig vertaald worden naar Python zoals we hieronder tonen.

In [None]:
def gradient_descent(x, y, alpha=0.1, aantal_stappen=50):
  a, b = 0, 0
  for _ in range(aantal_stappen):
    da, db = gradient_kost(x, y, a, b)
    a, b = a - alpha  * da, b - alpha * db
    print(f"a={a:3.3f}, b={b:3.3f}, da={da:3.3f}, db={db:3.3f}, kost={kost(x, y, a, b):3.3f}")

  return a, b

In [None]:
a_geschat, b_geschat = gradient_descent(x,y, aantal_stappen=50, alpha=0.1)

We plotten nu de data en de gevonden rechte.

In [None]:
plot_data(x,y, a_geschat,b_geschat)

Laat de methode `gradient_descent` opnieuw lopen maar gebruik

- `alpha = 0.0001` als stapgrootte. Wat merk je?
- `alpha = 0.2` als stapgrootte. Wat merk je?

**De keuze van de stapgrootte is dus van cruciaal belang bij gradient descent!**

Tot slot vergelijken we nog eens de gevonden (goede) waarden voor $a$ en $b$
met de geheime waarden die we bij de start van de notebook hebben gegenereerd.

In [None]:
print(f"De geschatte waarde van a: {a_geschat:1.5f}, de geheime waarde van a: {a_geheim:1.5f}")
print(f"De geschatte waarde van b: {b_geschat:1.5f}, de geheime waarde van b: {b_geheim:1.5f}")

## Opdracht 4: Genereer nieuwe data en pas gradient descent toe