<img src="../.images/logosnb.png" alt="Banner" style="width:1100px;"/>

<div style='color: #690027;' markdown="1">
    <h1>RELU</h1> 
</div>

<div class="alert alert-box alert-success">
Om een neuraal netwerk op te bouwen, heeft men een of meerdere <b>activatiefuncties</b> nodig. ReLU is een veelgebruikte activatiefunctie. Het is een niet-lineaire functie die het mogelijk maakt klassen die niet lineair scheidbaar zijn, toch te scheiden.
</div>

### De nodige modules importeren

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import numpy as np

Je gaat aan de slag met 15 gegeven punten in het vlak. Sommige punten zijn blauw, andere zijn groen. Van elk punt is de coördinaat en de kleur gegeven.<br>
De punten zijn vertegenwoordigers van twee klassen.<br>
Het is de bedoeling dat de groene en blauwe punten van elkaar gescheiden worden. 

<div style='color: #690027;' markdown="1">
    <h2>1. Inlezen van de data</h2> 
</div>

Lees met de module `pandas` de dataset in.

In [None]:
punten = pd.read_csv("../.data/IntroductieDeepLearning/data.dat", header=None)  # in te lezen tabel heeft geen hoofding

<div style='color: #690027;' markdown="1">
    <h2>2. Tonen van de ingelezen data</h2> 
</div>

Bekijk de data door de instructie `punten` uit te voeren. De dataset bestaat uit de x- en y-coördinaat van de punten en de kleur van elk punt. <br>
De x- en y-coördinaat zijn kenmerken, de kleur is een label. <br> Omdat er twee soorten labels zijn, zegt men dat de punten verdeeld zijn over **twee klassen**.

In [None]:
punten

Deze tabel is een tabel met 15 rijen en 3 kolommen: er zijn immers 15 punten, 2 kenmerken en 1 label. <br><br>
De kenmerken:
- eerste kolom: x-coördinaat; 
- tweede kolom: y-coördinaat.

Het label:
- derde kolom: kleur.

<div class="alert alert-box alert-info">
In machinaal leren worden twee kenmerken weergegeven met x1 en x2 en het label met y.
</div>

<div style='color: #690027;' markdown="1">
    <h2>3. Onderzoeken of de punten van elkaar gescheiden kunnen worden</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>3.1 Visualiseren van de data</h3> 
</div>

Om de data te visualiseren, heb je de x- en y-coördinaat, dus de kenmerken x1 en x2, van de punten nodig.

In [None]:
x1 = punten[0]            # x-coördinaat staat in kolom met index 0
x2 = punten[1]            # y-coördinaat staat in kolom met index 1
x1 = np.array(x1)         # formaat aanpassen
x2 = np.array(x2)
X = np.stack((x1, x2), axis = 1)    # juiste formaat, axis=1 zet x1 en x2 als kolommen

In [None]:
# eens bekijken
print(x1)
print(x2)
print(X)
print(X.shape)

<div style='color: #690027;' markdown="1">
    <h3>3.2 De data weergeven in puntenwolk</h3> 
</div>

In [None]:
plt.figure()     

plt.scatter(x1[:6], x2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], x2[6:], color="green", marker="<") 

plt.show()

Het is duidelijk dat deze punten **niet lineair scheidbaar** zijn: het is onmogelijk één rechte te vinden, die de groene punten scheidt van de blauwe.<br>
Met twee halfrechten of één kromme gaat het wel. 

Je kan bv. twee halfrechten construeren die beide door $(1,1)$ gaan; de linkse halfrechte gaat door $(-2,10)$ en de rechtse door $(2,8)$. Deze rechten hebben respectievelijk als vergelijking $y=-3x+4$ en $y=7x-6$.

<div style='color: #690027;' markdown="1">
    <h2>4. Classificatie</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>4.1 Decision boundary</h3> 
</div>

Zoals uit het volgende script blijkt, kan men wel een scheiding realiseren met twee halfrechten.

Om te weten voor welke x-waarden we de scheidingsrechten het best laten tekenen, bekijken we het bereik op de x-as.

In [None]:
# bereik x-as
print(x1.min(), x1.max())

In [None]:
# scheiding ('decision boundary')
# scheidingslijnen worden bepaald door punten op betreffende rechten
x_1 = np.linspace(-3, 1, 10)   # lijnstuk op domein [-3, 1]
x_2 = np.linspace(1, 3, 10)    # lijnstuk op domein [1, 3]
y_r_1 = 7 * x_2 - 6            # vergelijking stijgende rechte
y_r_2 = -3 * x_1 + 4           # vergelijking dalende rechte

plt.figure()    

# puntenwolk data 
plt.scatter(x1[:6], x2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], x2[6:], color="green", marker="<") 
# scheidingslijnen plotten
plt.plot(x_2, y_r_1, color="black")
plt.plot(x_1, y_r_2, color="black")

plt.show()

<div class="alert alert-box alert-info">
De zwarte grens noemt men de <em>decision boundary</em>.
</div>

<div style='color: #690027;' markdown="1">
    <h3>4.2 Visualiseren van de twee klassen</h3> 
</div>

Door de *decision boundary* ontstaan twee gebieden. Die gebieden kunnen met twee verschillende kleuren gevisualiseerd worden.

In [None]:
x_1 = np.linspace(-3.5, 1, 10)
x_2 = np.linspace(1, 3.5, 10)
y_r_1 = 7 * x_2 - 6
y_r_2 = -3 * x_1 + 4
# raster binnen het grafiekscherm met resolutie = 0.2
xx1 = np.arange(x1.min()-1, x1.max()+1, 0.2)
xx2 = np.arange(x2.min()-1, x2.max()+2, 0.2) 

plt.figure()  

# puntenwolk data 
plt.scatter(x1[:6], x2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], x2[6:], color="green", marker="<") 
# scheidingslijnen plotten
plt.plot(x_2, y_r_1, color="black")
plt.plot(x_1, y_r_2, color="black")
# gekleurde gebieden: elk punt (a,b) krijgt kleur toegewezen                 
for a in xx1:
    for b in xx2:
        if (7 * a - b - 6 <= 0) and (-3 * a - b + 4 <= 0):
            kleur = "lightblue"
        else:
            kleur = "lightgreen"
        plt.plot(a, b, marker='.', color=kleur)
        
plt.show()

De punten in het lichtblauwe gebied behoren tot de ene klasse en de punten in het lichtgroene gebied tot de andere klasse.

<div style='color: #690027;' markdown="1">
    <h2>5. Classificatie met ReLU</h2> 
</div>

<div style='color: #690027;' markdown="1">
    <h3>5.1 ReLU</h3> 
</div>

De ReLU-functie is een *niet-lineaire functie*. Deze functie heeft een *meervoudig voorschrift*.
$$ReLU(x) = max(0,x)$$
of dus
$$ReLU: \begin{cases} x \longmapsto 0 \;,  \; x < 0 \\ 
        x \longmapsto x \;,  \; x \geq 0 \end{cases}  $$    
        
ReLU staat voor *rectified linear unit*.

De grafiek van de ReLU-functie:

<img src="../.images/IntroductieDeepLearning/relu.png" alt="Banner" style="width:300px;"/>

ReLU zet dus alle negatieve waarden op nul.

<div style='color: #690027;' markdown="1">
    <h3>5.2 Niet lineair scheidbare data scheiden met behulp van ReLU</h3> 
</div>

Hieronder wordt de code aangepast naar code die gebruikmaakt van de ReLU-functie. Zo wordt het duidelijk dat met ReLU data die niet lineair scheidbaar zijn, toch kunnen worden opgedeeld in verschillende gebieden.<br> 
Het lichtblauwe gebied krijgt label '0' en het lichtgroene gebied krijgt label '1'.<br>
De Heavisidefunctie wordt gebruikt om te bepalen tot welke klasse een punt behoort.

<img src="../.images/IntroductieDeepLearning/schemanb.png" alt="Banner" style="width:300px;"/>

Uitleg: <br>
y = 7 x - 6 is de vergelijking van de stijgende rechte, m.a.w. 7 x - y - 6  = 0  en in het blauwe gebied is 7 x - y - 6 steeds <= 0;
y = -3 x + 4  is de vergelijking van de dalende rechte, m.a.w. -3 x - y + 4 = 0  en in het blauwe gebied is  -3 x - y + 4 steeds <= 0

Dit betekent voor de gegeven punten (invoer) als je die invult in deze vergelijkingen van de scheidingslijnen: <br>
z1 = 7 x1 - x2 - 6    en in het blauwe gebied is dit steeds <= 0;<br>
z2 = -3 x1 - x2 + 4   en in het blauwe gebied is dit steeds <= 0.<br>
Dus in het blauwe gebied zijn z1 en z2 beide <= 0, in groene gebied niet.

Laat dan de activatiefunctie ReLU inwerken:<br>
h1 = relu(z1) en in het blauwe gebied is dit zeker 0; <br>
h2 = relu(z2) en in het blauwe gebied is dit zeker 0. <br> 
h1 en h2 zijn de neuronen van de hidden layer.
Dus in het blauwe gebied zijn h1 en h2 beide 0, maar in het groene gebied niet.

Dat betekent dat als men die neuronen h1 en h2 optelt dat de som voor het blauwe gebied steeds 0 is en voor het groene gebied juist niet.

Het model heeft drie *lagen*: een invoer- en uitvoerlaag en één verborgen laag (*input layer, output layer, hidden layer*).

In [None]:
def relu(x):
    """ReLU(x) = max(x,0). """
    return np.maximum(x,0)

def hidden(x, y):
    """Neuronen van hidden layer."""
    h1 = relu(7 * x - y - 6)
    h2 = relu(-3 * x - y + 4)
    return h1, h2

def output(x, y):
    """Classificatie."""
    klasse = np.heaviside(sum(hidden(x, y)), 0)                    
    return klasse

# decision boundary
x_1 = np.linspace(-3.5, 1, 10)
x_2 = np.linspace(1, 3, 10)
y_r_1 = 7 * x_2 - 6
y_r_2 = -3 * x_1 + 4

# raster met resolutie 0.2
xx1 = np.arange(x1.min()-1, x1.max()+1, 0.2)
xx2 = np.arange(x2.min()-1, x2.max()+4, 0.2) 


plt.figure()

# puntenwolk data
plt.scatter(x1[:6], x2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], x2[6:], color="green", marker="<") 
# scheidingslijnen
plt.plot(x_2, y_r_1, color="black")
plt.plot(x_1, y_r_2, color="black")
# gebieden inkleuren
for a in xx1:
    for b in xx2:
        if output(a, b) == 0:
            kleur = "lightblue"
        else:
            kleur = "lightgreen"
        plt.plot(a, b, marker='.', color=kleur)

plt.show()

<div style='color: #690027;' markdown="1">
    <h3>5.3 Werking ReLU: van niet lineair scheidbaar naar lineair scheidbaar</h3> 
</div>

In [None]:
plt.figure()
   
plt.scatter(x1[:6], x2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], x2[6:], color="green", marker="<") 

plt.show()

De punten zijn **niet lineair scheidbaar**.

In [None]:
def relu(tensor):
    """Relu(x) = max(0,x)."""
    return np.maximum(0,tensor)

# y = 7 * x - 6 vgl stijgende rechte   7 * x - y - 6  = 0    in blauwe gebied is dit steeds <= 0
# y = -3 * x + 4  vgl dalende rechte   -3 * x - y + 4 = 0   in blauwe gebied is dit steeds <= 0

# gegeven punten (invoer) invullen in vergelijkingen van scheidingslijnen 
z1 = 7* x1 - x2  - 6    # in blauwe gebied is dit steeds <= 0
z2 = -3 *x1 - x2 + 4    # in blauwe gebied is dit steeds <= 0

# activatiefunctie ReLU laten inwerken
h1 = relu(z1)       # neuron hidden layer; in blauwe gebied is dit zeker 0 
h2 = relu(z2)       # neuron hidden layer; in blauwe gebied is dit zeker 0 
# in blauwe gebied zijn h1 en h2 beide 0 maar in het groene gebied niet

print(h1)
print(h2)

In [None]:
plt.figure(figsize=(16,5))

plt.subplot(1,2,1)                                        # plot met meerdere afbeeldingen
plt.scatter(x1[:6], h1[:6], color="blue", marker="x")    
plt.scatter(x1[6:], h1[6:], color="green", marker="<") 
plt.title("Punten invoeren in vgl. stijgende rechte\nen ReLU laten inwerken op resultaat")
plt.xlabel("x1")
plt.ylabel("h1")

plt.subplot(1,2,2)
plt.scatter(x1[:6], h2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], h2[6:], color="green", marker="<") 
plt.title("Punten invoeren in vgl. dalende rechte\nen ReLU laten inwerken op resultaat")
plt.xlabel("x1")
plt.ylabel("h2")

plt.show()

In [None]:
# naar uitvoerlaag; neuronen die als invoer binnenkomen in de uitvoerlaag, worden opgeteld
# in het blauwe gebied is die som 0 en in het groene niet
n_uitvoer = h1 + h2   # hierop heavisidefunctie (drempelwaarde 0) toepassen levert klassen 0 en 1, n_uitvoer = z'
print(n_uitvoer)

In [None]:
plt.figure()

plt.scatter(x1[:6], n_uitvoer[:6], color="blue", marker="x")    
plt.scatter(x1[6:], n_uitvoer[6:], color="green", marker="<") 

plt.show()

Deze punten zijn wel lineair scheidbaar en kunnen dus toegekend worden aan een klasse.

In [None]:
# hierop activatiefunctie laten inwerken: heavisidefunctie (drempelwaarde 0) toepassen levert klassen 0 en 1
klasse = np.heaviside(n_uitvoer,0)
print(klasse)

De eerste 6 punten zijn de blauwe punten; ze worden dus inderdaad ingedeeld bij klasse 0. De andere punten zijn de groene punten en ze worden ingedeeld bij klasse 1.

<div style='color: #690027;' markdown="1">
    <h3>5.4 Gelaagd model</h3> 
</div>

Dit is de opbouw van een neuraal netwerk met een gelaagd model. Het model heeft drie *lagen*: een invoer- en uitvoerlaag en één verborgen laag (*input layer, output layer, hidden layer*). 

Het model wordt bepaald door het aantal neuronen, de gewichten (*weights*), de biassen (de extra toegevoegde gewichten) en de activatiefuncties.  

In het model zijn er verbindingen tussen de twee neuronen van de invoerlaag en de twee neuronen van de verborgen laag. Deze verbindingen hebben een gewicht bepaald door de coëfficiënten van de vergelijkingen van de scheidingslijnen. Er is daar ook een *bias* bepaald door de constante termen in deze vergelijkingen. De activatiefunctie daar is ReLU.<br>
Er zijn ook verbindingen tussen de twee neuronen van de verborgen laag en het neuron van de uitvoerlaag. De gewichten van deze verbindingen zijn 1. De neuronen die ingevoerd worden in de uitvoerlaag, worden immers opgeteld. Tot slot kent het model een klasse toe aan de data met behulp van de Heavisidefunctie.<br>

Om de code die volgt te begrijpen, zet men de stap naar een matrixnotatie.

$ W = \begin{bmatrix} -6 & 4 \\ 7 & -3 \\ -1 & -1 \end{bmatrix}$; -6 en 4 zijn de biassen.<br>
$ W' = \begin{bmatrix} 0 \\ 1  \\  1 \end{bmatrix} $; 0 is de bias. <br>
$ X = \begin{bmatrix} 1 \\ x1  \\  x2 \end{bmatrix} $

Van invoerlaag naar verborgen laag: $ W^{T} \cdot X_{i} $. Het resultaat is een matrix Z.<br>
Op de matrix Z wordt de activatiefunctie ReLU toegepast en aan het resultaat wordt een extra rij toegevoegd, men bekomt zo de matrix H van de verborgen laag.<br>
Van verborgen laag naar uitvoerlaag: $ W'^{T} \cdot H $ gevolgd door de Heavisidefunctie. 

Dit kan ook als volgt genoteerd worden:

$ W_{ih} = \begin{bmatrix} 7 & -3 \\ -1 & -1 \end{bmatrix}$ en
$ B_{ih}  = \begin{bmatrix} -6 & 4 \end{bmatrix} $ <br>
$ W_{ho} = \begin{bmatrix} 1  \\  1 \end{bmatrix} $ <br>
$ X_{i} = \begin{bmatrix} x1  \\  x2 \end{bmatrix} $

Van invoerlaag naar verborgen laag: $ W_{ih}^{T}.\cdot X_{i} + B_{ih}^{T} $ gevolgd door ReLU. Het resultaat is een matrix X_{h}.<br>
Van verborgen laag naar uitvoerlaag: $ W_{ho}^{T}.\cdot X_{h} $ gevolgd door de Heavisidefunctie. 

Het model is een *feed forward* model en is *fully connected*.

In [None]:
def relu(tensor):
    """Relu(x) = max(0,x)."""
    return np.maximum(0,tensor)

def output(x):
    """Classificatie."""
    klasse = np.heaviside(x,0)
    return klasse

class Model:
    """Model met drie lagen, twee neuronen per laag.""" 
    
    def __init__(self):
        """self heeft twee parameters: aantal inputneuronen, aantal outputneuronen."""
        
        self.wih = np.array([[7, -3], [-3,-1]])    # weights tussen input layer en hidden layer
        self.biasih = np.array([[-6, 4]])          # bias tussen input layer en hidden layer
        self.who = np.array([[1], [1]])            # weights tussen hidden layer en output layer
        self.activation_functionh = relu   
        self.activation_functiono = output
       
    def predict(self, kenmerken):
        """Fit data."""
        inputs = kenmerken.T                   # kenmerken is matrix met x1 en x2 onder elkaar
        hidden_inputs = np.dot(self.wih.T, inputs) + self.biasih.T    # lineaire combinatie inputs met betreffende weights
        hidden_outputs = self.activation_functionh(hidden_inputs) # relu is activatiefunctie in hidden layer
        final_inputs = np.dot(self.who.T, hidden_outputs)           # lineaire combinatie output hidden layer met betreffende weights
        final_outputs = self.activation_functiono(final_inputs)   # classificatie met output
        return final_outputs

Een model van de klasse `Model` aanmaken.

In [None]:
model = Model()      # model construeren via constructor

In [None]:
# uittesten van het model
print("Geef coördinaat van een punt.")
co_x = float(input("x-coördinaat is: "))
co_y = float(input("y-coördinaat is: "))
X = np.array([[co_x, co_y]])
print(X)
model.predict(X)

<div style='color: #690027;' markdown="1">
    <h3>5.5 Klassen visualiseren</h3> 
</div>

In [None]:
# raster maken met resolutie 0.2
x_1 = np.linspace(-3.5, 1, 10)
x_2 = np.linspace(1, 3, 10)
xx1 = np.arange(x1.min()-1, x1.max()+1, 0.2)
xx2 = np.arange(x2.min()-1, x2.max()+4, 0.2)  


plt.figure()

# datapunten
plt.scatter(x1[:6], x2[:6], color="blue", marker="x")    
plt.scatter(x1[6:], x2[6:], color="green", marker="<") 

# aan elk punt in raster juiste kleur toekennen
for a in xx1:
    for b in xx2:
        X = np.array([[a, b]])          # matrix met 1 rij
        if model.predict(X) == 0:
            kleur = "lightblue"
        else:
            kleur = "lightgreen"
        plt.plot(a, b, marker='.', color=kleur)

plt.show()

<div class="alert alert-box alert-info">
De data bestaan uit punten met twee <b>kenmerken</b> en een overeenkomstig <b>label</b>. Het label kan twee waarden aannemen; er zijn twee <b>klassen</b>. Een grens tussen de klassen is een <b>decision boundary</b>. <br>
Het model is een neuraal netwerk met een <b>invoerlaag</b>, een <b>verborgen laag</b> met activatiefunctie ReLU en een <b>uitvoerlaag</b> met activatiefunctie Heaviside. <br>
    
De klassen zijn niet lineair scheidbaar, maar kunnen toch van elkaar gescheiden worden m.b.v. de <b>niet-lineaire functie ReLU</b>.  
</div>

<img src="../.images/cclic.png" alt="Banner" align="left" style="width:80px;"/><br><br>
Notebook KIKS, zie <a href="http://www.aiopschool.be">AI Op school</a>, van F. wyffels & N. Gesquière is in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.