# Introduktion til perceptroner
## Af Henrik Sterner (hst@nextkbh.dk)

Perceptroner er en type af neurale netværk, der er inspireret af biologiske neuroner. De er en af de ældste typer af neurale netværk, og blev opfundet i 1957 af Frank Rosenblatt. De udgør de basale byggesten og grundlaget for mange af de mere neurale netværk, der er blevet udviklet siden da.

I det følgende vil vi se på, hvordan en perceptron fungerer, og hvordan den kan bruges til at løse et simple problemer.


## Definition af en perceptron

En perceptron er en funktion, der tager en række inputværdier og beregner en outputværdi. Inputværdierne kan være binære, dvs. 0 eller 1, eller de kan være kontinuerte, dvs. reelle tal. Outputværdien er altid binær. 

Formulerer vi det matematisk, kan vi skrive det således:

$$
f(x_1, x_2, \ldots, x_n) = \begin{cases}
1 & \text{hvis } \sum_{i=1}^n w_i x_i + b > 0 \\
0 & \text{ellers}
\end{cases}
$$

Her er $x_1, x_2, \ldots, x_n$ inputværdierne, $w_1, w_2, \ldots, w_n$ er vægtene, og $b$ er en bias-værdi. 

Med andre ord: Vi beregner en vægtet sum af inputværdierne, lægger bias-værdien til, og hvis summen er større end 0, returnerer vi 1, ellers returnerer vi 0.


Begrebet bias er indført for at vi på sigt kan flytte beslutningsgrænsen. Dvs. vi kan flytte beslutningsgrænsen op eller ned, så vi kan få en anden værdi end 0 til at være grænsen mellem 1 og 0. 


Vi kan også skrive det på vektorform:

$$
f(\mathbf{x}) = \begin{cases}
1 & \text{hvis } \mathbf{w} \cdot \mathbf{x} + b > 0 \\
0 & \text{ellers}
\end{cases}
$$

Her er $\mathbf{x}$ en vektor med inputværdierne, $\mathbf{w}$ er en vektor med vægtene, og $\mathbf{w} \cdot \mathbf{x}$ er det indre produkt af $\mathbf{w}$ og $\mathbf{x}$. Dvs. 

$$
\mathbf{w} \cdot \mathbf{x} = \sum_{i=1}^n w_i x_i
$$

## Eksempel: AND-funktionen

Lad os se på et eksempel. Vi vil gerne lave en perceptron, der kan fungere som en AND-gate. Dvs. den skal tage to inputværdier, $x_1$ og $x_2$, og returnere 1, hvis begge inputværdier er 1, og 0 ellers.

Vi kan repræsentere AND-funktionen med en sandhedstabel:

| $x_1$ | $x_2$ | $f(x_1, x_2)$ |
|-------|-------|---------------|
| 0     | 0     | 0             |
| 0     | 1     | 0             |
| 1     | 0     | 0             |
| 1     | 1     | 1             |


Vi kan nu finde en vægtvektor og en bias-værdi, der opfylder sandhedstabellen. Vi kan f.eks. vælge $\mathbf{w} = [1, 1]$ og $b = -1.5$. Så får vi:

$$
\begin{align}
f([0, 0]) &= 1 \cdot 0 + 1 \cdot 0 - 1.5 = -1.5 < 0 \\
f([0, 1]) &= 1 \cdot 0 + 1 \cdot 1 - 1.5 = -0.5 < 0 \\
f([1, 0]) &= 1 \cdot 1 + 1 \cdot 0 - 1.5 = -0.5 < 0 \\
f([1, 1]) &= 1 \cdot 1 + 1 \cdot 1 - 1.5 = 0.5 > 0
\end{align}
$$

Lad os se, om vi kan finde en anden vægtvektor og en anden bias-værdi, der også opfylder sandhedstabellen. Vi kan f.eks. vælge $\mathbf{w} = [2, 2]$ og $b = -3$. Så får vi:

$$
\begin{align}
f([0, 0]) &= 2 \cdot 0 + 2 \cdot 0 - 3 = -3 < 0 \\
f([0, 1]) &= 2 \cdot 0 + 2 \cdot 1 - 3 = -1 < 0 \\
f([1, 0]) &= 2 \cdot 1 + 2 \cdot 0 - 3 = -1 < 0 \\
f([1, 1]) &= 2 \cdot 1 + 2 \cdot 1 - 3 = 1 > 0
\end{align}
$$

Vi kan også vælge $\mathbf{w} = [10, 10]$ og $b = -15$. Så får vi:

$$
\begin{align}
f([0, 0]) &= 10 \cdot 0 + 10 \cdot 0 - 15 = -15 < 0 \\
f([0, 1]) &= 10 \cdot 0 + 10 \cdot 1 - 15 = -5 < 0 \\
f([1, 0]) &= 10 \cdot 1 + 10 \cdot 0 - 15 = -5 < 0 \\
f([1, 1]) &= 10 \cdot 1 + 10 \cdot 1 - 15 = 5 > 0
\end{align}
$$

Læg mærke til, at alle tre vægtvektorer og bias-værdier opfylder sandhedstabellen. Det er derfor ikke muligt at sige, hvilken vægtvektor og bias-værdi, der er den rigtige. Der er mange mulige løsninger.


## Læring af vægtene

Læring af vægtene i en perceptron foregår ved at præsentere den for en række eksempler, og så justere vægtene, så de passer til eksemplerne.

Vi kan f.eks. præsentere vores AND-perceptron for eksemplerne $[0, 0]$, $[0, 1]$, $[1, 0]$ og $[1, 1]$, og så justere vægtene, så de passer til eksemplerne.

Vi indfører begrebet læringsrate, som vi kalder $\eta$. Læringsraten er et tal mellem 0 og 1, og den bestemmer, hvor meget vi justerer vægtene. Hvis vi f.eks. har en læringsrate på 0.1, så justerer vi vægtene med 10% af forskellen mellem den ønskede outputværdi og den faktiske outputværdi.

Vi kan f.eks. præsentere vores AND-perceptron for eksemplerne $[0, 0]$, $[0, 1]$, $[1, 0]$ og $[1, 1]$, og så justere vægtene, så de passer til eksemplerne.





## Epoker (epocs)

En epoke er en gennemløbning af alle eksemplerne i træningssættet. Hvis vi har 100 eksempler i træningssættet, og vi præsenterer dem for perceptronen én gang, så har vi gennemført én epoke. Hvis vi præsenterer dem for perceptronen 10 gange, så har vi gennemført 10 epoker.


# En perceptron i Python

Lad os nu implementere en perceptron i Python. Vi starter med at importere NumPy-biblioteket, som vi skal bruge til at arbejde med vektorer og matricer, og dernæst konstruerer vi en klasse, der repræsenterer en perceptron med en række forskellige metoder og attributter.


In [2]:
# perceptron.py
import numpy as np

class Perceptron(object):

    def __init__(self, input_size, lr=1, epochs=100):
        self.W = np.zeros(input_size+1)
        self.epochs = epochs
        self.lr = lr
    
    def activation_fn(self, x):
        return 1 if x >= 0 else 0
    
    def predict(self, x):
        x = np.insert(x, 0, 1)
        z = self.W.T.dot(x)
        a = self.activation_fn(z)
        return a
    
    def fit(self, X, d):
        for _ in range(self.epochs):
            for i in range(d.shape[0]):
                y = self.predict(X[i])
                e = d[i] - y
                self.W = self.W + self.lr * e * np.insert(X[i], 0, 1)



