# Reti Neurali: bit-by-bit

## Introduzione

In questo articolo andreamo ad implementare da zero una rete neurale, ma prima di sporcarci le mani dobbiamo chiarire che cos'è una rete neurale e quando ha senso utilizzarla.

Una rete neurale può essere vista sotto due punti di vista, uno matematico e uno biologico. Mentre il punto di vista matematico chiarirà perché utilizzare le reti neurali, quello biologico permetterà invece di comprenderne l'implementazione.

Matematicamente una rete neurale può essere definita come un approssimatore universale. Questo significa che una rete neurale$^1$ è capace di approssimare con una precisione arbitraria una qualsiasi$^2$ funzione $f$, sufficentemente regolare, che prende in input un insieme di valori reali e da in output un altro insieme di valori reali. 

Questo chiarisce perché le reti neurali sono utili: se abbiamo un insieme di dati e sappiamo che esiste una relazione tra di loro, ma non siamo capaci di comprendere quale sia questa relazione, allora una rete neurale potrebbe aiutarci! Una rete neurale, infatti, ricerca pattern tra gli input che le diamo in pasto, andando a cercare cioè degli schemi che leghino le informazioni che le sottoponiamo.

Come si intuisce dal nome, le reti neurali sono strettamente legate alla biologia, possono essere infatti definite come un modello computazionale ispirato dal funzionamento delle reti neurali biologiche. Ed è da questo punto che inizieremo.

## Le reti neurali biologiche
Per comprendere il funzionamento delle reti neurali artificiali è opportuno prima avere una visione di come funzionano le reti neurali biologiche, anche se quella che verrà data è solo una estrema semplificazione, ma utile per i nostri scopi.

### Il neurone

Una rete neurale biologica è formata da moltissimi neuroni interconnessi tra di loro, dunque ha senso iniziare questa overview partendo dalla struttura del neurone biologico, che possiamo suddividere in tre parti principali:
- Soma: è la parte centrale del neurone, si occupa di elaborare gli input in ingresso e generare un output in uscita
- Dendriti: sono delle ramificazioni del neurone e permettono a questo di interagire con gli altri neuroni. Sono i dendriti che ricevono gli input
- Assone: è un prolungamento del neurone, la sua funzione è trasmettere l'output

Ora che abbiamo visto come sono composti i neuroni, possiamo comprendere come questi interagiscano tra di loro: gli input di un neurone possono provenire da altri neuroni o direttamente dall'esterno. Dunque l'output di un neurone, insieme a quello di molti altri, diventerà l'input di un altro neurone che, dopo aver elaborato tutti gli input ricevuti, genererà un output che a sua volta diverrà parte dell'input di molti altri neuroni e così via...

![Neurone](https://github.com/GBisi/NeuroPy/blob/master/neurone.jpg?raw=1)

Anche se biologicamente non è sempre vero, per i nostri scopi possiamo immaginare come le uniche interconnessioni possibili tra neuroni siano quelle tra assoni e dendriti.

### L'apprendimento

Ora abbiamo bisogno solamente di un ultimo pezzo: com'è possibile l'apprendimento? Com'è possibile, dunque, che delle reti di neuroni possano apprendere comportamenti sempre nuovi?

Le reti neurali biologiche non sono reti statiche ma dinamiche, la loro struttura, infatti, cambia in continuazione: più nel dettaglio sono le connessioni tra dendriti ed assone, dette sinapsi, a variare. Infatti quando un neurone trasmette, mediante il suo assone, un output questo non viene ricevuto dal dendrite di un altro neurone esattamente come è stato generato ma giunge al dendrite attraverso una sinapsi, che può indebolire o rafforzare il segnale. L'apprendimento a livello cerebrale avviene non solo creando od eliminando nuove connessioni tra neuroni ma anche rafforzando o indebolendo quelle già esistenti.

Adesso abbiamo tutti gli strumenti per comprendere come creare un modello computazionale di una rete neurale biologica.

## Il percettrone

Così come già fatto per le reti neurali biologiche, la nostra modellizzazione inizia proprio dal creare un modello matematico del neurone artificiale, anche detto percettrone.

Possiamo definire il percettrone come una funzione matematica che prende in input un vettore di numeri reali $I$ e restituisce un valore reale $O$; un vettore altro non è che una lista ordinata, cioè una lista in cui l'ordine con cui vengono elencati gli elementi è importante e non può essere variato.

Dunque formalmente $f(I) = O$. Ma che cosa viene fatto nello specifico dentro $f$? L'elaborazione può essere divisa in due passi:

##### Passo 1 
Il vettore di input $I$ viene moltiplicato per un vettore $W$ di numeri reali, detto vettore dei pesi. Moltiplicare un vettore per un altro significa semplicemente che il primo elemento di $I$ viene moltiplicato con il primo elemento di $W$, il secondo con il secondo e così via. Infine, i prodotti così ottenuti vengono sommati tra di loro: quello che stiamo facendo è moltiplicare dunque un input con il suo rispettivo peso, proprio come nei neuroni ogni input viene modificato (rinforzato o indebolito) da una sinapsi, in questo caso il compito della sinapsi viene svolto dal peso. Bisogna solo ricordarsi che il numero di elementi dei due vettori, detto dimensione, deve essere uguale. 

Formalmente: $$\sum_{i=1}^{n} I_i*W_i $$ Dove $n$ è la dimensione del vettore degli input o equivalentemente del vettore dei pesi.

In python:

```python
def molt(I, W):
    res = 0
    for i in range(len(I)):
        res += I[i]*W[i]
    return res
```

##### Passo 2
Al risultato della moltiplicazione tra vettori, detta anche somma pesata, viene applicata una funzione $g$, detta funzione di soglia o di attivazione: il suo compito è quello di regolare l'attivazione del neurone, elaborando la somma pesata attraverso una funzione, di solito, non lineare$^3$. Chiariamo meglio che significa "regolare l'attivazione" di un neurone: una funzione di soglia mappa la somma pesata in un intervallo di valori significativi: solitamente come output di un neurone abbiamo bisogno di ricevere valori nell'intervallo (-1;1) o (0;1), ma nulla ci assicura che dalla somma pesata escano valori di questo tipo, dunque la funzione di attivazione converte il valore che riceve in un valore nell'intervallo desiderato. Solitamente $g$ sarà infatti definita come: $g: R \to [-1;1]$ o $g: R \to [0;1]$

Quale funzione e quindi anche quale intervallo usare dipende dal problema che stiamo affrontando: se l'output è una probabilità useremo l'intervallo (0;1), in altri casi ci servirà un intervallo anche con valori negativi (-1;1); ma anche dopo aver scelto un intervallo bisogna studiare quale funzione usare, infatti vi sono funzioni diverse che mappano nello stesso intervallo. Dunque la scelta dipende principalmente dal problema che stiamo affrontando. 

La funzione di attivazione è detta anche di soglia perchè, storicamente, la prima funzione ad essere utilizzata fu la funzione di Heaviside, detta anche funzione a gradino, che fungeva per l'appunto, da soglia: "attiva" il neurone cioè restituisce 1, solo se la somma pesata è positiva, altrimenti restituisce 0.

![Funzione di Heaviside](https://github.com/GBisi/NeuroPy/blob/master/gradino.png?raw=1)

Di seguito, invece, alcuni esempi delle funzioni di attivazione più utilizzate:

![Funzioni](https://github.com/GBisi/NeuroPy/blob/master/fun.png?raw=1)

Per riassumere, dunque, matematicamente quello che fa un Percettrome è: $f(I) = g( I*W ) = O$ che equivale a fare $f(I) = g( \sum_{i=1}^{n} I_i*W_i ) = O$:

![Percettrone](https://github.com/GBisi/NeuroPy/blob/master/percettrone.png?raw=1)

Nell'immagine il simbolo $\sum$ indica la somma dei singoli elementi pesati, cioè moltiplicati con il rispettivo peso.

### Modello computazionale
Dopo aver modellizzato il percettrone rimane da darne una definizione dal punto di vista computazionale: un Percettrone è un classificatore binario lineare. Analizziamo una parola alla volta:

- Classificatore: un classificatore è un particolare algoritmo che fissato un insieme di "classi" diverse, decide, dato un input, a quale classe quell'input appartiene. Quello che fa è dunque, fissato un elemento, decidere a quale gruppo appartiene tra i possibili. L'output quindi ci dirà la classe di appartenenza.

![Classificatore](https://github.com/GBisi/NeuroPy/blob/master/classificatore.png?raw=1)

- Binario: è un classificatore che riesce a distinguere solo tra due classi diverse.

- Lineare: il concetto di linearità è piuttosto complesso, quello che noi andremo ad approfondire è ciò che si intende per classificatore binario lineare. Un classificatore binario si dice lineare se è capace di dividere uno spazio vettoriale $V$ attraverso uno ed un solo iperpiano$^4$ $H$: distinguendo quindi i punti che si trovano da un lato o dall'altro di $H$. 

Daremo per chiarezza una spiegazione più pratica considerando uno spazio bidimensionale: in questo caso un iperpiano altro non è che una retta, dunque un classificatore binario lineare è un algoritmo che divide lo spazio, cioè il piano, attraverso un una retta, distinguendo quindi i punti da un lato o dall'altro della retta:

![Lineare-Non Lineare](https://github.com/GBisi/NeuroPy/blob/master/lineare-non.png?raw=1)

Un percettrone apprende andando a modificare input dopo input i suoi pesi che, geometricamente, rappresentano la posizione dell'iperpiano. Nell'immagine seguente si vede come, dopo ogni nuovo input il classificatore cambia la sua posizione e orientazione in modo da separare i due gruppi di elementi per poterli classificare in maniera corretta:

![Apprendimento](https://github.com/GBisi/NeuroPy/blob/master/learning.png?raw=1)

Arriviamo all'ultimo punto: come confrontare dei classificatori che lavorano su uno stesso problema? Come trovare il migliore tra i vari classificatori a nostra disposizione? Bisogna individuare quello che che commette meno errori nel classificare gli input che gli vengono sottoposti.

![Multi](https://github.com/GBisi/NeuroPy/blob/master/lineare.png?raw=1)

Nell'immagine sopra abbiamo tre classificatori binari lineari: mentre sia il blu che il rosso sono validi, riescono cioè a distinguere correttamente tutti gli input, quello verde non ci riesce dunque non è un buon classificatore rispetto agli altri due. Ma tra il verde e il rosso possiamo individuarne uno migliore di un altro: il rosso, infatti, è quello più distante da entrambi i gruppi; questa caratteristica può essere utile, perchè solitamente, ci rende più sicuri del fatto che un nuovo input venga classificato correttamente. Ad esempio: il blu è molto più vicino al gruppo nero rispetto al rosso, questo vuol dire che un nuovo elemento nero che si discosti di poco dal suo gruppo rischia di essere classificato male dal blu, ma è difficile che questo accada con il rosso.

### Implementazione
Di seguito andremo ad implementare un Percettrone molto basilare in Python.

Per riscaldarci e preparare il terreno andiamo prima di tutto a scrivere la funzione di Heaviside.

In [0]:
def Heaviside(x):
    if x > 0:
        return 1
    else:
        return 0

Ora siamo pronti per scrivere il codice vero e proprio: utilizzeremo il paradigma ad ogetti che in questo caso permette una modellazione molto naturale. 

La nostra classe Perceptron avrà 4 attributi:
- *f:* sarà la funzione di attivazione che userà il nostro percettrone, bisogna passarlo come paramentro al momento della creazione dell'ogetto
- *weight:* vettore dei pesi del percettrone
- *input:* vettore di input del percettrone: ad ogni input corrisponde il peso nella stessa posizione in *weight*
- *output:* contiene l'ultimo output calcolato, di default 0

Inoltre oltre ad *\__init__* e *\__str__* definiremo 4 metodi:
- *add_link(w, i):* aggiunge un nuovo link (sinapsi) di peso *w* e input *i*
- *set_input(inp):* sostituisce il vettore di input del percettrone con il nuovo vettore *inp*, importante controllare che le dimensioni non siano diverse
- *process():* esegue l'eleborazione vera e propria: somma pesata (passo 1), soglia (passo 2) e infine restituisce l'output
- *get_output():* restituisce l'ultimo output calcolato

Dunque ogni volta che aggiungiamo un nuovo link specifichiamo il peso e il valore del rispettivo input; il vettore di input può comunque essere cambiato con *set_input*, per il momento però possiamo cambiare l'intera lista e non il singolo valore. Inoltre, non consentiamo l'eliminazione dei link o la modifica dei pesi, queste operazioni infatti, anche se renderebbo il codice più flessibile non aggiungono nulla a livello didattico.

In [0]:
class Perceptron:
    
    def __init__(self, f):
        ''' 
        Initialize new Perceptron
        params f: activation function
        '''
    
        self.f = f
        self.weight = [] #list of weights
        self.input = [] #list of input
        self.output = 0
        
    def add_link(self, w, i):
        ''' 
        Add a link in the perceptron with input
        params w: the weight of the link
        params i: the value of the input
        '''
        self.weight.append(w)
        self.input.append(i)
        
    def set_input(self, inp):
        ''' 
        Set new input 
        params inp: array of input
        '''
        if len(inp) == len(self.weight):
            self.input = inp

    def process(self):
        ''' 
        Process the input 
        '''
        res = 0

        print("PROCESS")

        #step 1
        for i in range(len(self.weight)): 
            print("{} * {} -> {}".format(self.input[i], self.weight[i], self.input[i]*self.weight[i]))
            res += self.input[i]*self.weight[i]

        #step 2
        self.output = self.f(res)
        print("----\n{} -> {}".format(res,self.output))

        return self.output

    def get_output(self):
        ''' 
        return the output
        '''
        return self.output

    def __str__(self):
        return "INPUT: {}\nWEIGHT: {}\nOUTPUT: {}".format(self.input,self.weight,self.output)

Ora eseguiamo un rapido test:

In [0]:
p = Perceptron(Heaviside)

p.add_link(1, -3)
p.add_link(-1, 2)
p.add_link(0.5, 1)

print(p)
p.process()

INPUT: [-3, 2, 1]
WEIGHT: [1, -1, 0.5]
OUTPUT: 0
PROCESS
-3 * 1 -> -3
2 * -1 -> -2
1 * 0.5 -> 0.5
----
-4.5 -> 0


0

Adesso proviamo a cambiare gli input e a rieseguire:

In [0]:
p.set_input([2,-5,0])

print(p)
p.process()

INPUT: [2, -5, 0]
WEIGHT: [1, -1, 0.5]
OUTPUT: 0
PROCESS
2 * 1 -> 2
-5 * -1 -> 5
0 * 0.5 -> 0.0
----
7.0 -> 1


1

___

$1$: Più nello specifico la rete neurale deve essere feed-forward con un solo strato nascosto, con un numero finito di neuroni e funzione di attivazione di tipo sigmoidale e un neurone di output con funzione di attivazione di tipo lineare.

$2$: Non è propriamente verso, infatti non tutte le funzioni $f: R^n \to R^m$ sono approssimabili da una rete neurale. [Dettagli](https://it.qwertyu.wiki/wiki/Universal_approximation_theorem).

$3$: $f: R \to R$ è una funzione è lineare se è esprimibile nella forma $f(x)=ax+b$ con $a$ e $b$ costanti reali. Più in generale una funzione lineare è una funzione $f$ per cui valgono le due seguenti proprietà:
- $f(x+y) = f(x)+f(y)$
- $f(ax) = a*f(x)$ con $a$ costante


$4$: Un iperpiano di uno spazio vettoriale $V$ è un sotto-spazio vettoriale di $V$ di dimensione $dim(V)-1$. Se, ad esempio, $V$ è un piano quindi uno spazio bi-dimensionale ($dim(V)=2$) , un iperpiano $H$ sarà quindi una retta perchè dovrà avere $dim(H)=1$.