<a href="https://colab.research.google.com/github/spaziochirale/CorsoPythonML/blob/master/Perceptron.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Il Perceptron

Poiché il Perceptron è il più semplice esempio di Rete Neurale, la realizzazione da zero di un programma che permetta di modellare il suo comportamento è particolarmente significativa per comprendere come possa essere sviluppato un software di Machine Learning.

Il Perceptron fu presentato per la prima volta nel 1958 da **Frank Rosenblatt**.
Rosemblatt immaginava un circuito elettronico (all'epoca non si pensava minimamente di emularlo tramite software) dotato di uno strato d'ingresso ed uno di uscita.

La regola di apprendimento è basata sulla minimizzazione dell'errore, la cosiddetta funzione di *error back-propagation* (retro propagazione dell'errore), che in base alla valutazione sull'uscita effettiva della rete, per un dato ingresso, modifica i pesi delle connessioni (corrispondenti alle sinapsi di un neuorone biologico) come **differenza tra l'uscita ottenuta e quella desiderata**.

Lo schema logico del Perceptron è illustrato nella figura seguente.

![alt text](https://www.chirale.it/wp-content/uploads/2019/02/Perceptron.jpg)



L'entusiasmo iniziale nella comunità scientifica e ingegneristica fu enorme, e alla presentazione del Perceptron si deve la nascita di quella disciplina chiamata *Cibernetica*.

Tuttavia, alcuni anni dopo, **Marvin Minsky** e **Seymour Papert**, nel celebre articolo *Perceptrons: An Introduction to Computational Geometry*, dimostrarono che il Perceptron non può essere addestrato per risolvere problemi come ad esempio la ***funzione XOR***. Il Perceptron non può risolvere problemi che non siano di separazione lineare.

Questo limite fu da molti erroneamente attribuito a tutte le Reti Neurali, anche se sembra che Papert e Minsky fossero già consapevoli che reti multi-strato di perceptron (*MLP - Multi Layer Perceptron*) possono risolvere problemi più complessi.

In ogni caso, anche per il fatto che la potenza di calcolo necessaria ad addestrare strutture MLP non era all'epoca disponibile, la ricerca sulle Reti Neurali subì una battuta d'arresto per poi riprendere dopo oltre un decennio.




## Separazione lineare e non lineare

Per comprendere il tipo di problemi di classificazione che un Perceptron è in grado di risolvere possiamo fare riferimento ad un caso semplice, in cui le variabili di input siano solo due. Un Perceptron ha un solo output, normalmente collegato ad una funzione di attivazione di tipo *step*, per cui può assumere solo i valori 0 e 1, è quindi in grado di identificare due categorie.

Immaginiamo di rappresentare graficamente i nostri dati utilizzando i due valori di input come valori delle coordinate su un piano cartesiano, e di rappresentare la categoria a cui appartiene un campione attraverso un diverso colore, ciascun campione è quindi rappresentato da un punto colorato collocato su un piano cartesiano.

Nella figura che segue vi sono due esempi di dati separabili linearmente e non separabili linearmente.



![alt text](https://www.chirale.it/wp-content/uploads/2019/02/LinearSeparability.jpg)

Nel primo caso è possibile individuare una linea retta che separa i due insiemi di campioni, mentre nel secondo caso non è possibile.

Un Perceptron può essere addestrato a classificare esclusivamente insiemi di dati che rientrano nel primo tipo.

## Programmiamo un Perceptron

Nell'esercizio di questa lezione, non utilizzeremo un insieme di dati esistenti, ma svilupperemo una parte di software per generare casualmente un insieme di dati che sia costituito da campioni linearmente separabili e poi utilizzeremo questo generatore di dati per produrre sia i dati di training che i dati di test per verificare che il Perceptron abbia realmente imparato a classificare i dati.

Sarà anche l'occasione per imparare ad usare alcune librerie generali del Python molto utilizzate nella pratica.

Per rendere il progetto più accattivante utilizzeremo un po' di grafica.



## La libreria Matplotlib

*Matplotlib* è una libreria che permette di generare in Python grafica 2D in molti formati stampabili e all'interno di ambienti interattivi come i *notebook Jupyter*.

Per prima cosa quindi importiamo il modulo ***pyplot*** della libreria attribuendogli il prefisso breve ***pl***.


In [0]:
import matplotlib.pyplot as pl


Definiamo ora una funzione Python che rappresenti una retta su un piano cartesiano.

Prendiamo come esempio la retta di equazione: ***y*** = 0,5 \* ***x*** + 10  

La funzione Python sarà quindi una funzione che calcola e restituisce i valori di y per ogni valore dato di x.

In [0]:
def linea(x):
    return 0.5*x + 10


Per disegnare la retta attraverso la libreria *matplotlib* procediamo in questo modo:


1.   Inizializziamo due liste vuote per contenere una serie di valori x e la serie dei corrispondenti valori y 
2.   Generiamo attraverso la funzione *linea()* una serie di coppie x,y e popoliamo le due liste
3.   Utilizziamo le funzioni del modulo ***pyplot*** per visualizzare l'insieme di punti come una linea



In [0]:
lx=[]
ly=[]
for x in range(-250,250):
    y=linea(x)
    lx.append(x)
    ly.append(y)
pl.plot(lx,ly)
pl.grid(True)
pl.show()


La funzione *plot()* riceve come parametri due liste corrispondenti ad una serie di punti da visualizzare come insieme di segmenti. Se i punti sono allineati tra loro la *plot()* traccerà una linea retta.
La funzione *grid()* imposta la visualizzazione della griglia sulla finestra di disegno. Nel nostro caso passiamo il parametro ***True*** e  quindi abilitiamo la griglia.
La funzione *show()* apre la finestra con all'interno il grafico tracciato dalla *plot()*.
L'intervallo da -250 a +250 è stato scelto come esempio. Può essere ovviamente utilizzato un qualunque altro intervallo.

## Generiamo i dati del nostro problema

Definita una qualunque linea, possiamo identificare il nostro problema nel seguente modo: dato un punto qualsiasi, di coordinate (x,y), il punto apparterrà alla categoria "*rosso*" se si trova al di sotto della linea retta, mentre apparterrà alla categoria "*verde*" se si trova al di sopra.

Scriviamo quindi il codice per generare un certo numero di punti a caso e poi disegnarli in rosso o verde in base alla regola stabilita.

Avremo bisogno di una nuova libreria per generare numeri casuali. Si tratta della libreria standard ***random***.

In [0]:
import random
def generaPunti(n):
    l=[]
    for i in range(0, n):
        x = random.random()*500-250
        y = random.random()*500-250
        l.append([x,y])
    return l


La funzione ***random()*** restituisce un numero casuale tra 0 e 1. La funzione ***generaPunti()*** sopra definita, genera un numero n di punti (n passato come parametro) con x e y casuali nell'intervallo -250, +250.

Si noti che la lista restituita dalla funzione è una lista di liste, poiché ogni punto è rappresentato da una lista di due valori che sono le sue coordinate.

A questo punto possiamo disegnare la retta, generare una lista di un certo numero (ad esempio 100) punti con coordinate casuali ed effettuare il test di posizionamento rispetto alla retta per poi disegnare i punti nel colore appropriato in base alla regola.

In [0]:
# Disegniamo la retta
lx=[]
ly=[]
for x in range(-250,250):
    y=linea(x)
    lx.append(x)
    ly.append(y)
pl.plot(lx,ly)

# Creiamo una lista di 100 punti casuali
listaPunti = generaPunti(100)

# Disegniamo i punti della nostra lista in rosso se si trovano al di
# sotto della retta e in verde se si trovano al disopra
for punto in listaPunti:
    y_linea=linea(punto[0])
    if punto[1] > y_linea:
        formato = 'go'
    else:
        formato = 'ro'
    pl.plot(punto[0],punto[1],formato)

# Mostriamo il disegno complessivo
pl.grid(True)
pl.show()


Con il codice riportato sopra siamo quindi in grado di generare a piacimento un insieme di dati linearmente separabile di qualunque dimensione.

Ovviamente conoscendo l'equazione della retta siamo in grado di determinare in modo assoluto, con un semplice calcolo aritmetico, la categoria dei punti.

Quello che faremo nel resto della lezione sarà la realizzazione di un Perceptron che addestreremo per classificare i punti senza avere a disposizione l'equazione della retta!

## Definiamo il Perceptron

Un modo elegante per definire un Perceptron in Python è quello di utilizzare la programmazione *object oriented* e definire una *classe* specifica per rappresentare oggetti di tipo Perceptron.

Un Perceptron può avere un numero arbitrario di input, ha un solo output e funzione di attivazione che solitamente è la funzione *step* con valori in output  -1 oppure 1.

Nel nostro caso definiamo la classe in modo generico, cioè manteniamo la definizione sufficientemente generale da poter essere utilizzata anche in altri casi, non solo nell'esempio bidimensionale che stiamo trattando.

Dovremo definire un inizializzatore e i principali attributi e metodi che ci aspettiamo che caratterizzino un Perceptron.

Un buon esempio è il seguente.


In [0]:
class Perceptron:
    # L'inizializzatore crea l'oggetto Perceptron e inizializza casualmente i pesi
    def __init__(self, learn_speed, num_inputs):
        self.speed = learn_speed
        self.weights = []
        for x in range(0, num_inputs):
            self.weights.append(random.random()*2-1)

    # Definiamo la funzione di attivazione in questo modo:
    # trasformiamo i valori maggiori di 0 in 1, and quelli minori di 0 in -1
    def activate(self, num):
        if num > 0:
            return 1
        return -1

    # Definiamo la funzione per effettuare la previsione dell'output
    def feed_forward(self, inputs):
        sum = 0
        # Effettuiamo la sommatoria dei valori di input moltiplicati per i pesi
        for x in range(0, len(self.weights)):
            sum += self.weights[x] * inputs[x]
        # Richiamiamo la funzione di attivazione passando la sommatoria e restituiamo l'output
        return self.activate(sum)


L'inizializzatore riceve come parametri il numero di input del Perceptron e un valore, chiamato *learn_speed* che sarà utilizzato per modulare la funzione di apprendimento che scriveremo più avanti.

I pesi relativi alle connessioni  tra gli input e il nucleo del neurone vengono inizializzati in modo casuale, come previsto dalla teoria, nel nostro caso con valori tra -1 e 1. I pesi sono registrati all'interno di una lista e sono ovviamente corrispondenti al numero di input indicati nella chiamata all'inizializzatore.

La funzione  *feed_forward()* è il metodo dell'oggetto Perceptron che deve essere invocato per effettuare una classificazione su un determinato input. Come si vede dal codice effettua la sommatoria pesata degli input e poi fornisce in output il valore passato alla funzione di attivazione sopra definita *activate()*.

Per il momento non abbiamo affrontato il problema dell'addestramento che vedremo più avanti.

Prima, infatti, vediamo  come creare un oggetto Perceptron adatto al nostro esempio e come utilizzarlo per effettuare delle previsioni sui dati. Non essendo ancora addestrato il Perceptron fornirà risposte casuali, ma ci serve come test di funzionamento della parte scritta finora.

Per prima cosa creiamo un oggetto Perceptron chiamato p. 

Nel nostro esempio, gli input sono le due coordinate x e y del punto che intendiamo classificare, per cui il Perceptron dovrebbe avere 2 input.

Tuttavia, come sarà spiegato più avanti, per assicurare la convergenza durante la fase di training **è spesso necessario aggiungere un ulteriore input** di valore sempre costante, **scelto ad un valore fisso che solitamente è 1 o -1**. Questo ulteriore input, che non appartiene allo spazio del problema è chiamato ***BIAS*** ed è molto utilizzato nelle reti neurali.

Pertanto il nostro Perceptron dovrà avere 3 input. Come parametro *learn_speed* si utilizzano solitamente valori molto piccoli.

In [0]:
# Creiamo un Perceptron
p = Perceptron(0.01,3)





Una volta creato l'oggetto p di tipo Perceptron con 2 input + il bias, possiamo provare a generare un centinaio di punti casuali e a fornire le relative coordinate al metodo *feed_forward(*) del Perceptron per poi disegnarli in verde o in rosso a seconda del valore restituito.

Si noti che oltre alle due coordinate, al metodo feed_forward() deve essere passato anche il valore costante di *bias*, poiché la funzione si aspetta tre parametri.

In [0]:
# Creiamo una lista di 100 punti casuali
listaPunti = generaPunti(100)

# Disegniamo la retta
lx=[]
ly=[]
for x in range(-250,250):
    y=linea(x)
    lx.append(x)
    ly.append(y)
pl.plot(lx,ly)

# Disegniamo i punti della nostra lista in rosso se il perceptron fornisce -1
# in verde se il perceptron fornisce 1
for punto in listaPunti:
    guess=p.feed_forward([punto[0],punto[1],1])
    if guess == 1:
        formato = 'go'
    else:
        formato = 'ro'
    pl.plot(punto[0],punto[1],formato)

# Mostriamo il disegno complessivo
pl.grid(True)
pl.show()

Eseguendo il codice più volte è possibile rendersi conto che il Perceptron classifica in modo casuale e solo raramente sembra indovinare il posizionamento dei punti.

## Apprendimento

Passiamo ora alla parte più interessante e vediamo come sia possibile dotare l'oggetto Perceptron della capacità di apprendimento.

Per fare questo, è sufficiente aggiungere alla definizione della classe Perceptron il metodo *back_propagation()* che implementa l'algoritmo di training.

Solitamente, nell'implementazione delle funzioni di questo tipo, oltre alla parte matematica che implementa l'algoritmo, vengono aggiunte delle funzionalità per consentire il monitoraggio della fase di training in modo da capire durante l'esecuzione come stanno andando le cose.

Nel nostro caso ci limiteremo a contare il numero di errori compiuti sui dati passati in fase di training, per cui la funzione di *back propagation* restituirà un valore pari a 0 o ad 1 a seconda se il campione è stato correttamente classificato oppure no (e quindi sono stati modificati i pesi).

La definizione completa della classe Perceptron diventa quella seguente.

In [0]:
class Perceptron:
    def __init__(self, learn_speed, num_inputs):
        self.speed = learn_speed
        self.weights = []
        for x in range(0, num_inputs):
            self.weights.append(random.random()*2-1)

    # Activation function
    def activate(self, num):
        if num > 0:
            return 1
        return -1

    # Forward propagation
    def feed_forward(self, inputs):
        sum = 0
        for x in range(0, len(self.weights)):
            sum += self.weights[x] * inputs[x]
        return self.activate(sum)

    # Back propagation
    def back_propagation(self, inputs, desired_output):
        guess = self.feed_forward(inputs)   # Calcolo il valore di output relativo agli input forniti
        error = desired_output - guess      # Calcolo l'errore come differenza tra valore in output e valore atteso
        # La correzione dei pesi avviene secondo la formula
        # peso = peso + errore*valore_input*learn_speed
        # se l'errore è pari a zero la formula non altera il valore del peso
        for x in range(0, len(self.weights)):
            self.weights[x] += error*inputs[x]*self.speed
        # Restituiamo 0 se la previsione è stata corretta, 1 altrimenti
        # questo dato servirà più avanti per conteggiare gli errori durante il processo di apprendimento
        if error == 0:
            return(0)
        else:
            return(1)


Come è spiegato nei commenti nel codice, la funzione di errore scelta è la semplice differenza tra il valore atteso e quello stimato. La formula di correzione dei pesi non effettua alcuna variazione se l'errore è zero, mentre modifica il peso di un valore proporzionale al valore dell'input e al valore dell'errore se questo non è nullo. Si noti che il parametro *learn_speed* è il coefficiente di proporzionalità.

Possiamo quindi procedere all'addestramento del nostro Perceptron.

Per farlo in maniera strutturata, definiamo e utilizziamo una nuova classe che ci aiuterà nell'operazione. Chiamiamo questa classe Trainer.

La classe Trainer è definita in modo specifico per il nostro esempio.

Un oggetto di tipo Trainer contiene al suo interno un Perceptron e possiede tutti i metodi necessari ad effettuarne il processo di addestramento.

In [0]:
class Trainer:
    # L'inizializzatore crea l'attributo "perceptron" come oggetto di tipo Perceptron con 3 input e speed 0.01
    def __init__(self):
        self.perceptron = Perceptron(0.01 , 3 )

    # Nell'ambito della classe Trainer è utile una funzione che rappresenti
    # l'equazione della retta, analogamente alla funzione "linea" degli esempi precedenti
    def f(self, x):
        return 0.5*x + 10 # linea retta: f(x) = 0.5x + 10
      
    # Definiamo la funzione per addestrare il Perceptron contenuto nel Trainer
    # i dati di addestramento vengono generati per comodità direttamente dalla funzione stessa
    # estraendo casualmente coppie di coordinate x,y nell'intervallo -250 : +250
    # la funzione ciclerà per 30 Milioni di Punti!
    def train(self):
        # Per fornire una visualizzazione dell'andamento del processo di apprendimento
        # l'iterazione è stata suddivisa in 300 cicli da 100.000 punti ciascuno
        # all'inizio di ogni ciclo viene inizializzato a zero un contatore di errori
        n=10000
        for i in range(0,300):
            errTot = 0 # Il conteggio degli errori riparte da zero
            for x in range(0, n ):
                # Generiamo un punto a caso nel range di coordinate -250 +250 
                x_coord = random.random()*500-250
                y_coord = random.random()*500-250
                # Verifichiamo il reale posizionamento del punto rispetto alla retta
                line_y = self.f(x_coord)
                if y_coord > line_y: # Il punto è sopra la linea: valore atteso = 1
                    answer = 1
                else: # Il punto è sopra la linea: valore atteso = -1
                    answer = -1
                # Chiamiamo la funzione di back propagation e incrementiamo il conteggio errori
                errTot+=self.perceptron.back_propagation([x_coord, y_coord,1], answer)
            # Al termine del sottociclo di 100.000 punti visualizziamo il valore del contatore errori
            print("Iterazione:",i,"Errori:",errTot)
        return self.perceptron # Restituiamo l'oggetto Perceptron addestrato


Possiamo quindi generare un oggetto Trainer e procedere ad addestrare il suo Perceptron.

In [0]:
t = Trainer()
print("Ho creato il trainer:",t)

# Tramite l'oggetto Trainer creiamo un Perceptron addestrato al problema specifico,
# invocando il metodo train che oltre a compiere l'addestramento stamperà a video
# il numero di errori ottenuto in ogni ciclo permettendoci di monitorare l'andamento del processo
print("Inizio l'addestramento del perceptron...")
p = t.train()
print("Addestramento terminato, ho creato il perceptron con pesi:",p.weights)


Possiamo ora provare a verificare le prestazioni del Perceptron addestrato, utilizzando un codice simile a quello che abbiamo già scritto nell'esempio precedente.

In [0]:
# Disegniamo la retta
lx=[]
ly=[]
for x in range(-250,250):
    y=linea(x)
    lx.append(x)
    ly.append(y)
pl.plot(lx,ly)

# Creiamo una lista di 100 punti casuali
listaPunti = generaPunti(1000)

# Disegniamo i punti della nostra lista in rosso se il perceptron fornisce -1
# in verde se il perceptron fornisce 1
for punto in listaPunti:
    guess=p.feed_forward([punto[0],punto[1],1])
    if guess == 1:
        formato = 'go'
    else:
        formato = 'ro'
    pl.plot(punto[0],punto[1],formato)

# Mostriamo il disegno complessivo
pl.grid(True)
pl.show()


Come si vede, in questo caso il Perceptron classifica i punti correttamente.