# Rete Neurale: Classificazione di fiori

Questo notebook descriverà passo passo ciò che si fa per allenare una vera e propria rete neurale (per quanto semplice). Rispetto al primo esempio, non faremo l'assunzione di dipendenza lineare e, di conseguenza, dovremo usare un approccio più generale.

Prima di tutto, descrivo qual è il problema che cerchiamo di risolvere.

## Iris Dataset

Iris è un tipo di fiore e, in base alla lunghezza del petalo e del sepalo, si può classificare in tre sottospecie. Di seguito uso Pillow e Matplotlib per visualizzare un esempio di ciascuna "classe".

In [None]:
import os
import tqdm
from PIL import Image
import matplotlib.pyplot as plt
%matplotlib inline

`os` è un pacchetto che serve ad astrarre operazioni dei sistemi operativi. Per esempio su sistemi non Windows, come anche in tutti i principali linguaggi di programmazione, un percorso di un file in una cartella si scrive come `cartella/file`, mentre Windows usa `cartella\\file` (La doppia sbarra serve perché in una stringa '\\' è un carattere speciale). Usando `os` deleghiamo la gestione di operazioni specifiche a Python, e non ce ne preoccupiamo.

All'interno di questa cartella (`RetiNeurali`) ci sono una cartella `dati`, che contiene dati per i nostri problemi, e una cartella `immagini`, che contiene, be', immagini. Dunque, per aprire:

In [None]:
percorso_immagini = os.path.join('immagini') # Equivale a .\\immagini su Windows, ./immagini su Unix.
nomi_immagini = os.listdir(percorso_immagini) # listdir crea una lista con l'elenco dei file in percorso_immagini
print(nomi_immagini)

In [None]:
# Ora leggiamo le immagini
virginica = Image.open(os.path.join(percorso_immagini, nomi_immagini[2]))
setosa = Image.open(os.path.join(percorso_immagini, nomi_immagini[3]))
versicolor = Image.open(os.path.join(percorso_immagini, nomi_immagini[4]))

In [None]:
fig, ax = plt.subplots(1, 3, figsize=(15, 15))
ax[0].imshow(virginica)
ax[0].set_title('Iris Virginica')
ax[1].imshow(setosa)
ax[1].set_title('Iris Setosa')
ax[2].imshow(versicolor)
ax[2].set_title('Iris Versicolor')


La specie può essere determinata misurando 4 quantità: lunghezza del sepalo, larghezza del sepalo, lunghezza del petalo e larghezza del petalo. Per fortuna qualcuno, nel 1936, ha preso le misure di 150 fiori, e i dati sono disponibili per tutti. Infatti, nella cartella `dati`, c'è un file .csv (Comma separated value), che non è altro che una lista di numeri divisi da una virgola. La prima riga può (opzionale) contenere nomi delle varie colonne. Ogni riga successiva alla prima contiene esattamente lo stesso numero di valori.  
Potremmo usare le solite funzionlità di lettura dei file di Python, ma il pacchetto `pandas` aiuta con questo tipo di file, oltre a facilitare visualizzazione ed alcune operazioni.

In [None]:
import pandas as pd
iris = pd.read_csv(os.path.join('dati', 'iris.csv')) # Crea un dataframe
iris.head() # Il metodo head() visualizza le prime n righe, default 5

La quinta colonna in particolare definisce la classe della varietà. Cerchiamo di estrarre tutti i possibili valori.

In [None]:
varieta = iris['variety']
varieta

È una lista con valori ripetuti meglio passarla a un `set` (insieme).

In [None]:
varieta = set(varieta)
varieta

Come vedi, un `set` non contiene mai duplicati, in linea con la definizione di insieme nel senso matematico. Quindi aggiungendo un elemento che esiste già non succede niente. Nota anche le parentesi graffe (come un dizionario, ma senza coppie di valori chiave: valore)

A questo punto cerchiamo di analizzare graficamente se c'è una relazione ovvia fra le quantità. Essendo le variabili 4, le rappresento a due a due.

In [None]:
titoli = iris.keys()[:-1] # keys dà la riga con i nomi delle colonne; variety non ci serve al momento.
fig, ax = plt.subplots(4, 4, figsize=(15, 15))
colori = ['red','green','blue']
for riga, titolo in enumerate(titoli):
    for colonna, titolo_2 in enumerate(titoli):
        if titolo == titolo_2:
            ax[riga][colonna].text(0.5, 0.5, titolo.title(), horizontalalignment='center', fontsize=20)
        else:
            for colore, var in zip(colori, varieta):
                specie = iris[iris['variety']==var]
                ax[riga][colonna].scatter(specie[titolo], specie[titolo_2], color=colore, label=var)
            ax[riga][colonna].legend(fontsize=8)

Una relazione c'è ma non sembra esserci una legge lineare e in alcuni casi i dati non sembrano molto separabili. Cerchiamo dunque una relazione generica (non lineare), in forma di rete neurale.

### Rete Neurale

Una rete neurale è, come dice il nome, una rete di neuroni. Il concetto prende ispirazione dai neuroni naturali, in particolare, quelli che formano il cervello umano. Un neurone riceve segnali elettrici dagli altri neuroni attraverso i *dendriti*. La corrente porta cariche al neurone che si accumulano fino a una soglia limite, oltre la quale il neurone genera una corrente di *attivazione* lungo l'assione *assione*.

In [None]:
neurone = Image.open(os.path.join(percorso_immagini, nomi_immagini[1]))
fig, ax = plt.subplots(1, 1, figsize=(8, 8))
ax.imshow(neurone)

Il primo modello di neurone (naturale) riportato in letteratura descriveva il funzionamento come una somma di segnali provenienti dai neuroni precedenti, passato attraverso una *funzione di attivazione*, che nel caso particolare era la funzione $\theta$:  
  
  $\theta = \begin{cases} 1,\quad \mbox{se }x \ge 0\\
                          0,\quad \mbox{altrimenti}
            \end{cases}$  
  
In pratica questo modello del neurone è molto semplice, ma ha dato modo di sviluppare modelli più complessi e, dunque, realistici. 

Da un punto di vista matematico, il concetto è però rimasto interessante, considerando che ha dato origine al fenomeno delle *reti neurali artificiali*. Scrivo quindi la prima classe neurone, per illustrare come funziona.

In [None]:
import numpy as np

def lineare(x: float) -> float:
    return x

def theta(x: float) -> float:
    return 1 if x >= 0 else 0

class Neurone:
    def __init__(self, attivazione: str ='theta'):
        self.w = np.random.random()
        self.b = np.random.random()
        self.attivazione = theta if attivazione == 'theta' else lineare
        
    def predict(self, x: float) -> float:
        return self.attivazione(self.w*x+self.b)

Partiamo dalla classe neurone: il costruttore prende come argomento una stringa che definisce l'attivazione, e inizializza i parametri come numeri aleatori da 0 a 1 (come nell'esempio delle temperature). Inoltre, in base alla stringa, scegli la teta o niente (lineare) come funzione di attivazione (Nota: self.attivazione è una funzione). Durante la predizione, calcoliamo la *retta* e ci applichiamo la nostra funzione di attivazione. Provando ad eseguire la seguente cella più volte, il risultato cambia, ma resta sempre 0 o 1.

In [None]:
neurone = Neurone()
neurone.predict(-0.5)

Abbiamo detto, però, che un neurone naturale prende come input vari segnali, non un solo numero. Modifichiamo dunque la classe di cui sopra per accettare un vettore di segnali.

In [None]:
class Neurone:
    def __init__(self, dim_input, attivazione: str ='theta'):
        self.w = np.random.random((dim_input,)) # weight
        self.b = np.random.random((dim_input,)) # bias
        self.attivazione = theta if attivazione == 'theta' else lineare
        
    def predict(self, x: np.array) -> float:
        return self.attivazione(np.sum(self.w*x+self.b))

Ora la dimensione va specificata nel costruttore. Inoltre, considerando che moltiplichiamo $w$ e $b$ per l'input, la dimensione deve essere aggiustata di conseguenza. Infine, ci aspettiamo che il neurone restituisca un solo output (sempre per analogia con i neuroni naturali). Sommiamo dunque tutti i termini del vettore risultante dalla somma vettoriale e passiamo il risultato alla funzione di attivazione.  
Facciamo un esempio con `dim_input=4` (visto che il nostro dataset ha quattro variabili).

In [None]:
neurone = Neurone(4)
neurone.predict(-1*np.ones((4,)))

In pratica, la funzione di attivazione $f(x)=\theta(x)$ non viene usato nelle reti neurali odierne. Questo principalmente perchè fa un salto repentino e la derivata è infinita in 0. In base all'applicazione, le piû frequenti sono:  
  
  $\tanh(x) = \frac{\sinh(x)}{\cosh(x)} = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
  
  $\mbox{logistic}(x)=\frac{1}{1+e^{-x}}$ 
  
  $\mbox{ReLU}(x) = \max(x, 0)$

Qui riportiamo tutta, comprese la $\theta(x)$, per completezza:

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(15, 15))
x = np.arange(-5, 5, 0.01)
y = np.heaviside(x, 0)
ax[0][0].plot(x, y)
ax[0][0].set_title('\u03B8', fontsize='xx-large', color='lightblue')
ax[0][0].set_xlabel('x',fontsize='xx-large', color='lightblue')
ax[0][0].set_ylabel('y',fontsize='xx-large', color='lightblue')
y = np.tanh(x)
ax[0][1].plot(x, y)
ax[0][1].set_title('tanh', fontsize='xx-large', color='lightblue')
ax[0][1].set_xlabel('x', fontsize='xx-large', color='lightblue')
ax[0][1].set_ylabel('y', fontsize='xx-large', color='lightblue')
y = 1./(1+np.exp(-x))
ax[1][0].plot(x, y)
ax[1][0].set_title('logistic', fontsize='xx-large', color='lightblue')
ax[1][0].set_xlabel('x',fontsize='xx-large', color='lightblue')
ax[1][0].set_ylabel('y',fontsize='xx-large', color='lightblue')
y = np.maximum(x, np.zeros_like(x))
ax[1][1].plot(x, y)
ax[1][1].set_title('ReLU', fontsize='xx-large', color='lightblue')
ax[1][1].set_xlabel('x', fontsize='xx-large', color='lightblue')
ax[1][1].set_ylabel('y', fontsize='xx-large', color='lightblue')

In questo esempio continuerò a usare la logistica, perchè ha una derivata continua ma, al contrario della tanh, più semplice da calcolare (non solo per noi, ma anche per il pc). 

A questo punto abbiamo tutti gli elementi per una rete neurale, eccetto che un neurone singolo non fa proprio da rete neurale. Infatti, un rete è composta da una serie di neuroni, come nell'esempio:

In [None]:
def logistic(x: float)-> float:
    return 1./(1.+np.exp(-x))

class Neurone:
    def __init__(self, dim_input, attivazione: str ='logistic'):
        self.w = np.random.random((dim_input,))
        self.b = np.random.random((dim_input,))
        self.attivazione = logistic if attivazione == 'logistic' else lineare
        
    def predict(self, x: np.array) -> float:
        return self.attivazione(np.sum(self.w*x+self.b))

In [None]:
class Layer:
    def __init__(self, n_input: int, n_output: int, attivazione: str = 'logistic'):
        self.neurons = [Neurone(n_input, attivazione) for _ in range(n_output)]
        
    def predict(self, x: np.array) -> np.array:
        y = np.array([neuro.predict(x) for neuro in self.neurons])
        return y

In [None]:
class ReteNeurale:
    def __init__(self, n_input: int, n_output: int = 1):
        # IMPORTANTE!!! L'output di un layer deve essere uguale all'input del successivo
        self.layers = [Layer(n_input, 5), Layer(5, n_output, '')]
    
    def predict(self, x: np.array) -> np.array:
        y = x 
        for layer in self.layers:
            y = layer.predict(y)
        return y

In [None]:
network = ReteNeurale(4, )
network.predict(np.random.random((4,)))

Questo è un esempio completo del passaggio in avanti (*forward step*) di un rete neurale. Cerchiamo di capire cosa succede:
- La classe `ReteNeurale` costruisce l'architettura della rete a partire di *strati* (layers) di neuroni. Nell'esempio ci sono due strati: Il primo prende 4 input (determinato dai dati), e resitutisce 5 output, mentre il secondo prende quei 5 input e restituisce 1 output, un numero che dovrà essere "vicino" a 0, 1, 2 (le classi del dataset).
- La classe Layer raggruppa tutti i neuroni che prendono lo stesso input, e restituisce tanti output quanto sono i neuroni di cui è composto. Inoltre specifica l'attivazione che ogni strato di neuroni deve usare (neuroni nello stesso strato hanno tutti la stessa).
- Il neurone è analogo a quello precedente, ma uso l'attivazione logistica, come detto prima.

La figura in basso rappresenta lo schema della rete definita sopra.

In [None]:
neurone = Image.open(os.path.join(percorso_immagini, nomi_immagini[0]))
fig, ax = plt.subplots(1, 1, figsize=(8, 8))
ax.imshow(neurone)

Ricordiamoci ora cosa succedeva nell'esempio della retta: i dati venivano passati alla "rete" (la nostra funzione retta), con i parametri inizializzati a caso. Questi andavano poi ottimizzati passando tutti i possibili valori, varie volte o *epoche*. In questo esempio, l'approccio è lo stesso ma ovviamente il calcolo è più complesso.

Vediamo ora come svolgere il calcolo per la funzione espressa tramite la rete neurale. Chiamiamo $x_i$ gli input, con $i\in \{1,2,3,4\}$ nel nostro caso specifio. Ogni neurone prende ciascuno degli input e lo moltiplica per un peso $w_{ij}$ e lo somma per un *bias* $b_i$. Per esempio, il neurone 1 del primo strato calcola la seguente quantità:  
  
$h_1 = w_{11}x_{1} + b_{11} + w_{12}x_{2} + b_{12} + w_{13}x_{3} + b_{13} + w_{14}x_{4} + b_{14} = \sum_{i=1}^{4}\left(w_{1i}x_{i}+b_{1i}\right)$
  
Questa quantità deve poi essere passata attraverso la nostra funzione di attivazione:  
  
  $a_1 = \mbox{logistic}(h_1)$   
  
Ogni neurone del primo strato effettua un calcolo analogo, per cui avremo:  
  
  $a_{i}=\mbox{logistic}(h_i) = \mbox{logistic}\left(\sum_{j=1}^{4}\left(w_{ij}x_{j}+b_{ij}\right)\right)$  
 
Il neurone di output farà un calcolo simile prendendo come input le $a_i$:  
  
  $o = \sum_{i=1}^{4}\left(w_{oi}a_{i}+b_{oi}\right) = \sum_{i=1}^{4}\left(w_{oi}\left(\mbox{logistic}\left(\sum_{j=1}^{4}\left(w_{ij}x_{j}+b_{ij}\right)\right)\right)+b_{oi}\right)$  
  
In questo caso non usiamo una funzione di attivazione, quindi questo sarà l'output finale. Ogni volta che facciamo il passo *forward* (forward propagation), verrà calcolata questa funzione. 

Ovviamente, per imparare qualcosa, i parametri della rete devono essere aggiornati in base al risultato atteso. Calcoliamo quindi la *loss function*:  
  
  $L(o) = \left(o - y\right)^2$
  
dove le $y$ sono le classi attese. Minimizzare questa funzione permette di determinare i parametri che ottimizzano la funzione di cui sopra. Calcoliamo dunque le derivate della loss function in funzione dei vari parametri. Notiamo che ogni neurone ha 8 parametri (4 $w_{ij}$ e  4 $b_{ij}$), per un totale di $6\cdot8=48$ parametri. Cominciamo dalle derivate rispetto ai parametri del neurone di output:  
  
  $\frac{\partial L}{\partial w_{oi}} = \frac{\partial L}{\partial o}\frac{\partial o}{\partial w_{oi}} = 2\left(o - y\right)a_i$  
  
  In questa relazione abbiamo calcolato, nel primo passaggio, la derivata composta $f(g(x))$, notando che $L(o)$ è semplicemente la derivata di una potenza. La derivata di $o$ in funzione di $w_{ij}$ è poi la derivata di una somma di cui un solo termine contiene la variabile $i$-esima, rendendo gli altri termini nulli (derivata di una costante). La derivata rispetto a $b_{oi}$ sarà simile eccetto per il prodotto per $a_i$ che non ci sarà.
  
Le derivate rispetto agli $w_{ij}$ e $b_{ij}$ saranno relativamente più complesse:  
  
  $\frac{\partial L}{\partial w_{ij}} = \frac{\partial L}{\partial o}\frac{\partial o}{\partial a_{i}}\frac{\partial a_i}{\partial h_{i}}\frac{\partial h_i}{\partial w_{ij}}$
  
Il primo fattore è identico al primo fattore dell'espressione precedente, mentre il secondo sostituisce $a_i$ con $w_{oi}$. Il terzo fattore è la derivata della funzione logistica:  
  
  $\frac{\partial}{\partial h_i} \mbox{logistic} (h_i)= \frac{\partial}{\partial h_i} \left(1+e^{-h_i}\right)^{-1} = -\left(1+e^{-h_i}\right)^{-2} (-1) e^{-h_i} = \frac{e^{-h_i}}{\left(1+e^{-h_i}\right)^{2}} = e^{-h_i}\left(\mbox{logistic}(h_i)\right)^2$
  
  
Quindi l'espressione finale sarà:  
  
  $\frac{\partial L}{\partial w_{ij}}= 2\left(o - y\right)w_{oi}e^{-h_i}\left(\mbox{logistic}(h_i)\right)^2x_j$
  
Proviamo a implementare queste relazioni in codice:

In [None]:
def lineare(x: float) -> float:
    return x

def der_lineare(x: float) -> float:
    return 1

def logistic(x: float)-> float:
    return 1./(1.+np.exp(-x))

def der_logistic(x: float) -> float:
    return np.exp(-x)*logistic(x)**2

class Neurone:
    def __init__(self, dim_input, attivazione: str ='logistic'):
        self.w = np.random.random((dim_input,))
        self.b = np.random.random((dim_input,))
        self.attivazione = logistic if attivazione == 'logistic' else lineare
        self.der_attivazione = der_logistic if attivazione == 'logistic' else der_lineare
        
    def predict(self, x: np.array) -> float:
        self.input = x
        self.h = np.sum(self.w*x+self.b)
        return self.attivazione(self.h)
    
    def update(self, grad: float, lr: float) -> np.array:
        grad = self.der_attivazione(self.h)*grad
        output = grad * self.w
        self.w -= lr * grad * self.input
        self.b -= lr * grad * np.ones_like(self.b)
        return output

class Layer:
    def __init__(self, n_input: int, n_output: int, attivazione: str = 'logistic'):
        self.neurons = [Neurone(n_input, attivazione) for _ in range(n_output)]
        
    def predict(self, x: np.array) -> np.array:
        y = np.array([neuro.predict(x) for neuro in self.neurons])
        return y
    
    def update(self, grad: np.array, lr: float) -> np.array:
        grad = [neuron.update(grad[:, neuro_id], lr)
                for neuro_id, neuron in enumerate(self.neurons)]
        grad = np.stack(grad)
        return grad
    
class ReteNeurale:
    def __init__(self, n_input: int, n_output: int = 1, lr: float = 0.01):
        # IMPORTANTE!!! L'output di un layer deve essere uguale all'input del successivo
        self.n_output = n_output
        self.layers = [Layer(n_input, 5), Layer(5, n_output, '')]
        self.lr = lr
    
    def predict(self, x: np.array) -> np.array:
        y = x 
        for layer in self.layers:
            y = layer.predict(y)
        return y
    
    def loss(self, pred: float, true: float) -> float:
        return (pred-true)**2
    
    def __grad(self, pred: float, true: float) -> float:
        return 2*(pred-true)
    
    def backwards(self, pred: float, true: float):
        grad = np.ones((1, self.n_output))*self.__grad(pred, true)
        for layer in self.layers[::-1]:
            grad = layer.update(grad, self.lr)
    

Qui bisogna fare particolare attenzione: il primo termine del gradiente è la derivata della loss function rispetto all'output. Questo termine viene calcolato dalla rete e utilizzato negli step successivi. Ogni layer poi aggiorna i propri parametri basandosi sul gradiente del layer precedente nell'ordine a ritroso. Nel nostro caso, il layer di output, contentente un neurone, prende il gradiente della loss function e lo moltiplica per la derivata dell'attivazione (1). Per aggiornare i suoi parametri moltiplica per l'input $a_i$ per calcolare gli $w_{oi}$ e per 1 per calcolare gli $b_{oi}$. Passa poi al layer precedente i gradienti rispetto a $a_i$.

Questo procedimento che parte dalla fine e propaga le derivate verso i primi layer è chiamato *backpropagation*. 

Ora proviamo ad allenare la nostra rete sui dati a disposizione. Prima però procediamo a *normalizzare* i nostri dati. Vediamo che significa. 
I nostri dati hanno delle distribuzioni che variano da caratteristica a caratteristica:

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(15, 15))
ax[0][0].hist(iris['sepal.length'])
ax[0][0].set_title('Lunghezza del sepalo')
ax[0][1].hist(iris['sepal.width'])
ax[0][1].set_title('Larghezza del sepalo')
ax[1][0].hist(iris['petal.length'])
ax[1][0].set_title('Lunghezza del sepalo')
ax[1][1].hist(iris['petal.width'])
ax[1][1].set_title('Larghezza del sepalo')

Come vedi, i dati non sono tutti nello stesso intervallo, e non hanno neanche la stessa media:

In [None]:
np.mean(iris['sepal.length']), np.mean(iris['sepal.width']), np.mean(iris['petal.length']), np.mean(iris['petal.width'])

Le reti neurali imparano meglio se i dati sono tutti normalizzati in uno stesso intervallo, perché così nessuno caratteristica è favorita semplicemente per la scelta del valore. Inoltre, avendo a che fare con float, l'intervalli intorno all' 1 (o -1) hanno sempre una precisione migliore.

La scelta della normalizzazione dipende un po' dal problema. Sono comuni la normalizzazione all'intervallo [0, 1], che si ottiene dalla relazione:  

$\frac{x - \min}{\max - \min}$

Un'alternativa, che useremo qui, è di sottrarre la media (che centra la distribuzione in 0) e dividere per la deviazione standard:  

 $\sigma = \sqrt(<x^2>-<x>^2)$
 
In pratica l'espressione sotto radice è la differenza tra la media dei quadrati e il quadrato della media, e dà un'indicazione di quanto i dati siano lontani dalla media. Vediamo in pratica:

In [None]:
dati = np.stack((iris['sepal.length'], iris['sepal.width'], iris['petal.length'], iris['petal.width']))
dati.shape

In [None]:
mean = np.mean(dati, axis=1, keepdims=True)
std = np.std(dati, axis=1, keepdims=True)
dati_norm = (dati - mean)/std

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(15, 15))
ax[0][0].hist(dati_norm[0])
ax[0][0].set_title('Lunghezza del sepalo')
ax[0][1].hist(dati_norm[1])
ax[0][1].set_title('Larghezza del sepalo')
ax[1][0].hist(dati_norm[2])
ax[1][0].set_title('Lunghezza del sepalo')
ax[1][1].hist(dati_norm[3])
ax[1][1].set_title('Larghezza del sepalo')

Anche i dati *target* (le classi) devono essere elaborati, soprattutto considerando che sono delle stringe. Useremo la mappatura:

In [None]:
mapping = {'Setosa':-1, 'Versicolor': 0, 'Virginica': 1}
y = np.array([mapping[value] for value in iris['variety']])

Infine, non vogliamo che la nostra rete impari solo a classificare i dati che ha visto durante l'allenamento, ma che possa poi generalizzare a dati non visti. Dividiamo dunque il nostro dataset in dati per l'allenamento (training) e test (20%).

In [None]:
x_train = np.concatenate([dati[:, :40], dati[:, 50:90], dati[:, 100:140]], axis=1)
y_train = np.concatenate([y[:40], y[50:90], y[100:140]])
x_test = np.concatenate([dati[:,40:50], dati[:,90:100], dati[:,140:150]], axis=1)
y_test = np.concatenate([y[40:50], y[90:100], y[140:150]])

In [None]:
x_train.shape, y_train.shape, x_test.shape, y_test.shape

Ora alleniamo la rete

In [None]:
network = ReteNeurale(4)
loss = {}
accuracy = {'train':{}, 'test': {}}
n_epochs = 1000
for epoch in tqdm.tqdm(range(n_epochs)):
    for indice in range(x_train.shape[1]):
        y_pred = network.predict(x_train[:, indice])
        loss.update({epoch+1: network.loss(y_pred, y_train[indice])})
        network.backwards(y_pred, y_train[indice])
        
    accuracy_epoch_train = 0
    for indice in range(x_train.shape[1]):
        y_pred = network.predict(x_train[:, indice])
        accuracy_epoch_train += 1 if np.abs(y_pred-y_train[indice])[0] < 0.5 else 0.0
    accuracy_epoch_train /= x_train.shape[1]
    accuracy['train'].update({epoch+1: accuracy_epoch_train})
    
    accuracy_epoch_test = 0
    for indice in range(x_test.shape[1]):
        y_pred = network.predict(x_test[:, indice])
        accuracy_epoch_test += 1 if np.abs(y_pred-y_test[indice])[0] < 0.5 else 0.0
    accuracy_epoch_test /= x_test.shape[1]
    accuracy['test'].update({epoch+1: accuracy_epoch_test})

In [None]:
fig, ax = plt.subplots(3,1, figsize=(10, 30))
ax[0].scatter(loss.keys(), loss.values())
ax[1].scatter(accuracy['train'].keys(), accuracy['train'].values())
ax[2].scatter(accuracy['test'].keys(), accuracy['test'].values())