# Esercitazione 11: fit di funzioni con reti neurali
In questa esercitazione abbiamo sfruttato ed esplorato le potenzialità delle reti neurali per eseguire il fit di alcune funzioni, sperimentando con diverse combinazioni dei parametri che caratterizzavano i dati e la rete.

In generale, siamo partiti da dati nella forma
$$
y_i=f(x_i)+\eta_i
$$
dove $x$ è la variabile indipendente, $y$ quella dipendente, $f(x)$ la funzione di cui si prova a fare la regressione e $\eta$ è un rumore gaussiano $\sim \mathcal{N}(0,\sigma^2)$.

## Esercizio 11.1
In questa sezione proviamo a eseguire il fit di una funzione lineare:
$$
f(x)=2x+1
$$
per $x\in[-1,1]$. Per questo compito è sufficiente un solo neurone. Proviamo a valutare come la bontà del fit dipenda da una serie di parametri:
- il numero di epoche di training del modello $N_{epoch}$
- il numero di dati di training $N_{train}$
- il rumore sui dati $\sigma$

Per esplorare la dipendenza da tali parametri siamo partiti dai valori fornitici ($N_{epoch}=30,\ N_{train}=500,\ \sigma=0.2$) e li abbiamo aumentati e diminuiti uno per uno, mantendendo gli altri fissati. La valutazione del risultato è affidata a una funzione di costo (scarto quadratico medio). Possiamo inoltre confrontare le previsioni del modello con la retta originaria e i rispettivi parametri (peso e bias del neurone, coefficiente angolare e termine noto della retta).
In tutti i casi abbiamo mantenuto un rapporto di $10:1$ tra il numero di dati di training e di validazione.

Riportiamo i risultati ottenuti con i parametri iniziali:
<table><tr>
<td> <img src="img/11.1/Loss_30_500_02.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_30_500_02.png" alt="Drawing"/> </td>
</tr></table>
I parametri ottenuti sono $m=1.9041$, $b=0.9761$.
Questa regressione è accettabile ma può essere migliorata.

### Numero di epoche
$N_{epoch}=8,\ N_{train}=500,\ \sigma=0.2$. Parametri ottenuti: $m=1.2120$, $b=0.8967$
<table><tr>
<td> <img src="img/11.1/Loss_8_500_02.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_8_500_02.png" alt="Drawing"/> </td>
</tr></table>
$N_{epoch}=300,\ N_{train}=500,\ \sigma=0.2$. Parametri ottenuti: $m=2.0217$, $b=0.9777$
<table><tr>
<td> <img src="img/11.1/Loss_300_500_02.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_300_500_02.png" alt="Drawing"/> </td>
</tr></table>

Come ci si può aspettare, $8$ epoche non sono sufficienti per allenare la rete. $300$ sono evidentemente troppe (la funzione di costo non diminuisce percettibilmente dopo la caduta iniziale) ma il fit è effettivamente più preciso.

### Numero di dati
$N_{epoch}=30,\ N_{train}=100,\ \sigma=0.2$. Parametri ottenuti: $m=0.8469$, $b=0.8790$
<table><tr>
<td> <img src="img/11.1/Loss_30_100_02.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_30_100_02.png" alt="Drawing"/> </td>
</tr></table>
$N_{epoch}=30,\ N_{train}=2500,\ \sigma=0.2$. Parametri ottenuti: $m=1.9913$, $b=0.9950$
<table><tr>
<td> <img src="img/11.1/Loss_30_2500_02.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_30_2500_02.png" alt="Drawing"/> </td>
</tr></table>
Come ci si può aspettare, avere molti dati garantisce un fit più preciso. Si segnala però che con $N_{train}=100$ i parametri che si ottengono sono molto variabili di simulazione in simulazione. Questi probabilmente dipendono in maniera significativa dal rumore dei punti, che essendo così pochi potrebbero essere distribuiti asimmetricamente rispetto alla retta e suggerire una pendenza errata.

### Rumore sui dati
Riportiamo una visualizzazione dei $N_{valid}=50$ dati prodotti per $\sigma=0.01,\ 0.2,\ 2$ per avere un'idea della loro dispersione rispetto alla funzione originale
<table><tr>
<td> <img src="img/11.1/valdata.png" alt="Drawing" style="width: 150px;"/> </td>
</tr></table>

$N_{epoch}=30,\ N_{train}=500,\ \sigma=0.01$. Parametri ottenuti: $m=1.9431$, $b=0.9981$
<table><tr>
<td> <img src="img/11.1/Loss_30_500_001.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_30_500_001.png" alt="Drawing"/> </td>
</tr></table>
$N_{epoch}=30,\ N_{train}=500,\ \sigma=2$. Parametri ottenuti: $m=2.1253$, $b=0.7836$
<table><tr>
<td> <img src="img/11.1/Loss_30_500_2.png" alt="Drawing"/> </td>
<td> <img src="img/11.1/predict_30_500_2.png" alt="Drawing"/> </td>
</tr></table>

Anche in questo caso i risultati coincidono con le aspettative: se i dati di validazione sono più precisi il fit è migliore. Con deviazione standard grande il modello tende invece ad overfittare i dati.

## Esercizio 11.2
Vogliamo eseguire il fit di una funzione polinomiale più complicata:
$$
f(x)=4-3x-2x^2+3x^3
$$
per $x \in [-1,1]$. A questo scopo sperimentiamo diverse disposizioni di neuroni che potrebbero essere più o meno efficaci.
Abbiamo scelto $N_{train}=5000$, $N_{valid}=500$, $\sigma=0.2$, $N_{epoch}=80$. Vengono qui rappresentati i punti del set di validazione:
![alt_text](img/11.2/valdata.png "")

Come prima opzione abbiamo considerato un unico layer con numero di neuroni $N={4,8,48,96,250}$. La struttura della rete è quindi $1|N|1$. Mostriamo l'andamento della funzione di costo e della predizione restituita dal modello (estesa anche all'intervallo $[-1.5,1.5]$) in due immagini animate:

- Funzione di costo
![SegmentLocal](img/11.2/cost_line.gif "segment")
- Predizioni del modello
![SegmentLocal](img/11.2/predict_line.gif "segment")

Si osserva che all'aumentare dei neuroni il fit diventa via via più preciso, ma non migliora più di tanto da $N=48$ neuroni in poi. La capacità di predire il valore della funzione al di fuori dell'intervallo originale è piuttosto limitata.

Abbiamo poi considerato di costruire una rete più profonda e con meno neuroni per ogni layer: la struttura considerata è $1|4|4|4|4|4|1$.
- Funzione di costo
![alt_text](img/11.2/loss_stretch.png "")
- predizione del modello
![alt_text](img/11.2/predict_stretch.png "")
Il fit è discreto ma la capacità predittiva fuori dall'intervallo è fortemente limitata.

Infine abbiamo considerato un network con più neuroni per layer, ma meno profondo di quello precedente: la struttura è $1|8|10|10|10|10|1$.
- Funzione di costo
![alt_text](img/11.2/loss_rect.png "")
- predizione del modello
![alt_text](img/11.2/predict_rect.png "")
In questo caso il fit è piuttosto buono, ma ancora una volta la capacità predittiva fuori dall'intervallo è scarsa.

_I risultati di questa sezione sono prodotti con il codice in Esercizio11.2.ipynb_

## Esercizio 11.3
Proviamo infine ad eseguire il fit di una funzione trigonometrica in due variabili:
$$
f(x,y)=\sin(x^2+y^2)
$$
per $x,y\in[-1.5,1.5]$. Abbiamo mantenuto $\sigma=0.2$ ma aumentato il numero di dati di training a $N_{train}=10^4$. La struttura utilizzata è nella forma $2|35|25|20|1$. Si rappresenta qui la superficie individuata dalla funzione e i punti del set di validazione:
![alt_text](img/11.3/valdata.png "")
Visualizziamo ora un grafico della funzione di costo e una rappresentazione della differenza tra i punti predetti dal modello e la superficie.
<table><tr>
<td> <img src="img/11.3/Loss function.png" alt="Drawing"/> </td>
<td> <img src="img/11.3/diff_points_predicted.png" alt="Drawing"/> </td>
</tr></table>

Si nota che la zona in cui il modello fa più fatica a restituire predizioni accurate è negli "angoli" ($x,y\in [-3/2,-3/2+\epsilon]\bigcup[3/2-\epsilon,3/2]$) del dominio. In queste zone la risposta non è molto accurata. 

_I risultati di questa sezione sono stati prodotti con il codice in Esercizio11.3.ipynb_