# RNN

Le **recurrent neural netowrk** sono utilizzato quando i dati che abbiamo in input sono dati dipendenti in modo sequenziale. Nel senso, se il 
dato $2$ è dipendente dal dato $1$, allora il dato $3$ sarà dipendente dal dato $2$ e così via. Ok, in questi casi 
non si utilizzano le **FFN** ma le **RNN**

![rnn](https://machinelearningmastery.com/wp-content/uploads/2021/09/rnn1-1024x484.png)

Praticamente, vediamo che $x_t$ sarebbe l'input al tempo $t$, $h_t$ possiamo chiamarlo il **contesto corrente**, cioè dipende dal valore delle unità nascoste al tempo $t$. $y$ ovviamente è l'output, con $t$ per indicare al tempo $t$.

La rappresentazione di sotto, invece, mostra il processo in modo lineare. Questo è il concetto base delle reti neurali ricorrenti.

**Nota:** L'ultimo livello è un livello di feedforward per ottenere l'output.

I valori nascosti $h$ si calcolano in questi modo:

$$ h_t+1 = f(x_t, h_t, w_x, w_h, b_h) = f(w_x x_t + w_h h_t + b_h) $$

L'output invce:

$$y_t = f(h_t, w_y) = f(w_y h_t + b_y)$$

### Quali funzioni di attivazione si usano?

- **TanH**
- **Sigmoid**
- **ReLU**



### Tipi di RNN

- **One to One**: pratiacmente si tratta di una FFN
- **One to Many**: si tratta di una RNN che prende in input un solo dato e restituisce una sequenza di dati. Si usa nella generazione di musica, ad esempio.
- **Many to One**: Si usa nella sentiment analysis, dove si prende un testo formato da tante parole e poi si vuole tirare fuori una label da questo
- **Many to Many**: Si usano per la machine translation

### Problemi

- Molto lenta
- Non impara robe nuove
- Sparizione del gradiente: se il gradiente è molto piccolo, allora il modello non impara più niente. Questo è un problema che si risolve con le **LSTM**.



# LSTM

Le LSTM risolvono il problema della **sparizione del gradiente**.

Ad esempio, la frase "Io sono della francia, ... , parlo benissimo il francese". L'informazione che sono della Francia per le RNN sarebbe difficile da mantenere perché si trova più indietro nel discorso. Nelle LSTM, questo non avviene.


Struttura di una RNN:

![rnn](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-SimpleRNN.png)

Struttura di una LSTM:

![lstm](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-chain.png)

![OPERAZIONI](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM2-notation.png)

Vediamo ogni parte della LSTM per capire come funziona.

**Nota: $C_{t-1}$ e $C_t$ sarebbe lo stato della cella**

**Parte di sopra**: Il **sigmoid layer** $\sigma$ praticamente da in output un numero da 0 a 1 e aiuta a dire **quanto deve passare** di informazione al prossimo layer. Con $0$ indica CHE NON PASSA NIENTE, con $1$ indica che PASSA TUTTO. Questo si chiama il **forget gate**.

Analizziamo ora il workflow in basso. Praticamente, pensiamo ad un esempio in cui vogliamo fare predizioni di parole.

Se vogliamo usare i pronomi corretti per una persona sapendo il suo sesso, se ne leggiamo un'altra di persona dobbiamo usare i pronomi corretti per l'altra persona.

![lstm](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-f.png)


Il prossimo livello si occupa di capire quali dati dare in input. Il primo è un input gate layer $\sigma$ e poi abbiamo $tanh$ layer che praticamente 
ci da un vettore di che contiene valori possibili da assegnare al prossimo livello. 

![aaa](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-i.png)

Ora per aggiornare la cella $C_t$ basta moltiplicare il vettore $i_t$ per il vettore $C_t$ e sommare il risultato al vettore $f_t$ per il vettore $C_{t-1}$.

Adeso praticamente manca solamente cosa outputtare.

![aaa](https://colah.github.io/posts/2015-08-Understanding-LSTMs/img/LSTM3-focus-o.png)

Si utilizza un'altra $\sigma$ sigmoid che decide quale parte dello stato della cella si andrà a outputtare, si fa passare anche lo stato da una $tanh$ per ottenere valori tra $-1$ e $1$ e si moltiplicano questi valori, per ottenere il vettore di output.

Questo è il funzionamento diciamo delle reti LSTM. Ovviamente, ci sono tanti altri tipi di LSTM, ma questo è il funzionamento base.
