# Esempio mio di Variational Autoencoder

Innanzitutto diciamo che un Autoencoder è una particolare architettura delle reti neurali che prevede l'utilizzo di due
modelli precisi.
  
- Encoder
- Decoder

L'encoder è un modello che prende in input un vettore di dati e lo trasforma in un vettore di dimensione inferiore.
Il decoder invece prende in input il vettore di dimensione inferiore e lo trasforma in un vettore di dimensione superiore.

L'obiettivo è quello di fare in modo che il vettore di dimensione inferiore sia una rappresentazione compressa del vettore
di dimensione superiore e che il decoder sia in grado di ricostruire il vettore di dimensione superiore a partire dal
vettore di dimensione inferiore.



## Problemi negli Autoencoder

Il problema principale degli autoencoder è che la rappresentazione compressa del vettore di dimensione superiore non è
necessariamente una rappresentazione significativa. Infatti, se l'encoder e il decoder sono due modelli lineari, la
rappresentazione compressa sarà una combinazione lineare dei dati di input. Questo significa che se i dati di input
non sono linearmente indipendenti, la rappresentazione compressa non sarà significativa.

Ad esempio, se consideriamo ciò che viene fuori dall'encoder come **spazio latente**, due punti che sono vicini all'interno 
dello spazio latente non sono necessariamente vicini all'interno dello spazio originale. 

Il problema è che i dati non seguono una distribuzione normale, ma seguono una distribuzione che è molto più complessa
di una distribuzione normale. Questo significa che non è possibile utilizzare un encoder lineare per comprimere i dati
in un vettore di dimensione inferiore e ottenere una rappresentazione significativa.

# VAE

I variational autoencoder risolvono questo problema.

## Riduzione della dimensionalità

![VAE](https://miro.medium.com/v2/resize:fit:2000/format:webp/1*UdOybs9wOe3zW8vDAfj9VA@2x.png)

Principalmente ci basiamo sul concetto di PCA (Principal Component Analysis) che è un algoritmo di riduzione della
dimensione che seleziona le feature più significative di un dataset. Praticamente è il task che viene fatto
dall'encoder.

### Come funziona la PCA

Consideriamo dei punti all'interno dello spazio latente, la PCA punta a voler generare **nuovi punti** partendo dai precedenti, ma lo fa in modo 
intelligente. Praticamente prende dei punti nello spazio latente che sono combinazione lineare dei vecchi punti tale che la proiezione
dei vecchi punti nel sottospazio definitio dalle nuove feature è la minore possibile.

![PCA](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*ayo0n2zq_gy7VERYmp4lrA@2x.png)

## VAE in gioco

Il motivo principale per cui i VAE sono così potenti è che non sono limitati a generare nuovi punti nello spazio latente. Al contrario, due punti come detto prima nello spazio latente degli autoencoder base potrebbero essere punti senza senso. Come funzionano quindi?


Entrano in gioco i **regularizers** durante la fase di addestramento. 

Non solo, però. Oltre ad introdurre questo, **non consideriamo l'encoding dell'input come singolo punto**, bensì lo facciamo come **una distribuzione sullo spazio latente**

Workflow:

1. Si fa encoding del punto come una distribuzione
2. Si fa sampling dalla distribuzione e si prende un punto
3. Il punto viene decodificato
4. Si calcola l'errore per allenare la rete


## La parte di regolarizzazione


I punti devono essere **continui** cioè due punti vicini devono essere simili e **completi**, cioè un punto estratto da una distribuzione deve essere effettivamente con del contenuto valido, e non un punto senza senso.


## La loss


La funzione di loss per calcolare l'erorre sfrutta la **KL divergence** che è una misura di quanto due distribuzioni siano simili.

$$ \sum_i^n \sigma^2 + \mu^2 - \log \sigma - 1 $$
