### Quantizzazione in PyTorch

+ quantizzazione
    + tecnica di compressione per reti neurali
    + consente di ridurre le dimensioni di una rete neurale profonda e di velocizzare la sua esecuzione
        + meno memoria richiesta per memorizzare la rete
        + meno tempo richiesto per inferire un risultato
    + è una tecnica semplice ed economica dal punto di vista computazionale
        + forse a significare che non sia richiesto troppo tempo per quantizzare un modello

+ la quantizzazione, nell'ambito del deep learning, si riferisce alla riduzione della precisione numerica con cui vengono rappresentati i pesi e le attivazioni
    + ad esempio si trasformano tutti i numeri rappresentati in formato float a 16 bit in interi ad 8 bit
        + risparmio sicuro in termini di spazio
        + ma anche perdita dell'accuratezza
    + la perdita di precisione di un modello quantizzato può essere minima rispetto al modello di riferimento (cioè lo stesso modello ma non quantizzato)
        + però si guadagna in termini di occupazione di memoria
            + è richiesto uno spazio da 2 a 4 volte inferiore rispetto al rifermento
        + ci si guadagna in termini di costo computazionale
            + inferenze fino a 5 volte più veloci rispetto al modello di riferimento
+ la quantizzazione porta quindi ad ottenere un modello più piccolo e che funziona in maniera più efficiente
    + l'hardware moderno consente di eseguire operazioni su dati ad 8 bit più velocemente (rispetto a dati a 32 bit)
        + ne risulta un throughput (numero di operazioni per unità di tempo) più elevato nel caso 8 bit
    + un modello più piccolo richiede meno memoria e porta a consumi minori di energia
        + quindi un modello più adatto ad essere eseguito su dispositivi con risorse limitate (resource-constrained)

+ Mapping function
    + si tratta di una funzione che ad ogni valore float fa corrispondere un valore intero ($Q \colon \mathbb{R} \to \mathbb{Z}$)
    + viene comunemente ustilizzata la seguente funzione $Q(r) = round(r/S + Z)$
        + r rappresenta il valore di input
        + S e Z rappresentano i parametri di quantizzazione 
    + la riconversione di un valore intero (quantizzato) nel corrispondente valore float avviene per mezze della funzione seguente
        + $\tilde{r} = (Q(r) - Z) \cdot S$
        + in generale risulterà che $r \ne \tilde{r}$ e dunque che $r - \tilde{r} \ne 0$
            + la differenza fra di essi (cioè $r - \tilde{r}$) prende il nome di errore di quantizzazione

+ Parametri di quantizzazione
    + la funzione $Q(r)$ dipende da due parametri, quali S e Z, detti parametri di quantizzazione
    + S prende il nome di fattore di scala (o scaling factor)
        + definito come $S = \frac{\beta - \alpha}{\beta_q - \alpha_q}$
            + dove $[\alpha, \beta]$ è l'intervallo dei possibili valori di input (float) ed $[\alpha_q, \beta_q]$ è l'intervallo dei possibili valori discreti nello spazio quantizzato
            + nel caso caso della quantizzazione ad 8 bit, per l'intervallo di uscita, si avrà $\beta_q - \alpha_q \le (2^8 - 1)$  
    + Z prende il nome di punto zero (o zero-point)
        + serve a fare in modo che al valore 0 nello spazio dei valori di input (un intervallo di valori reali) corrisponda esattamento il valore 0 nello spazio dei valori discreti di uscita (lo spazio quantizzato)
        + $Z = - \left(\frac{\alpha}{S} - \alpha_q \right)$  

**Processo di calibrazione per la stima dei valori S e Z da approfondire meglio**