# Neural Networks
- I calcolatori riescono a risolvere problemi che non sono facilmente risolvibili con algoritmi tradizionali
    - Riordinare alfabeticamente una lista di utenti
    - Calcolare la media annuale di incassi per ogni categoria di prodotto
    - ...
- Tuttavia fanno molta difficoltà con task molto semplici per un umano
    - Riconoscere una recensione positiva o negativa
    - Interpretare testo e discorso
- In generale è veramente difficile per i calcolatori riconoscere pattern di alto livello in dati non strutturati (testo, foto, audio, ecc.).

## Limitazioni del Machine Learning tradizionale
- Alla base di un buon modello di ML vi è sempre un **training set appropriato**.
    - Centinaia di migliaia di esempi sono richiesti
    - Nel learning supervisionato occorre aggiungere delle label agli esempi manualmente. I dati sono stati prodotti durante gli anni ma prima dell'avvento del machine learning nessuno avrebbe pensato di aggiungere delle label.
- I modelli di ML hanno bisogno di una **rappresentazione dei dati** appropriata.
    - La maggior parte dei modelli di ML hanno bisogno di una rappresentazione dei dati sottoforma di vettori di numeri reali.
    - Le feature (ogni elemento del vettore) devono essere significative per il task che si vuole risolvere, cioè devono essere scelte correttamente.
- Un modello addestrato è valido solo per il task per cui è stato addestrato, non vi è modo di fare **generalizzazione** facilmente. 
    - Un modello addestrato a classificare immagini di gatti non può essere usato per classificare immagini di cani.

## Neural Networks
- Le reti neurali sono un tipo di modello di ML che cerca di risolvere i problemi sopra elencati.
- Sono ispirate al funzionamento del **cervello umano**.
    - Sono composte da **neuroni** artificiali che sono collegati tra loro in grandissime reti.
    - Ogni neurone è attivato da quelli a cui è collegato quando la loro attivazione supera una certa soglia misurata in peso e thresholds.
- L'idea alla base di una NN è quella di computare una funzione $\mathbf{y} = f(\mathbf{x})$ dove $\mathbf{x}$ è un vettore di input e $\mathbf{y}$ è un vettore di output.
- Può essere usato per risolvere problemi tradizionali come la classificazione e predizione.
    - Nel caso della classificazione, su $N$ classi di output, il modello restituisce un vettore di dimensione $N$ con la probabilità che l'istanza appartenga a ciascuna delle $N$ classi.

### Nodi
- Come anticipato le reti neurali sono composte da **neuroni** o **nodi**
- In ogni momento un neurone $n$ emette un valore $y_n = f_n(\mathbf{x})$ con $\mathbf{x} = (x_1, \dots, x_m)$ calcolato sui valori di $x$ forniti in input dai neuroni a cui è collegato.  
Quanto detto è riassunto nella seguente figura

<img src="imgs/neuron.PNG" alt="neurone" width=400>

- Ogni input $x_i$ è ricevuto esattamente da un nodo (l'$i$-esimo) e ogni nodo può spedire il proprio $y_n$ a più neuroni a cui è collegato.
- Questa operazione apparentemente semplice di calcolo di $y_n$ consente di comprendere relazioni molto profonde fra gli input.

### Layers
- I nodi sono tipicamente arrangiati in **layers** (strati) e ogni layer è composto da un certo numero di nodi. L'insieme dei layer costituisce una rete neurale.
    - Inizialmente i layer erano tipicamente tre:
        - **Input layer**: riceve gli input e li passa al layer successivo
        - **Hidden layer**: riceve gli input dal layer precedente e li passa al layer successivo
        - **Output layer**: riceve gli input dal layer precedente e restituisce l'output della rete neurale


        <img src="imgs/layers.PNG" alt="layers" width=500>
    
    - Ad oggi si è capito che con delle **reti neurali profonde** cioè composte da decine e decine di layer si ottengono risultati migliori.
- Gli input del layer $l$ sono tutti gli output degli $l-1$ layer precedenti.
    - Il primo layer è quello che riceve dati grezzi (non necessariamente devono seguire qualche pattern o essere strutturati).
    - Poi vengono posti degli hidden layer in mezzo che eseguono delle computazioni su quei dati per trovare degli eventuali pattern.
    - Infine è posto un layer di output che restituisce il risultato della computazione. 
        - Questo può cambiare in base al task che si vuole risolvere. Ad esempio nel caso della classificazione questo layer avrà tanti nodi quante sono le classi in cui si vuole classificare l'input e restituirà la probabilità che l'input appartenga a ciascuna delle classi.

- L'architettura appena vista è detta **multi-layer perceptor** (MLP) ed è la più semplice architettura di rete neurale.

### Funzione dei nodi
- Come già detto i nodi eseguono una computazione $f$ sugli input che ricevono. 
- Questa funzione non è altro che una somma pesata fra il prodotto degli input e dei pesi e un threshold. 
- In particolare dato un vettore di input $\mathbf{x} \in \mathbb{R}^d$, sia l'output scalare $y_j$ del nodo $j$
$$
    y_i = \sigma_j \left( \sum_{i=1}^d w_{j,i} \cdot x_i + b_j \right)
$$

- il peso che ha l'arco che collega il nodo $i$ al nodo $j$, chiamato $w_{j,i}$ 
- lo moltiplichiamo per il valore di input $x_i$ corrispondente 
- la somma di tutti i prodotti pesati degli input è sommata a un valore $b_j$ chiamato **bias**. Questo bias consente ai neuroni di apprendere la tendenza generale dei dati e di adattarsi a diverse situazioni. Aggiungendo un bias, la rete neurale ha la capacità di imparare relazioni non lineari tra gli input e l'output desiderato.
- Infine il risultato della somma è passato ad una funzione $\sigma_j$ chiamata **funzione di attivazione** che restituisce l'output del neurone $j$.
- Questa notazione scalare può essere sintetizzata nella seguente 
$$
    y_i = \sigma_j \left( \mathbf{W} \cdot \mathbf{x} + b_j \right)
$$
dove $\mathbf{W}$ è il vettore dei pesi e $\mathbf{x}$ è il vettore degli input.

 - Le reti neurali dunque vanno progressivamente a migliorarsi andando a calibrare meglio i pesi della matrice $\mathbf{W}$ e il bias $b_j$.

 #### Funzioni di attivazione
 - Esistono diverse funzioni di attivazione per i neuroni
    - tipicamente è più sensato usare funzioni non lineari poiché consentono di apprendere relazioni più complicate fra i dati.
- Le funzioni sono
    - **Step function** usata nelle prime reti neurali, ma essendo lineare ormai non più usata. Nella sua versione più semplice funziona come segue
    $$
        \sigma(x) = \begin{cases}
            1 & \text{se } x \geq \text{soglia} \\
            0 & \text{altrimenti}
        \end{cases}
    $$
    - **Sigmoid function** ad oggi è forse una delle più utilizzate. 
        - è una funzione non lineare che ha un output compreso fra 0 e 1. 
        - è una versione continua e più soft della step function
        - la sua formulazione è la seguente 
        
    $$
        \sigma(x) = \frac{1}{1 + e^{-x}}
    $$


## Come addestrare le reti neurali
- Occorre come prima cosa avere dei dati etichettati della forma $(\mathbf{x}_i, \mathbf{g}_i)$ dove
    - $\mathbf{x}_i$ è un vettore di input fornito alla rete
    - $\mathbf{g}_i$ è un vettore di output che ci si aspetta venga restituito dalla rete neurale (per guidarla a capire cosa deve fare)
- Per ogni input $\mathbf{x}_i$ la rete neurale restituisce un vettore $\mathbf{y}_i$ che è la sua predizione.
- L'obbiettivo della rete è quello di **minimizzare la differenza* fra $\mathbf{y}_i$ e $\mathbf{g}_i$ per ogni $i$.
- Per fare ciò si usa una funzione di costo chiamata **loss** $C(\mathbf{y}_i, \mathbf{g}_i)$ che misura la differenza fra i due vettori.
    - Si calcola su ogni **batch** di training. Un batch è un sottoinsieme dei dati di training che viene usato per addestrare la rete. 
    - Esistono diverse funzioni di loss che servono a misurare l'accuratezza del modello
    - La più semplice è l'**errore quadratico medio** (MSE)
    $$
        \text{MSE} = \frac{1}{2N} \sum_{i=1}^N \vert \vert \mathbf{y}_i - \mathbf{g}_i \vert \vert^2
    $$
    - Si può tenere traccia della loss ad ogni iterazione di training e plottarla per vedere se il modello sta migliorando o meno.
        <img src="imgs/loss.PNG" alt="loss-epoch" width=300>
    - La modalità con cui si minimizza l'errore è chiamata **back-propagation** o discesa del gradiente. È lo stesso approccio usato nel caso della regressione: si calcola una funzione d'errore e si cerca di minimizzarla.

### Limiti delle reti feed forward
Le reti trattate fino ad ora vengono definite **feed forward** poiché l'informazione fluisce in una sola direzione, da sinistra verso destra. Questo tipo di reti hanno dei limiti:
- Non consentono di mantere memoria di ciò che è stato visto in precedenza (lo stato).
    - Ad esempio se si vuole comprendere il significato di un testo l'ordine delle parole è importante. Con le reti feed-forward questo non si riesce a fare

## Reti neurali ricorrenti (RNN)
Queste reti introducono il concetto di **ciclo**. Ogni layer non solo può inviare il proprio output ai layer successivi ma anche a se stesso. In questo modo si riesce a mantenere lo stato e a comprendere l'ordine delle cose.
- In altre parole si possono avere cicli 
- I cicli consentono di processare informazioni ottenute in momenti differenti
- Le informazioni processate in un ciclo costituiscono uno **stato interno** della rete
- L'output di un nodo è funzione sia dll'input che dello stato interno
- Tutto questo consente di effettuare **processazioni context-dependent**
    - ad esempio predire la prossima parola in un testo richiede la conoscenza di tutte le parole precedenti.

In poche parole lo schema è il seguente 

<img src="imgs/rnn.PNG" alt="rnn" width=180>

dove nell'hidden layer è presente un ciclo con un **neurone di contesto** che mantiene lo stato.

- Le **context unit** propagano lo stato attraverso un arco di peso $\mathbf{U}$ all'hidden layer (insieme all'input) e questo viene usato per calcolare l'output del neurone all'iterazione corrente. 
    - Se definiamo la sequenzialità come la sequenza di $t_0 \rightarrow t_1 \rightarrow \dots \rightarrow t_n$ allora l'output del neurone $j$ all'iterazione $t$ è dato da
    $$
    \mathbf{h}_t = \sigma_t \left( \mathbf{W} \cdot \mathbf{x}_t + \mathbf{U} \cdot \mathbf{t}_{t-1} + \mathbf{b} \right)
    $$
    
## Attention

Ad un certo punto ci si è resi conto che le RNN funzionavano molto bene per task di traduzione automatica del testo basati su un'architettura **encoder-decoder** e reti neurali ricorrenti che funzionava come segue
- Una rete chiamata **encoder** prendeva in input una frase in una lingua e la codificava in un vettore di dimensione fissa
- Una rete chiamata **decoder** prendeva in input l'output dell'encoder e restituiva una sua rappresentazione in lingua inglese

Tuttavia questa architettura faceva difficoltà a tenere in memoria frasi molto lunghe. Questo portava poi il decoder a fare una conversione solo di una parte del testo, sbagliando il risultato finale. Su questo è nato il meccanismo di **attention** che semplicemente consiste nel dare un peso maggiore alle parole più importanti di una frase. In questo modo il decoder può concentrarsi su quelle parole e ignorare le altre.
- L'idea pertanto è quella di fornire in input al decoder la somma pesata di tutti gli output dell'encoder ad ogni iterazione.
- I pesi assegnati alla sequenza in input vengono imparati durante l'addestramento da una rete neurale chiamata **attention layer** (o **alignment model**).


<img src="imgs/attention.PNG" alt="rnn" width=700>

In questa immagine vediamo 
- l'encoder che non è altro che una rete neurale ricorrente. In particolare infatti per ogni input fornito in sequenza temporale (prima $\mathbf{x}_0$ poi $\mathbf{x}_1$ e cosi via) i vari neuroni comunicano avanti e indietro (frecce arancioni e viola) per fornire un output.
- dall'altro lato il decoder, anch'esso RNN, all'iterazione 3 (vediamo infatti che sta calcolando $\mathbf{y}'_3$) prende in input tutti gli ouput dell'encoder, ne fa una somma pesata (i cui pesi vengono presi dall'allignment model (attention layer) a destra) e calcola l'output.

Supponendo di avere tante iterazioni del decoder quanti sono gli input dell'encoder (cioè la lunghezza dell'input $L$), allora dovremo calcolare circa $L^2$ pesi, poiché per ogni output del decoder dovremo calcolare la somma pesata di tutti gli output dell'encoder.

- Come si può vedere l'attention layer è una rete neurale feed forward che prende in input gli output dell'encoder e restituisce i pesi che verranno usati per calcolare la somma pesata. Abbiamo un neurone per ogni output dell'encoder e la modalità di calcolo dei pesi è la seguente (si basa s una funzione di **softmax**) che si calcola cosi
$$
\alpha_{(t,i)} = \frac{exp(e_{(t,i)})}{\sum_{j} exp(e_{(t,j)})}
$$

Esistono molti tipi di attention layer, fra cui
- **Concatenative Attention** calcolato come segue
    $$
    e_{(t,i)} = \mathbf{v}^T \tanh \left( \mathbf{W} \left[ \mathbf{h}_{(t)} ; \mathbf{y}(i) \right] \right)
    $$
    dove $\mathbf{v}$ è un parametro di scaling e ; è l'operatore di concatenazione.


- **Multiplicative Attention** che nasce per accellerare i calcoli della concatenative attention. Non usa più la tangente ed è ottimizzata per le matrici.
    $$
    e_{(t,i)} = \mathbf{h}_{(t)}^T \mathbf{W} \mathbf{y}(i)
    $$

- la più semplice è quella **dot-product** che calcola i pesi semplificando il prodotto matriciale per $\mathbf{W}$ come nel caso di multiplicative attention. Si calcola come segue
$$
e_{(t,i)} = \mathbf{h}_{(t)}^T \mathbf{y}(i)
$$


## Attention is all you need: Transformer
- Nel 2017 ci si è resi conto che le reti neurali ricorrenti non erano necessarie per il meccanismo di Attention. 
    - I layer ricorrenti generano dei problemi essendo poco ottimizzati per il calcolo parallelo. Infatti per ogni input devo aspettare che tutti gli input precedenti siano stati processati.
- Nasce cosi il modello **Transformer** schematizzato nella seguente immagine

<img src="imgs/transformer.png" alt="" width=400>

- L'idea è quella di togliere le reti neurali ricorrenti ma mantenere l'attention
- Questo è ottenuto aggiungendo un layer chiamato **Multi-Head Attention** che non fa altro che calcolare l'attention dot product senza usare reti ricorrenti.
- A sinistra abbiamo un encoder e a destra un decoder.
- Possiamo avere più blocchi di questo tipo concatenati (da qui la notazione in figura Nx), in modo da avere una rete più profonda.

### Input di un transformer 
- Data una frase di $L$ parole scomposta nei rispettivi $L$ token, allora a ciascun token dovrò associare un **embedding**. Questo embedding è un vettore di dimensione $d$ che rappresenta il token.
    - Per ottenere un embedding si usa un layer chiamato **embedding layer** (in figura **input embedding**) che non è altro che un layer prende in input un token e restituisce il suo embedding. 
    - Questo layer combina tutti gli embedding in un'unica matrice $\mathbf{Z}$ di dimensione $L \times d$ dove $L$ è la lunghezza della frase.
        - Poiché $L$ è costante, se l'input dovesse essere più corto si aggiungono dei valori di padding
    - Il problema a questo punto è che la rete, non essendo più ricorrente, perde il concetto di *sequenzialità* ovvero non si riesce più a capire se un input viene prima o dopo di un'altro.
        - Per questa ragione è stato aggiunto un altro layer chiamato **positional embedding** che dice, per ogni token in input, qual'è la sua posizione nella frase.
        - Per fare questo il positional embedding calcola una nuova matrice $\mathbf{P}$ contenente questi positional embedding.
        - La matrice $\mathbf{P}$ può essere dedotta dalla retre stessa o calcolata a priori con la seguente formula: detta $i$ la posizione della parola nella frase e $j$ l'indice del word embedding, allora
        $$
            p_{i,j} = \begin{cases}
                \sin \left( \frac{1}{10000 \frac{j}{d}} \right) \quad \text{se } j \text{ è pari} \\
                \cos \left( \frac{1}{10000 \frac{j-1}{d}} \right) \quad \text{se } j \text{ è dispari}
            \end{cases}
        $$

- A questo punto, dunque, l'input di un **multi-head attention** è la matrice $ \mathbf{X} \in \mathbb{R}^{L \times d} = \mathbf{Z} + \mathbf{P}$
    - Questo layer calcola la Scaled Dot Product $h$ volte utilizzando pesi differenti, cioè proietto gli embeddings $h$ volte in maniera diversa ottenendo $h$ rappresentazioni diverse dell'input. Cioè la rete impara delle relazioni semantiche diverse in ognuno dei layer.
    - Una volta calcolati questi $h$ risultati vengono riconcatenati e, attraverso un layer lineare, riportati alla dimensione originale $L \times d$.
    
    <img src="imgs/multiheadatt.png" alt="" width=300>

    - Per calcolare la Scaled Dot-Product Attention, è necessario avere tre matrici ottenute applicando le seguenti trasformazioni a $\mathbf{X}$
    1. key $\mathbf{K} \in \mathbb{R}^{L \times d_k} = \mathbf{XW}_i^K, \quad \mathbf{W}_i^K \in \mathbb{R}^{d\times d_k}$
    2. query $\mathbf{Q} \in \mathbb{R}^{L \times d_k} = \mathbf{XW}_i^Q, \quad \mathbf{W}_i^Q \in \mathbb{R}^{d\times d_k}$
    3. value $\mathbf{V} \in \mathbb{R}^{L \times d_v} = \mathbf{XW}_i^V, \quad \mathbf{W}_i^V \in \mathbb{R}^{d\times d_v}$
    
    Il pedice $i$ indica che questi calcoli vengono fatti per ogni layer $h$ di multi-head attention, $i = 0,1, \dots, h-1$. Le dimensioni $d_k = d_v = \frac{d}{h}$ sono scelte in modo che il prodotto matriciale sia possibile.

    - Il calcolo della Scaled Dot-Product Attention è il seguente
    $$
    \text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax} \left( \frac{\mathbf{QK}^T}{\sqrt{d_k}} \right) \mathbf{V}
    $$
    Questo calcola la relazione che c'è fra ogni token della frase con ogni altro. Ad esempio dicendo "il gatto è nero e il cane abbaia" il modello capisce che "nero" è un aggettivo che si riferisce al gatto e non al cane.


    - Il costo computazionale per fare questa cosa è elevato poiché per ogni token devo calcolare la relazione con tutti gli altri. In particolare abbiamo 
        - in termini di tempo $O(L^2d)$
        - in termini di spazio $O(L^2 + Ld)$


## Bert Bidirectional Encoder Representations from Transformers

Dalla pubblicazione del modello **Transformer** nel 2017 si è capito quando fossero promettenti queste architetture. Il primo modello di successo effettivamente implementato, utilizzante questa architettura, è BERT.

- BERT è un transformer addestrato appositamente per il NLP.
- Gli autori introducono una fase di pre-addestramento self-supervised (senza bisogno di dati etichettati in modo da poter usare dataset enormi: corpus di miliardi di testi) su due task
    1. **Masked Language Modelling**: dato un testo in input si mascherano (nascondono) alcune parole (circa il 15% delle parole) con un token speciale [MASK], si chiede al modello di ricostruire le parole mancanti. 
        - Per valutare l'accuratezza del modello si usa il **cross entropy loss**. Detto $M$ il numero di token mascherati, $t$ i vettori one hot encoded relativi alle parole corrette e $p$ la probabilita che il modello assegni alla parola corretta, allora la loss è data da
        $$
        L_{MLM} = -\frac{1}{M} \sum_{i=1}^M \mathbf{t}_i \log \mathbf{p}_i
        $$
    2. **Next Sentence Prediction**: date due frasi in input, il modello deve capire se la seconda frase è la continuazione della prima. In questo caso l'errore è il **binary cross entropy loss**. Detta $y \in (0,1)$ l'indicatore della classe reale e $p$ il valore predetto
    $$
    L_{NSP} = -y (\log p + (1-y) \log (1-p))
    $$

### BERT input
- Rispetto all'input dei transformer cosi intesi come nel paper originale, BERT ha un input diverso. 
- dato un testo in input, il pre processing di questo testo per fornirlo in input al transformer è composto da tre embeddings
    
    - **Token embedding**: è l'embedding di ogni token della frase. Questo embedding è ottenuto da un embedding layer che prende in input il token e restituisce il suo embedding.
    - **Sentence embedding**: poiché posso introdurre un testo intero, questo layer restituisce degli embeddings che indicano a che frase fa riferimento ogni token
    - **Positional embedding**: come nel caso dei transformer, questo layer restituisce degli embeddings che indicano la posizione di ogni token nel testo.

    
    <img src="imgs/bertinput.PNG" alt="" width=500>

### BERT Training
- Hanno addestrato BERT su 800M di parole da BookCorpus e 2500M da Wikipedia.
- Per la fase di tokenizzazione ed embedding è stato utilizzato WordPiece.
- Le frasi avevano lunghezza $L$ di 512 token.
- Sono state implementate due versioni di BERT a seconda dei parametri usati
    - $\text{BERT}_\text{BASE}$: 12 layer, 768 hidden units, 12 attention heads, 110M parametri
    - $\text{BERT}_\text{LARGE}$: 24 layer, 1024 hidden units, 16 attention heads, 340M parametri

# Metric Learning ed Information Retrieval
- Il **metric learning** è un sottoinsieme del machine learning che si occupa di apprendere una funzione di distanza fra due oggetti.
    - In altre parole se ho un insieme di dati, potessi trasformarli in vettori e inserirli in uno spazio vettoriale detto **latente** (cioè non osservabile) tale per cui 
        - oggetti semanticamente simili fra loro sono vicini fra loro
        - dati dissimili vengono messi distanti
    - Se si riesce a fare questo altri problemi di ML diventano molto più semplici
        - la **classificazione** diventa un problema semplicissimo di nearest neighboor.
        - l'**information retrieval** si semplifica. Se voglio tutti i dati rilevanti per una determinata query mi sarà sufficiente calcolare la distanza fra la query e tutti i dati e restituire i più vicini.
- Esistono due tipologie di addestramenti, sulla base della nozione di **similarità semantica** (tipicamente etichette che classificano i dati in classi) fra dati
    - **Supervised Metric Learning**: Ogni dato è etichettato e appartiene ad una specifica classe. L'obbiettivo è quello di apprendere una funzione di distanza che avvicini dati della stessa classe e allontani dati di classi diverse.
    - **Weakly Supervised Metric Learning**: Non ho esattamente le etichette ma so che alcuni dati sono simili fra loro e altri no. Non so perché ma ho questa informazione. L'obbiettivo anche in questo caso rimane il medesimo

## Come costruire questo spazio latente
Occorre trovare un modello matematico che ci consenta di mappare i dati in uno spazio latente.
Per fare questo si usano strumenti come distanza di Mahalanobis.

### Distanza di Mahalanobis
- In uno spazio $\mathbb{R}^n$ per calcolare la vicinanza fra due vettori si usa la distanza euclidea.
- Un'alternativa è la **distanza di Mahalanobis** che è una generalizzazione della distanza euclidea.
    - Si vuole trovare una matrice di Mahalanobis $\mathbf{M}$ tale che, presi due elementi simili $a$ (ancora, cioè valore di riferimento), $p$ (positivo, cioè un elemento simile all'ancora) e uno dissimile $n$ (negativo), si abbia $d_M(a,p) < d_M(a,n)$ con $d_M$ distanza di Mahalanobis definita cosi
    $$
    d_M(x,y) = \sqrt{(x-y)^T \mathbf{M} (x-y)}
    $$
    - Ogni matrice di Mhalaobis può anche essere scritta nella forma $M = W^TW$ (poiché $M$ è semidefinita positiva), allora si ha che
    $$
    d_M(x,y) = \sqrt{(x-y)^T W^TW(x-y)} = \sqrt{(Wx - Wy)^T(Wx - Wy)} = \vert \vert Wx - Wy \vert \vert_2
    $$
    - Nel **deep metric learning** si usano delle reti neruali profonde (come Transformers) con pesi addestrabili $\theta$ che mi determinino una trasfmorazione $W_\theta$. 

Vediamo ad esempio che 
- nella figura (a) abbiamo lo spazio originale con tre tipologie di figure geometriche. 
- Nella figura (b) capiamo che la distanza euclidea (caso specifico di Mahalanobis) calcola la distanza fra due figure.
    - Il nostro obbiettivo è quello di "forzare" la distanza euclidea ad allontanare le figure dissimili e avvicinare quelle simili (punto (c)).
    - Per fare questo possiamo fornire in input a delle reti neurali profonde le nostre figure che calcolano degli embeddings (punto (d)) $W$ e addestrarle a fare in modo che questi pesi siano minori per figure simili e maggiori per quelle dissimili.
    - In questo modo la trasformazione $W$ ci consente di mappare i dati in uno spazio latente produce una suddivisione in classi simili degli oggetti (figura (e)).

<img src="imgs/metriclearning.PNG" alt="" width=500>

### Funzioni di Loss
- Abbiamo visto che tramite degli embeddings possiamo mappare i dati in uno spazio latente
    - in particolare calcolando una matrice di trasformazioni $W$ che ci consente di calcolare la distanza di Mahalanobis. 
    - Questa matrice è calcolata mediante **delle funzioni di loss** che forzino il modello ad avvicinare gli embedding di dati simili e allontanare quelli dissimili.
- Esistono diverse funzioni di loss
    - **Contrastive Loss**. Data una coppia di dati $(x_1, x_2)$ con rispettive etichette $y_1$ e $y_2$ che potrebbero essere ugali o meno (cioè non sappiamo se $y_1 = y_2$), la loss è definita come
    $$
        L = \mathbb{I}_{y_1=y_2} \vert \vert W_{\theta} x_1 - W_{\theta}x_2 \vert \vert_2^2 + \mathbb{I}_{y_1 \neq y_2} \max\left(0, \alpha - \vert \vert W_{\theta} x_1 - W_{\theta}x_2 \vert \vert_2^2 \right)
    $$
    dove $\mathbb{I}_A$ è la funzione indicatriceche vale 1 se la proposizione A è vera, 0 altrimenti. 
    - Pertanto la loss è composta da due termini
        - il primo termine è la distanza euclidea fra i due embedding, moltiplicata per un fattore $\mathbb{I}_{y_1=y_2} \neq 0$ solo se i due dati sono simili.
        - il secondo termine è il massimo fra 0 e la distanza euclidea fra i due embedding se i due dati sono dissimili.
    - Intuitivamente poiché voglio minimizzare la loss $L$ 
        - se $L = $ distanza tra due embeddings simili, minimizzandola otterrò una distanza minore fra i due embedding
        - se $L = $ distanza tra due embeddings dissimili, minimizzandola otterrò una distanza maggiore fra i due embedding. Questo perché tanto più vicini sono i due elementi nello spazio originale, quanto più i loro embeddings saranno distanti.
        Infatti la distanza euclidea al quadrato ($\vert \vert \cdot \vert \vert_2^2$) sarà molto prossima a 0 e dunque $\alpha - \vert \vert \cdot \vert \vert_2^2$ sarà molto grande, e poiché devo prendere il massimo fra quello e 0 prenderò quello. 
            - $\alpha$ è un iperparametro che indica la distanza minima che voglio fra due embedding di elementi dissimili. Tipicamente uguale a 1 o 0.1.
    - **Triplete Loss**. Funzione molto più efficiente, di contrastive loss (in essa infatti si confrontavano sempre due coppie di elementi, dunque si andava a visualizzare la distanza relativa fra i due elementi). In questo caso, infatti, piuttosto che considerare coppie di elementi, si agisce su delle triplette $x_a, x_p, x_n$ con $y_a = y_p \neq y_n$ (cioè i primi due sono simili mentre primo e terzo no).
        - Si cerca di minimizzare una loss fatta cosi
        $$
        L = \text{max}\left( 0, \vert \vert W_\theta x_a - W_\theta x_p \vert \vert_2^2 - \vert \vert W_\theta x_a - W_\theta x_n \vert \vert_2^2 + \alpha \right)
        $$
        - Due elementi sono considerati dissimili se la loro loss è maggiore di $\alpha$.

## Information Retrieval con Metric Learning
- L'obbiettivo dell'information retrieval è quello di trovare i documenti più rilevanti per una determinata query. 
- Formalmente data una query $S \in \mathbb{S}$ tra un insieme di documenti $\mathbb{T} = \left\{ t_1, t_2, \dots, t_n \right\}$
    - È necessario trovare una funzione **di ranking** $f(s,t)$ che restituisca uno score di similarità tra una query e un documento.
    - Tipicamente si ha $f(s,t) = g(\psi(s), \phi(t), \eta(s,t))$ dove
        - $\psi, \phi$ sono funzioni che estraggono le feature rispettivamente di query e documenti
        - $\eta$ è una funzione di interazione che modella le relazioni fra query e documento
    - Normalmente $\psi, \phi, \eta$ sono transformers (dunque definiti manualmente) e $g$ è un modello di machine learning.

    1:05:13