# Dimensionality Redcution

I metodi di riduzione delle dimensioni cercando di ridurre il numero di feature con cui è rappresentato un elemento senza perdere capacità descrittiva (es risolvo il problma iniziale che aveva elementi da 1000 feature con elementi da 100 feature).

---

# Multidimensional Scaling (MDS)

Parto da un dataset iniziale in cui ogni punto è rappresentato con le sue $K$ feature originali. Voglio avere una nuova rappresentazione (in uno spazio di dimensione $d$) in cui ogni punto è rappresentato con le sue $d$ feature e voglio minimizzare lo <span style="color:gold;">stress</span>:

## $stress = \sqrt{\frac{\sum_{i,j} (d_{ij} - \hat{d}_{ij})^2}{\sum_{i,j} d_{ij}^2}} , d_{ij} = | o_j - o_i | $ e $ \overset{\frown}{d_{ij}} = | \overset{\frown}{o}_j - \overset{\frown}{o}_i | $

Dove lo stress è la distanza tra i punti nel nuovo spazio e la distanza tra i punti nel vecchio spazio, ovvero quanto le distanze variano. 

- $o$ è la rappresentazione dello spazio originale
- $o_j - o_i$ è la distanza tra l'elemento i-esimo e l'elemento j-esimo nello spazio ***originale***
- $\overset{\frown}{o}$ è la rappresentazione dello spazio ridotto
- $\overset{\frown}{o}_j - \overset{\frown}{o}_i$ è la distanza tra l'elemento i-esimo e l'elemento j-esimo nello spazio ***ridotto***
- Lo stress si calcola come somma della differenza di ogni coppia di elmeneti $i$, $j$ rispettivamente della distanza trasformata e di quella originale diviso una costante di normalizzazione.

Io vorrei avere un nuovo spazio in cui le distanze tra i punti siano le stesse, ma non è possibile. Quindi cerco di minimizzare lo stress, ovvero cerco di minimizzare la differenza tra le distanze nello spazio originale e quelle nello spazio ridotto.

Si risolve in modo euristico per mezzo dello <span style="color:gold;">Steepest Descent</span>:
- Parto da una rappresentazione iniziale (assegno delle coordinate a caso a tutti i punti)
- Valuta lo stress
- Prende un punto a caso, lo muove nella direzione che diminuisce lo stress
- Ripeti fino a quando lo stress non è minore di una soglia

Questa è un'euristica perché non ho la garanzia che muovendo un punto non mi allontani dalla mia soluzione &rarr; no garanzia di convergenza

---


# Embeddings

Tutte le volte che si riducono le dimensioni di un dataset, si introduce il concetto di embedding.

Supponendo di avere una matrice delle distanze D che misura la distanza tra tutti gli elementi del dataset: ***il concetto di embedding implica la necessità di incorporare i miei punti in uno spazio a dimensione minore in modo tale che le distanze tra due punti dello spazio originale sia più vicino possibile alla distanza tra i due punti nello spazio ridotto***:

### $D(i,j) \approx D^{'}(i,j)$

Questo tipo di embedding si chiama <span style="color:gold;">isometrico</span> cioè un embedding che conserva le distanze:
- $D^{'}(F(i),F(j)) = D(i,j)$

Un altro tipo di embedding è il <span style="color:gold;">contrattivo</span> cioè un embedding che non conserva le distanze:
- $D^{'}(F(i),F(j)) \leq D(i,j)$

A seconda di come viene realizzata questa trasformazione dei punti, gli embedding si dividono in:
- ***Lineari***: i punti vengono proiettati in uno spazio di dimensione minore da una **trasformazione lineare** (tendenzialmente prodotto riga per colonna)
- ***Non lineari***: i punti sono proiettati su un nuovo spazio in modo non lineare 

---

# PCA

Il ***PCA*** è un metodo lineare di riduzione delle dimensioni che segue il seguente algoritmo:

1. Creo una matrice $X$ di dimensione $N \times d$ dove ogni riga è un vettore $x_n$ che rappresenta un punto del dataset
2. Sottraggo la media $x$ (il vettore medio di tutto il dataset) a ogni riga di $X$ per centrare il dataset rispetto all'origine del feature-space dei punti &rarr: serve per centrare tutti gli elementi del dataset verso l'origine (in un caso euclideo). Lo faccio calcolando la media per colonna del mio dataset e sottraendo a tutti gli elementi del vettore che contiene il valor medio per colonne il valore medio di tutto il dataset.
3. Calcolo la matrice di covarianza (covarianza è la versione multidimensionale della varianza che si calcola con $(x - \mu)^2$) $\Sigma$ di $X$: se io ho più di una feature posso avere $x_i - \mu_i$ * $x_j - \mu_j$ che mi dice come varia la feature $i$-esima rispetto alla feature $j$-esima e per questo motivo si chiama covarianza. La matrice di covarianza si calcola facendo un prodotto riga per colonna tra la matrice $X$ e la sua trasposta $X^T$ e dividendo per il numero di elementi del dataset $N$. 

    Dato un dataset $n \times d$, la covarianza sarà:

    ## $c_ij = \underset{D}{\sum} \frac{(x_i - \mu_i) *  (x_j - \mu_j)}{n}$

    Ovvero la covarianza tra la feature $i$-esima e la feature $j$-esima è la somma di tutti i prodotti tra le differenze tra i valori della feature $i$-esima e la media della feature $i$-esima e le differenze tra i valori della feature $j$-esima e la media della feature $j$-esima diviso il numero di elementi del dataset. 

    La matrice di covarianza ottenuta sarà $d \times d$.

    Sulla diagonale ci sarà la varianza di ogni singola feature e nei termini fuori dalla diagonale avrò le coviarianze tra i termini delle singole feature (la matrice della covarianza è sempre simmetrica).

    La matrice di covarianza è indicata anche con $\Sigma$ e il suo calcolo è esprimibile anche come:
    
    ## $\Sigma = \frac{D^T * D}{n}$

    Dove $D$ è la matrice $N \times d$ centrata rispetto alla media.

    - <span style="color:gold;">Più la covarianza di due feature è alta, più significa che al variare di una varia anche l'altra</span>. 
    
    - <span style="color:gold;">Se la covarianza è bassa, quando varia una l'altra varia poco rispetto al suo valor medio</span> (idealmente la covarianza è 0 se una feature non cambia mai).

    ***Se la covarianza di una feature vale 0 allora significa che è inutile e non la devo considerare perché non è in relazione con una determinata feature***.

    A me interessano le feature con covarianza maggiore perché se i miei punti hanno varianza bassa intorno a un asse, vuol dire che i miei punto sono molto vicini tra di loro &rarr; per dividere in classi è più conveniente che i punti siano sparpagliati. Questo suggerisce che un alto valore di varianza intorno a una determinata feature dice che intorno a quell'asse/feature i punti sono molto più sparpagliati, mentre gli assi in cui ho un valore di varianza basso sono gli assi in cui i punti sono molto vicini tra di loro e quindi farò fatica a dividerli.


4. Calcolo gli autovettori e gli autovalori della matrice di covarianza $\Sigma$. Gli autovalori della matrice di covarianza sono ordinati in modo ***decrescente*** perché gli autovalori sono collegati alla varianza per il corrispettivo autovettore.
   Se io ho una matrice $d \times d$ ho $d$ autovalori: ho $d$ assi e l'autovalore è la variana lungo quel determinato asse 
   
   &rarr; ottengo tanti assi ordinati per varianza dei punti lungo il relativo asse. 
   
   Il primo autovettore (quello a varianza più alta) è quello in cui i punti si sparpagliano di più.
   L'ultimo autovettore è l'asse in cui i punti sono più vicini tra di loro.

5. Se decido che il nuovo spazio deve avere $M$ feature, prendo $M$ autovettori con gli autovalori più grandi e costruisco una matrice $M \times d$ che è una matrice di proiezione che proietta linearmente un punto bidimensionale su $ numeri, che sono le $M$ nuove feature che ottengo proiettando il mio punto nello spazio trasformato.

La PCA va a cercare gli assi in cui i punti si sparpagliano di più, quindi se devo tenere alcune feature terrò quelle, perché sarà molto più facile dividere i punti in un problema di classificazione, mentre quelle in cui i punti sono molto vicini perché rendono più difficile la classificazione.

In termini di operazioni dello spazio, la PCA ruota gli assi e sceglie quali tenere. Questa operazione di rotazione viene fatta dalla matrice $d \times M$ costituita dagli $M$ autovettori con gli $M$ autovalori più grandi.

---

# Interpretazione geometrica della PCA

Supponendo di avere una serie di punti:

![Dimensionality Reduction 1](./images/08_Dimensionality_Reduction1.png)

La PCA cerca di trovare gli assi in cui i punti si sparpagliano di più e quindi sostituisce i seguenti assi a quelli originali:

![Dimensionality Reduction 2](./images/08_Dimensionality_Reduction2.png)

Lungo l'asse <b><span style="color:red;">rosso</span></b> i punti sono molto sparpagliati (l'autovettore con autovalore più grande). 

Proiettare lungo l'asse <b><span style="color:red;">rosso</span></b> permette di dividere i punti molto meglio rispetto all'asse <b><span style="color:blue;">blu</span></b>.


---

# Quante componenti scegliere?

Posso scegliere un numero di feature ottime attraverso un'euristica.

Se prendo gli autovalori (quindi le varianze) e faccio in modo che sommino a 1, posso scegliere un numero di feature che mi spiega una certa percentuale della varianza totale.

Posso considerare come contenuto informativo una certa quantità di un autovalore e quindi scegliere un numero di feature che mi spiega una certa percentuale della varianza totale.

Esempio: se tengo solo il primo autovettore e il suo autovalore normalizzato fa $0.7$ mi dice che sto conservando il $70\%$ delle informazioni che avevo nel dataset originale, ecc..

Normalmente si cerca di conservare dall'$80\%$ all'$90\%$ delle informazioni del dataset originale.

---

# Problemi e limitazioni della PCA

La PCA lavora su matrici di covarianza che sono $d \times d$ e quindi se ho un dataset con $1000$ feature, la matrice di covarianza sarà $1000 \times 1000$ e quindi devo calcolare $1000^2$ elementi &rarr; scala molto male

È molto inefficiente applicare la PCA nel caso in cui il numero di feature superi il numero di elementi.

---

# Laplacian Eigenmaps

Il ***Laplacian Eigenmaps*** è un metodo non lineare di riduzione delle dimensioni: costruisce una trasformazione non lineare tra lo spazio di partenza e lo spazio di arrivo in modo tale che si conservino le distanze.

### Manifold

Si tratta di uno spazio che è localmente euclideo, ovvero preso un punto, nel suo intorno posso approssimare la superficie con un piano euclideo. 

Esempio: la terra è un geoide, ma se prendo un punto e lo approssimo con un piano, posso approssimare la superficie della terra con un piano.

### Embedding

L'embedding è una trasformazione che mappa un punto da uno spazio di partenza a uno spazio di arrivo, il quale possiede meno feature o dimensioni rispetto allo spazio di partenza (vogliamo però che una proprietà si conservi).

---

# Manifold and Dimensionality Reduction

Voglio sempre ridurre le dimensioni, però voglio farlo su un manifold, ovvero voglio ridurre le dimensioni in modo tale che le distanze tra i punti si conservino, perché quando ho un vettore di feature che descrive un punto non so com'è fatto lo spazio dove si trova quel punto &rarr; ***potrebbe non essere globalmente euclideo***, però sarà localmente euclideo: i punti vicini ad esso posso approssimarli come se fossero su un piano centrato nel punto che ho scelto.

Posso quindi approssimare lo spazio di cui non conosco la geometria con un manifold, ovvero uno spazio che è localmente euclideo.

Voglio quindi proiettare un certo punto $y$ dello spazio originale su un manifold in un certo punto, cercando di preservare le distanze euclidee del punto da tutti quelli che lo circondano **anche nello spazio di destinazione**.:

![Dimensionality Reduction 3](./images/08_Dimensionality_Reduction3.png)

Il problema è che su un manifold, non considerando le distanze locali non sono euclidee:

![Dimensionality Reduction 4](./images/08_Dimensionality_Reduction4.png)

In verde è rappresentata la ***Distanza Geodesica***, ovvero la distanza che si percorre lungo la superficie del manifold per andare da un punto all'altro, che è diversa da quella euclidea.

Non sapendo com'è fatto un manifold, devo sfruttare la proprietà che dice che un manifold è localmente euclideo: quello che posso fare è approssimare la curvatura del manifold come tanti piccoli piani:
- dato un punto, cerco il punto più vicino a esso e approssimo la distanza come se fosse euclidea
- poi metto un nuovo piano nel nuovo punto e ripeto il procedimento approssimando la curva con tante piccole distanze locali euclidee

Tramite la conservazione delle distanze di un punto con i suoi vicini, sto conservando indirettamente anche le distanze geodesiche.

### LLE and Laplacian Eigenmaps

Tre step per l'algoritmo basato su grafi:

1. Costruisco il grafo, dove ogni punto è collegato ai suoi $K$ (iperparametro) punti più vicini in termini di distanza euclidea (sto commettendo ovviamente un errore di approssimazione: più un punto è lontano e meno la distanza euclidea approssima quella geodesica, però scegliendo i $K$ punti più vicini sto lavorando solo in un intorno locale e quindi l'errore di approssimazione dovrenbbe essere piccolo)
2. Costruisco la matrice di adiacenza del grafo che rappresenta come i punti sono distribuiti nello spazio
3. Trova un embedding, ovvero un set di coordinate che preserva le prorprietà che ho incorporato nella matrice di adiacenza

### Procedimento

Considero uno spazio $M$ dimensionale e dei punti $x_i \in M$. Voglio trovare un nuovo set di coordinate $y_1, ..., y_n \in R^m$, dove $m$ è molto minore del numero di feature originale e in modo che $y_i$ rappresenti $x_i$

### Costruzione del grafo

Il grafo di adiacenza contiene per ogni punto un $1$ soltanto se la distanza tra due punti è ***minore*** di una certa soglia, oppure un $1$ soltanto per i suoi $K$ vicini più vicini: versione della matrice di adiacenza ***Simple Minded***.

![Dimensionality Reduction 5](./images/08_Dimensionality_Reduction5.png)

Questi collegamenti mi dicono che i punti sono vicini tra di loro e quindi la distanza euclidea approssima bene la distanza geodesica.

Un'altra alernativa consiste di non mettere $1$ o $0$ nella matrice di adiacenza, ma mettere la similarità tra i due:

### Heat kernel $(t \in \real)$: $A_{ij} = e^{-\frac{||x_i - x_j||^2}{t}}$

Quindi collego i punti solo se la loro similarità è maggiore di una certa soglia, solo che al posto di mettere 1, metto la similarità tra i due punti.

$t$, o *temperatura* è un iperparametro e più è alto, più le distanze si schiacciano verso l'essere tutte uguali. Se la temperatura è bassa (minore di 1), amplifico le differenze.


Successivamente dovrò trovare una sottomatrice $Y$ di dimensione $n \times m$, dove $m$ è il numero di feature che voglio nello spazio di destinazione che approssima la matrice di adiacenza $A$ e in cui minimizzo l'energia di Dirichlet:

### $arg \underset{Y}{min} trace (Y^' L Y)$

Dove $L$ è il Laplaciano del mio grafo che è $D-A$, dove $D$ è la matrice diagonale che contiene la somma di tutti i valori di ogni riga sulla diagonale e $A$ è la matrice di adiacenza.

La soluzione di questo problema sono i primi $m$ autovettori della matrice $L$.

---