# Classificazione
- **Classificare** significa identificare a quale classe appartiene un oggetto (in gergo *etichettare*), sulla base di un insieme di **caratteristiche** (features) osservate.

- Ad esempio date delle cellule tumorali aventi determinate caratteristiche
    
    - area
    - perimetro
    - consistenza
    - varianza scala di grigi
    - ...
    
  si vuole classificare se sono **benigne** o **maligne**

- Sulla base di queste features, si possono plottare i dati relativi su un grafico

<img src="imgs/classificazione.PNG" alt="" width=500>

- Il grafico in questione, per essere compreso facilmente, ha solo due feature rappresentate, ma in realtà ce ne possono essere molte di più.

- In questo caso, sulla base delle feature, le cellule possono essere etichettate in due classi
  
  - **benigne** (punti blu)
  - **maligne** (punti rossi)

- In questo senso la **classificazione** corrisponde all'*identificazione di una funzione* che massimizzi la separazione fra le due classi.
  
  - in figura la retta nera

## Iperpiani di Separazione e Classificazione
- Si parla dunque di ricerca di **iperpiani di separazione** (o di **classificazione**) fra le classi.

<img src="imgs/iperpiano.PNG" alt="" width=350>

- La ricerca di iperpiani di separazione è, fra l'altro, un problema ricorrente all'interno delle reti neurali. 

- Dati i punti $\mathbf{x}_i$ (è un vettore poiché generalmente ogni punto può essere identificato da più features) che giaciono sull'iperpiano, soddisfano la seguente uguaglianza (equazione dell'iperpiano) $\mathbf{w}^T \cdot \mathbf{x}_i + b = 0$

- I punti $x_i$ tali che $\mathbf{w}^T \cdot \mathbf{x}_i > b$ sono le istanze con $\mathbf{y}_i > 0$ 
  
  - come nella regressione la variabile target (da predire) è la $\mathbf{y}$
    
    - poiché in questo caso stiamo classificando le istanze in due valori, la variabile può assumere solo due valori (-1 o 1).
  
  - queste istanze vengono etichettate con label 1

- I punti $\mathbf{x}_i$ tali che $\mathbf{w}^T \cdot \mathbf{x}_i < -b$ sono le istanze con $\mathbf{y}_i < 0$ 
  
  - queste istanze vengono etichettate con label -1

- Il termine $b$ (intercetta), è proporzionale alla distanza dell'iperpiano dall'origine.
  
  - Infatti la distanza dell'iperpiano dall'origine misura 
  $$
    d = \frac{b}{\vert\vert \mathbf{w} \vert \vert}
  $$

## Caratteristche dei classificatori
- Gli iperpiani di classificazione possono essere molteplici
  
  - potenzialmente possono essere anche infiniti (magari non tutti con stesso **errore**)
    
    - l'**errore** nel caso di classificazione è rappresentato da un'etichettatura errata.

<img src="imgs/iperpiani.PNG" alt="" width=300>

- Occorre pertanto stabilire un criterio di **ottimalità** per la scelta dell'iperpiano di separazione migliore.

- Sulla base di questo criterio si possono costruire dei modelli di ricerca di questi iperpiani.
  
  - Alcuni modelli individuano un iperpiano di separazione **non ottimale** (non massimizza la separazione fra le classi), ma che comunque separa le classi.
    
    - Alcuni di questi modelli sono **Perceptron**, **Regressione Logisitca**, ecc.
  
  - Altri modelli individuano un iperpiano di separazione **ottimale** (massimizza la separazione fra le classi).
    
    - Il più famoso è il **Support Vector Machine** (SVM).  

- Quali dati influenzano la ricerca dell'iperpiano?
  
  - Gli algoritmi più banali (Perceptron, Regressione Logistica, ecc.) utilizzano tutti i punti del training set.
  
  - Altri algoritmi (come SVM) usano i **punti difficili** 
    
    - sono i punti più vicini all'iperpiano di separazione 
    
    - d'altronde se riesco a trovare un iperpiano che suddivide correttamente quei punti, quelli più distanti saranno classificati correttamente di conseguenza


## Classificatori non lineari
- Non tutti i problemi possono essere separati linearmente (cioè da un iperpiano).

<img src="imgs/classificatorinonlineari.PNG" alt="" width=200>

- In questi casi esistono numerosi approcci che risolvono il problema 
  
  - **Algoritmi non lineari** (es. SVM, Reti Neurali, k-Nearest-Neighbors, ecc.)
  
  - Queste oluzioni **trasformano lo spazio di dati** in modo che le classi siano **separabili linearmente**

- Supponiamo di trovarci in un caso monodimensionale: una sola feature con cui prevedere la classe.
  
  - I dati pertanto sono disposti su una retta come mostato in figura (rossi di una classe, blu dell'altra).
  
  - In questo caso un classificatore non riuscirebbe a separare linearmente i dati
    
    - dovrebbe tracciare una retta che divide lo spazio in due semipiani ma nessuno dei due conterrà solo dati di una classe

- Si può pensare in tal caso di trasformare lo spazio vettoriale da una dimensione a due
  
  - cioè aggiungendo una nuova feature
  
  - i dati sono gli stessi rispetto a prima ma sono disposti su due dimensioni
    
- In questo nuovo spazio bidimensionale, esiste un iperpiano che riesce a separare le due classi linearmente.

<img src="imgs/classificatorinonlineari2.PNG" alt="" width=300>

- Le **reti neurali** sono composte da layer che non fanno altro che trasformare lo spazio.
  
  - La differenza da un algoritmo di classificazione (es. SVM) è che la trasformazione non è nota a priori, ma viene appresa durante il training.
  
  - Nelle SVM definiamo noi la trasformazione da fare, nel caso sopra una trasformazione polinomiale
  
  - Le reti neurali sanno determinare autonomamente le feature

- Più feature si hanno nei dati, e più chance abbiamo di separare linearmente i dati.
  
  - Intuitivamente maggiore è la dimensionalità dello spazio e più facile è trovare un iperpiano che separa le classi (si è visto nell'esempio sopra trasformando lo spazio $\mathbb{R}$ in $\mathbb{R}^2$).

# Classificatore Lineare: Perceptron
- Primo classificatore lineare inventato. 

  - Nasce nel 1957 da Frank Rosenblatt

- Supponiamo di avere uno spazio in $\mathbb{R}^2$ 

  - Abbiamo due features $x_1, x_2$ che consentono di riportare sullo spazio (un piano) tutti i dati, come mostrato in figura

<img src="imgs/perceptron.PNG" alt="" width=400>

- In tal caso la classificazione consiste nel trovare un iperpiano (in $\mathbb{R}^2$ corrisponde a una retta) che separi le due classi.

  - Occorre cioè trovarer i parametri $w_1, w_2, b$ tali che
    $$
      \begin{align}
        &w_1x_1 + w_2x_2 + b > 0 \quad \text{per i punti rossi} \\
        &w_1x_1 + w_2x_2 + b < 0 \quad \text{per i punti blu}
      \end{align}
    $$

    - In tal caso le etichette saranno definite in questo modo
    $$
      \text{class}(x) = \begin{cases}
        +1 \text{ se } x \text{ è rosso} \\
        -1 \text{ se } x \text{ è blu}
      \end{cases} 
    $$

- Il Perceptron è un classificatore lineare che trova l'iperpiano di separazione in modo iterativo.

  - Di seguito lo pseudocodice

  ```python
    def perceptron_naive(x):
      # valori per b, w1, w2 generati casualmente, 
      # prendiamo cioè un piano casuale (in figura sopra la prima linea verde)
      # w1x1 + w2x2 + b = 0 -> -x1 + 9x2 = 0 -> x2 = -w1/w2 * x1 -> x2 = 0.11x1
      w = [0,-1,9] 
      x0 = 1
      classification_error = False
      for each instance x:
        if class(x) < 0 and w * x >= 0: # è un errore perché la classe è -1 ma il prodotto è >= 0 (cioè è classificato come +1)
          classification_error = True
          w = w - x # si sposta l'iperpiano più in alto
        else if class(x) > 0 and w * x <= 0: # è un errore perché la classe è +1 ma il prodotto è <= 0 (cioè è classificato come -1)
          classification_error = True
          w = w + x
      until classification_error == True
  
  ```

  l'idea è quella di ripetere il ciclo finché non ho più errore di classificazione, in modo da trovare l'iperpiano di separazione.
     
     - Alla prima iterazione del ciclo (in figura il quadratro numero 1) si verifica un errore poiché la retta classifica il punto cerchiato in verde in figura come > 0 (cioè sopra l'iperpiano), tuttavia il pallino è blu e dunque dovrebbe stare sotto la retta, dunque si fa $\mathbf{w} = \mathbf{w} - \mathbf{x}$ (in figura la seconda linea verde)

     - Alla seconda iterazione (in figura il riquadro numero due 2), si verifica lo stesso errore poiché la retta classifica ancora il punto come > 0, dunque si sposta di nuovo la figura più in alto

     - Alla terza iterazione il punto cerchiato in nero questa volta ha lo stesso problema di prima: è classificato come > 0 anche se blu. Rispostando la figura più in alto si risolve ottenendo la retta nera di valori $\mathbf{w}_1 = -6, \mathbf{w}_2 = 6, b = 2$.

  - Questa implementazione base converge solamente se i dati sono linearmente separabili.
    
    - L'errore non potrà mai essere 0 qualora i dati non siano separabili, dunque il ciclo non terminerà mai.

  - È il progenitore delle **reti neurali**
    - non a caso esiste un modello **multi-layer perceptron** che è una rete neurale su cui ogni layer è un perceptron messo a cascata


- Usando l'esempio di partenza sulle cellule tumorali 

  - siamo in $\mathbb{R}^2$ (2 features)
    
    - $x_1 = mean_area$
    - $x_2 = mean_concave_points$

  - si vuole classificare se sono **benigne** o **maligne**

    - definiamo una variabile target $y$ tale che
    $$
    y = \begin{cases}
      -1 \text{ se la cellula è benigna} \\
      +1 \text{ se la cellula è maligna}
    \end{cases}
    $$

  - La separazione delle classi si effettua tramite un iperpiano (che in questo caso è una retta) definito da
    $$
      w_1x_1 + w_2x_2 + b = 0
    $$

  - dove $w_1, w_2, b$ sono i parametri da stimare in modo tale che
    
    - se $w_1x_1 + w_2x_2 + b > 0$ allora $y = +1$, cioè la cellula è maligna

    - se $w_1x_1 + w_2x_2 + b < 0$ allora $y = -1$, cioè la cellula è benigna

  - ovvero
    $$
    y = \begin{cases}
    -1 \quad \text{if } \mathbf{w \cdot x} + b < 0 \\
    +1 \quad \text{if } \mathbf{w \cdot x} + b \geq 0
    \end{cases}
    $$


  - Supponiamo che l'algoritmo abbia trovato la seguente retta 
    $$
    0.007 \cdot mean\_area + 67.443 \cdot mean\_concave\_points - 8.287 = 0
    $$

  - la classificazione di due nuove cellule sarà semplice

    - $y^{(1)} = \mathbf{x}^{(1)} = (mean\_area = 500, mean\_concave\_points = 0.025)$ da cui otterremo 
    $$
    \mathbf{w \cdot x}^{(1)} + b = 0.007 \cdot 500 + 67.443 \cdot 0.025 - 8.287 = -3.035
    $$
    dunque una cellula benigna

    - $y^{(2)} = \mathbf{x}^{(2)} = (mean\_area = 500, mean\_concave\_points = 0.075)$ da cui otterremo
    $$
    \mathbf{w \cdot x}^{(2)} + b = 0.007 \cdot 500 + 67.443 \cdot 0.075 - 8.287 = 0.271
    $$
    è una cellula maligna ma molto boarder line in quanto molto vicina all'iperpiano.


## Come trovare l'iperpiano di separazione
- Si può riscrivere la separazione con etichette
  $$
      y = \begin{cases}
      -1 \quad \text{if } \mathbf{w \cdot x} + b < 0 \\
      +1 \quad \text{if } \mathbf{w \cdot x} + b \geq 0
      \end{cases}
  $$
  come $-y(b+ \mathbf{w \cdot x}) < 0$.
  
  - Infatti una cellula classificata correttamente (indipendentemente dalla classe di appartenenza), con questa forma compatta darà valore negativo, mentre una cellula classificata erroneamente darà valore positivo.

    - ad esempio se $y=-1$ (cellula benigna), $b+\mathbf{w \cdot x} = -1$ (cioè la valutazione sulla base delle feature $\mathbf{x}$ e ell'iperpiano $\mathbf{w}$ è corretta) allora $-y(b+\mathbf{w \cdot x}) = 1 \cdot -1 < 0$ (classificata correttamente)
    - se invece $y=1$ (cellula maligna), nonostante $b+\mathbf{w \cdot x} = -1$ (cioè la valutazione sulla base delle feature $\mathbf{x}$ e ell'iperpiano $\mathbf{w}$ è errata) allora $-y(b+\mathbf{w \cdot x}) = -1 \cdot -1 > 0$ (classificata erroneamente)

- A questo punto minimizzando rispetto a $b$ e $\mathbf{w}$ la somma di questa espressione sulle $m$ istanze di training, si minimizza l'errore di classificazione.
  $$
    \underset{b, \mathbf{w}}{\text{minimize}} \sum_{i=1}^m \text{max}(0, -y_i(b + \mathbf{w \cdot x}_i))
  $$
  
  - considerando che $-y(b+ \mathbf{w \cdot x}) < 0$ è equivalente a $\text{max}(0, -y_i(b + \mathbf{w \cdot x}_i))$.

### Come minimizzare la funzione: softmax
- La funzione appena mostrata (visibile nella figura sottostante in verde) è però non derivabile, poiché in 0 ha uno spigolo, dunque non si può applicare la discesa del gradiente per minimizzarla.

<img src="imgs/iperpianofunzione.PNG" alt="" width=350>

- L'idea è quella di trovare una funzione che la approssimi (in figura tratteggiata) e che sia derivabile.
  
  - Definendo la funzione da minimizzare come $\text{max}(0, s)$, la funzione che la approssima, chiamata **softmax** (il nome deriva dal fatto che è una versione smooth (soft) della max), è definita come segue
  $$
  \text{softmax}(0,s) = \log \left( 1 + e^s \right)
  $$ 
    
    - questa funzione è covessa, continua e derivabile

  - Minimizzando la somma rispetto a $b$ e $\mathbf{w}$ della softmax su tutte le istanze, si minimizza l'errore di classificazione.
  $$
    \underset{b, \mathbf{w}}{\text{minimize}} \sum_{i=1}^m \log \left( 1 + e^{-y_i(b + \mathbf{w \cdot x}_i)} \right)
  $$


## Regressione logistica
- Per la **regressione logistica** si minimizza la funzione data dalla somma della softmax e la **regolarizzazione** L2 dei parametri con peso $\lambda$

$$
  \underset{b, \mathbf{w}}{\text{minimize}} \sum_{i=1}^m \log \left( 1 + e^{-y_i(b + \mathbf{w \cdot x}_i)} \right) + \frac{\lambda}{2} \vert \vert \mathbf{w} \vert \vert^2_2
$$

  - Il motivo per cui si aggiunge la regolarizzazione è che senza di essa l'errore minimo trovato può anche essere molto basso per il training set, ma molto elevato per il test set, in altre parole, minimizzare un errore non regolarizzato può portare a dell'**overfitting**.

  - Ponendo questo ulteriore vincolo, imponiamo che l'errore giaccia su una circonferenza centrata sull'origine.

    - Ci allontaneremo dal minimo globale, ma poiché saremo più vicini all'origine i valori di $w_1, w_2$ che sono i parametri che definiscono l'iperpiano saranno più piccoli in valore assoluto. Più piccoli sono i parametri e **meno oscilazioni ci sono nell'iperpiano**.

<img src="imgs/regolarizzazione.PNG" alt="" width=300>

- L'iperpiano appreso facendo la discesa del gradiente ci consente di individuare una funzione che faccia da **classificatore lineare**, ossia una funzione che, dato un dato in input, stabilisca a quale classe appartiene.
$$
  \sigma(h_{\mathbf{\tilde{w}}}(\mathbf{\tilde{x}})) = \frac{1}{1 + e^{-h_{\mathbf{\tilde{w}}}(\mathbf{x})}} = \frac{1}{1 + e^{-\mathbf{\tilde{w}} \cdot \mathbf{\tilde{x}}}} = \frac{1}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}
$$

  - dove $h_{\mathbf{\tilde{w}}}(\tilde{\mathbf{x}}) = -y_i(b + \mathbf{w \cdot x}_i)$ e $b+ \mathbf{w \cdot x}$ è l'iperpiano individuato.

- In conclusione la regressione logistica è una funzione che
  
  - dato il parametro in input $\sigma(t) = \frac{1}{1+e^{-(b+w\cdot t)}}$ dove $t$ è l'istanza da classificare (ad esempio una nuova cellula)
  
  - restituisce un valore in $[0,1]$ che è la probabilità che l'istanza appartenga alla classe positiva (ad esempio maligna).
    
    - In altre parole la funzione è definita come $\mathbb{R} \rightarrow [0,1]$
 
  - Questa funzione approssima una **funzione a gradino** 
    
    - In particolare se $\mathbf{x}$ giace sull'iperpiano allora $\mathbf{w \cdot x} + b = 0$ e dunque $\sigma(\mathbf{x}) = \frac{1}{1+e^0} = 0.5$, cioè non sappiamo se la cellula appartiene ad una classe o all'altra, poiché la probabilità che appartenga ad una rispetto all'altra è uguale (sempre 0.5).
    - Se invece risulta $\mathbf{w \cdot x} + b > 0$ allora $\sigma(\mathbf{x}) = \frac{1}{1+e^{-(b + \mathbf{w \cdot x})> 0}} > 0.5$, cioè l'istanza appartiene alla prima classe.
    - Se al contrario abbiamo un valore negativo, cioè $\mathbf{w \cdot x} + b < 0$ allora $\sigma(\mathbf{x}) = \frac{1}{1+e^{-(b + \mathbf{w \cdot x})< 0}} > 0.5$, classe (-1).

<img src="imgs/regrlogistica.PNG" alt="" width=300>

- Questi risultati possono essere generalizzati in maniera che valgano 
  - ovviamente per istanze con più di una sola feature (da qui il vettore $\mathbf{x}$)
  - Per più di due classi (da qui il vettore $\mathbf{w}$)


## Regressione logistica multivariata lineare e non lineare
- Abbiamo già anticipato che è possibile generalizzare la regressione logistica per classificare istanse che non sono classificabili linearmente. 
 
  - Questo significa che lo spazio in cui sono rappresentate le istanze non ha un iperpiano che le suddivida in classi distinte senza errori.

- Sia $\mathbf{x} \in \mathbb{R}^n$ un'istanza $\mathbf{x} = (x_1, \dots, x_n)$ in $n$ variabili
  
  - la **funzione di classificazione lineare multivariata** è
    $$
    \sigma(x_1, \dots, x_n) = \frac{1}{1+e^{-h_w(x_1, \dots, x_n)}}
    $$
    
    dove $h_w(x_1, \dots, x_n) = b + w_1x_1 + \dots + w_nx_n$ è l'**iperpiano di separazione**, chiaramente di dimensione $n$ se $n$ è il numero di features (o dimensione dello spazio che deve tagliare).

    - l'individuazione di questo iperpiano avviene nella stessa modalità che abbiamo visto prima: minimizzando la funzione di softmax su tutte le istanze di training.

- La **regressione logistica non lineare**, ad esempio con un polinomio di grado 2 avviene nel seguente modo
$$
  \sigma(x_1, \dots, x_n) = \frac{1}{1+e^{h_w^2(x_1, \dots, x_n)}} 
$$

