# Classificazione e minimizzazione

Sia $D = [ (x^{(1)}, y^{(1)}),\ldots,(x^{(n)}, y^{(n)}) ]$ una sequenza di vettori di *features* in $R^d$ ed etichette in $\{-1, 1\}$.

Si vuole trovare un iperpiano $d$-dimensionale $a,a_0$ che minimizzi il *training error*

$$Err(a,a_0) = \frac{1}{n}\sum_{i=1}^{n} L( a, a_0, x^{(i)}, y^{(i)} ) $$


dove $L$ è la *loss* function

$$
    L( a, a_0, x^{(i)}, y^{(i)} ) = \left\{
    \begin{array}{lll}
    0& &\mbox{if}\ sign(a^T\cdot x^{(i)} + a_0) \equiv y^{(i)}\\
    1& &\mbox{otherwise}
    \end{array}
    \right.
$$

Il problema di minimizzare la funzione $Err$ con la funzione $L$ è NP-hard: non è noto alcun algoritmo efficiente ma sono noti solo algoritmi di complessià esponenziale, ovvero algoritmi il cui tempo di calcolo cresce esponenzialmente con la dimensione del problema ($n\times d$).

![logistic](logistic.png)

Se la funzione loss fosse monotona e derivabile il problema diventerebbe trattabile. Con la funzione logistica otteniamo questa proprietà. Nella figura 0.5 indica la *soglia di previsione*.

![classificazione](classificazione.png)

Interpretiamo $g^{(i)}$ come la probabilità che $x^{(i)}$ sia classificato correttamente. Quindi, assumendo gli $x^{(i)}$ indipendenti andiamo a massimizzare il prodotto delle probabilità. Passando al logaritmo ed invertendo il segno la funzione da minimizzare diventa


![trainerrorf](trainerrorf.png)



# Gradient Descent

![gd](gd.png)

Si parte da un valore qualsiasi $z_0$ e si migliora ad ogni passo seguendo la pendenza della curva. In una dimensione: se la derivata nel punto corrente è negativa cisi sposta a destra di un valore `step` altrimenti a sinistra fintanto che non si ottengono modifiche significativa nel valore della funzione tra due punti successsivi.

![gdalg](gdalg.png)

In [7]:
import numpy as np

$$x^2 + y^2 + 3x + 3$$

In [1]:
def f(v):
    '''
    Parameters
    ----------
    v : vettore colonna 

    Returns
    -------
    TYPE
        float, il valore di f(v) dove le righe di v sono i valore delle variabili

    '''
    x = v[0][0]; y = v[1][0]
    return x**2+y**2+3*x+3

![conica](conica.png)

Ha il minimo in $(-1.5, 0)$

Ecco la funzione che ritorna il vettore delle derivate parziali

In [3]:
def df(v):
    '''
    Parameters
    ----------
    v : vettore colonna 

    Returns
    -------
    TYPE
        un vettore colonna contenente le derivate parziali di f

    '''
    x = v[0][0]; y = v[1][0]
    return np.array( [ [2*x + 3], [2*y] ]  )

L'algoritmo

In [8]:
def gd(f, df, x0, step, eps, max_iter):
    curr_x = x0
    
    for i in range(max_iter):
        curr_grad =  df(curr_x)

        next_x = curr_x - step * curr_grad
        
        if abs( f(next_x) - f(curr_x) ) < eps:
            break
        
        curr_x = next_x
    
    return curr_x


ans  = gd(f, df, np.array([[0., 0.]]).T, 0.01, 0.0000001, 10000)
print(ans)

[[-1.4984406]
 [ 0.       ]]


Il gradiente può essere sostituto dal vettore delle differenze finite, la componente $i$-esima è definita in questo modo dove $\delta$ appare in posizione $i$ del vettore di zeri.

$$
\frac{f(x + [0,...,0,\delta, 0,...0] ) - f(x - [0,...,0,\delta, 0,...0] ) }{2\delta}
$$

In [9]:
def num_grad(f, delta=0.000000000000001):
    '''
    Parameters
    ----------
    f : func
    delta : float The default is 0.0001.

    Returns
    -------
    a funct that is the numerical gradient of f with increment delta
    '''
    
    def df(x):
        g = np.zeros(x.shape)
        for i in range(x.shape[0]):
            delta_v = np.zeros(x.shape)
            delta_v[i,0] = delta
            g[i, 0] = ( f( x + delta_v) - f( x - delta_v) ) / (2*delta)
        return g
    return df
    
ans  = gd(f, num_grad(f), np.array([[0., 0.]]).T, 0.01, 0.0000001, 10000)
print(ans)

[[-1.51989532]
 [ 0.        ]]
