# Projet DSOML : algorithme SDCA appliqué au SVM

## 1. Introduction

Le but de ce projet est d'implémenter un algorithme SDCA afin d'estimer un SVM et de le comparer à une descente de sous-gradient. Ce projet s'appuie sur deux articles :
* le premier, écrit par Shai Shalev-Shwartz et Tong Zhang en 2013 traite de l'algorithme SDCA et s'intitule "Stochastic Dual Coordinate Ascent Methods for Regularized Loss Minimization"
* le second, écrit par Shai Shalev-Shwartz et al. traite de l'approche de descente de sous-gradient et s'intitule "Primal Estimated sub-GrAdient SOlver for SVM".

Nous appliquerons ces deux algorithmes à la base de données suivante : BLABLABLA. Trouver un truc qui marche.

In [2]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

In [3]:
# Importations nécessaires 
import numpy as np
import random
import scipy

## 2. Algorithmes SDCA

Dans cette partie, nous allons utiliser les deux algorithmes intitulés "Procédure SDCA" et "Procédure SDCA-Perm" du premier article. Chaque procédure utilise la fonction $ \Phi_i^\star $. En fonction du cadre d'utilisation de ces algorithmes, cette fonction diffère :
* pour un SVM (formule que nous allons utiliser), nous utilisons la hinge loss, nous avons alors $\Phi_i^\star(-a)=-a y_i$
* pour une régresison quantile, nous utilisons l'absolute deviation loss, nous avons alors $\Phi_i^\star(-a)=-a y_i$
* pour une régression ridge, nous utilisons la squared loss, nous avons alors $\Phi_i^\star(-a)=-a y_i + \frac{a^2}{4}$
* pour une régression logistique, nous utilisons la log loss, nous avons alors $\Phi_i^\star(-a)=a y_i \log(a y_i) + (1-a y_i) \log(1- a y_i)$

Nous avons codé pour chaque cas les quatre fonctions, mais étant donné que nous nous intéressons au cas des SVM, nous allons utiliser uniquement la première.

### 2.1 Algorithme SDCA

In [None]:
def DeltaAlphaSVMhinge(x,y,w,n,LAMBDA):
    return LAMDBA*n*(y-x*w)/(x**2)

def DeltaAlphaSVMdeviation(x,y,w,n,LAMBDA):
    return LAMDBA*n*(y-x*w)/(x**2)

def DeltaAlphaREGsquared(alpha,x,y,w,n,LAMBDA):
    return 2*LAMBDA*n*(y-alpha/2-x*w)/(2*x**2+LAMBDA*n)

def DeltaAlphaREGlog(alpha,x,y,w,n,LAMBDA):
    def FonctionMaximisation(deltaalpha):
        return -y*(np.log(y*(alpha+deltaalpha)*(1-(alpha+deltaalpha)*y)))*x*w-x**2*deltaalpha/(LAMDBA*n) 
    #attention faux cf feuille écrite dans le train
    return scipy.optimize.bisect(FonctionMaximisation)

In [None]:
# Procedure SDCA

# initialisation
# il faut initialiser x et y avec les données que l'on a choisies
n_samples, n_features = 100, 10
T = 50
T0 = T/2
w = np.zeros(T)
alpha = np.zeros(T) #provient de l'algo SGD modifié
LAMBDA = 0.5 #je ne suis pas sûre de la valeur de LAMBDA

# itérations
for t in range(T):
    deltaalpha = 0
    i = random.randint(1,n_features+1)
    xi = x[i]
    yi = y[i]
    deltaalpha = DeltaAlphaSVMhinge(xi,yi,w[t-1],n_features,LAMBDA) #On choisit parmi les 4 fonctions au-dessus
    alpha[t] = alpha[k-1] + deltaalpha
    w[t] = w[k-1] + deltaalpha*xi

In [None]:
# return - averaging option     
alphabarre = 1/(T-T0)*alpha[T0:T].sum() 
wbarre = 1/(T-T0)*w[T0:T].sum()

# return - random option     
t = randomrandint(T0+1,T)
alphabarre = alpha[t]
wbarre = w[t]

### 2.2 Algorithme SDCA-Perm

In [None]:
def AlphaSVMhinge(x,y,w,t,LAMBDA):
    return LAMDBA*t*(y-x*w)/(x**2)

def AlphaSVMdeviation(x,y,w,t,LAMBDA):
    return LAMDBA*t*(y-x*w)/(x**2)

def AlphaREGsquared(alpha,x,y,w,t,LAMBDA):
    return 2*LAMBDA*t*(y-x*w)/(2*x**2+LAMBDA*t)

def AlphaREGlog(alpha,x,y,w,t,LAMBDA):
    def FonctionMaximisation(alpha):
        return -y*np.log(y*alpha*(1-alpha*y))-x*w-x**2*alpha/(LAMDBA*t)
    #attention faux cf feuille écrite dans le train
    return scipy.optimize.bisect(FonctionMaximisation)

In [None]:
#SGD modifié afin d'obtenir alpha
# il faut initialiser x et y avec les données que l'on a choisies
n_samples, n_features = 100, 10
w=np.zeros(n_samples)
somme=0
for t in range(1,n_samples+1):
    xt = x[t]
    yt = y[t]
    alpha[t] = AlphaSVMhinge(xt,yt,w[t-1],t,LAMBDA)
    somme += alpha[t]*xt
    w[t] = somme/(LAMBDA*t)

In [None]:
def IncDualSVMhinge(alpha,x,y,w,n,LAMBDA):
    m = np.max(0,np.min(1,LAMBDA*n*(1-np.transpose(x)*w*y)/np.linalg.norm(x)+alpha*y))
    return y*m - alpha

def IncDualSVMdeviation(alpha,x,y,w,n,LAMBDA):
    np.m = np.max(-1,Nmin(1,LAMBDA*n*(y-np.transpose(x)*w)/np.linalg.norm(x)+alpha))
    return m - alpha

def IncDualREGsquared(alpha,x,y,w,n,LAMBDA):
    m = (y-np.transpose(x)*w-0.5*alpha)/(0.5+np.linalg.norm(x)/(LAMBDA*n))
    return m

def IncDualREGlog(alpha,x,y,w,n,LAMBDA):
    m = ((1+np.exp(np.transpose(x)*w*y))**(-1)*y-alpha)/np.max(1,0.25+np.linalg.norm(x)/(LAMBDA*n)) #attention faux
    return m

In [8]:
# Procedure SDCA-Perm

# initialisation
# il faut initialiser x et y avec les données que l'on a choisies
n_samples, n_features = 100, 10
T = 50
T0 = T/2
w = np.zeros(T)
alpha = np.zeros(T) #provient de l'algo SGD modifié
LAMBDA = 0.5 #je ne suis pas sûre de la valeur de LAMBDA
k=0
# itérations
perm = np.random.permutation(np.arange(1,n_features+1))
for j in range(1,n_features+1): #je pense qu'on pourrait éviter de faire cette boucle et de passer en vectoriel
                                #je vais y réfléchir
    k += 1
    deltaalpha=np.zeros(n_features)
    i=perm[j]
    xi = x[i]
    yi = y[i]
    deltaalpha[j] = IncDualSVMhinge(alpha[k-1],xi,yi,w[k-1],n_features,LAMBDA) #On choisit parmi les 4 fonctions au-dessus
    alpha[k] = alpha[k-1] + deltaalpha*np.ones(n_features)
    w[k] = w[k-1] + 1/(n_features*LAMBDA)*deltaalpha*x
# Problème car k ne va que jusqu'à n_features du coup... Mais sincèrement je ne comprends pas les itérations de l'algorithme
# les variables se mélangent non ?

In [3]:
# return - averaging option     
alphabarre = 1/(T-T0)*alpha[T0:T].sum() 
wbarre = 1/(T-T0)*w[T0:T].sum()


# return - random option     
t = random.randint(T0+1,T)
alphabarre = alpha[t]
wbarre = w[t]

## 3. Algorithme de descente de sous-gradient

## 4. Comparaison

## 5. Conclusion