## Méthodes d'optimisation stochastique

### Nom(s): Hammi
### Prénom(s): Kamal
### Groupe: B2

## I. Minimisation stochastique d'une fonction déterministe


On s'intéresse au problème $\min f(x) =\max_{i=1\dots m}|a_i^Tx-b_i | = \max_{i=1\dots m} |(Ax-b)_i|.$ 

On suppose que $a_i$ est un vecteur colonne représentant la $i$eme ligne d'une matrice $A$ de taille $m \times n$ ($m=100, n=20$) , et les $b_i$ sont les composantes d'un second membre $b$ de taille $m$, ($1 \le i \le m$), $x$ un vecteur de taille $n$. Ces quantités sont générées une fois pour toutes à partir de distributions Gaussiennes de moyenne nulle et d'écart type identité.

**Question 1 :** Constuire $A$ et $b$. Proposer le calcul d'un sous-gradient en $x$ de $f$. On pourra utiliser la fonction findmax de Julia. 


In [49]:
m = 100; n=20
A = randn(m,n);
b = randn(m,1);

In [50]:
# Construction des données A  et b
# Insérer votre code

# Fin insérer code

# Fonction calculant un sous-gradient en x de f
function subgrad(A,b,x) 
    # Insérer votre code
    max,i = findmax(A*x-b)
    I = findall(y -> y==max,(A*x-b)[:,1]);
    result = zeros(n,)
    for i in I
        result = result + A[i[1],:]
    end
    return 1/length(I)*result
    # Fin insérer code
end
print(subgrad(A,b,ones(n,1)))

[0.49255351321118607, -0.2058236039059159, -2.225111768973381, 0.302530053676027, 1.059760479667656, -0.8054012737354429, 2.8400466477237423, 0.8892939629804948, 1.419464719480543, 0.7327580740006514, 2.761557175256693, -0.19020084354685882, 0.686888769947349, -0.1363004631285183, 0.0305540125741953, 1.3932266386676126, 1.0207151315278427, 2.3023872551595326, 0.4635535242003469, -0.4162962405142895]

**Question 2 :** Ce problème peut se reformuler comme un problème de programmation linéaire : $$(\mathcal{P}_{lp})\quad \left\{ \begin{array}{c} \min_{(x,R)\in \mathbb{R}^n\times \mathbb{R}} h(x,R)=R\\
s.c. \quad-R*e\leq A*x-b\leq R*e\end{array}\right.$$ avec $e=[1,\cdots,1]^T\in \mathbb{R}^m$. Résoudre le problème $(\mathcal{P}_{lp})$ en utilisant le solveur "GLPK" de la librairie JuMP. Plus d'informations sont disponibles ici :  http://www.juliaopt.org/JuMP.jl/latest/quickstart/

In [51]:
using Pkg
Pkg.add("JuMP"); 
Pkg.add("GLPK")

[32m[1m  Resolving[22m[39m package versions...
[32m[1m   Updating[22m[39m `/applications/julia/.julia/environments/v1.4/Project.toml`
[90m [no changes][39m
[32m[1m   Updating[22m[39m `/applications/julia/.julia/environments/v1.4/Manifest.toml`
[90m [no changes][39m
[32m[1m  Resolving[22m[39m package versions...
[32m[1m   Updating[22m[39m `/applications/julia/.julia/environments/v1.4/Project.toml`
[90m [no changes][39m
[32m[1m   Updating[22m[39m `/applications/julia/.julia/environments/v1.4/Manifest.toml`
[90m [no changes][39m


In [52]:

using JuMP
using GLPK

# Définition du modèle
# Insérer votre code
    model = Model(GLPK.Optimizer) # set optimizer
# Fin insérer code
e = ones(m,1)
# Définition des variables d'optimisation
# Insérer votre code
    @variable(model, x[i in 1:n])
    @variable(model, R>=0)
# Fin insérer code

# Définition de la fonctionnelle à minimiser
#Insérer votre code
    @objective(model, Min, R)
# Fin insérer code

# Définition des contraintes
# Insérer votre code
    @constraint(model,A*x-b .<=  R*e)
    @constraint(model,-R*e .<= A*x-b)
# Fin insérer code
        
# Résolution        
# Insérer votre code
    optimize!(model)
# Fin insérer code
        
# Résultats à optimalité                
# Insérer votre code
    Rstar = value.(R)
    xstar = value.(x)
# Fin insérer code
println("The function value at the solution is: ",Rstar, " or ",findmax(abs.(A*xstar-b)))


The function value at the solution is: 1.8572525142739222 or (1.8572525142739251, CartesianIndex(19, 1))


**Question 3 :** Résoudre le problème en utilisant un algorithme de sous-gradient. Dans un premier temps vous utiliserez un sous-gradient exact (Question 1), puis vous introduirez un bruit artificiel qui suit une distribution normale de moyenne nulle et d'écart-type $3 e-1$.

**Question 4 :** Vous afficherez les courbes de convergence de $f_{best}^k-f_{star}$, avec $f_{star}$ obtenue à la Question 1. 

In [53]:
Pkg.add("Distributions")

[32m[1m  Resolving[22m[39m package versions...
[32m[1m   Updating[22m[39m `/applications/julia/.julia/environments/v1.4/Project.toml`
[90m [no changes][39m
[32m[1m   Updating[22m[39m `/applications/julia/.julia/environments/v1.4/Manifest.toml`
[90m [no changes][39m


In [54]:
#Pkg.add("Plots")
using Plots
using Random, Distributions
#Initialisation

fstar = Rstar
x = zeros(n,1);
xp=zeros(n,1);
i = 0;
fbest =1e10; # $f_{best}^0$: cas du sous-gradient exact
fbestp=1e10; # $f_{best}^0$: cas du sous-gradient bruité
histo =[];# Suite des itérés f_{best}^k-f_{star} pour le cas du sous-gradient exact
histop=[];# Suite des itérés f_{best}^k-f_{star}, pour le cas du sous-gradient bruité

#Niveau de bruit
noise_lvl=.3;

# Resolution 
# Insérer votre code
xbest = x
xbestp = x
pas = 10^-4
itermax=100;
while i < itermax
    i = i + 1;
    # Insérer votre code
    x = xbest
    xp = xbestp
    xbest = x- pas/sqrt(i+1)*subgrad(A,b,x)
    d = Normal(0,3e-1)
    bruit = rand(d, n)
    xbestp = xp- pas/sqrt(i+1)*(subgrad(A,b,xp).+bruit)
    fbest,j = findmax(A*xbest-b)
    fbestp,j = findmax(A*xbestp-b)
    # Stockage
    append!( histo, fbest)
    append!( histop, fbestp)
end
# Fin insérer code
#Affichage des courbes de convergence
plotly();
iter=1:100;
hf=[histo,histop];
plot(iter,hf,title="Convergence curves",label=["Exact" "Noisy"],lw=3)

In [55]:
plotly();
hdiff=[histo.-fstar,histop.-fstar];
plot(iter,hdiff,title="Convergence curves f-fstar",label=["Exact" "Noisy"],lw=3)

## II. Minimisation stochastique d'une fonction stochatique



On s'intéresse au problème
$$\min_x f(x) =\text{E} (\max_{i=1\dots m}|a_i^Tx-b_i |).$$

On suppose que $a_i$ est un vecteur colonne représentant la $i$eme ligne d'une matrice $A$ de taille $m \times n$ ($m=100, n=20$) , et les $b_i$ sont les composantes d'un second membre $b$ de taille $m$, ($1 \le i \le m$), $x$ un vecteur de taille $n$. Ces quantités sont générées une fois pour toutes à partir de distributions Gaussiennes de moyenne connue $\bar{A}$ et $\bar{b}$ (non nécesairement nulle) et d'écart type identité.

**Question 5 :** Proposer deux fonctions d'évaluation de la fonction $f$ et d'un sous-gradient de $f$ basées sur des échantillons de taille $M$.


In [56]:
# Evaluation de f
function fvals(Abar,bbar,noise,xs,M) 
    # Abar, bbar : moyenne des données
    # noise : niveau de bruit 
    # xs : vecteur courant 
    # M: taille de l'échantillon

# Insérer votre code
les_maxs = zeros(M,1)
for i=1:M
    A = randn(m,n) + Abar .+noise;
    b = randn(m,1) + bbar .+ noise;
    max,i = findmax(A*xs-b);
    les_maxs[i] = max;
end
return mean(les_maxs)
    
        
# Fin insérer code

end

# Evaluation d'un sous-gradient
function subgrads(Abar,bbar,noise,xs,M)
    # Abar, bbar : moyenne des données
    # noise : niveau de bruit 
    # xs : vecteur courant 
    # M: taille de l'échantillon
# Insérer votre code
sous_grad = zeros(n,)
for i=1:M
    A = randn(m,n) + Abar .+noise;
    b = randn(m,1) + bbar .+ noise;
    max,i = findmax(A*xs-b)
    I = findall(y -> y==max,(A*xs-b)[:,1]);
    result = zeros(n,)
    for i in I
        result = result + A[i[1],:]
    end
    sous_grad = sous_grad + 1/length(I)*result
end
return 1/M*sous_grad
# Fin insérer code

end


subgrads (generic function with 1 method)

**Question 6 :** Comparer les courbes de convergence du problème déterministe $$ \min_x f(x) = \max_{i=1\dots m}|\text{E} (a_i)^Tx-\text{E} (b_i) |,$$ et du problème stochastique obtenu avec $M=10,100,1000$ échantillons.

In [57]:
# Evaluation de f
function fvald(Abar,bbar,xs) 
    # Abar, bbar : moyenne des données
    # noise : niveau de bruit 
    # xs : vecteur courant 
    # M: taille de l'échantillon

# Insérer votre code
max,i = findmax(Abar*xs-bbar);
return max
    
        
# Fin insérer code

end

# Evaluation d'un sous-gradient
function subgradd(Abar,bbar,xs)
    # Abar, bbar : moyenne des données
    # noise : niveau de bruit 
    # xs : vecteur courant 
    # M: taille de l'échantillon
# Insérer votre code
max,i = findmax(Abar*xs-bbar)
I = findall(y -> y==max,(Abar*xs-bbar)[:,1]);
result = zeros(n,)
for i in I
    result = result + A[i[1],:]
end
return 1/length(I)*result
# Fin insérer code

end


subgradd (generic function with 1 method)

In [58]:
# Données
Abar=10*ones(m,n)+1*randn(m,n);
bbar=10*randn(m,1);

#x_0
xd = zeros(n,1); # problème déterministe
xs = xd; # problème stochastique
xbests = xs
xbestd = xd
# Bruit et echantillon
M  = 200;
noise  = 4;

i = 0;
pas = 10^-2
fbestd =1e10; # $f_{best}^0$: cas d'une résolution déterministe
fbests =1e10; # $f_{best}^0$: cas d'une résolution stochastique
histod =[]; # Suite des itérés f_{best}^k pour le cas d'une résolution déterministe
histos =[]; # Suite des itérés f_{best}^k pour le cas d'une résolution stochastique

# Insérer votre code
itermax = 100
while i < itermax
    i = i + 1;
    # Insérer votre code
    xd = xbestd
    xs = xbests
    xbests = xs- pas/sqrt(i+1)*subgrads(Abar,bbar,noise,xs,M)
    xbestd = xd- pas/sqrt(i+1)*subgradd(Abar,bbar,xd)
    fbests = fvals(Abar,bbar,noise,xs,M)
    fbestd = fvald(Abar,bbar,xd)
    # Stockage
    append!( histos, fbests)
    append!( histod, fbestd)
end
# Fin insérer code
#Affichage
#plotly();
iter=1:100;
hf=[histod,histos];
plot(iter,hf,title="Convergence curves",label=["Deterministic" "Stochastic"],lw=3)

**Reponse 6 :** On remarque que la méthode déterministe converge plus vite que la méthode stochastique.

**Question 7 :** Répéter les expériences et comparer les valeurs meilleurs valeurs de f obtenues ($f_{best}$) aprs un nombre fixé d'itérations. 

In [59]:
# Données
Abar=10*ones(m,n)+1*randn(m,n);
bbar=10*randn(m,1);

# x_0
xd = zeros(n,1); # résolution déterministe
xs = xd;  # résolution stochastique

# Bruit et echantillon
M  = 200;
noise  = 4;

#Nombre d'itérations
niter=100;

j = 0;

fbestd =1e10; # $f_{best}^0$: cas d'une résolution déterministe
fbests =1e10; # $f_{best}^0$: cas d'une résolution stochastique
fbesttd=[]; # f_{best} pour chaque expériences dans le cas d'une résolution déterministe
fbestts=[]; # f_{best} pour chaque expériences dans le cas d'une résolution stochastique

for nexp=1:20
    # Répétition des expériences    
# Insérer votre code
itermax = 100
i = 0;
pas = 10^-2
while i < itermax
    i = i + 1;
    # Insérer votre code
    xd = xbestd
    xs = xbests
    xbests = xs- pas*subgrads(Abar,bbar,noise,xs,M)
    xbestd = xd- pas*subgradd(Abar,bbar,xd)
    fbests = min(fbests,fvals(Abar,bbar,noise,xs,M))
    fbestd = min(fbestd,fvald(Abar,bbar,xd))
    # Stockage
end
append!( fbestts, fbests)
append!( fbesttd, fbestd)
# Fin insérer code
end

#Affichage
#plotly();
iter=1:20;
hf=[fbesttd,fbestts];
plot(iter,hf,title="Convergence curves",label=["Deterministic" "Stochastic"],lw=3)

**Reponse 7 :** On voie que les meilleurs valeurs de f obtenues par la méthode déterministe sont plus meilleurs que celles de la méthode stochastique.