TP 2 - Echantillonnage compressif
==================

### <Font color = "blue"> ENGELSEN Gorm et RAHAL Skander

In [None]:
import numpy as np
import math
import scipy.fftpack as fft
import matplotlib.pyplot as plt
from numpy import linalg as npl
import time

Récemment (début années 2004-présent), de nouveaux concepts et théorèmes ont été développés et risquent de 
révolutionner à relativement court terme la fabrication de certains appareils de mesure numériques (microphones, imageurs, analyseurs de spectres,...). 
Ces nouvelles techniques sont couramment appelées échantillonnage compressif, "compressive sampling" ou encore "compressed sensing". 

## 1. Le théorème de Shannon

Aujourd'hui, presque tous les appareils de mesure reposent sur le théorème de Shannon. Celui-ci (vous l'avez déjà vu en 2ème année) peut s'énoncer ainsi : 
> Soit $g:\mathbb{R}\to \mathbb{R}$ une fonction de $L^2(\mathbb{R})$. Si sa transformée de Fourier $\hat g$ a un support contenu dans l'intervalle $[-f_M, f_M]$, alors en l'échantillonnant à une fréquence d'échantillonnage $f_e\geq 2f_M$, on peut la reconstruire exactement.

Ce théorème est illustré sur les figures ci-après:
![Echantillonnage105.png](attachment:Echantillonnage105.png)![Echantillonnage201.png](attachment:Echantillonnage201.png)
![Echantillonnage09.png](attachment:Echantillonnage09.png)![EchantillonageSous_Nyquist.png](attachment:EchantillonageSous_Nyquist.png)

Les instruments de mesures qui reposent sur ce théorème sont donc construits suivant le principe : 
>Filtre passe-bas $\rightarrow$ Echantillonnage à une fréquence $f>2f_M$ $\rightarrow$ Interpolation sinc

Pour beaucoup d'applications, ce principe présente deux défauts majeurs :
* Les signaux sont rarement naturellement à spectre borné, et on perd donc l'information haute-fréquence en effectuant un filtrage passe-bas.
* Pour beaucoup de signaux, il faut choisir une très haute fréquence d'échantillonnage pour obtenir un résultat satisfaisant. 
Ceci implique que les données à stocker ont une taille très importante et qu'il faut les compresser après coup (par exemple : jpeg).




## 2. L'échantillonnage compressif

**1. Principe général**

L'idée sous jacente à l'échantillonnage compressif est de réaliser la compression dès l'acquisition.
Supposons que le signal $x\in \mathbb{R}^n$ que l'on souhaite mesurer s'écrive comme une combinaison linéaire de la forme :
\begin{equation}
(1)~~~~~~~~~~~ x=\sum_{i=1}^m\alpha_i \psi_i
\end{equation}
où $\psi_i\in \mathbb{R}^n, \ i=1..m$, sont des "fonctions de base" (en traitement d'images, ces fonctions pourraient être des ondelettes, en traitement du son, des ondelettes ou des atomes de Fourier, pour certaines applications, on pourrait imaginer des splines...} et $\alpha_i\in \mathbb{R}$ sont des coefficients. 
On peut réécrire l'équation (1) sous la forme matricielle condensée :
$$
x=\Psi \alpha \ \ \textrm{où } \ \ \alpha=\begin{pmatrix} \alpha_1 \\ \vdots \\ \alpha_m \end{pmatrix}\ \ \textrm{et} \ \ \Psi=\begin{pmatrix} \psi_1,\psi_2,..., \psi_m\end{pmatrix}.
$$
Pour pouvoir reconstruire tous les éléments de $\mathbb{R}^n$, on suppose généralement que la matrice $\Psi$ est une matrice surjective (ainsi, la famille  des $(\Psi_i)_i$ est génératrice), ce qui implique que $m\geq n$. Dans le langage du traitement d'image, on dit alors que $\Psi$ est un frame (une base si $m=n$).

L'échantillonnage compressif repose sur l'hypothèse suivante : les signaux $x$ que l'on souhaite mesurer sont parcimonieux, 
c'est-à-dire que la majorité des coefficients $\alpha_i$ dans (1) sont nuls ou encore que 
$$\#\{\alpha_i\neq 0, i=1..m\}\ll n.$$
On va voir que cette hypothèse permet - dans certains cas - de réduire drastiquement le nombre de mesures par rapport au théorème de Shannon avec en contre-partie, le besoin de résoudre un problème d'optimisation pour reconstruire la donnée. L'objectif de ce TP est de résoudre le problème d'optimisation résultant.

Le principe de l'acquisition du signal $x$ est le suivant :

- On effectue un petit nombre $p\ll n$ de mesures linéaires du signal $x$ inconnu. On note ces mesures $y_i$, et comme elles sont linéaires par rapport à $x$, il existe pour chaque $i$ un vecteur $a_i\in \mathbb{R}^n$ tel que 
$$y_i=\langle a_i, x\rangle, i=1..p.$$ On peut aussi écrire cette opération de mesure sous la forme condensée :
$$
y=Ax\ \ \textrm{où } \ \ y=\begin{pmatrix} y_1 \\ \vdots \\ y_p\end{pmatrix} \ \ \textrm{et} \ \ A=\begin{pmatrix} a_1^T\\a_2^T\\ \vdots
\\ a_p^T\end{pmatrix}.
$$
- On reconstruit le signal $x$ en résolvant le problème contraint suivant :

$$
(2)~~~~~~~~~~~ \mbox{Trouver } \alpha^\star \mbox{ solution de: }\displaystyle\min_{\alpha \in \mathbb{R}^m, A\Psi\alpha=y} \|\alpha\|_0
$$

où $\|\cdot\|_0$ est la norme de comptage, aussi appelée norme $l^0$ définie par : 
$$
\|\alpha\|_0=\#\{\alpha_i\neq 0, i=1..m\}.
$$
Autrement dit, l'idée est la suivante : on  cherche $\alpha^\star$, le signal le plus parcimonieux dans le frame $\Psi$, parmi les signaux qui peuvent donner lieu aux mesures $y$. 
Après avoir trouvé $\alpha^\star$, on recouvre $\tilde x$, une approximation du signal $x$ en calculant $\tilde x=\Psi\alpha^\star$.



**2. Simplification du problème d'optimisation**

Le problème précédent est un problème combinatoire NP-complet, ce qui signifie que trouver $\alpha$ peut demander un temps exponentiel en fonction de $n$, la dimension du signal. Pour le résoudre en pratique, il est souvent remplacé par : 

$$
(3)~~~~~~~~~~~  \mbox{Trouver } \alpha^*\in \displaystyle\arg\min_{\alpha \in \mathbb{R}^m, A\Psi\alpha=y} \|\alpha\|_1
$$

où $\|\alpha\|_1=\sum_{i=1}^m|\alpha_i|$ est la norme $l^1$ de $\alpha$. On peut dans certains cas montrer que les solutions de (2) et de (3) sont identiques. 

Un appareil de mesure n'étant jamais parfait, il est impossible de mesurer exactement $y_i=\langle a_i, x\rangle$. 
Le vecteur $y$ est bruité et la contrainte $A\Psi\alpha=y$ est trop forte. Elle est donc généralement relaxée et le problème devient : 

>$$(4)~~~~~~~~~~~  \mbox{Trouver } \alpha^*\in \arg\min_{\alpha \in \mathbb{R}^m} \|\alpha\|_1 + \frac{\sigma}{2} \|A\Psi\alpha-y\|_2^2.$$

Si $\sigma$ tend vers $0$, la solution du problème (4) tend vers une solution du problème (3). C'est le problème (4) que nous allons résoudre dans ce TP. Dans la suite , on notera $F$ la fonction :
$$
F(\alpha)=\|\alpha\|_1 + \frac{\sigma}{2} \|A\Psi\alpha-y\|_2^2.
$$

On peut remarquer que les problèmes (3) et (4) sont convexes (contraintes convexes et fonctions convexes) tandis que le problème (2) ne l'est pas. En revanche, aucun des trois problèmes n'est différentiable.

Pour conclure cette introduction à l'échantillonnage compressif, notons que de façon similaire au théorème de Shannon, on dispose d'une condition de reconstruction exacte :

> Supposons que :
* $x=\displaystyle\sum_{i=1}^m\alpha_i\psi_i\in \mathbb{R}^n$ avec $\|\alpha\|_0=k$.
* On effectue $p$ mesures linéaires de $x$ avec $p\geq C \cdot k \cdot \log(n)$, où $C=20$.
* On choisit les coefficients de la matrice $A\in \mathcal{M}_{p,n}$ de façon **aléatoire** (e.g. on peut choisir les coefficients $a_{i,j}$ de $A$ de façon indépendante suivant une loi normale.)

> Alors, la résolution du problème (3) permet de reconstruire $x$ **exactement** avec une très grande probabilité 

L'expérience a montré qu'en pratique, il suffit en général de $p=2k$ mesures pour reconstruire le signal exactement en grande dimension !

### 4. Algorithme Forward Backward

Commencons par quelques rappels: soit $F=f+g$ une fonction convexe composite avec $f$ différentiable à gradient 
$L$-Lipschitz et $g$ une fonction convexe dont on sait calculer l'opérateur proximal. L'algorithme Forward-Backward s'écrit alors:
$$x_{k+1}=prox_{sg}(x_k-s\nabla f(x_k)).$$

On peut montrer que la suite $(F(x_k)-F(x^*))_{k\in \mathbb N}$ est décroissante et: 
$$F(x_k)-F(x^*)\leqslant \frac{2\Vert x_0-x^*\Vert^2}{sk}$$
Cette vitesse en $\frac{1}{k}$ est optimale au sens où il n'est pas possible de trouver des bornes qui décroissent en $\frac{1}{k^{\delta}}$ avec $\delta>1$ pour toutes les fonctions convexes. On peut montrer que si $s<\frac{1}{L}$ on a en fait 
$$F(x_k)-F(x^*)=o\left(\frac{1}{k}\right).$$

Revenons maintenant au problème (4) et appliquons l'algorithme FB pour le résoudre. Pour cela: 

**Q1.** Soit $J(\alpha) =\frac{\sigma}{2}\|A\Psi \alpha - y\|_2^2$. Calculez $\nabla J(\alpha)$.

$$
\begin{align}
J(\alpha) &=\frac{\sigma}{2}\|A\Psi \alpha - y\|_2^2\\
&= \frac{\sigma}{2}(A\Psi \alpha - y)^T(A\Psi \alpha - y)\\
&= \frac{\sigma}{2}(A^T\Psi^T \alpha^T - y^T)^T(A\Psi \alpha - y)\\
&= \frac{\sigma}{2}(\alpha^T\Psi^TA^TA\Psi\alpha - \alpha^T\Psi^TA^Ty - y^TA\Psi\alpha + y^Ty)\\
\nabla J (\alpha) &= \sigma (A \Psi)^T (A \Psi \alpha - y)
\end{align}
$$

**Q2.** Montrer que la fonction $J$ est de classe $C^1$ à gradient Lipschitz et calculer un majorant $L$ de la constante de Lipschitz de $\nabla J$ en fonction de $|||A|||$, de $|||\Psi |||$ et de $\sigma$.
    

#### $J$ est de classe $C^1$:

$ A\Psi \alpha - y $ est linaire et $ ||\cdot||^2 $ est une norme carré donc $J(\alpha)$ est de classe $C^1$

#### Gradent Lipschitz:

$$
\begin{align}
||\nabla J(\alpha) - \nabla J(\beta)|| &= ||\sigma(A\Psi)^T(A\Psi\alpha-y)-\sigma(A\Psi)^T(A\Psi\beta-y)||\\
&= \sigma||(A \Psi)^T A \Psi (\alpha - \beta)||\\
&=\leq |||(A \Psi)^T A \Psi|||\cdot||\alpha - \beta||
\end{align}
$$

donc $\nabla (J)$ est Lipschitz avec $L = \sigma |||(A \Psi)^T A \Psi|||$

**Q3.** On note $\alpha^k$ l'itéré courant. On veut utiliser l'algorithme Forward-Backward pour la résolution du problème (4) en choisissant un pas constant égal à $\frac{1}{L}$. Ecrire une itération de l'algorithme FB et donner la formule analytique permettant de calculer
$\alpha^{k+1}$ en fonction de $\alpha^k$.

$$
\begin{align}
\alpha^{k+1} &= \mbox{prox}_{\frac{1}{L}\left\|.\right\|_1}\Big(\alpha^k-\frac{1}{L}\nabla J(\alpha^k)\Big) \\
&= \mbox{prox}_{\frac{1}{L}\left\|.\right\|_1}\Big(\alpha^k-\frac{1}{L}\sigma (A \Psi)^T (A \Psi \alpha^k - y)\Big)\\
&=sgn\Big(\alpha^k-\frac{1}{L}\sigma (A \Psi)^T (A \Psi \alpha^k - y)\Big)\cdot max \Big(\alpha^k-\frac{1}{L}\sigma (A \Psi)^T (A \Psi \alpha^k - y) - \frac{1}{L}, 0\Big)
\end{align}
$$ 





**Q4.** De quelle quantité la fonction coût $F(\alpha)$ décroît-elle à chaque itération ?

On cherche trouver $F(\alpha^k) - F(\alpha^{k+1})$ ou 
$$F(\alpha) = \| \alpha \|_1 + \frac{\sigma}{2}\|A\Psi \alpha - y\|_2^2 = \| \alpha \|_1 + J(\alpha).$$
On a que une iteration de $\alpha_k$ est:
$$\alpha^{k+1} = \mbox{prox}_{\frac{1}{L}\left\|.\right\|_1}\Big(\alpha^k-\frac{1}{L}\nabla J(\alpha^k)\Big) = \arg\min_{y \in \mathbb{R}^m}(\frac{1}{L}||y||_1+\frac{1}{2}||y-\alpha^k+\frac{1}{L}\nabla J(\alpha^k)||_2^2)$$



On a un problème d'optimisation non différentiable et convexe. La condition nécessaire et suffisante d'optimalité est alors:
$$
0\in\frac{1}{L}\partial_{||.||_1}(\alpha^{k+1})+\alpha^{k+1}-\alpha^k+\frac{1}{L}\nabla J(\alpha^k) \\ \alpha^k - \alpha^{k+1} - \frac{1}{L}\nabla J(\alpha^k)\in \frac{1}{L}\partial_{||.||_1}(\alpha^{k+1}) $$


On a par définition du sous-gradient
$$
\begin{align} \frac{1}{L}||\alpha^{k}||_1 &\geq  \frac{1}{L}||\alpha^{k+1}||_1 + <\alpha^k - \alpha^{k+1}-\frac{1}{L}\nabla J(\alpha^{k}), \alpha^{k}-\alpha^{k+1}>\\
 \frac{1}{L}(||\alpha^{k}||_1-||\alpha^{k+1}||_1 ) &\geq   <\alpha^k - \alpha^{k+1}, \alpha^{k}-\alpha^{k+1}> -\frac{1}{L}<\nabla J(\alpha^{k}), \alpha^{k}-\alpha^{k+1}> \\
 ||\alpha^{k}||_1-||\alpha^{k+1}||_1  &\geq  L ||\alpha^k - \alpha^{k+1}||_2^2 -<\nabla J(\alpha^{k}), \alpha^{k}-\alpha^{k+1}>\end{align}$$
 

Puisque $J$ est à gradient L-Lipschitz on a que:

 $$J(y) - J(x)  \leq <\nabla J(x), y-x> + \frac{L}{2}||x - y||_2^2 $$

Si on pose que $y=\alpha^{k+1}$ et $x=\alpha^{k}$ on obtient que:

 $$- <\nabla J(\alpha^k), \alpha^k-\alpha^{k+1}> \geq J(\alpha^{k+1}) - J(\alpha^k) - \frac{L}{2}||\alpha^k - \alpha^{k+1}||_2^2 $$
 
Et on peut utiliser cette equation dans l'expression au dessus pour obtenir

$$
\begin{align}
||\alpha^{k}||_1-||\alpha^{k+1}||_1  &\geq  L ||\alpha^k - \alpha^{k+1}||_2^2 +J(\alpha^{k+1}) - J(\alpha^k) - \frac{L}{2}||\alpha^k - \alpha^{k+1}||_2^2 \\
||\alpha^{k}||_1 + J(\alpha^k)-||\alpha^{k+1}||_1 - J(\alpha^{k+1})  &\geq  L ||\alpha^k - \alpha^{k+1}||_2^2 - \frac{L}{2}||\alpha^k - \alpha^{k+1}||_2^2\\
 F(\alpha^k) - F(\alpha^{k+1}) &\geq \frac{L}{2}||\alpha^k - \alpha^{k+1}||_2^2
\end{align}$$


Donc la fonction coût 𝐹(𝛼) décroît d'au moins $\frac{L}{2}||\alpha^k - \alpha^{k+1}||_2^2$ à chaque itération.



#### 4.1 Partie expérimentale. Les données
------------------------

Dans ce TP, on va chercher à reconstruire un signal unidimensionnel $x~:~[0,1]~\rightarrow~\mathbb{R}$ de la forme :
$$
x(t)= \alpha_{k}\delta_{k/n}(t)+\sum_{k=1}^n\alpha_{k+n}\cos\left(\frac{2k\pi}{n} t\right)
$$ 
on a donc $m=2n$.

In [None]:
## Initialisations
n=500            #Taille de l'echantillon
t=np.linspace(0,1,n) #On definit un signal sur [0,1]

## Generation du signal
x=np.zeros(n)
tmp=np.zeros(n)
#On ajoute deux cosinus
tmp[350]=4
x+=fft.idct(tmp,norm='ortho')  
tmp=np.zeros(n)
tmp[150]=-3  
x+=fft.idct(tmp,norm='ortho')
#On ajoute deux diracs
x[int(n/3)]=0.2;    #Tester 0.5
x[int(2*n/3)]=-0.3; #Tester -1

plt.plot(t,x,'b')
plt.show()
## Mesure du signal
p=20*4       #Nombre de mesures
A=np.random.randn(p,n) #La matrice de mesure
y=A.dot(x)        #Les mesures

Le code *Generesignal.py* génère un signal discret $x$ qui peut être vu comme une combinaison linéaire de cosinus à différentes fréquences et de diracs. Ce signal n'est pas parcimonieux dans la base canonique des diracs (car il faut à peu près $n$ diracs pour représenter un cosinus) et il n'est pas parcimonieux dans la base des sinus (il faut faire une combinaison linéaire de $n$ cosinus pour représenter un dirac).

Par contre, ce signal est parcimonieux dans un frame qui est l'union de la base canonique et de la base des cosinus. 
Dans ce frame, il suffit en effet de $4$ coefficients non nuls pour reconstruire parfaitement le signal.

> On choisira donc le frame représenté par une matrice $\Psi=(I,C) \in \mathcal{ M}_{2n,n}(\mathbb{R})$ o\`u $C$ est une base de cosinus à différentes fréquences.

#### 4.2. Implémentation de l'itération proximale

**Q5** Implémentez l'opérateur linéaire $\Psi$ et son adjoint $\Psi^*$. 

Pour $\Psi$, vous vous servirez de la fonction $dct$ de Python dans la libraire scipy.fftpack qui calcule la transformée en cosinus discret d'un vecteur. Vous ferez attention à préciser *norm='ortho'* dans les options de la $dct$ pour que $idct$ soit bien l'opération inverse de $dct$.

Pour $\Psi^*$, vous utiliserez le fait que la $dct$ est une isométrie quand on précise \textit{norm='ortho'} dans les options de $dct$.

In [None]:
## Linear function Psi
## (combination of sines and diracs) 
def Psi(alpha) :
    n = int(len(alpha)/2)
    C = fft.idct(alpha[n:], norm='ortho') 
    I = alpha[:n]
    return I + C

## The transpose of Psi
def PsiT(x) :
    n = len(x)
    alpha = np.zeros(2*n)
    alpha[:n] = x
    alpha[n:] = fft.dct(x, norm='ortho')
    return alpha


**Q6** Implémentez l'algorithme proximal dans la fonction *RestoreX* avec les notations suivantes:
* $A$ est la matrice d'échantillonnage.
* $y$ est le vecteur de mesures.
* $sigma$ est un paramètre du modèle.
* $nit$ est le nombre d'itérations.
* $alpha$ est la solution approximative du problème (4).
* $x$ est donné par Psi $(\alpha)$.
* $CF$ est la fonction coût à chaque itération de l'algorithme. 

In [None]:
## Prox of the l1−norm 
def prox(alpha,gamma) :
    beta = np.sign(alpha)*np.maximum(np.abs(alpha) - gamma, 0)
    return beta

def cost_function(alpha, sigma, A, y):
    return npl.norm(alpha,1) + sigma/2*npl.norm(A.dot(Psi(alpha))-y,2)**2


def RestoreX(A,y,sigma,nit):
    t0 = time.time()
    n = np.shape(A)[1]
    x = np.zeros(n)
    alpha = np.zeros(2*n)
    alpha_arr = []
    CF = []
    L = 2*sigma*npl.norm(A.T@A,2)
    gamma = 1/L
    
    for i in range(nit):
        gradJ = sigma * PsiT((A.T).dot(A@Psi(alpha) - y))
        x_k = alpha - gamma*gradJ
        alpha = prox(alpha - gamma*gradJ, gamma)
        CF.append(cost_function(alpha, sigma, A, y))
        alpha_arr.append(alpha)
        if (i > 1):
            if (max(abs(alpha_arr[i] - alpha_arr[i-1])) < 10e-8):
                x = Psi(alpha)
                t = time.time() - t0
                return alpha,x,np.array(CF), alpha_arr, t, i+1

    x = Psi(alpha)
    t = time.time()-t0
    return alpha,x,np.array(CF), alpha_arr, t, i+1


**Q7.** Testez votre algorithme ! Les paramètres $sigma$ et $nit$ sont des à choisir par vous-même (il faut en pratique beaucoup d'itérations pour converger). Vous pourrez observer la façon dont la suite $\alpha^k$ se comporte au fur et à mesure des itérations.

In [None]:
sigma = 1
nit = 10000
alpha,xtilde,CF, alpha_k, runtime , it = RestoreX(A,y,sigma,nit)
print(runtime)

In [None]:
l = np.where(alpha != 0)

fig, ax = plt.subplots(1,2, figsize = (15,10))
ax[0].set_title("Alpha coefficients")
ax[0].plot(alpha)
ax[1].set_title("Alpha_k coefficients")
ax[1].plot(alpha_k)
plt.show()

print("Alpha coefficients: ", str(l[0].flatten()))
a_v = []
for i in l[0].flatten():
    a_v.append(round(alpha[i],3))
    

print("Alpha values: ", str(a_v))


##### Commentaire
On peut facilement voir que les 4 coefficients non nuls sont $166, 333, 650$ et $850$.
A droite, on peut constater la convergence de coefficients de $\alpha$.Cela nécessite environ 4500 itérations à l'algorithme pour qu'il puisse converger.





In [None]:

nit = 10000
Sigma = [0.1, 1, 10, 100]
alpha_1,xtilde_1,CF_1, alpha_k_1, t1, it1=RestoreX(A,y,Sigma[0],nit)
alpha_2,xtilde_2,CF_2, alpha_k_2, t2, it2=RestoreX(A,y,Sigma[1],nit)
alpha_3,xtilde_3,CF_3, alpha_k_3, t3, it3=RestoreX(A,y,Sigma[2],nit)
alpha_4,xtilde_4,CF_4, alpha_k_4, t4, it4=RestoreX(A,y,Sigma[3],nit)

In [None]:
fig, ax = plt.subplots(4,3, figsize = (12,17))
fig.suptitle("Comparison of different sigma", size = 20)
ax[0][0].plot(alpha_1)
ax[0][0].set_title("Alpha coefficients with $\sigma = $" + str(Sigma[0]))
ax[0][1].plot(np.log(CF_1))
ax[0][1].set_title("Log(CF) with $\sigma = $" + str(Sigma[0]))
ax[0][1].grid()
ax[0][2].plot(alpha_k_1)
ax[0][2].set_title("Convergence of alpha with $\sigma = $" + str(Sigma[0]))

ax[1][0].plot(alpha_2)
ax[1][0].set_title("Alpha coefficients with $\sigma = $"  + str(Sigma[1]))
ax[1][1].plot(np.log(CF_2))
ax[1][1].set_title("Log(CF) with $\sigma = $"  + str(Sigma[1]))
ax[1][1].grid()
ax[1][2].plot(alpha_k_2)
ax[1][2].set_title("Convergence of alpha with $\sigma = $" + str(Sigma[1]))

ax[2][0].plot(alpha_3)
ax[2][0].set_title("Alpha coefficients with $\sigma = $"  + str(Sigma[2]))
ax[2][1].plot(np.log(CF_3))
ax[2][1].set_title("Log(CF) with $\sigma = $"  + str(Sigma[2]))
ax[2][1].grid()
ax[2][2].plot(alpha_k_3)
ax[2][2].set_title("Convergence of alpha with $\sigma = $" + str(Sigma[2]))

ax[3][0].plot(alpha_4)
ax[3][0].set_title("Alpha coefficients with $\sigma = $"  + str(Sigma[3]))
ax[3][1].plot(np.log(CF_4))
ax[3][1].set_title("Log(CF) with $\sigma = $"  + str(Sigma[3]))
ax[3][1].grid()
ax[3][2].plot(alpha_k_4)
ax[3][2].set_title("Convergence of alpha with $\sigma = $" + str(Sigma[3]))

plt.show()

#### Comments:
On voit que pour $\sigma$ trop petit, on risque de sauter des coefficients non nuls et pour $\sigma$ trop grand , on constate que l'algorithme nécessite beaucoup de temps avant de converger. Donc on choisit $\sigma = 1$.

**Q8.** Vérifiez que la fonction coût décroit de façon monotone. Quel est le taux de convergence observé ?

In [None]:
sigma = 2
nit = 10000
alpha,xtilde,CF, alpha_k , t , it= RestoreX(A,y,sigma,nit)

In [None]:
dec = np.zeros(len(CF)-1)
for i in range(len(CF)-1):
    dec[i] = CF[i]-CF[i+1]
print("Minimum value:" + str(min(dec)))

La valeur minimale de la séquence avec la différence de chaque itération est strictement positive. La fonction coût décroit de façon monotone.

Ci-dessous on a créé une fonction pour calculer la taux de convergence observé. 

In [None]:
def convergence_rate(x, L):
    n = len(x[:-1])
    diff = np.abs(x[:-1] - L)
    ratio = diff[1:] / diff[:-1]
    log_ratio = np.log(ratio)
    slope, _ = np.polyfit(np.arange(n-1), log_ratio, 1)
    rate = np.exp(slope)
    return rate

print("Taux de convergence:", round(convergence_rate(CF,CF[-1]), 5))

On peut donc verifier que le taux de convergence observé est en o( $\frac{1}{k}$).

**Q9.** A partir de combien de mesures pouvez-vous reconstruire exactement le signal $x$ ?

In [None]:
nit = 10000
n = 500
sigma = 1
p = [80, 40, 30, 20]

A1=np.random.randn(p[0],n) 
y1=A1.dot(x)        
alpha_1,xtilde_1,CF_1, alpha_k_1 , t1, it1 =RestoreX(A1,y1,sigma,nit)

A2=np.random.randn(p[1],n) 
y2=A2.dot(x)        
alpha_2,xtilde_2,CF_2, alpha_k_2, t2, it2  =RestoreX(A2,y2,sigma,nit)

A3=np.random.randn(p[2],n) 
y3=A3.dot(x)        
alpha_3,xtilde_3,CF_3, alpha_k_3, t3, it3  =RestoreX(A3,y3,sigma,nit)

A4=np.random.randn(p[3],n) 
y4=A4.dot(x)        
alpha_4,xtilde_4,CF_4, alpha_k_4, t4, it4  =RestoreX(A4,y4,sigma,nit)

In [None]:
def plotter_2(x, x_tilde, alpha_k, p):
    plt.figure(figsize=(15,5))
    plt.plot(x_tilde)
    plt.title("Reconstruction of x with $p = $" + str(p))
    fig, ax = plt.subplots(1,2, figsize = (15,7))
    ax[0].plot(np.abs(x-x_tilde))
    ax[0].set_title(" $ |x - x'|$ with $p = $" + str(p))
    ax[1].plot(alpha_k)
    ax[1].set_title("Convergence of alpha with $p = $" + str(p))
    ax[1].grid()
    plt.show()
    
    
plotter_2(x, xtilde_1, alpha_k_1, p[0])

plotter_2(x, xtilde_2, alpha_k_2, p[1])

plotter_2(x, xtilde_3, alpha_k_3, p[2])

plotter_2(x, xtilde_4, alpha_k_4, p[3])



### Commentaire:

On voit que pour $ p \geq 40 $ on peut reconstruire le signal exactement avec une erreur relativement faible.Pour une valeur de $p$ plus grande que 40, on ne peut pas effectivement diminuer l'erreur mais avec une valeur de $p$ inférieure à 40, l'erreur augmente drastiquement. 

### 4.2. Implémentation de l'itération proximale accelérée

On n'a a aucun moment utilisé la convexité de la fonction $J$ pour définir l'algorithme proximal. Celui-ci est de fait sous-optimal et peut être nettement accéléré. Yuri Nesterov a proposé dans les années 1980 plusieurs méthodes permettant l'accélération de la descente de gradient explicite. L'accélération de la descente de gradient proposée Yurii Nesterov en 1984 et adapatée à FB sous le nom de FISTA (Fast Iterative Soft Shrinckage Algorithm) par Beck et Teboulle en 2009 est d'une mise en oeuvre très simple: considérons à nouveau la fonction composite $F=f+g$ à minimiser. L'algorithme FISTA s'écrit:
\begin{eqnarray*}
y_k &=& x_k+\alpha_k(x_k-x_{k-1})\\
x_{k+1} &=& {\rm prox}_{sg}(y_k-s\nabla f(x_k))
\end{eqnarray*}

avec un pas $s<\frac{1}{L}$ et $\alpha_k>0$. On parle de méthode inertielle car cette méthode utilise un terme dit de "mémoire" ou inertiel qui exploite la dernière direction de descente.

Le choix original de Nesterov pour la suite $\alpha_k$ est le suivant :
\begin{equation}
\alpha_k=\frac{t_k-1}{t_{k+1}}\text{ avec }t_1=1\text{ et }t_{k+1}=\frac{1+\sqrt{1+t_k^2}}{2}
\end{equation}
Pour ce choix on a 
$$F(x_k)-F(x^*)\leqslant \frac{2\Vert x_0-x^*\Vert^2}{sk^2}$$
On peut prendre plus simplement $$\alpha_k=\frac{k-1}{k+2}$$ et dans ce cas, on a $F(x_k)-F(x^*)=o\left(\frac{1}{k^2}\right)$ et on a convergence de la suite $(x_k)_{k\geqslant 1}$. On peut noter que dans ce cas, la première étape est sans inertie ($\alpha_1=0$) et donc $x_1=T(x_0)$. L'inertie apparait pour le calcul de $x_2$. 

A noter que la suite de terme général $F(x_k)-F(x^*)$ n'est pas nécessairemment décroissante comme dans le cas de FB ou de la descente de gradient. Dans la pratique vous verrez que FISTA est quand même plus rapide que FB.

 
**Q10.** En vous aidant de ce que vous avez codé dans la partie précédente, implémentez cet algorithme. 

In [None]:
def Nesterov(A,y,sigma,nit):
    t0 = time.time()
    n = np.shape(A)[1]
    x = np.zeros(n)
    alpha = np.zeros(2*n)
    alpha_p = np.zeros(2*n)
    alpha_arr = []
    CF = np.zeros(nit)
    L = 2*sigma*npl.norm(A.T@A,2)
    gamma = 1/L
    for i in range(nit):
        tk = (i-1)/(i+2)
        
        yk = alpha + tk*(alpha - alpha_p)
        gradJ = sigma * PsiT((A.T).dot(A@Psi(yk) - y))
        alpha_p = alpha
        alpha = prox(yk - gamma*gradJ, gamma)
        alpha_arr.append(alpha)
        CF[i] = cost_function(alpha, sigma, A, y)
        if (i > 1):
            if (max(abs(alpha_arr[i] - alpha_arr[i-1])) < 10e-5):
                x = Psi(alpha)
                t = time.time() - t0
                return alpha,x,CF, alpha_arr, t, i+1
    x = Psi(alpha)
    t = time.time() - t0
    return alpha,x,CF, alpha_arr, t, i+1




**Q12.** Testez le et comparez la rapidité d'execution de l'algorithme précédent et de celui-ci.

In [None]:
def plotter_RvsN(a_r_R, a_r_N, t_N, it_N, t_R, it_R):
    
    print("Runtime Nesterov:    " + str(round(t_N,4)))
    print("Iterations Nesterov: " + str(it_N))
    print("Runtime RestoreX:    " + str(round(t_R,4)))
    print("Iterations RestoreX: " + str(it_R))


    fig, ax = plt.subplots(1,2, figsize = (15,7))
    fig.suptitle("$Sigma = $" + str(sigma) )
    ax[0].plot(a_r_R)
    ax[0].set_title("Alpha coefficients with FISTA")
    ax[0].grid()
    ax[0].set_xlabel("Iterations")
    ax[1].plot(a_r_N)
    ax[1].set_title("Alpha coefficients with Forward-Backward")
    ax[1].grid()
    ax[1].set_xlabel("Iterations")
    plt.show()
    

In [None]:
nit=10000
sigma = 0.1
alpha_N0,x_N0,CF_N0, a_r_N0, t_N0, it_N0=Nesterov(A,y,sigma,nit)  
alpha0,xtilde0,CF0, a_r0, t_R0, it_R0=RestoreX(A,y,sigma,nit)

plotter_RvsN(a_r0, a_r_N0, t_N0, it_N0, t_R0, it_R0)

sigma = 1
alpha_N,x_N,CF_N, a_r_N, t_N, it_N=Nesterov(A,y,sigma,nit)  
alpha,xtilde,CF, a_r, t_R, it_R=RestoreX(A,y,sigma,nit)

plotter_RvsN(a_r, a_r_N, t_N, it_N, t_R, it_R)

sigma = 10
alpha_N10,x_N10,CF_N10, a_r_N10, t_N10, it_N10=Nesterov(A,y,sigma,nit)  
alpha10,xtilde10,CF10, a_r10, t_R10, it_R10=RestoreX(A,y,sigma,nit)

plotter_RvsN(a_r10, a_r_N10, t_N10, it_N10, t_R10, it_R10)

sigma = 100
alpha_N100,x_N100,CF_N100, a_r_N100, t_N100, it_N100=Nesterov(A,y,sigma,nit)  
alpha100,xtilde100,CF100, a_r100, t_R100, it_R100=RestoreX(A,y,sigma,nit)

plotter_RvsN(a_r100, a_r_N100, t_N100, it_N100, t_R100, it_R100)


On peut voir que la methode FISTA est meilleure que celle de Forward-Backward Euler et est moins dépendante de $\sigma$. Pour la valeur de $\sigma$ trop petite, FISTA ne trouve pas toutes les coefficients $\alpha$ comme Forward-Backward, en revanche elle converge plus rapidement.

In [None]:
nit = 10000
n = 500
sigma = 1
p = 25

A1=np.random.randn(p,n) 
y1=A1.dot(x)        
alpha_N, xtilde_N,CF_N, alpha_k_N , t1_N, it1_N =Nesterov(A1,y1,sigma,nit)

plotter_2(x_N, xtilde_N, alpha_k_N, p)




Au-dessus on peut voir qu'avec FISTA on peut reconstruire le signal à partir de $p = 25$.

**Q13.** Faites un rapide résumé des points qui vous ont semblé les plus importants dans ce TP.

Au cours de ce TP, on a  exploré qu'on peut avec un nombre limité de mesures reconstruire un signal, representer $x$ par ses coefficients $\alpha \in \mathbb{R}^{2n}$ dans une base de cosinus et diraq. On entraîne un algorithme d'optimisation sur les $\alpha$ pour trouver les coefficients $\alpha*$ qui permettent de reconstruire $x$: $x = Psi(\alpha^*)$.On a comparé principalement deux algorithmes : le Forward-Backward Euler et le FISTA. On a trouvé que FISTA est à la fois plus rapide et meilleur pour la reconstruction du signal malgré que les deux méthodes aboutissent aux mêmes résultats.
