<p hidden>Here are some Latex definitions</p> 

$\newcommand{\R}{\mathbb{R}}$
$\newcommand{\RR}{\mathbb{R}}$
$\newcommand{\N}{\mathcal{N}}$
$\newcommand{\E}{\mathbb{E}}$
$\newcommand{\Mm}{\mathcal{M}}$

# TP 3 : Minimisation d'une fonction quadratique

In [3]:
import numpy as np
from numpy.linalg import norm, svd, solve
from numpy.random import randn
import matplotlib.pyplot as plt
import matplotlib as mpl

In [4]:
# Permet a une cellule d'avoir plus d'un display en sortie
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# Seed for np.random
np.random.seed(seed=78)

## I. Algorithme du gradient pour une fonction quadratique

Etant donné $A$ une matrice symmétrique de $\R^{N\times N}$, et $b\in \R^N$, on cherche obtenir un vecteur minimisant la fonction
\begin{equation}
f(x) = \frac{1}{2}\Vert Ax - b \Vert^2.
\tag{1}
\end{equation}


On rappelle l'**Algorithme du Gradient à Pas Fixe** pour une fonction de gradient $L$-Lipschitzien:

| | | |
|-|-|-|
|(GPF)| On choisit $x_0$ un vecteur de $\R^N$ et $\rho \in ]0,2/L[$ un pas fixe. |
|  | Pour $k\geq 0$ : $x_{k+1}  = x_k  - \rho \nabla f(x_k)$. |

Voici quelques commandes python dont vous pourrez avoir besoin:

| | |
|-|-|
|`randn(m,n)`| Génère une matrice aléatoire dans $\Mm_{m,n}(\RR)$ |
| `np.zeros((m,n))` | Génère une matrice nulle dans $\Mm_{m,n}(\RR)$ |
| `np.ones((m,n))` | Génère une matrice remplie de $1$ dans $\Mm_{m,n}(\RR)$ |
| `A.T` | Transposée de la matrice `A` |
| `A@B` | Produit entre deux matrices ou matrice/vecteur |
| `norm(A,2)` | Plus grande valeur singulière de `A` |
| `norm(A,-2)` | Plus petite valeur singulière de `A` |
| `norm(x)` | Norme Euclidienne du vecteur `x` |


**1)** Définir une matrice $A \in \Mm_{50,100}(\RR)$, et un vecteur $y \in \RR^{50}$, tous deux alétoires. On utilisera la fonction `randn(m,n)` qui génère une matrice dans $\Mm_{m,n}(\RR)$ dont les coefficients suivent la loi normale centrée réduite. 

Ici, et durant toute la suite du TP, les vecteurs devront être considérés comme des matrices sous forme de colonne colonne.

**2)** Rappel du cours/TD: Le gradient de la fonction $f$ en $x$ vaut $\nabla f(x) = A^*(Ax-b)$ et $\nabla^2 f(x) \equiv A^*A$. Calculer $L$, la constante de Lipschitz du gradient de $f$.

**3.1)** Définir une fonction `algo_gradient` qui:
- prend en arguments une matrice `A`, un vecteur `b`, un point initial `x0`, un pas `rho`, et un nombre d'itérations maximal `itermax`
- applique l'algorithme du gradient à pas constant à $f$, en partant de `x0`, pendant `itermax` itérations
- renvoie le dernier itéré de la suite

In [5]:
def algo_gradient(A, b, x0, rho, itermax):
    
    
    
    
    return x

**3.2)** Vérifier que votre fonction marche bien, en la testant avec $\rho=1/L$, `nmax`$=10^3$ et un point initial de votre choix dans $\RR^{100}$. Vous vérifierez également que la solution `x` ainsi obtenue satisfait $\nabla f(x) \simeq 0$.

**3.3)** Vu que l'algorithme a l'air de marcher très bien, on n'a peut être pas besoin de le faire tourner pour toutes les `itermax` itérations. Modifier `algo_gradient` afin que:
- il prenne en nouvel argument un niveau de tolérance `tol`
- il s'arrête dès lors que $\Vert \nabla f(x) \Vert <$ `tol`
- il renvoie en plus le nombre d'itérations qui ont été effectuées.

Pour cela, vous pourrez utiliser l'instruction `break` qui permet d'arrêter une boucle (voir le petit exemple ci-dessous pour comprendre comment `break` fonctionne en python).

In [None]:
# Exemple de focntionnement pour BREAK
for boucle_exter in [1,2]:
    print("Boucle externe numéro "+str(boucle_exter))
    for lettre in "abcde":
        print(lettre)
        if lettre == "c":
            break
    print("La boucle interne s'est arrêtée à : "+lettre)

In [None]:
# Nouvelle version de algo_gradient
def algo_gradient(A, b, x0, rho, itermax, tol):
    
    
    
    
    
    return x, k

**3.4)** Tester la nouvelle version de l'algorithme avec les mêmes paramètres qu'à la question **3.2)**, et une tolérance de $10^{-10}$. De combien d'itérations a-t-on besoin?

**4)** On souhaite maintenant que l'algorithme aille le plus vite possible. Pour cela, on va se servir du cours, où on a vu que l'algorithme du gradient à pas fixe converge le plus vite lorsque $\rho = \frac{2}{\mu+L}$, où $\mu$ est la plus petite valeur singlulière de $A^*A$.

**4.1)** Calculer `mu` de deux façons différentes: $\sigma_{min}(A^*A)$ et $\sigma_{min}(A)^2$. Que constatez-vous? Lequel donne un résultat satisfaisant? A votre avis, pourquoi?

**4.2)** Utiliser l'algorithme comme à la question **3.4)** en remplaçant le pas $1/L$ par $\frac{2}{\mu+L}$. Observer le nombre d'itérations qu'il faut maintenant.

**4.3)** Est-ce que ce problème est bien conditionné?

**5)** Le cours prédit que 
\begin{eqnarray}
f(x_{k+1}) - \inf f & \leq & \theta^{2k} \  (f(x_k) - \inf f),
\end{eqnarray}

où $\theta = (L - \mu)/L$ si $\rho = 1/L$, et $\theta = (L- \mu)/(L+\mu)$ si $\rho = 2/(L + \mu)$.
On va vérifier sur notre exemple si ces vitesses sont respectées.

**5.1)** Modifier la fonction `algo_gradient` afin que:
- il renvoie en plus une `liste` qui contient tous les itérés de la suite.

In [None]:
# Nouvelle version de algo_gradient
def algo_gradient(A, b, x0, rho, itermax, tol):
    
    
    
    
    
    
    
    
    
    
    return x, k, suite

**5.2)** Faire tourner l'algorithme du gradient avec $\rho  =1/L$, et construire deux listes :
- `val` qui contient les valeurs $f(x_k) - \inf f$
- `val_theorie` qui contient la borne supérieure $\theta^{2k} (f(x_0) - \inf f)$.

On cherchera un moyen rapide de calculer $\inf f$.

**5.3)** Vérifier si la décroissance des valeurs respecte la thérorie : on tracera deux courbes en échelle logarithmique (l'échelle logarithmique s'active avec `plt.yscale('log')`

**5.4)** Reprendre ces deux dernières questions pour $\rho = 2/(L+\mu)$.

# II. Application au traitement d'images

In [None]:
# N'exécuter cette cellule qu'une seule fois (prend un peu de temps)
import sys
!{sys.executable} -m pip install git+https://github.com/Guillaume-Garrigos/invprob.git
# python -m pip install git+https://github.com/Guillaume-Garrigos/invprob.git

Depuis Moodle, télécharger le fichier `photo.npy`, et le placer dans le même dossier que celui contenant ce notebook. Vous pourrez ensuite charger ce fichier comme une image dans python via la commande `np.load`, qui l'importe comme une matrice (dont les coefficients correspondent aux pixels) ; et l'afficher avec la commande `imshow`.

In [None]:
from invprob.signal import imread, imshow, gaussian_kernel, dct2, idct2
from invprob.general import dotp

In [None]:
b = np.load('photo.npy')
imshow(b)

Le but de cette section va être d'essayer de retirer l'effet de flou sur cette image, en la rendant plus nette.
Pour cela nous allons simplement *modéliser* notre problème comme un problème inverse linéaire:
- il existe une certaine image originale, notons-la $x$, que l'on voudrait récupérer.
- cette image a subi un "flou", ce qui a abouti à l'image que l'on a téléchargé. Appelons cette image $b$.
- l'opération de floutage est en fait une opération *linéaire* (on l'admet pour l'instant), donc on peut dire que $b=Ax$, où $A$ est l'application linéaire de floutage.
- Pour retrouver $x$ à partir de $b$, il nous "suffit" donc de résoudre le système $Ax=b$, ce qui revient à minimiser $\Vert Ax-b \Vert^2$.

**1)** Commençons par nous intéresser à cette application linéaire de floutage $A$, définie ci-dessous non pas comme une matrice mais via la fonction `flou()`.

In [None]:
kernel_size = 3
kernel_std = 1
im_shape = (128,128)
kernel_fourier = gaussian_kernel(kernel_size, kernel_std, im_shape)

def flou(x): # La fonction qui permet d'évaluer A@x
    return np.real(idct2(dct2(x) * kernel_fourier))

L = np.max(np.abs(kernel_fourier)) # Ceci est la constante de Lipschitz du gradient de la fonction quadratique

**1.1** Soit $b$ l'image précédemment importée. Calculer $Ab$, et afficher le résultat avec `imshow`. Faire de même avec $A^4b$.

**1.2)** Comment se convaincre que cette application `flou` est linéaire? Très simple: générer deux matrices aléatoires $X$ et $Y$ dans $\Mm_{128,128}(\RR)$, et vérifier que $A(X+Y)=AX + AY$.

**1.3)** Non seulement `flou` est linéaire, mais elle est en plus symétrique, c'est-à-dire que $A^*=A$. Pour s'en convaincre, il suffit de prendre deux matrices aléatoires $X$ et $Y$ et de vérifier que $\langle AX,Y\rangle = \langle X,AY \rangle$. On pourra utiliser la fonction `dotp(.,.)` qui calcule le produit scalaire entre deux vecteurs.

**2.1)** Reprendre le code de la question **I.3.3)** pour coder une fonction `defloutage`, qui:
- prend en entrée une image floutée `b`, un nombre maximal d'itérations `itermax`, un paramètre de tolérance `tol`
- applique l'algorithme du gradient à pas constant à $\Vert Ax-b \Vert^2/2$, où $A$ est l'application de flou, en initialisant l'algorithme à zéro, et en prenant comme pas $\rho = 1.9/L$.

In [None]:
def defloutage(b, itermax, tol):
    
    
    return x, k

**2.2)** Tester cette fonction avec `itermax=10000` et une tolérance de $10^{-4}$. Comparer le résultat avec la photo floutée originale.

In [None]:
_ = plt.figure(dpi=100)
_ = plt.subplot(1,2,1)
imshow(b) # l'image floutée
_ = plt.subplot(1,2,2)
imshow(x) # l'image obtenue par l'algorithme