# Mini-projet groupe 2 : interpolation de données manquantes
Contexte : dans le cadre d'acquisition de données sismiques, des capteurs (récepteurs) sont positionnés le long d'une ligne à la surface de la terre. Chacun enregistre au cours du temps le deplacement des particules (signal oscillant) qui varie lors du passage d'une onde acoustique ou élastique. Cet enregistrement s'appelle une **trace**.

En pratique, il arrive que certains capteurs sont défaillants ou encore qu'ils ne sont pas présents dans certaines zones (pour des problèmes d'accessibilité par exemple). L'objectif principal du mini-projet est de reconstituer les traces manquantes.

Hypotheses : nous ferons l'hypothèse importante que les **signaux correspondent à la superposition lineaire d'ondes planes** dans les enregistrements (voir l'exemple fourni plus bas avec 3 événements).

Notions abordées : 
* Analyse des signaux après transformée de Fourier 2d
* Analyse de signaux aliasés
* Régularisation et formulation sous forme de problème inverse

Pour cela, deux approches sont considerées :
* Approche 1 : transformée de Fourier 2d, identification des événements principaux, définition d'un masque et reconstitution des traces manquantes
* Approche 2 : suite de l'approche 1 pour s'assurer que la prédiction respecte bien les observables. Elle se fait au travers de la résolution d'un problème inverse avec ajout de régularisation

Attentes :
* Développement des approches 1 et 2 sur des données fournies ici
* Discusssion des limites des approches sur des exemples que vous pourrez créer vous-mêmes

Consignes :
* **Très important** : pour toutes les figures, bien indiquer les axes avec les bonnes unités et des labels de taille lisibles

In [None]:
import numpy as np
import matplotlib.pyplot as plt
# Pour la question 4
from scipy.optimize import minimize

In [None]:
# Labelsize (display)
labelsize   = 14
    
# Load the input data
# Input data (with missing traces)
gpanel = np.load('gpanel.npy')
# Dense data (with all traces, only for comparison)
panel_dense = np.load('panel_dense.npy')
nt, nx = gpanel.shape

# Vertical axis -- time
dt   = 3.125e-3  # increment (s)
at   = np.linspace(0, dt*(nt-1), nt)
# Horizontal axis -- space
dx   = 10. # increment (m)
ax   = np.linspace(0, dx*(nx-1), nx)

In [None]:
# Display of the input data
vmax = np.max(np.abs(gpanel))
fig = plt.figure()
av = plt.subplot(111)
plt.imshow(gpanel, extent=[ax[0],ax[-1],at[-1],at[0]], aspect='auto')
plt.title('Observables (avec traces manquantes mises à zero)', fontsize=labelsize)
av.set_ylabel("Time (s)", fontsize=labelsize)
av.set_xlabel("Position x (m)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim([-vmax,vmax])
plt.set_cmap('bwr')

fig = plt.figure()
av = plt.subplot(111)
plt.imshow(panel_dense, extent=[ax[0],ax[-1],at[-1],at[0]], aspect='auto')
plt.title('Observables (seulement pour comparaison)', fontsize=labelsize)
av.set_ylabel("Time (s)", fontsize=labelsize)
av.set_xlabel("Position x (m)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim([-vmax,vmax])
plt.set_cmap('bwr')

# Question 1 : analyse des données dans le domaine de Fourier 2d
Représenter la transformée de Fourier 2d et bien préciser les axes. Indiquer à quoi correspond la fréquence maximale et le nombre d'onde maximal. Faire le lien entre les événements dans l'espace $(t,x)$ et ceux dans l'espace de Fourier. Expliquer ce qu'il se passe aux bords dans le domaine de Fourier. Ne pas hésiter à zoomer dans le domaine de Fourier.

In [None]:
tf = np.fft.fftshift(np.fft.fft2(gpanel))
af1 = np.fft.fftshift(np.fft.fftfreq(len(gpanel[0]), d=dx))
af2 = np.fft.fftshift(np.fft.fftfreq(len(gpanel), d=dt))
# print(len(gpanel[0]), len(gpanel), dx, dt)

vmax = np.max(np.abs(tf))
fig = plt.figure()
av = plt.subplot(111)
plt.imshow(np.abs(tf), extent=[af1[0],af1[-1],af2[0],af2[-1]], aspect='auto')
plt.title('Transformée de Fourier (avec traces manquantes mises à zéro)', fontsize=labelsize)
av.set_ylabel("Fréquence (s$^{-1}$)", fontsize=labelsize)
av.set_xlabel("Nombre d'onde (m$^{-1}$)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim(-vmax, vmax)
plt.set_cmap('bwr')

fig = plt.figure()
av = plt.subplot(111)
plt.imshow(np.abs(tf), extent=[af1[0],af1[-1],af2[0],af2[-1]], aspect='auto')
plt.title('Transformée de Fourier (avec traces manquantes mises à zéro)\nZoom sur la partie centrale significative', fontsize=labelsize)
av.set_ylabel("Fréquence (s$^{-1}$)", fontsize=labelsize)
av.set_xlabel("Nombre d'onde (m$^{-1}$)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim(-vmax, vmax)
plt.ylim(-20, 20)
plt.set_cmap('bwr')

# Question 2 : définition d'un masque dans le domaine de Fourier 2d
On note $f$ la fréquence et $k_x$ le nombre d'onde. Dans le domaine de Fourier 2d, on souhaite definir un masque avec des 1 qui couvrent les événements principaux. On va supposer que les événements dans le domaine $(t,x)$ sont linéaires. Montrer qu'il en est de même dans le domaine $(f,k_x)$. A partir de $(f,k_x)=(0,0)$, faire des sommations selon différentes pentes (dans le domaine de Fourier, apres avoir pris le module des valeurs complexes) et tracer la valeur de ces sommes en fonction de la pente. On s'attend à ce que 3 valeurs ressortent. Calculer une fonction qui sélectionne automatiquement ces valeurs et construire un masque dans le domaine de Fourier 2d qui vaut 1 autour de ces trois valeurs principales et 0 en dehors.

In [None]:
tf = np.fft.fftshift(np.fft.fft2(gpanel))
# nos données de fft

In [None]:
vmax = np.max(np.abs(tf))
fig = plt.figure()
av = plt.subplot(111)
plt.imshow(np.abs(tf), aspect='auto')
plt.title('Transformée de Fourier (avec traces manquantes mises à zéro)', fontsize=labelsize)
av.set_ylabel("Fréquence (s$^{-1}$)", fontsize=labelsize)
av.set_xlabel("Nombre d'onde (m$^{-1}$)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim(-vmax, vmax)
plt.set_cmap('bwr')

In [None]:
abs_data = np.abs(np.fft.fftshift(np.fft.fft2(gpanel)))
#                + [100/n for n in range(100, 10, -1)] \

tableau_pentes_positif = [10/n for n in range(100, 0, -1)] \
               + [n for n in range(11, 50, 3)] \
               + [10 * n for n in range(6, 30, 2)]
tableau_pentes_negatif = list(reversed(list(map(lambda x:-x, tableau_pentes_positif))))

tableau_pentes = tableau_pentes_negatif + tableau_pentes_positif
print(len(tableau_pentes))
print(len(tableau_pentes_positif))
print(len(tableau_pentes_negatif))

# le centre est en (15, 200)
# on veut donc des droites de la forme :
# (y - 200) = pente * (x - 15)
vmax = np.max(np.abs(tf))
fig = plt.figure()
av = plt.subplot(111)
plt.imshow(np.abs(tf), aspect='auto')
plt.title('Sommation de la transformée de Fourier sur différentes pentes ', fontsize=labelsize)
av.set_ylabel("Fréquence (s$^{-1}$)", fontsize=labelsize)
av.set_xlabel("Nombre d'onde (m$^{-1}$)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim(-vmax, vmax)
plt.set_cmap('bwr')
plt.ylim(220, 180)
# plt.ylim(400, 0)
plt.xlim(0,29)

liste_x = np.array([x for x in range(0, 30+1)])

tableau_sommation_pentes = []
compteur= 0
for pente in tableau_pentes:
    f, k_x = int(15*pente + 200), 0
    somme = 0

    plt.plot(liste_x, np.vectorize(int)(-pente*liste_x+15*pente+200), '.', color="b", linewidth=0.2)
    liste_des_kx = list(np.copy([f]))
    liste_des_f  = list(np.copy([k_x]))
    while True:
        if k_x > 30:
            break
        try:
            somme += abs_data[f, k_x]
            k_x += 1
            f = int(-pente*k_x+15*pente+200)

            liste_des_kx.append(k_x)
            liste_des_f.append(f)
        except Exception as e:
            compteur += 1
            k_x += 1
    
    if len(liste_des_kx) > 1:
        if np.abs(pente) < 1:
            plt.plot(liste_des_kx, liste_des_f, '.',color="g")
        else:
            plt.plot(liste_des_kx, liste_des_f, '.',color="k")
            
    tableau_sommation_pentes.append((pente,somme))
print(len(tableau_sommation_pentes))
t_pentes, t_sommes = zip(*tableau_sommation_pentes)
# print(compteur)
plt.figure()
plt.plot(t_sommes);
plt.figure()
plt.plot(t_pentes, t_sommes);
plt.xlim(-5, 5)

In [None]:
nb_peaks = 3
peaks = [0]*nb_peaks
tab = np.copy(np.array(t_sommes))
for i in range(nb_peaks):
    peaks[i] = np.argmax(tab)
    tab[peaks[i]-5:peaks[i]+5] = 0

plt.plot(t_pentes, t_sommes);
plt.xlim(-5, 5)
for i in range(nb_peaks):
    plt.scatter(t_pentes[peaks[i]], t_sommes[peaks[i]], color="red");

In [None]:
masque = np.zeros(np.shape(tf))
for i in range(nb_peaks):
    pente = t_pentes[peaks[i]]
    # print(pente)
    f, k_x = int(15*pente + 200), 0
    while k_x < 30:
        masque[f, k_x] = 1
        k_x += 1
        f = int(-pente*k_x+15*pente+200)
    

# Question 3 : application du masque et analyse des résultats
Appliquer le masque (sur les données après transformée de Fourier 2d, sans prendre le module des valeurs), puis appliquer la transformée de Fourier inverse. Commenter les résultats (comparaison à la fois dans les domaines $(t,x)$ et $(f,k_x)$). Si nécessaire, revenir à la question 2 pour changer le masque et avoir une meilleure interpolation des données. Expliquer ces changements.

In [None]:
reconstitué = np.fft.ifft2(tf)

vmax = np.max(np.abs(reconstitué))
fig = plt.figure()
av = plt.subplot(111)
plt.imshow(np.abs(reconstitué), extent=[ax[0],ax[-1],at[-1],at[0]], aspect='auto')
plt.title('Reconstitution', fontsize=labelsize)
av.set_ylabel("Time (s)", fontsize=labelsize)
av.set_xlabel("Position x (m)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim([-vmax,vmax])
plt.set_cmap('bwr')

tf_masquée = tf*masque
reconstitué_masquée = np.fft.ifft2(tf_masquée)

vmax = np.max(np.abs(reconstitué_masquée))
fig = plt.figure()
av = plt.subplot(111)
plt.imshow(np.abs(reconstitué_masquée), extent=[ax[0],ax[-1],at[-1],at[0]], aspect='auto')
plt.title('Reconstitution avec masque', fontsize=labelsize)
av.set_ylabel("Time (s)", fontsize=labelsize)
av.set_xlabel("Position x (m)", fontsize=labelsize)
av.tick_params(axis='both', which='major', labelsize=labelsize)
plt.clim([-vmax,vmax])
plt.set_cmap('bwr')

# Question 4 : amélioration de l'approche 1
Le résultat de l'approche 1 montre en pratique que les données prédites après transformée de Fourier inverse 2d ne calent pas parfaitement aux données observées (pour les traces non nulles). C'est un inconvénient, mais d'un autre côté, ceci offre la possibilité d'aller plus loin forcer un bon calage.

Pour cela, nous définissons une fonction objective

$$
J[p] = \frac{1}{2}||T p - p^\mathrm{obs}||_2^2 + \frac{\alpha}{2} || F p ||_M^2
$$

où $p(t,x)$ sont les signaux (sur toutes les traces), $T$ l'operateur qui vaut 1 pour des traces existantes et 0 sinon, $p(t,x)^\mathrm{obs}$ les observables (i.e. pour les traces non nulles), $F$ la transformee de Fourier 2d. La norme $||p||_2^2 = \sum_x \sum_t |p(t,x)|^2$ et $||q||_M^2= \sum_x \sum_t M(f,k_x)|q(f,k_x)|^2$, avec $M$ un masque. Le poids $\alpha$ est une pondération entre les deux termes.

On cherche à minimiser $J$. Le meilleur $p$ sera celui qui minimise l'écart aux données (premier terme) tout en minimisant l'énergie dans le domaine de Fourier 2d. Par rapport au masque $M_0$ des questions 2 et 3, on prend ici $M=1 - M_0$. Expliquer pourquoi.

La minimisation se fait de manière iterative, avec la fonction ```minimize``` de scipy (```from scipy.optimize import minimize```). Parmi plusieurs possibilités, je suggère de prendre une approche de gradient conjugué (CG). La minisation va se faire selon :

```
res = minimize(defj, p0, method='CG', jac=defg, \
        options={'disp': True, 'maxiter':niter})
```

Il faut donc créer une valeur initiale pour $p$ (ici ```p0```), spécifier le nombre d'itérations ```niter``` et surtour définir la fonction objective ```defj()``` et son gradient par rapport à $p$ ```defg()```.

Le gradient est donné par 

$$
\frac{\partial J}{\partial p} = T^t(T p - p^\mathrm{obs}) + \alpha F^t M F p
$$

où $^t$ est l'opérateur transposée. L'application de $T^t$ correspond donc à insérer des traces nulles là où il n'y a pas d'observables et $F^t$ est la transformée de Fourier inverse.

Construire les fonctions ```defj()``` et ```defg()```. Attention, ```minimize``` attend que ```p``` soit sous forme de vecteur. On peut donc utiliser ```np.transpose(p,nt*nx)```.

$\alpha$ est une pondération dont la valeur est à tester (optimalement les deux termes ont a peu près la même valeur).

La valeur initiale ```p0``` de $p$ peut être prise égale à ```gpanel``` (le tableau lu au début du code).

Faire plusieurs itérations. Analyser les résultats à la fois dans le domaine temporel et dans le domaine de Fourier 2d. 

In [None]:
# Exemple de structure du code
def defj(p):
    """Definition of the objective function"""
    # Retrieve the size
    pan = np.reshape(p,[nt,nx])
    j0  = 0.
    # ADD
    #
    return j0
    
    
def defg(p):
    """Definition of the gradient of the objective function"""
    # Retrieve the size
    pan = np.reshape(p,[nt,nx])
    grd = np.zeros([nt,nx])
    #
    # ADD
    #
    # Return with vector size
    return np.reshape(grd,nt*nx)

In [None]:
# Iterative mininisation (exemple)
niter = 10 # number of iterations
p0 = np.reshape(np.copy(gpanel),nt*nx)
res = minimize(defj, p0, method='cg', \
                jac=defg, \
                options={'disp': True, 'maxiter':niter})
# Final panel
panelf = np.reshape(res.x,[nt,nx])

# Question 5 : analyse des limites de l'approche
Proposer une analyse des limites des approches 1 et 2, par exemple au travers d'applications sur des données bruitées, qui contiennent des événements qui ne sont pas linéaires, pourquoi pas sur des images dans un contexte très différent. **Cette dernière partie est très ouverte, et j'attends des investigations possiblement très variées.**


In [None]:
# tableau_pentes = [1/n for n in range(30, 0, -1)] \
#                + [100/n for n in range(100, 10, -1)]
# tableau_pentes

In [None]:
tableau_pentes_positif = [1/n for n in range(30, 0, -1)] \
               + [100/n for n in range(100, 10, -1)] \
               + [n for n in range(11, 50)] \
               + [10 * n for n in range(6, 30)]
tableau_pentes_negatif = list(reversed(list(map(lambda x:-x, tableau_pentes))))

tableau_pentes = tableau_pentes_negatif + tableau_pentes_positif

In [None]:
tableau_pentes == sorted(tableau_pentes)