# Détection de rupture

Supposons que les $X_i$ de la suite $(X_1,...,X_n)$ suive une loi de paramètre $\theta_0$ pour $i=1,...,\tau$ puis de paramètre $\theta_1 \neq \theta_0$ pour $i=\tau+1,...,n$. L'objectif est alors de trouver l'instant $\tau$ de rupture. Souvent, $\theta$ correspond à l'espérance ou à la variance.

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

## Algorithme PELT

Cet algorithme permet de détecter des ruptures de loi dans une suite de variables aléatoires:

Pour trouver ce $\tau$ à partir de l'observation des $(X_1,...,X_n)$, on choisit le $\tau$ qui minimise 
$$
\tau \mapsto C(X_1,...,X_\tau;\theta_0)+C(X_{\tau+1},...,X_n;\theta_1),
$$
où $C(X_1,...,X_k;\theta)$ est une fonction qui mesure l'adéquation des données $X_1,...,X_k$ à la loi de paramètre $\theta$ (plus $C$ est petit, plus l'adéquation est grande). Un exemple typique de $C$ est l'opposé de la log-vraisemblance. Dans un modèle gaussien où $\theta$ est la moyenne, on cherche alors à minimiser
$$
\tau \mapsto \sum_{i=1}^\tau (X_i-\theta_0)^2+\sum_{i=\tau+1}^n(X_i-\theta_1)^2.
$$

On note alors $\hat{\tau}$ la valeur de $\tau$ pour laquelle $C(X_1,...,X_\tau;\theta_0)+C(X_{\tau+1},...,X_n;\theta_1)$ est minimale. Il s'agit de notre estimateur de l'instant de rupture.

S'il y a plusieurs ruptures, aux instants $\tau_1,...,\tau_m$, avec $m$ inconnu, la même idée nous amène à vouloir minimiser (en notant $\tau_0=0$ et $\tau_{m+1}=n$)
$$
(\tau_1,...,\tau_m) \mapsto \sum_{i=1}^{m+1} C(X_{\tau_{i-1}+1},...,X_{\tau_i};\theta_i).
$$
Cependant, en prenant l'exemple du modèle gaussien avec pour paramètre $\theta$ la moyenne, la minimisation donne une rupture à chaque instant (et $\theta_i=X_i$)! Pour répondre à ce problème, nous allons plutôt minimiser
$$
(\tau_1,...,\tau_m) \mapsto m\beta + \sum_{i=1}^{m+1} C(X_{\tau_{i-1}+1},...,X_{\tau_i};\theta_i),
$$
pour un certain $\beta>0$ fixé. Ainsi, un point de rupture sera ajouté seulement si son ajout permet de réduire la somme des $C$ plus que $\beta$.
En l'écrivant autrement, cela revient à minimiser
$$
(\tau_1,...,\tau_m) \mapsto \sum_{i=1}^{m+1} (C(X_{\tau_{i-1}+1},...,X_{\tau_i};\theta_i) + \beta).
$$
On note alors $(\hat{\tau}_1,...,\hat{\tau}_{\hat{m}})$ les instants de ruptures et $\hat{m}$ le nombre de rupture qui minimisent cette fonction.

Afin de tester notre algorithme, nous allons définir une fonction de *coût* pour mesurer l'adéquation aux données.

In [None]:
def C(x):
    return np.sum(np.power(x-np.mean(x),2))


Ensuite, on génère les $(X_i)_{1\leq i \leq n}$ suivant des normales avec changement d'espérance puis des $(Y_i)_{1\leq i \leq n}$ suivant des normales avec changement de variance.

In [None]:
n=1000
t=[250,450]

#génération des X
theta=(1,4,-1)
X=np.random.normal(0,1,n)
X=X+np.concatenate((theta[0]*np.ones(t[0]),theta[1]*np.ones(t[1]-t[0]),theta[2]*np.ones(n-t[1])))
plt.plot(X);

**Coder l'algorithme PELT**

Pour celà, créer une fonction qui prend en arguments $X,C,\beta$ et qui retourne les ruptures et le coût associé à ces ruptures.

In [None]:
def PELT(Z,C,b):
    n=len(Z)
    G=[-b]
    cp=[0]

    return set(cp)

In [None]:
print PELT(X,C,50)

## Algorithme d'Auger et Lawrence

Ici, on suppose que le nombre de rupture $k$ est connu, ce qui nous évite le problème présenté plus haut (s'il y a autant de ruptures que de points, on peut toujours trouver une adéquation parfaite aux données).

**Coder l'algoritme d'Auger et Lawrence.**

Pour celà, créer une fonction qui prend en arguments $X,C,k$ et qui retourne les ruptures et le coût associé à ces ruptures.

In [None]:
def AL(Z,C,k):


In [None]:
print AL(X,C,3)        

## Cas non paramétrique

On suppose cette fois que les $(X_i)_{1\leq i \leq n}$ sont générés suivant une loi $\mathcal{E}(1)$ pour $1\leq i \leq \tau$ et suivant une loi $\mathcal{N}(1,1)$ pour les $\tau < i \leq n$.

In [None]:
n=1000
t=300

X=np.concatenate((np.random.exponential(1,t),np.random.normal(1,1,n-t)))
plt.plot(X);

**Écrire une fonction qui à partir d'un échantillon $(X_i)_{1\leq i\leq n}$ et d'un réel $t$ calcule la fonction de répartition empirique de l'échantillon en $t$.**

In [None]:
def F_n(Z,t):
    

**Proposer un algorithme pour implémenter le cas non paramétrique et retrouver $\tau$**