# Comment utiliser cette présentation?

## Structure

On peut choisir les thèmes principaux en naviguant à l'horizontal, de gauche à droite.

Une fois un thème principal choisi, on fait défiler les diapositives à la verticale, de haut en bas.

## Clavier

Utilisez les flèches de votre clavier pour naviguer de diapositive en diapositive.

Alternativement, vous pouvez utiliser les boutons en forme de flèches situés dans le coin inférieur droit de la page.

Pour avoir une vue d'ensemble de la présentation, appuyez sur la touche `O` de votre clavier.

# Définitions/Rappels

## Processus stochastique (à temps discret)

Famille de variables aléatoires
* définies sur un espace probabilisé commun (ici, on note la mesure $\Pr$),
* prennant valeur dans un espace mesurable commun et
* indexées par un ensemble (ordonné et discret) $T$ (ici, $T \subseteq \mathbb N$).

On note $\{ Y_t \}_{t \in T}$.

## Chaîne de Markov

**Propriété de Markov (faible)**:
$$
\Pr(Y_{n + 1} = y_{n + 1} | Y_n = y_n, Y_{n - 1} = y_{n - 1}, \ldots, Y_0 = y_0)
= \Pr(Y_{n + 1} = y_{n + 1} | Y_n = y_n)
$$

i.e. indépendance conditionnelle du futur étant donné le présent.

Chaîne de Markov $\Leftrightarrow$ processus stochastique respectant la propriété de Markov.

### Exemple: marche de l'ivrogne

$$
\Pr(Y_{n + 1} = y_{n + 1} | Y_n = y_n) = \frac 1 2 
$$
pour $y_{n + 1} = y_n \pm 1$, $0$ sinon.

![Marche de l'ivrogne](figures/drunken_walk.png)

## Modèle de Markov caché (discret) (HMM)

Soient deux processus stochastiques $\{ X_t \}_{t \in T}$ et $\{ Y_t \}_{t \in T}$ tels que

* $\{ Y_t \}_{t \in T}$ est une chaîne de Markov et

* on a
$$
\Pr(X_n = x_n | Y_n = y_n, Y_{n - 1} = y_{n - 1}, \ldots, Y_0 = y_0)
= \Pr(X_n = x_n | Y_n = y_n).
$$

On appelle cette dernière probabilité «*probabilité d'émission*».

### Exemple: marche de l'ivrogne revisitée

$$
\Pr(X_n = 1 | Y_n = y_n) = \Pr(X_n = 0 | Y_n = y_n) = \frac 1 2
$$
si $y_n$ est premier, $0$ sinon.

i.e. si l'ivrogne est dans un «état premier», il lance une pièce de monaie et boit si elle tombe sur face.

![Marche de l'ivrogne revisitée](figures/drunken_hmm.png)

# Données écologiques

## Types

* Capture-recapture;
* Géolocation (i.e. capture-recapture avec probabilité de recapture $= 1$).
* Occupation (i.e. capture-recapture au niveau de l'espèce)
  * $\Rightarrow$ Faux négatifs car difficile de différencier les espèces;
* Abondance (photographies aériennes);
* Distance (distance entre «l'observateur» et l'individu);

Peu importe le type, on veut des modèles
* permettant de séparer le processus réel (system process)
* du processus observé
* en incorporant des erreurs de mesures/covariables.

$\Rightarrow$ Modèles de Markov caché.

## Capture-recapture

![Capture-recapture](figures/capt_recapt.png)

## Vraisemblance et HMM

Pour un individu, on dénote par
* $x$ le vecteur des obesrvations,
* $y$ le vecteur des vrais états et
* $\theta$ le vecteur des paramètres.

La vraisemblance $f(x, y | \theta)$ peut s'écrire comme

$$
f(x, y | \theta) = f_{\text{obs}}(x | y, \theta) \; f_{\text{sys}}(y | \theta)
$$

* $f_{\text{obs}}$ correspond au processus observé;
* $f_{\text{sys}}$ correspond au processus réel.

## Modèle Cormack-Jolly-Seber

* S'applique à des données de capture-recapture;
* Généralement utilisé pour estimer des probabilités de survie;
* S'interprète facilement comme un HMM.

* Individu capturé initialement au temps $g$,
* associé à un vecteur $y = (y_1, \ldots, y_T)$ t.q. $y_t = 1$ si vivant au temps $t$, $0$ sinon.
* et à un vecteur $x = (x_1, \ldots, x_T)$ t.q. $x_t = 1$ si capturé au temps $t$, $0$ sinon.

Soit $\phi_{t - 1}$ la probabilité de survie entre $t - 1$ et $t$. Pour $t = g + 1, \ldots, T$, $\{ Y_t \}$ est une chaîne de Markov (possiblement hétérogène) avec
$$
\Pr(Y_t = 1 | Y_{t - 1} = y_{t - 1}) = \phi_{t - 1} y_{t - 1}.
$$

Soit $p_t$ la probabilité de capture au temps $t$. Pour $t = g + 1, \ldots, T$, $\{ X_t \}$ est un processus de Bernoulli tel que

$$
\Pr(X_t = 1 | Y_t = y_t) = p_t y_t.
$$

## Modèle Cormack-Jolly-Seber (suite)

$\Rightarrow$ Modèle de Markov caché.

Estimation de la vraisemblance des données ("observed data likelihood"): intégrer par rapport à $\{ Y_t \}$.

Estimation de la vraisemblance complète ("complete data likelihood"): produit des vraisemblances.

Possibilité
* d'exprimer les $\phi_t$ comme des fonctions d'autres covariables; pas de difficulté majeures pour le calcul des vraisemblances,
* d'intégrer des effets aléatoires,
* ...

## Autres modèles

### Abondance: Jolly-Seber

Peut être vu comme une extension des modèles CJS pour laquelle on ne conditionne pas sur la capture initiale des individus observés.

### Modèles intégrés

De multiples jeux de données sont combinés (par exemple données de distance + capture-recapture).

Jeux de donnés indépendants $\Rightarrow$ factorise la vraisemblance.

Sinon, ajouter d'autres «system process» afin d'obtenir l'indépendance conditionnelle.