# Estimer une probabilité de dépassement de seuil par Monte-Carlo simple

## Introduction

Soit $X = (X_1,..., X_p)\in\mathbb{R}^p$ le vecteur aléatoire d’entrée. On note $f$ la densité de probabilité de la variable $X$. 

Soit $g$ une fonction de $\mathbb{R}^p$ vers $\mathbb{R}$. On considère la variable aléatoire :

$$
Y = g(X).
$$

Soit $s\in\mathbb{R}$ un seuil donné. Nous souhaitons estimer la probabilité :

$$
p_f = P(Y > s).
$$

Cette probabilité peut se calculer comme l'espérance d'une fonction indicatrice. 
En effet, soit $\mathbb{1}_{g(X)>s}$ la fonction indicatrice définie par :

\begin{align*}
\mathbb{1}_{g(X)>s}(x)
= \left\{
\begin{array}{l}
1, \textrm{ si } g(x)>s, \\
0, \textrm{ sinon}.
\end{array}
\right.
\end{align*}

Alors, la probabilité $p_f$ est l'espérance de la fonction indicatrice :

$$
p_f = E\left(\mathbb{1}_{g(X)>s}(X)\right) = \int_{\mathbb{R}^p} \mathbb{1}_{g(X)>s}(x) f(x) dx.
$$

On peut utiliser une méthode d'intégration numérique pour estimer cette intégrale, ou la méthode de Monte-Carlo simple que nous allons présenter plus en détail. 
Si la probabilité recherchée est faible, cela peut nécessiter des méthodes spécifiques comme par exemple les méthodes FORM-SORM.

## Estimer une probabilité avec la méthode de Monte-Carlo simple

Soit $n$ un entier représentant la taille de l'échantillon. 
Soient $y^{(1)},...,y^{(n)}$ des réalisations indépendantes 
de la variable $Y$, pour $j=1,2,...,n$. 

Soit $Z_j$ la variable dont les réalisations sont 

$$
z^{(j)}=
\left\{
\begin{array}{l}
1\textrm{ si } y^{(j)}>s\\
0\textrm{ sinon.}
\end{array}
\right.
$$

La variable $Z^{(j)}$ est une variable de Bernoulli de paramètre $p_f$. 
Par conséquent, son espérance est $p_f$ et sa variance est $p_f(1-p_f)$.

Soit $b_n$ la variable définie par:

$$
b_n=z^{(1)}+...+z^{(n)}.
$$

La probabilité de dépassement $p_f$ est estimée par

$$
\tilde{p}_f=\frac{b_n}{n}.
$$

La variable 

$$
B_n = Z^{(1)}+\ldots+Z^{(n)}
$$ 

est une variable binomiale de paramètres $p_f$ et $n$. 
Par conséquent, son espérance est $np_f$ et sa variance est $np_f(1-p_f)$. 
L'espérance de la variable 

$$
\tilde{p}_f=\frac{B_n}{n}
$$

est donc $p_f$ et sa variance est $p_f(1-p_f)/n$. 

## Précision d'estimation

Dans le contexte de l'estimation d'une probabilité de dépassement de seuil $p_f$, il est pratique de pouvoir estimer la précision *relative* d'estimation de $p_f$. C'est particulièrement vrai lorsqu'on s'intéresse aux faibles valeurs de probabilité. 

Soit $\sigma_{p_f}^2$ la variance de l'estimateur de la probabilité de dépassement :

$$
\sigma_{p_f} = \sqrt{\frac{p_f(1-p_f)}{n}}.
$$

Le coefficient de variation est :

$$
CV_{p_f} = \frac{\sigma_{p_f}}{p_f}, 
$$

si $p_f>0$. 

Puisque, en pratique, nous ne connaissons pas $p_f$ mais seulement son estimation $\tilde{p}_f$, on substitue $p_f$ par $\tilde{p}_f$ dans les expressions précédentes. Cela  mène à des estimations approchées, mais satisfaisantes lorsque $n$ est suffisamment grand. 

Supposons que $p_f>0$. 
Alors,  

\begin{align*}
CV 
&= \frac{1}{p_f} \sqrt{\frac{p_f(1-p_f)}{n}} \\
&= \sqrt{\frac{1-p_f}{p_f n}}.
\end{align*}

Si le seuil $s$ augmente, alors $p_f\rightarrow 0$. 

Cela implique $1-p_f\rightarrow 1$ et par conséquent :

\begin{align*}
CV 
&\rightarrow \sqrt{\frac{1}{p_f n}},
\end{align*}

quand $p_f\rightarrow 0$.
On observe que le coefficient de variation tend vers l'infini si $n$ est fixé. De manière plus intuitive, si la probabilité $p_f$ est divisée par 4, alors le coefficient de variation est multiplié par 2.

Inversons la relation précédente. On obtient :

$$
n \approx \frac{1}{p_f CV^2},
$$

si $p_f \approx 0$. 

Par exemple, si on souhaite une probabilité égale à $p_f = 10^{-m}$ avec un coefficient de variation égal à $CV=0.1$, alors il faut environ 

$$
n \approx \frac{1}{10^{-2} 10^{-m}} = 10^{m+2}
$$

simulations, si $p_f \approx 0$.

Une valeur fréquemment utilisée est $CV_{p_f} = 0.01$, ce qui correspond approximativement à une erreur relative de 1% sur la probabilité $p_f$. Cela correspond approximativement à 2 chiffres significatifs sur $p_f$, ce qui est faible mais nécessite souvent une taille d'échantillon assez grande. Par exemple, si on souhaite estimer une probabilité $p_f$ proche de 0.5, une taille d'échantillon de l'ordre de n=10000 est nécessaire.

## Loi de l'estimateur

Nous avons déjà vu que l'estimateur de la probabilité suit une loi binomiale. Nous allons voir que cette loi converge vers la loi gaussienne lorsque la taille de l'échantillon tend vers l'infini. 

En effet, le théorème limite central implique que la variable aléatoire $\tilde{p}_f$ converge en distribution vers la loi gaussienne. 
Plus précisément :

$$
\sqrt{n}(\tilde{p}_f - p_f) \xrightarrow{d} \mathcal{N}(0,p_f(1-p_f)).
$$

Par conséquent,

$$
\tilde{p}_f - p_f \xrightarrow{d} \mathcal{N}\left(0,\frac{p_f(1-p_f)}{n}\right)
$$

ce qui implique :

$$
\tilde{p}_f \xrightarrow{d} \mathcal{N}\left(p_f,\frac{p_f(1-p_f)}{n}\right).
$$

Par conséquent :

$$
\tilde{p}_f \xrightarrow{d} \mathcal{N}\left(p_f,\sigma_{p_f}^2\right).
$$

## Intervalle de confiance de la probabilité

On peut exprimer directement un intervalle de confiance pour 
la variable aléatoire $\tilde{p}_f$, puisqu'elle suit la loi binomiale. 
La tradition consiste à l'exprimer en fonction d'une loi normale standard. 
En effet, le T.C.L. implique :

$$
\frac{\tilde{p}_f - p_f}{\sigma_{p_f}} \xrightarrow{d} \mathcal{N}(0,1).
$$

Soit $\alpha\in[0,1/2]$ un niveau de confiance. 
Soit $q$ le quantile d'ordre $1-\alpha/2$ de la loi normale standard :

$$
q=\Phi^{-1}(1-\alpha/2),
$$

où $\Phi$ est la fonction de répartition de la loi gaussienne 
de moyenne nulle et d'écart-type unité. 
Par exemple, si $\alpha=0.05$, alors $\alpha/2=0.025$ ce qui implique $q=1.960$. 

Puisque la distribution de la variable $(\tilde{p}_f - p_f)/\sigma_{p_f}$ converge vers la loi normale standard, cela implique 

$$
P\left(\frac{\tilde{p}_f - p_f}{\sigma_{p_f}} \in [-q,q]\right) \rightarrow 1-\alpha.
$$

Par conséquent, 

$$
P\left(\tilde{p}_f \in \left[p_f-q \sigma_{p_f} ,p_f+q \sigma_{p_f} \right]\right) \rightarrow 1-\alpha.
$$

Le problème de l'intervalle de confiance précédent est que la probabilité $p_f$ est inconnue, 
de telle sorte que l'écart-type $\sigma_{p_f}$ dans l'expression précédente 
ne peut être calculé directement. 
Pour obtenir un intervalle de confiance approché, on substitue $p_f$ par $\tilde{p}_f$. 

Soit $\tilde{\sigma}_{p_f}^2$ la variance approchée de l'estimateur de la probabilité de dépassement :

$$
\tilde{\sigma}_{p_f} = \sqrt{\frac{\tilde{p}_f(1-\tilde{p}_f)}{n}}.
$$

Cela implique :

$$
P\left(\tilde{p}_f \in \left[p_f- q \tilde{\sigma}_{p_f},p_f+q \tilde{\sigma}_{p_f}\right]\right) \xrightarrow{\tilde{\,}} 1-\alpha.
$$