# Estimer la tendance centrale

## Introduction

Soit $X = (X_1,..., X_p)\in\mathbb{R}^p$ le vecteur aléatoire d’entrée. On note $f$ la densité de probabilité de la variable $X$. 

Soit $g$ une fonction de $\mathbb{R}^p$ vers $\mathbb{R}$. On souhaite estimer la tendance centrale de la variable aléatoire :

$$
Y = g(X).
$$

Note : pour les méthodes que nous allons étudier, le cas plus général où $Y\in\mathbb{R}^q$ se traite de manière similaire lorsqu'on ne prend pas en compte la dépendance entre les composantes du vecteur de sortie $Y$. 

Dans ce texte, nous considérons que l'analyse en tendance centrale consiste principalement à estimer la variabilité de $Y$ autour de sa moyenne. Dans ce but, nous allons estimer l'espérance de $Y$ :

$$
E(Y) = \int_{\mathbb{R}^p} g(x) f(x) dx.
$$

De plus, nous allons estimer la variance de $Y$ :

$$
V(Y) = E\left[(Y-E(Y))^2\right].
$$

Bien sûr, il arrive que $X$ soit un vecteur de petite dimension, que les marginales de $X$ soient gaussiennes, indépendantes et que la fonction $g$ soit linéaire : nous exploiterons d'ailleurs cette dernière propriété par la suite. Toutefois, en général, la distribution de $Y$ est inconnue car le lien entre l'entrée $X$ et la sortie $Y$ est complexe :

- d'une part, les marginales de $X$, sa structure de dépendance et sa dimension peuvent induire un vecteur aléatoire $X$ complexe,
- d'autre part, les méthodes que nous allons utiliser considèrent que la fonction $g$ est considérée comme une *boîte noire* dont la structure interne est à priori inconnue et ne peut être exploitée.

C'est la raison pour laquelle des méthodes d'estimation doivent être employées.

## Cumul quadratique (développement de Taylor)

### Introduction

Soit $\mu\in\mathbb{R}^p$ la moyenne du vecteur aléatoire $X$ :

$$
\mu = E(X).
$$

Puisque la densité de probabilité $f$ est connue, le point $\mu$ peut être calculé sans difficulté. 
Le développement de Taylor à l'ordre 2 de la fonction $g$ au point $\mu$ implique :

\begin{align*}
g(X) 
&= g(\mu) + \sum_{i=1}^p \frac{\partial g}{\partial X_i} (\mu) (X_i - \mu_i) \\
&+ \frac{1}{2} \sum_{i=1}^p \sum_{j=1}^p \frac{\partial^2 g}{\partial X_i \partial X_j} (\mu) 
  (X_i - \mu_i) (X_j - \mu_j)
+ O(\|X-\mu\|_2^3)
\end{align*}

quand $X\rightarrow \mu$. 

### Cumul quadratique avec dépendance

Faisons l'hypothèse que le développement de Taylor à l'ordre 2 est exact. En d'autres termes, 
faisons l'hypothèse que :

\begin{align*}
g(X) 
&= g(\mu) + \sum_{i=1}^p \frac{\partial g}{\partial X_i} (\mu) (X_i - \mu_i) \\
&+ \frac{1}{2} \sum_{i=1}^p \sum_{j=1}^p \frac{\partial^2 g}{\partial X_i \partial X_j} (\mu) 
  (X_i - \mu_i) (X_j - \mu_j).
\end{align*}

La linéarité de l'espérance implique :

\begin{align*}
E(Y) &= E(g(X)) \\
&= g(\mu) + \sum_{i=1}^p \frac{\partial g}{\partial X_i} (\mu) E(X_i - \mu_i) \\
&+ \frac{1}{2} \sum_{i=1}^p \sum_{j=1}^p \frac{\partial^2 g}{\partial X_i \partial X_j} (\mu) 
  E((X_i - \mu_i) (X_j - \mu_j)).
\end{align*}

D'une part, la linéarité de l'espérance implique :

$$
E(X_i - \mu_i) = E(X_i) - \mu_i = \mu_i - \mu_i = 0
$$

pour $i=1,...,p$.

D'autre part, la définition de la covariance implique :

$$
E((X_i - \mu_i) (X_j - \mu_j))=Cov(X_i,X_j),
$$

pour $i,j=1,...,p$. 

Soit $\sigma_i$ l'écart-type de la variable $X_i$, i.e.

$$
\sigma_i = \sqrt{V(X_i)},
$$

pour $i=1,...,p$. 

Soit $\rho_{i,j}$ le coefficient de corrélation :

$$
\rho_{i,j} = \frac{Cov(X_i,X_j)}{ \sigma_i \sigma_j}
$$

pour $i,j=1,...,p$. 

Alors $Cov(X_i,X_j) = \sigma_i \sigma_j \rho_{i,j}$ pour $i,j=1,...,p$, ce qui implique :

\begin{align*}
E(Y)  
&= g(\mu) + \frac{1}{2} \sum_{i=1}^p \sum_{j=1}^p \frac{\partial^2 g}{\partial X_i \partial X_j} (\mu) \sigma_i \sigma_j \rho_{i,j}.
\end{align*}

Pour estimer la variance de $g(X)$, faisons l'hypothèse que le développement de Taylor de $g$ est exact à l'ordre 1. 
En d'autres termes, 
faisons l'hypothèse que :

\begin{align*}
g(X) 
&= g(\mu) + \sum_{i=1}^p \frac{\partial g}{\partial X_i} (\mu) (X_i - \mu_i).
\end{align*}

Cela implique :

\begin{align*}
E(g(X)) &= g(\mu).
\end{align*}

Les propriétés de la variance impliquent :

\begin{align*}
V(Y) &= V(g(X))\\
&= \sum_{i=1}^p \sum_{j=1}^p \frac{\partial g}{\partial X_i} (\mu) \frac{\partial g}{\partial X_j} (\mu) Cov((X_i - \mu_i)(X_j - \mu_j)).
\end{align*}

Par conséquent, 

\begin{align*}
V(Y) 
&= \sum_{i=1}^p \sum_{j=1}^p \frac{\partial g}{\partial X_i} (\mu) \frac{\partial g}{\partial X_j} (\mu) \sigma_i \sigma_j \rho_{i,j}.
\end{align*}

### Cumul quadratique sans dépendance

Si les variables $X_i$ sont indépendantes, alors $\rho_{i,j}=0$ pour $i,j=1,...,p$. Dans ce cas, les formules précédentes se simplifient.

Alors, à l'ordre 2, l'espérance de $Y$ est :

\begin{align*}
E(Y)  
&= g(\mu) + \frac{1}{2} \sum_{i=1}^p \frac{\partial^2 g}{\partial X_i^2} (\mu) \sigma_i^2.
\end{align*}

De plus, à l'ordre 1, la variance de $Y$ est :

\begin{align*}
V(Y) 
&= \sum_{i=1}^p \left(\frac{\partial g}{\partial X_i} (\mu)\right)^2 \sigma_i^2.
\end{align*}

Sous cette hypothèse, la variance se décompose sous la forme d'une somme impliquant uniquement la variance de la variable $X_i$. C'est la raison pour laquelle on introduit les facteurs d'importance $\eta_i$ :

$$
\eta_i = \frac{\left(\frac{\partial g}{\partial X_i} (\mu)\right)^2 \sigma_i^2}{V(Y)}
$$

pour $i=1,...,p$. 

La décomposition de la variance implique :

$$
\sum_{i=1}^p \eta_i = 1.
$$

### Cumul quadratique pour un modèle linéaire sans dépendance

Supposons que $g$ est linéaire et que le vecteur $X$ est associé à des marginales indépendantes.

Pour $i=1,...,p$, une valeur de $\eta_i$ proche de zéro permet d'identifier une variable qui peut être remplacée par une constante sans changer significativement la variance. En effet, le facteur $\eta_i$ quantifie la part de variance expliquée par la variable $X_i$, puisque :

$$
V(Y) = \sum_{i=1}^p \eta_i V(Y).
$$

Par conséquent, si on fixe la variable $X_i$ à sa valeur moyenne $\mu_i$, alors la variance de la sortie est égale à 

$$
V(Y|X_i=\mu_i) = V(Y)- \eta_i V(Y).
$$

Par conséquent, un facteur d'importance $\eta_i$ proche de zéro implique que la variance ne va pas beaucoup être réduite si on fixe $X_i$ à sa valeur moyenne.

### Synthèse

La méthode du cumul quadratique peut être appliquée lorsque la fonction $g$ peut être approchée par une fonction linéaire ou quadratique avec ou sans dépendance. L'espérance peut être calculée que la fonction $g$ soit linéaire ou quadratique, mais la variance ne peut être calculée que si $g$ est linéaire (pas quadratique). Les facteurs d'importance ne peuvent être calculés que si le vecteur d'entrée $X$ est à marginales indépendantes. La table suivante présente ces éléments du plus simple au plus complexe.

| Vecteur d'entrée $X$ | Fonction $g$ | Espérance | Variance | Facteurs d'importance |
|--|--|--|--|--|
| Indépendant | Linéaire | Exacte | Exacte | ✓ |
| Indépendant | Quadratique | Exacte | - | - |
| Dépendant | Linéaire | Exacte | Exacte | - |
| Dépendant | Quadratique | Exacte | - | - |

Il s'avère que cette méthode peut être utilisée plus souvent qu'on ne le pense à priori car il faut tenir compte à la fois de la distribution du vecteur aléatoire $X$ et de la fonction $g$. En effet, n'importe quelle fonction est *localement* linéaire ou quadratique. Par conséquent, même si la fonction $g$ est *très* non-linéaire, il suffit de considérer des distributions suffisamment étroites pour obtenir un comportement linéaire *compte tenu de la plage de variation des entrées* $X$. C'est une situation que l'on observe par exemple lorsqu'on considère des lois marginales gaussiennes associées à un coefficient de variation $\sigma/\mu$ inférieur ou égal à 10%. C'est en effet une situation fréquente lorsque les variables d'entrée sont des variables physiques dont la loi de distribution représente l'erreur de mesure.

## Références

- http://openturns.github.io/openturns/master/theory/reliability_sensitivity/taylor_moments.html
- http://openturns.github.io/openturns/master/theory/reliability_sensitivity/taylor_importance_factors.html

## Méthode de Monte-Carlo

Soit $n$ un entier représentant la taille de l'échantillon. Soit $\left\{X^{(j)}\right\}_{j=1,...,n}$ un échantillon i.i.d. du vecteur aléatoire $X$. 
Soit 

$$
Y^{(j)} = g\left(X^{(j)}\right)
$$

pour $j=1,...,n$. 

L'estimateur Monte-Carlo de la moyenne empirique est :

$$
\bar{Y} = \frac{1}{n} \sum_{j=1}^n Y^{(j)}.
$$

La linéarité de l'espérance implique :

\begin{align*}
E\left(\bar{Y}\right)
&= \frac{1}{n} E\left( \sum_{j=1}^n Y^{(j)}\right) \\
&= \frac{1}{n} \sum_{j=1}^n E\left(Y^{(j)}\right) \\
&= \frac{1}{n} \sum_{j=1}^n E(g(X)).
\end{align*}

Cela implique que cet estimateur est non biaisé :

\begin{align*}
E\left(\bar{Y}\right)
&= E(g(X)).
\end{align*}

L'indépendance des réalisations de l'échantillon implique :

\begin{align*}
V\left(\bar{Y}\right)
&= \frac{1}{n^2} V\left(\sum_{j=1}^n Y^{(j)} \right) \\
&= \frac{1}{n^2} \sum_{j=1}^n V\left(Y^{(j)}\right) \\
&= \frac{1}{n^2} \sum_{j=1}^n V(Y) \\
&= \frac{1}{n^2} n V(Y),
\end{align*}

ce qui implique :

\begin{align*}
V\left(\bar{Y}\right)
&= \frac{1}{n} V(Y).
\end{align*}

Un estimateur non biaisé de la variance est 

$$
\hat{\sigma}^2 = \frac{1}{n-1} \sum_{j=1}^n \left(Y^{(j)} - \bar{Y}\right)^2.
$$

Supposons que la variance $V(Y)$ existe et est finie. 
Le théorème central limite (théorème de Lindeberg–Lévy) indique que la distribution de la moyenne empirique $\bar{Y}$ converge en loi vers la loi gaussienne. 
Plus précisément, 

$$
\sqrt{n} \left(\bar{Y} - E(Y)\right) \xrightarrow{d} \mathcal{N}(0,V(Y)).
$$

Cela implique :

$$
\bar{Y} \xrightarrow{d} \mathcal{N}\left(E(Y),\frac{V(Y)}{n}\right).
$$

C'est pourquoi on peut dire que, de manière approchée, la précision absolue d'estimation de la moyenne dépend de $\frac{\sqrt{V(Y)}}{\sqrt{n}}$. Par exemple, si $V(Y)=1$, alors il faut $n=10^4$ simulations pour obtenir une erreur absolue de l'ordre de $\frac{1}{10^2} = 0.01$. D'un autre point de vue, pour réduire d'un facteur 2 l'erreur absolue d'estimation, il faut multiplier par 4 la taille de l'échantillon. 

Cette propriété permet d'obtenir un intervalle de confiance asymptotique 
approché pour l'espérance. 

Soit $\alpha\in[0,1/2]$ un niveau de confiance. 
Soient $q_{\alpha/2}$ et $q_{1-\alpha/2}$ les quantiles de niveaux $\alpha/2$ et $1-\alpha/2$. 

Alors, lorsque $n$ est grand :

$$
P\left(\left[\bar{Y} - q_{\alpha/2} \hat{\sigma},\bar{Y} + q_{1-\alpha/2} \hat{\sigma}\right] \ni E(Y)\right) = 1 - \alpha.
$$

Cet intervalle est asymptotique, car il n'est vrai que lorsque $n$ est grand. Il est approché, car nous avons remplacé l'écart-type exact $\sigma_Y$ par l'écart-type empirique $\hat{\sigma}$. 