# Analyse de sensibilité non linéaire

## Définition intuitive

Dans cette section, nous définissons les indices de Sobol' du premier ordre et totaux. 

Soit $X\in\mathbb{R}^p$ où $p$ est la dimension du vecteur d'entrée. Soit $g$ est une fonction de $\mathbb{R}^p$ vers $\mathbb{R}$ définie par :
$$
Y = g(X)
$$
où $Y\in\mathbb{R}$, pour tout $X\in\mathbb{R}^p$. 

On suppose que $X$ est une variable aléatoire de loi connue. On suppose de plus, et c'est une hypothèse très limitative, que les lois marginales de $X$ sont indépendantes.

On note $E(Y)$ l'espérance de $Y$ et $V(Y)$ la variance de $Y$. L'objectif de l'analyse de sensibilité globale est de quantifier l'impact de la variabilité de chaque variable d'entrée $X_i$ sur la variabilité de $Y$. En d'autres termes, on cherche à quantifier l'impact de $X_i$ sur $V(Y)$. 

Pour $i\in\{1,...,d\}$, supposons que $X_i$ est une variable qui a un *fort impact* sur $Y$. Essayons de donner un sens probabiliste qui permette de quantifier cet impact. Cela implique que, si on fixe $X_i$ à une valeur $x_i\in\mathbb{R}$ donnée, alors la variable $Y|X_i=x_i$ a une variabilité moins grande. En d'autres termes 
$$
V(Y|X_i=x_i) \ll V(Y).
$$
Par conséquent, la différence 
$$
\delta_i = V(Y) - V(Y|X_i=x_i)
$$
est grande. 
La difficulté est que la différence $\delta_i$ dépend de la valeur de $x_i$ que nous choisissons. La valeur la plus appropriée est sans doute $x_i=E(X_i)$, mais, puisque $X_i$ est une variable aléatoire, il y a d'autres valeurs possibles. C'est pourquoi on souhaite obtenir la différence moyenne $E(\delta_i)$ :

\begin{align}
E(\delta_i) &= E\left[V(Y) - V(Y|X_i)\right] \\
&= V(Y) - E[V(Y|X_i)].
\end{align}

Le théorème de la variance totale implique :
$$
V(Y) = E[V(Y|X_i)] + V[E(Y|X_i)]
$$
pour $i=1,...,p$. 
On substitue $V(Y)$ dans l'équation précédente, ce qui implique :
$$
E(\delta_i) = V[E(Y|X_i)]
$$
pour $i=1,...,p$. 
La difficulté est que l'expression précédente est absolue, et non relative à la valeur de $V(Y)$. C'est pourquoi on normalise le terme précédent par $V(Y)$. 

Par définition, l'indice du premier ordre de la variable $X_i$ par rapport à $g(X)$ est :
$$
S_i = \frac{V[E(g(X)|X_i)]}{V(g(X))}
$$
pour $i=1,...,p$. 

L'analyse précédente montre que, si la variable $X_i$ a un impact important sur la variabilité de $Y$, alors $S_i$ est grand. 

## Définition de l'indice de sensibilité total

Soit $X\in\mathbb{R}^p$. Pour tout $i=1,...,p$, soit $X_{-i}\in\mathbb{R}^{p-1}$ le vecteur aléatoire constitué de toutes les composantes de $X$, sauf la i-ème. En d'autres termes, on a :
$$
X_{-i} = (X_1,...,X_{i-1},X_{i+1},...,X_p).
$$
Par conséquent, le vecteur $X$ est constitué des composantes $X_i$ et $X_{-i}$, ce qui implique :
$$
X = (X_i,X_{-i})
$$
pour $i=1,...,p$.
Ainsi la variable d'entrée de $Y=g(X)$ peut se décomposer en une part qui ne dépend que de $X_i$ et une autre part qui ne dépend que des composantes différentes de $X_i$ :
$$
Y = g(X_i,X_{-i}),
$$
pour $i=1,...,p$.
Par définition, l'indice de sensibilité total de la variable d'entrée $X_i$ par rapport à la sortie $Y$ est :
$$
T_i = 1 - \frac{V[E(g(X)|X_{-i})]}{V(g(X))}
$$
pour $i=1,...,p$.


## Analyse des indices

L'analyse des indices de sensibilité peut être faite en considérant leur valeur absolue et en les comparant entre eux. 
- On a $S_i,T_i \in[0,1]$. 
- On a $S_i \leq T_i$. 
- L'indice du premier ordre $S_i$ représente l'impact de la variable $X_i$ seule. 
- L'indice total $T_i$ représente l'impact de la variable $X_i$, y compris ses interactions avec les autres variables. 
- Si $T_i=0$ alors la variable $X_i$ peut être remplacée par une constante. En effet, même lorsqu'elle interagit avec autres variables, elle n'a pas d'impact sur la variance de $Y$. 
- Si $S_i=T_i$ alors la variable $X_i$ n'interagit pas avec les autres variables. 

## Estimation des indices

- Remarque 1 : on peut centrer $Y$ en le remplaçant par $Y-E(Y)$.
- Remarque 2 : estimer les indices peut être réalisé par une intégration en dimension 2p-1, au lieu de deux intégrales  imbriquées en dimensions p-1 et 1.