# Analyse de sensibilité linéaire

## Analyse du modèle linéaire

Assume that the random variables $X_i$ are *independent*, with 
mean $E(X_i)$ and finite variances $V(X_i)$, for $i=1,2,\ldots,p$.
Let us suppose that $Y$ is an affine function of the
variables $X_i$:
$$
Y = g(X) = \beta_0 + \sum_{i=1,2,\ldots,p} \beta_i X_i,
$$
where $\beta_i$ are real parameters, for $i=1,2,\ldots,p$.

The expectation of the sum of variables is the sum of the expectations, 
so that 

$$
\begin{aligned}
\mathbb{E}[Y] 
&=& \mathbb{E}[\beta_0] + \sum_{i=1,2,\ldots,p} \mathbb{E}[\beta_i X_i] \\
&=& \beta_0 + \sum_{i=1,2,\ldots,p} \beta_i \mathbb{E}[X_i].
\end{aligned}
$$

Notice that the previous computation can be performed 
even when the variables are dependent. 
As we are going to see, we can derive a similar equality for the 
variance, although the independence of the variable is 
then a strict requirement. 

The importance factor of a linear model is : 

$$
\eta_i = \frac{\beta_i^2 V(X_i)}{V(Y)},
$$

for $i=1,2,\ldots,p$.

The standardized regression coefficient is 

$$
SRC_i = \frac{\beta_i \sqrt{V(X_i)}}{\sqrt{V(Y)}},
$$

for $i=1,2,\ldots,p$.

The importance factors are the squared SRC. 

Obviously, we have $eta_i\geq 0$, for $i=1,...,p$. 
Moreover, the following proposition shows that the sum of 
importance factors is equal to one.

For an affine model $g$, the sum of the importance factors is one:

$$
\eta_1 + \eta_2 + \ldots + \eta_p = 1. \qquad \textrm{(1)}
$$

*Proof*

Since the variables $X_i$ are independent, the variance of the 
sum of variables is the sum of the variances. 
Hence, 
$$
\operatorname{Var}(Y) = \operatorname{Var}(\beta_0) + \sum_{i=1,2,\ldots,p} \operatorname{Var}(\beta_i X_i).
$$
But $\operatorname{Var}(\beta_0)=0$ and, for each $i=1,2,\ldots,p$, 
we have $\operatorname{Var}(\beta_i X_i)=\beta_i^2 V(X_i)$. 
This leads to the equality
$$
\operatorname{Var}(Y) = \sum_{i=1,2,\ldots,p} \beta_i^2 \operatorname{Var}(X_i).
$$
Hence, each term $\beta_i^2 V(X_i)$ is the part of the 
total variance $\operatorname{Var}(Y)$ which is caused by the variable $X_i$.
We divide the previous equality by $\operatorname{Var}(Y)$ and get the 
equation (1), which concludes the proof. $\blacksquare$

## Linear correlation coefficient and importance factors

In this section, we present the link between the linear 
correlation coefficients of an affine model, and the 
importance factors.

Assume that the random variables $X_i$ are independent, with 
mean $E(X_i)$ and finite variances $V(X_i)$, for $i=1,2,\ldots,p$.
Let us consider the random variable $Y$, which depends linearily on the 
variables $X_i$. 
We are interested in the Pearson correlation coefficient $\rho(Y,X_i)$.

For any $i=1,2,\ldots,p$, let us consider two jointly distributed random variables $X_i$ and $Y$. 
The covariance is 
$$
\operatorname{Cov}(Y, X_i) = \mathbb{E}[(Y - \mathbb{E}[Y])(X_i - \mathbb{E}[X_i])],
$$
for $i=1,2,\ldots,p$.
The Pearson correlation coefficient is 
$$
\rho(Y,X_i) = \frac{\operatorname{Cov}(Y, X_i)}{\sqrt{\operatorname{Var}(Y)}\sqrt{\operatorname{Var}(X_i)}}
$$
for $i=1,2,\ldots,p$.

Assume that the output $Y$ is the affine model.
Assume that the input variables $X_i$ are independent. 
Therefore 
$$
SRC_i = \rho(Y, X_i),
$$
for $i=1,2,\ldots,p$.

*Proof*

We have 

$$
\operatorname{Cov}(Y,X_i) 
= \operatorname{Cov}(\beta_0,X_i) + \beta_1 \operatorname{Cov}(X_1,X_i)+ \ldots + \beta_p \operatorname{Cov}(X_p,X_i),
$$

because the covariance function is linear with respect to 
its arguments. 
Obviously, we have $\operatorname{Cov}(\beta_0,X_i)=0$ since $\beta_0$ is a constant. 
Moreover, the random variables $X_i$ are independent, which implies that $\operatorname{Cov}(X_j,X_i) = 0$, 
for any $j \neq i$. 
Therefore, 

$$
\operatorname{Cov}(Y,X_i) 
= \beta_i \operatorname{Cov}(X_i,X_i) 
= \beta_i V(X_i).
$$

Hence, the correlation coefficient can be simplified into

$$
\begin{aligned}
\operatorname{Corr}(Y,X_i) 
&=& \frac{\beta_i \operatorname{Var}(X_i)}{\sqrt{V(Y)} \sqrt{\operatorname{Var}(X_i)}} \\
&=& \frac{\beta_i \sqrt{\operatorname{Var}(X_i)}}{\sqrt{\operatorname{Var}(Y)}}.
\end{aligned}
$$

we recognize the SRC coefficient, 
which concludes the proof. $\blacksquare$

## Régression linéaire

En général, on ne sait pas si la fonction $g$ est linéaire. Dans les méthodes que nous décrivons, la fonction $g$ est une boîte noire dans laquelle la seule information observable est la sortie en fonction de l'entrée. Dans ce cas, on peut créer un modèle de regression linéaire comme une approximation de la fonction $g$. Cela permet ensuite d'utiliser les facteurs d'importance, si le modèle linéaire est une bonne approximation de la fonction $g$. Nous allons voir que cette qualité peut être quantifiée grâce au coefficient $R^2$. 

La prédiction du modèle linéaire est une combinaison linéaire des composantes du vecteur $\boldsymbol{X}$ :

$$
y = \beta_0 + \boldsymbol{X}^T (\beta_1,...,\beta_p)^T + \epsilon
$$

où $\epsilon\in\mathbb{R}$ est une variable aléatoire, $\beta_0 \in \mathbb{R}$ et $(\beta_1,...,\beta_p)^T\in\mathbb{R}^{p}$ est le vecteur des paramètres. 

On peut aussi écrire le problème avec les vecteurs étendus 

$$
y = (1,\boldsymbol{X}^T) \boldsymbol{\beta} + \epsilon
$$

où $\boldsymbol{\beta} = (\beta_0, \beta_1,...,\beta_p)^T\in\mathbb{R}^{p+1}$ est le vecteur des paramètres. 

Soit $n$ la taille de l'échantillon et soit $\{X^{(1)},...,X^{(n)}\}$ un échantillon i.i.d. du vecteur aléatoire $\boldsymbol{X}$. La matrice de conception du modèle linéaire est :
$$
A = 
\begin{pmatrix}
1 & X_1^{(1)} & ... & X_p^{(1)} \\
1 & X_1^{(2)} & ... & X_p^{(2)} \\
\vdots & \vdots & & \vdots \\
1 & X_1^{(n)} & ... & X_p^{(n)}
\end{pmatrix}.
$$

Soit $\boldsymbol{y}$ le vecteur des sorties de la fonction $g$ :
$$
y^{(j)} = g\left(\boldsymbol{X}^{(j)}\right), \quad j=1,...,n.
$$
Le problème de regression linéaire consiste à résoudre le problème :
$$
\min_{\boldsymbol{\beta}\in\mathbb{R}^{p+1}} \|\boldsymbol{y} - A\boldsymbol{\beta}\|_2.
$$
Si la matrice $A$ est de rang plein, la solution est unique. C'est celle donnée par les équations normales :
$$
\widehat{\boldsymbol{\beta}} = \left(A^T A\right)^{-1} A^T \boldsymbol{y}.
$$
En pratique, bien que la méthode des équations normales soit appropriée dans certaines circonstances, on utilise le plus souvent une méthode fondée sur une décomposition orthogonale de la matrice $A$, comme par exemple la décomposition QR ou la décomposition SVD.

## Qualité de la regression linéaire

Une fois que les coefficients $\beta$ sont calculés, on doit déterminer si le modèle linéaire est une approximation appropriée de la fonction $g$. 
Soit 
$$
\overline{y} = \frac{1}{n} \sum_{j=1}^n y^{(j)}
$$
la moyenne empirique des sorties $y$. 
Soit $\hat{\boldsymbol{y}}$ le vecteur des prédictions du modèle de regression linéaire :
$$
\widehat{\boldsymbol{y}} = A\hat{\boldsymbol{\beta}}.
$$

Le coefficient $R^2\in[0,1]$ est :
$$
R^2 = 1- \frac{\sum_{j=1}^n \left(y^{(j)} - \hat{y}^{(j)}\right)^2}{\sum_{j=1}^n \left(y^{(j)} - \bar{y}\right)^2}
$$
Le coefficient $R^2$ mesure la part de variance expliquée par le modèle linéaire. 

On considère souvent qu'un coefficient de prédictivité $R^2>0.9$ est le signe d'une qualité suffisante. Un coefficient $R^2<0.5$ est inacceptable pour une utilisation pratique : c'est le signe que, vraisemblablement, le modèle n'est *pas* linéaire.