# üìò Matrice de Covariance ‚Äî Th√©orie, Formule et Exemple Python


## 1. D√©finition matricielle (cas al√©atoire)

Soit un vecteur al√©atoire de dimension $n$ :

$$
X = 
\begin{bmatrix}
X_1 \\
X_2 \\
\vdots \\
X_n
\end{bmatrix}
$$

La **matrice de covariance** est d√©finie par :

$$
\Sigma = \mathrm{Cov}(X) = \mathbb{E}\Big[(X - \mu)(X - \mu)^\top\Big]
$$

o√π $\mu = \mathbb{E}[X]$.

Chaque terme de $\Sigma$ est :  
$$\Sigma_{ij} = \mathrm{Cov}(X_i, X_j)$$



## 2. Formule empirique (√† partir de donn√©es)

Soit une matrice de donn√©es $X$ de taille $T \times n$ :

$$
X = 
\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1n} \\
x_{21} & x_{22} & \cdots & x_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
x_{T1} & x_{T2} & \cdots & x_{Tn}
\end{bmatrix}
$$

- $T$ = nombre d‚Äôobservations  
- $n$ = nombre de variables

Soit $\bar{X}$ le vecteur des moyennes empiriques :

$$
\bar{X} = \frac{1}{T} \sum_{t=1}^T X_t
$$

On d√©finit la matrice **centr√©e** :

$$
\tilde{X} = X - \mathbf{1}_T \bar{X}^\top
$$

o√π $\mathbf{1}_T$ est un vecteur colonne de $T$ 1.



### ‚úÖ Formule cl√© : matrice de covariance empirique

$$
\hat{\Sigma} = \frac{1}{T-1} \tilde{X}^\top \tilde{X}
$$

- Chaque √©l√©ment $\hat{\Sigma}_{ij}$ est la covariance empirique entre $X_i$ et $X_j$  
- Si $i=j$, on obtient la variance de $X_i$



## 3. D√©monstration (passage √† la formule empirique)

On part de la d√©finition th√©orique :

$$
\Sigma = \mathbb{E}[(X - \mu)(X - \mu)^\top]
$$

Dans le cas empirique, on approxime l'esp√©rance par la moyenne des $T$ observations :

$$
\hat{\Sigma} = \frac{1}{T} \sum_{t=1}^T (X_t - \bar{X})(X_t - \bar{X})^\top
$$

o√π $X_t$ est le vecteur-ligne repr√©sentant la $t$-√®me observation.

En regroupant toutes les observations dans la matrice centr√©e $\tilde{X}$ (taille $T \times n$),  
cette somme devient exactement :

$$
\hat{\Sigma} = \frac{1}{T-1} \tilde{X}^\top \tilde{X}
$$

Le d√©nominateur $T-1$ (et non $T$) provient de la **correction de Bessel**,  
qui garantit un estimateur **non-biais√©** de la covariance.



## 4. Exemple Python


In [1]:

import numpy as np

# Exemple : 100 observations de 3 variables
X = np.random.randn(100, 3)

# Moyenne
mean = X.mean(axis=0)

# Matrice centr√©e
X_centered = X - mean

# Formule matricielle (covariance)
Sigma = (X_centered.T @ X_centered) / (X.shape[0] - 1)

print("Matrice de covariance calcul√©e manuellement :\n", Sigma)

# V√©rification avec NumPy
print("\nMatrice de covariance via numpy.cov :\n", np.cov(X.T))


Matrice de covariance calcul√©e manuellement :
 [[ 1.13968247  0.00944311 -0.02114475]
 [ 0.00944311  1.20404282 -0.05168695]
 [-0.02114475 -0.05168695  1.15140395]]

Matrice de covariance via numpy.cov :
 [[ 1.13968247  0.00944311 -0.02114475]
 [ 0.00944311  1.20404282 -0.05168695]
 [-0.02114475 -0.05168695  1.15140395]]


# üìò Covariance des r√©sidus en r√©gression lin√©aire

## 1. Mod√®le

On consid√®re le mod√®le de r√©gression lin√©aire :  

$y = X \beta + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2 I_n)$

- Estimateur des coefficients (OLS) :  
$\hat{\beta} = (X^\top X)^{-1} X^\top y$

- R√©sidus :  
$e = y - X \hat{\beta} = (I - H)y$

o√π  

$H = X (X^\top X)^{-1} X^\top$ est la **matrice hat**.

---

## 2. Variance-Covariance des r√©sidus

La variance-covariance des r√©sidus est :  

$\mathrm{Var}(e) = \sigma^2 (I - H)$

- **Sur la diagonale** :  
$\mathrm{Var}(e_i) = \sigma^2 (1 - h_{ii})$

- **Hors-diagonale** :  
$\mathrm{Cov}(e_i, e_j) = - \sigma^2 h_{ij}, \quad i \neq j$

---

## 3. Estimateur de $\sigma^2$

Comme $\sigma^2$ est inconnu, on l‚Äôestime par :  

$\hat{\sigma}^2 = \dfrac{e^\top e}{n - p}$

- $n$ : nombre d‚Äôobservations  
- $p$ : nombre de variables explicatives (y compris l‚Äôintercept si inclus)

---

## 4. Script Python


In [3]:
import numpy as np

# --- Donn√©es simul√©es ---
np.random.seed(0)
n, p = 6, 2
X = np.random.randn(n, p)
beta = np.array([1.5, -0.5])
y = X @ beta + np.random.randn(n) * 0.5

# --- Estimateur OLS ---
beta_hat = np.linalg.inv(X.T @ X) @ X.T @ y
y_hat = X @ beta_hat
resid = y - y_hat

# --- Matrice hat ---
H = X @ np.linalg.inv(X.T @ X) @ X.T

# --- Estimateur sigma^2 ---
sigma2_hat = (resid @ resid) / (n - p)

# --- Matrice de covariance des r√©sidus ---
Var_e = sigma2_hat * (np.eye(n) - H)

print("R√©sidus :", resid.round(3))
print("sigma^2 estim√© :", sigma2_hat.round(3))
print("\nMatrice de covariance des r√©sidus :\n", Var_e.round(3))

R√©sidus : [ 0.128 -0.091 -0.038  0.033  0.759 -0.131]
sigma^2 estim√© : 0.155

Matrice de covariance des r√©sidus :
 [[ 0.098 -0.038 -0.056 -0.03   0.002 -0.009]
 [-0.038  0.054  0.015 -0.006 -0.015 -0.059]
 [-0.056  0.015  0.064 -0.039  0.013  0.028]
 [-0.03  -0.006 -0.039  0.137  0.004  0.005]
 [ 0.002 -0.015  0.013  0.004  0.152 -0.011]
 [-0.009 -0.059  0.028  0.005 -0.011  0.116]]
