# Régression Linéaire Multiple : Version Matricielle

## 1. Modèle mathématique (notation matricielle)

La régression linéaire multiple s'écrit en notation matricielle :
\[
\mathbf{y} = \mathbf{X} \cdot \mathbf{w} + \mathbf{b}
\]

### Définition des termes :
- \( \mathbf{X} \) : Matrice \( m \times n \), représentant les données d'entrée (\( m \) échantillons, \( n \) variables indépendantes).
- \( \mathbf{w} \) : Vecteur colonne \( n \times 1 \), contenant les poids ou coefficients (\( w_1, w_2, \dots, w_n \)).
- \( \mathbf{b} \) : Scalaire (ou vecteur \( m \times 1 \)), représentant le biais.
- \( \mathbf{y} \) : Vecteur \( m \times 1 \), contenant les valeurs cibles.

---

## 2. Fonction de coût : Erreur quadratique moyenne (MSE)

La fonction de coût mesure l'écart entre les prédictions \( \hat{\mathbf{y}} \) et les valeurs réelles \( \mathbf{y} \). Elle est définie comme :
\[
J(\mathbf{w}, \mathbf{b}) = \frac{1}{2m} \| \mathbf{X} \cdot \mathbf{w} + \mathbf{b} - \mathbf{y} \|^2
\]

### Développement :
\[
J(\mathbf{w}, \mathbf{b}) = \frac{1}{2m} \left( (\mathbf{X} \cdot \mathbf{w} + \mathbf{b} - \mathbf{y})^\top \cdot (\mathbf{X} \cdot \mathbf{w} + \mathbf{b} - \mathbf{y}) \right)
\]

---

## 3. Descente de gradient

La descente de gradient ajuste les paramètres \( \mathbf{w} \) et \( \mathbf{b} \) pour minimiser la fonction de coût \( J \).

### Mise à jour des poids (\( \mathbf{w} \)) :
\[
\mathbf{w} = \mathbf{w} - \alpha \cdot \frac{\partial J}{\partial \mathbf{w}}
\]

### Mise à jour du biais (\( \mathbf{b} \)) :
\[
\mathbf{b} = \mathbf{b} - \alpha \cdot \frac{\partial J}{\partial \mathbf{b}}
\]

où \( \alpha \) est le taux d'apprentissage.

---

## 4. Calcul des gradients

### Gradient par rapport aux poids (\( \mathbf{w} \)) :
\[
\frac{\partial J}{\partial \mathbf{w}} = \frac{1}{m} \cdot \mathbf{X}^\top \cdot \left( \mathbf{X} \cdot \mathbf{w} + \mathbf{b} - \mathbf{y} \right)
\]

### Gradient par rapport au biais (\( \mathbf{b} \)) :
Si \( \mathbf{b} \) est constant pour tous les échantillons :
\[
\frac{\partial J}{\partial \mathbf{b}} = \frac{1}{m} \cdot \sum \left( \mathbf{X} \cdot \mathbf{w} + \mathbf{b} - \mathbf{y} \right)
\]

---

## 5. Résolution analytique (formule fermée)

La minimisation de \( J \) peut également être résolue analytiquement avec la **formule normale** :
\[
\mathbf{w} = \left( \mathbf{X}^\top \mathbf{X} \right)^{-1} \cdot \mathbf{X}^\top \cdot \mathbf{y}
\]

### Ajout du biais :
Pour inclure \( \mathbf{b} \) dans \( \mathbf{w} \), on peut ajouter une colonne de \( 1 \) à la matrice \( \mathbf{X} \).

---

## 6. Interprétation des coefficients

- Chaque coefficient \( w_j \) dans \( \mathbf{w} \) représente l'effet marginal de \( x_j \) sur \( y \), toutes les autres variables étant constantes.
- Le biais \( b \) est l'interception du modèle, c'est-à-dire la valeur prédite de \( y \) lorsque toutes les variables \( x_1, x_2, \dots, x_n \) valent zéro.
