# 1 Modèle mathématique
La régression linéaire multiple modélise la relation entre une variable dépendante $y$ et plusieurs variables indépendantes $x_1, x_2, \dots, x_n$. Le modèle mathématique s'écrit comme suit :
$$
y = w_1 \cdot x_1 + w_2 \cdot x_2 + \dots + w_n \cdot x_n + b
$$
En notation matricielle :
$$
\mathbf{y} = \mathbf{X} \cdot \mathbf{w} + \mathbf{b}
$$
où :

$\mathbf{X}$ : Matrice $m \times n$ (m : nombre d'échantillons, n : nombre de variables indépendantes)
$\mathbf{w}$ : Vecteur colonne contenant les poids $[w_1, w_2, \dots, w_n]^\top$
$\mathbf{b}$ : Vecteur ou scalaire représentant le biais

# 2 Fonction de coût : Erreur quadratique moyenne (MSE)
La fonction de coût mesure l'erreur entre les prédictions $\hat{\mathbf{y}}$ et les valeurs réelles $\mathbf{y}$ :
$$
J(\mathbf{w}, b) = \frac{1}{2m} \sum_{i=1}^{m} \left( \hat{y}_i - y_i \right)^2
$$
où :

$\hat{y}_i = \mathbf{w}^\top \cdot \mathbf{x}_i + b$
$m$ : Nombre d'échantillons

# 3 Descente de gradient
La descente de gradient optimise les paramètres $\mathbf{w}$ et $b$ pour minimiser $J$.
Mise à jour des poids $\mathbf{w}$ :
$$
\mathbf{w} = \mathbf{w} - \alpha \cdot \frac{\partial J}{\partial \mathbf{w}}
$$
Mise à jour du biais $b$ :
$$
b = b - \alpha \cdot \frac{\partial J}{\partial b}
$$
où $\alpha$ est le taux d'apprentissage.
# 4 Calcul des gradients
Gradient par rapport aux poids $\mathbf{w}$ :
$$
\frac{\partial J}{\partial \mathbf{w}} = \frac{1}{m} \cdot \mathbf{X}^\top \cdot \left( \hat{\mathbf{y}} - \mathbf{y} \right)
$$
Gradient par rapport au biais $b$ :
$$
\frac{\partial J}{\partial b} = \frac{1}{m} \cdot \sum_{i=1}^{m} \left( \hat{y}_i - y_i \right)
$$
# 5 Résolution analytique (Optionnelle)
La minimisation de $J$ peut également être résolue analytiquement (sans descente de gradient) avec la formule fermée suivante :
$$
\mathbf{w} = \left( \mathbf{X}^\top \mathbf{X} \right)^{-1} \mathbf{X}^\top \mathbf{y}
$$
Cette approche nécessite que $\mathbf{X}^\top \mathbf{X}$ soit inversible.
# 6 Interprétation des coefficients

Chaque coefficient $w_j$ représente l'effet marginal de $x_j$ sur $y$, en supposant que les autres variables restent constantes
Le biais $b$ est la valeur de $y$ lorsque toutes les variables $x_1, x_2, \dots, x_n$ valent zéro