# ML - Régression linéaire multiple

Comme nous l'avons mentionné précédemment, on parle de régression linéaire lorsqu'une variable explicative (X) a une relation linéaire avec une autre variable (y). Néanmoins, il arrive que notre X puisse en fait contenir plusieurs variables explicatives. Nous allons voir cela.

![image.png](attachment:image.png)

## Objectifs

✅ Comprendre la régression linéaire multiple

✅ Effectuer une régression linéaire multiple

## Régression linéaire multiple


![image.png](attachment:image.png)

Tout est dans la formule. Nous n'avons plus un seul x1 dans notre équation, mais un nombre n de x : X1, X2... Xn.

Par exemple, si nous essayons de prédire quelque chose comme le prix des logements (`y`, qui est la variable dépendante), nous pouvons maintenant utiliser plusieurs variables explicatives(X1, X2, ... Xn) qui correspondent le mieux à nos données. Des exemples de variables explicatives possibles pourraient être :

- la taille de la maison,
- le nombre de pièces,
- la couleur de la maison,
- si la maison se trouve à proximité d'une école ou non.
- etc...

Étant donné que nous travaillons maintenant avec plusieurs variables indépendantes, nous ne pouvons plus visualiser ce graphique comme un simple graphique en 2D, mais nous devons considérer le graphique en plusieurs dimensions. Plutôt que d'ajuster une ligne unique, nous allons utiliser un plan (si nous utilisons 2 variables indépendantes) ou un hyperplan (si nous utilisons plus de variables explicatives).

Avec 2 variables explicatives et une variable expliquée, nous pouvons afficher en 3 dimensions. Ici, le prix de la maison serait par exemple en y, le nombre de m2 en X1 et le nombre de pièces en X2.

Si nous avons plus de 2 dimensions explicatives, nous ne pouvons plus l'afficher visuellement de cette manière. Mais un ordinateur n'a aucun mal à continuer à calculer et à prédire sur 5, 10 ou même 100 dimensions !

## Avec Python et SciKit-Learn


Avec SciKit-Learn, la syntaxe est assez simple pour effectuer une régression linéaire multiple. Il suffit d'indiquer plusieurs colonnes dans votre `X`.



In [None]:
from sklearn.linear_model import LinearRegression
X = df[['variable_column1', 'variable_column2', 'variable_column3']]
y = df['target_column']

# We train a "model" with "fit" function. This model will store coefficients after training.
model = LinearRegression().fit(X, y)

Si nous affichons les coefficients, nous avons un coefficient par variable, dans le même ordre.



In [None]:
print("coefficient :",model.coef_)
>>> array([ 5.74318411e-01, 2.43528776e-03, 8.26837441e-01])

print("interception :",model.intercept_)
>>> 3.9503110458650266

Les coefficients sont dans le même ordre que les colonnes X. C'est plus lisible comme ceci.



In [None]:
for i, j in zip (X.columns, model.coef_):
  print(i,j)

>>> variable_column1 5.74318411e-01
>>> variable_column2 2.43528776e-03
>>> variable_column3 8.26837441e-01

Attention : Les valeurs sont affichées avec le format scientifique, c'est à dire avec un exposant de puissance de 10.
Par exemple :

- variable_column1 a une valeur de `5.74 * 10^(-1)` soit 0.574
- variable_column2 a une valeur de `2.43 * 10^(-3)` soit 0.00243, donc une valeur beaucoup plus faible.

Pense donc à bien regarder l'exposant !

[Notation scientifique](https://fr.wikipedia.org/wiki/Notation_scientifique)

Nous pouvons prédire une nouvelle valeur :



In [None]:
# Example of predict function:
print(model.predict([[10, 2, 15]]))

>>> 22.100927346385028

Ou le faire à la main (mais personne ne fait ca, ce serait trop fastidieux, surtout si on avait 100 variables) :

```
  10 * 0.574318411
+  2 * 0.00243528776
+ 15 * 0.826837441
+ 3.9503110458650266 (this is the intercept)
-----------------------
= 22.100927346385028
```

Et rappelez-vous : vous pouvez avoir beaucoup de variables (X), mais votre cible (y) sera toujours seule comme un cow-boy solitaire.

C'est pour ca que nous mettons par convention `X` en majuscule, et `y` en minuscule.

## Ressources pour aller plus loin :


#### Régression Linéaire Multiple - Explication

https://www.youtube.com/watch?v=zITIFTsivN8

# Challenge

## Effectue une régression linéaire multiple avec Scikit-Learn


Dans ce défi, vous devrez accomplir une nouvelle série de missions pour apprendre à utiliser les régressions linéaires multivariées.

Créez une copie de [Challenge ML Multiple linear regression](https://drive.google.com/file/d/1Gi-QVkeG6ZPtXmVc5xnorYkBFKGKTvUU/view?usp=drive_link) et relevez le défi.
