# Régression linéaire multiple

Une régression linéaire multiple permet de décrire la relation entre une **variable dépendante** (aussi appelée _variable endogène_) et une ou plusieurs **variables indépendantes** (_variables exogènes_).

Une régression linéaire multiple est un **modèle statistique** qui permet d'estimer les paramètres du modèle sur la base d'une série d'individus avec caractéristiques connus. Le modèle peut être appliqué par la suite à d'autres individus où nous ne connaissons pas la valeur de la variable dépendante, mais uniquement de la variable indépendante.

Une régression linéaire multiple peut être écrite comme:

$$Y = a_1 X_1 + a_2 X_2 + a_3 X_3 + \dots + a_k X_k + a_0$$

où $X$ sont les variables indépendantes, $Y$ est la variable indépendante, et $a$ sont les **paramètres du modèle**.

Les applications d'un modèle de régression linéaire multiple sont nombreuses en géographie. Voici quelques exemples possibles:

- Vous voulez savoir le taux d'acceptation ou de rejet d'une future votation de l'initative que vous avez lancée. Afin d'estimer ce taux, vous interrogez des gens dans différentes communes sur leur intention de vote, et vous essayez de trouver un modèle explicatif qui permet d'expliquer le taux d'acception ou de rejet dans votre échantillon sur la base d'autres variables. Par la suite, vous pouvez appliquer le modèle pour toutes les communes et ainsi estimer le taux d'acceptation dans l'ensemble, et identifier en même temps les communes où l'acceptation est incertaine. Ceci vous permet de cibler votre campagne sur un petit nombre de communes critiques.

- Vous voulez estimer la fréquence du brouillard à tous les endroits en Suisse. Pour cela, vous disposez des mesures de quelques stations météo. En plus, vous pouvez calculer des paramètres liés à la configuration du terrain, des vents, l'ensoleillement etc. Tous ces paramètres vous permettront de construire un modèle de régression pour la fréquence du brouillard. (Par ailleurs, il y a des rumeurs comme quoi la fréquence du brouillard en Suisse romande est directement liée à la proportion de Valaisans. À vous de vérifier...)

Nous ne pouvons évidemment pas traiter toutes les applications potentielles d'un modèle de régression. Le but principal ici est de montrer comment on peut calculer une régression linéaire multiple avec R, et comment on doit interpréter les résultats.

Dans notre exemple, nous essayons d'estimer le lien entre les personnes divorcées (variable `PMSDIV`) à l'aide d'une série d'autres variables (déterminées plus ou moins aléatoirement), et ceci pour les régions Z05 des cantons de Zurich et Berne:

- `ADCFARM`: le nombre de paysans
- `PRPROT`: le nombre de protestants
- `PRCATH`: le nombre de catholiques
- `PRJEW`: le nombre de juifs
- `PFGEN`: le nombre de personnes avec éducation école obligatoire
- `PFBAC`: le nombre de personnes avec un degrée de Bachelor

Nous utilisons pour cela le même jeu de données que pour l'exemple sur les [corrélations](../20-correlations):

In [1]:
d = read.csv(file="data-zh-be.tsv", sep="\t")

La régression linéaire peut être calculée dans R avec la fonction [`lm`](https://stat.ethz.ch/R-manual/R-devel/library/stats/html/lm.html):

In [2]:
reglin = lm(PMSDIV ~ ADCFARM + PRPROT + PRCATH + PRJEW + PFGEN + PFBAC, data=d)

où nous gardons le résultat de la régression dans `reglin`. On note que la variable dépendante vient d'abord, séparé par un signe `~`. Puis les variables indépendantes viennent par la suite, séparées par un `+`. Le tableau de données de source est indiqué avec `data=d` (chose que nous avons déjà vu).

Pour pouvoir analyser le résultat de la régression, nous devons demander à R de nous montrer le résultat. La façon la plus simple est:

In [3]:
summary(reglin)


Call:
lm(formula = PMSDIV ~ ADCFARM + PRPROT + PRCATH + PRJEW + PFGEN + 
    PFBAC, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-236.826  -50.102    0.814   45.786  222.264 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 60.397000  20.288519   2.977  0.00309 ** 
ADCFARM     -0.556457   0.081610  -6.818 3.38e-11 ***
PRPROT       0.036557   0.006725   5.436 9.45e-08 ***
PRCATH       0.131151   0.012417  10.562  < 2e-16 ***
PRJEW       -0.178554   0.085340  -2.092  0.03704 *  
PFGEN        0.382620   0.044691   8.561 2.38e-16 ***
PFBAC        0.247279   0.041915   5.900 7.73e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 73.11 on 403 degrees of freedom
Multiple R-squared:  0.5524,	Adjusted R-squared:  0.5457 
F-statistic: 82.89 on 6 and 403 DF,  p-value: < 2.2e-16


Regardons un peu la sortie de R pour notre résultat de régression...

Commençons avec la dernière partie:

```
Residual standard error: 73.11 on 403 degrees of freedom
Multiple R-squared:  0.5524,	Adjusted R-squared:  0.5457 
F-statistic: 82.89 on 6 and 403 DF,  p-value: < 2.2e-16
```

Ici nous trouvons le **coefficient de détermination** $R^2$, respectivement son homologue $R^2$ ajusté. Dans le cas d'une régression multiple, le $R^2$ ajusté pénalise la présence d'un grand nombre de variables indépendantes. C'est donc le **$R^2$ ajusté** qui est à préférer. Il nous indique la **proportion de variance expliquée** par notre modèle. Avec une valeur d'environ 0.55, notre modèle n'est de loin pas parfait, mais il nous donne tout de même  quelques tendances... (presque surprenant au vue des variables de départ)

Ensuite, dans la même section, nous trouvons également le résultat d'un test de F (très similaire à celui dans l'ANOVA). Le F présente grosso modo le ratio entre la variance expliquée et la variance résiduelle (non expliquée). Plus la valeur de $F$ est grande, plus la probabilité est grande que le modèle explique quelque chose. La p valeur associé est la probabilité que le modèle n'explique rien en réalité en assumant qu'il explique quelque chose. Plus formellement, les hypothèses pour le test de F sont les suivantes:

$H_0$: tous les coefficients sont égaux à 0  
$H_1$: au moins un coefficient n'est pas égal à 0

Puis nous pouvons regarder les différents coefficients (ce sont les paramètres de notre modèle):

```
Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 60.397000  20.288519   2.977  0.00309 ** 
ADCFARM     -0.556457   0.081610  -6.818 3.38e-11 ***
PRPROT       0.036557   0.006725   5.436 9.45e-08 ***
PRCATH       0.131151   0.012417  10.562  < 2e-16 ***
PRJEW       -0.178554   0.085340  -2.092  0.03704 *  
PFGEN        0.382620   0.044691   8.561 2.38e-16 ***
PFBAC        0.247279   0.041915   5.900 7.73e-09 ***
```

Pour chaque variable, nous obtenons un coefficient (colonne `Estimate`), plus un pour la constante (_intercept_). Nous avons également le résultat d'un test de Student pour déterminer si le coefficient est significativement différent de 0 (test de non-nullité). La p valeur associée (dans la colonne `Pr(>|t|)`) indique la probabilité de se tromper en disant que le coefficient est non nul.

Les étoiles à la fin de chaque ligne donnent également le degré de significativité.

En géographie, nous travaillons souvent avec des unités spatiales. Dès lors, il est possible d'**analyser les résidus** d'une régression à travers une carte. Un résidu est la différence entre la vraie valeur de la variable dépendante, et la même valeur estimée par la régression. Les résidus peuvent être obtenus avec `reglin$residuals`. Voici comment ajouter les résidus comme colonne supplémentaire dans notre tableau de données:

In [4]:
d$residus_regr = reglin$residuals

Et maintenant nous pouvons écrire le jeu de données complet, y compris la nouvelle variable, dans un nouveau fichier TSV, à l'aide de la fonction __[`write.csv`](https://stat.ethz.ch/R-manual/R-devel/library/utils/html/write.table.html):

In [6]:
write.table(d, file="nouveau-fichier-donnees.tsv", sep="\t", row.names=FALSE, col.names=TRUE)

ce qui devrait être suffisant pour faire une carte thématique (la jointure dans QGIS vous salue...).