## Load Required Libraries

In [8]:
library(ggplot2)
library(lmtest)

Loading required package: zoo


Attaching package: 'zoo'


The following objects are masked from 'package:base':

    as.Date, as.Date.numeric




## Load Data

In [3]:
data <- read.csv("./data/mtcars.csv")
head(data)

Unnamed: 0_level_0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Unnamed: 0_level_1,<chr>,<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<int>,<int>,<int>,<int>
1,Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
2,Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
3,Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
4,Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
5,Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
6,Valiant,18.1,6,225,105,2.76,3.46,20.22,1,0,3,1


## Perform multiple linear regression

In [5]:
model <- lm(mpg ~ cyl + disp + hp + drat + wt + qsec + vs + am + gear + carb, data = mtcars)
summary(model)


Call:
lm(formula = mpg ~ cyl + disp + hp + drat + wt + qsec + vs + 
    am + gear + carb, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4506 -1.6044 -0.1196  1.2193  4.6271 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 12.30337   18.71788   0.657   0.5181  
cyl         -0.11144    1.04502  -0.107   0.9161  
disp         0.01334    0.01786   0.747   0.4635  
hp          -0.02148    0.02177  -0.987   0.3350  
drat         0.78711    1.63537   0.481   0.6353  
wt          -3.71530    1.89441  -1.961   0.0633 .
qsec         0.82104    0.73084   1.123   0.2739  
vs           0.31776    2.10451   0.151   0.8814  
am           2.52023    2.05665   1.225   0.2340  
gear         0.65541    1.49326   0.439   0.6652  
carb        -0.19942    0.82875  -0.241   0.8122  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.65 on 21 degrees of freedom
Multiple R-squared:  0.869,	Adjusted R-squared:  0

### Interprétation des résultats :

1. **(Intercept) : 12.30337**  
   Cela représente l'ordonnée à l'origine, c'est-à-dire la valeur de `mpg` lorsque toutes les autres variables indépendantes (cyl, disp, hp, etc.) sont égales à zéro. Bien que cette valeur n'ait pas de sens pratique direct dans ce cas, elle est nécessaire pour établir l'équation de régression.

2. **cyl : -0.11144**  
   Pour chaque cylindre supplémentaire, tout le reste étant constant, la consommation de carburant (`mpg`) diminue en moyenne de 0.1114 unités. Cependant, cette relation n'est pas statistiquement significative (p = 0.9161).

3. **disp : 0.01334**  
   Pour chaque unité supplémentaire de déplacement (disp), tout le reste étant constant, la consommation de carburant (`mpg`) augmente légèrement de 0.01334. Cette relation n'est pas non plus significative (p = 0.4635).

4. **hp : -0.02148**  
   Pour chaque augmentation d'une unité de la puissance (hp), tout le reste étant constant, la consommation de carburant (`mpg`) diminue de 0.02148 unités. Cette relation n'est pas statistiquement significative (p = 0.3350).

5. **drat : 0.78711**  
   Pour chaque augmentation d'une unité du rapport de pont arrière (drat), la consommation de carburant (`mpg`) augmente de 0.78711 unités. Cependant, cela n'est pas statistiquement significatif (p = 0.6353).

6. **wt : -3.71530**  
   Pour chaque unité supplémentaire de poids (wt), la consommation de carburant (`mpg`) diminue de 3.7153 unités, ce qui montre que le poids du véhicule a une influence notable. Cette variable approche la significativité (p = 0.0633).

7. **qsec : 0.82104**  
   Pour chaque augmentation du temps d'accélération sur 1/4 de mile (qsec), la consommation de carburant (`mpg`) augmente de 0.82104 unités. Cela n'est pas statistiquement significatif (p = 0.2739).

8. **vs : 0.31776**  
   Les véhicules avec moteur en ligne (vs) ont en moyenne un `mpg` supérieur de 0.31776, mais cela n'est pas statistiquement significatif (p = 0.8814).

9. **am : 2.52023**  
   Les véhicules avec une transmission manuelle (am) ont en moyenne une meilleure consommation de 2.52023 unités de `mpg`, mais ce résultat n'est pas statistiquement significatif (p = 0.2340).

10. **gear : 0.65541**  
   Chaque augmentation du nombre de rapports de vitesse (gear) est associée à une augmentation de 0.65541 unités de `mpg`, mais cela n'est pas statistiquement significatif (p = 0.6652).

11. **carb : -0.19942**  
   Pour chaque carburateur supplémentaire (carb), la consommation de carburant (`mpg`) diminue de 0.19942 unités, mais cette relation n'est pas significative (p = 0.8122).

### Signification générale :
- **R² multiple : 0.869**  
  Cela signifie que 86.9% de la variance dans `mpg` peut être expliquée par ce modèle de régression linéaire multiple.

- **R² ajusté : 0.8066**  
  Après ajustement pour le nombre de prédicteurs, 80.66% de la variance dans `mpg` est expliquée par le modèle.

- **Erreur standard résiduelle : 2.65**  
  L'écart-type des résidus (ou erreurs) est de 2.65, indiquant l'étendue des différences entre les valeurs prédites et les valeurs réelles.

- **F-statistic : 13.93**  
  La statistique de test F est significative (p = 3.793e-07), ce qui signifie que le modèle global est significativement meilleur que de ne pas utiliser de modèle (modèle nul).

### Équation de la régression linéaire multiple :

mpg = 12.30337 - 0.11144*cyl + 0.01334*disp - 0.02148*hp + 0.78711*drat - 3.71530*wt + 0.82104*qsec + 0.31776*vs + 2.52023*am + 0.65541*gear - 0.19942*carb


## Test D'hypothèses

1) **Test d'indépendance entre les variables explicatives et les résidus (Test de Rainbow)**  
   \( H_0 : \) indépendance entre les variables explicatives (\(X_1, X_2,..., X_n\)) et les résidus (\(e\))  
   \( H_1 : \) dépendance entre les variables explicatives (\(X_1, X_2,..., X_n\)) et les résidus (\(e\))


In [9]:
raintest(model)


	Rainbow test

data:  model
Rain = 3.8577, df1 = 16, df2 = 5, p-value = 0.0712


### Interprétation :
La p-value de 0.0712 est supérieure au niveau de signification typique de 0.05. Par conséquent, nous acceptons l'hypothèse nulle (\(H_0\)), ce qui indique qu'il n'y a pas de preuve de dépendance entre les variables explicatives et les résidus.



2) **Test d'autocorrélation des erreurs (Test de Durbin-Watson)**  
   \( H_0 : \) pas d'autocorrélation des résidus  
   \( H_1 : \) autocorrélation des résidus

In [11]:
dwtest(model)


	Durbin-Watson test

data:  model
DW = 1.8609, p-value = 0.1574
alternative hypothesis: true autocorrelation is greater than 0


### Interprétation :
La statistique de Durbin-Watson de 1.8609 est proche de 2, ce qui suggère qu'il n'y a pas d'autocorrélation des résidus. De plus, la p-value de 0.1574 est supérieure au niveau de signification typique de 0.05. Par conséquent, nous acceptons l'hypothèse nulle, ce qui indique qu'il n'y a pas d'autocorrélation significative des résidus.

3) **Test d'hétéroscédasticité des résidus (Test de Breusch-Pagan)**  
   \( H_0 : \) homoscédasticité des résidus  
   \( H_1 : \) hétéroscédasticité des résidus

In [12]:
bptest(model)


	studentized Breusch-Pagan test

data:  model
BP = 14.914, df = 10, p-value = 0.1352


### Interprétation :
Le test de Breusch-Pagan a produit une statistique BP de 14.914 avec 10 degrés de liberté. La p-value associée est de 0.1352, ce qui est supérieur au niveau de signification typique de 0.05. Par conséquent, nous acceptons l'hypothèse nulle, ce qui indique qu'il n'y a pas d'hétéroscédasticité significative des résidus. Cela suggère que la variance des résidus est constante à travers les valeurs prédites du modèle.


4) **Test de normalité des résidus (Test de Shapiro-Wilk)**  
   \( H_0 : \) normalité des résidus  
   \( H_1 : \) non normalité des résidus

In [13]:
residuals <- residuals(model)

shapiro.test(residuals)


	Shapiro-Wilk normality test

data:  residuals
W = 0.95694, p-value = 0.2261


### Interprétation :
Le test de normalité de Shapiro-Wilk a produit une statistique W de 0.95694, avec une p-value de 0.2261. Étant donné que cette p-value est supérieure au niveau de signification typique de 0.05, nous acceptons l'hypothèse nulle. Cela indique que les résidus suivent une distribution normale, ce qui est une condition importante pour la validité des résultats de la régression.