# Régression Linéaire Simple (●'◡'●)

La regression linéaire a 2 objectifs :
- Déterminer s'il y a une relation entre 2 variables (Déterminer la force de cette relation)
- Prédire de nouvelles observations

Il existe aussi 2 types de variables :
- Variable dépendante (Y) : Variable à expliquer
- Variable indépendante (X) : Variable explicative


Si on se refère à la formule de la droite, on a :
- Y = a + bX
- Y : Variable dépendante
- X : Variable indépendante

C'est très similaire à la formule utilisée en statistiques:

$$
y = \beta_0 + \beta_1 x
$$

Exemple :

Soit la formule suivante : $$y=4+2x$$

- 4 ($\beta_0$) : Ordonnée à l'origine
- 2 ($\beta_1$) : Pente de la droite, c'est à dire l'augmentation de y pour une augmentation de x

Les valeurs dans la réalité ne sont pas toujours (si jamais) aussi parfaites. 

La différence entre la valeur réelle et la valeur prédite est appelée l'erreur de prédiction.

On a donc une formule plus générale :

$$
y = \beta_0 + \beta_1 x + \epsilon
$$


## Etude de cas
**Pourquoi une famille consomme-t-elle un produit donné ?**

On a donc 2 variables :

- Variable dépendante : La consommation du produit
- Variable indépendante : Le revenu de la famille

On a donc une relation entre ces 2 variables. On peut donc utiliser la regression linéaire pour déterminer la force de cette relation.

| Revenu (X) | Consommation (Y) |
|------------|------------------|
| 119     | 154     |
| 85      | 123     |
| 97      | 125     |
| 95      | 130     |
| 120     | 151     |
| 92      | 131     |
| 105     | 141     |
| 110     | 141     |
| 98      | 133     |


Donc notre formule pour ce problème est :

$$
Consommation = \beta_0 + \beta_1 Revenu + \epsilon
$$

On cherche donc à étudier l'impact du revenu sur la consommation d'une famille.

En effectuant les calculs (que nous allons voir en détail après), on obtient la formule suitante :
$$
Consommation = 49.13 + 0.85 Revenu + \epsilon
$$

Iterprétation :
- Au niveau 0 de revenu, la consommation est de 49.13
- Pour chaque augmentation de 1 du revenu, la consommation augmente de 0.85

## (Model fitting) : Estimation des paramètres

Pour mieux comprendre la signifcation de la formule :
* $y$ désigne la valeur **réelle**
* $\beta_0 + \beta_1 x$ désigne la valeur **prédite** par le modèle
* $\epsilon$ désigne ce que nous ne pouvons pas expliquer!

Quand on parle de Fit, on parle de la qualité de la prédiction. 

On le calcule en comparant la varience de ce qu'on a prédit avec la variance de ce qu'on ne peut pas expliquer.

$$
y = \beta_0 + \beta_1 x + \epsilon \\

var(y) = var(\beta_0 + \beta_1 x + \epsilon) \\
= var(\beta_0) + var(\beta_1 x) + var(\epsilon)+2 cov(\beta_1 x, \epsilon) \\
$$

Or on sait que $var(\beta_0) = 0$ est constante

On trouve $cov(\beta_1 x, \epsilon)$ et cela signifie qu'on cherche la relation entre ce qu'on ne peut pas expliquer $\epsilon$ et ce qu'on a prédit **$\beta_1 x$**.

Pour l'instant, on va considérer que les erreurs sont indépendantes et normalement distribuées. On a donc : $ov(\beta_1 x, \epsilon) = 0$

### 1ere métrique : R carré ($R^2$)

$R^2$ est une mesure de la qualité de la prédiction.

Rappel : on a $var(y) = var(\beta_1 x) + var(\epsilon)$ 

Donc :

$$
R^2 = \frac{var(\beta_1 x)}{var(y)} \\
$$

Puisque c'est une variance, on a $R^2 \in [0,1]$
- Si $R^2 = 0$, cela signifie que la variance de ce qu'on a prédit est nulle. Donc notre modèle ne prédit rien.
- Si $R^2 = 1$, cela signifie que la variance de ce qu'on a prédit est égale à la variance de ce qu'on a prédit. Donc notre modèle prédit parfaitement.

**Note :** $R^2$ est une mesure de la qualité de la prédiction. Cela ne signifie pas que notre modèle est bon. Il faut aussi vérifier que les paramètres sont significatifs.

### 2eme métrique : p-value 

La p-value est une mesure de la signifiance des paramètres.

Exemple :

$$
y = \beta_0 + \beta_1 x + \epsilon
$$


On cherche à savoir si $\beta_1$ est significatif ou non.


On a donc 2 hypothèses :
- H0 : $\beta_1 = 0$
- H1 : $\beta_1 \neq 0$


On calcule la p-value en calculant la probabilité de voir une valeur aussi extrême que celle qu'on a calculé si l'hypothèse H0 est vraie.

Si la p-value est inférieure à 0.05, on rejette l'hypothèse H0. Donc $\beta_1$ est significatif.

Pour calculer la p-value, on utilise la distribution de Student.


### 3eme métrique : Ecart Type Résiduel RSE (Regression Standard Error)

Cette métrique est une mesure de la qualité de la prédiction.

$$
RSE = \sqrt{\frac{1}{n-2} RSS} \\
$$

Avec $RSS = \sum_{i=1}^{n} (y_i - \hat{y_i})^2$

RSS est la somme des carrés des erreurs de prédiction. Elle signifie que plus cette valeur est grande, plus les erreurs de prédiction sont grandes.

La valeur prédit par notre modèle $\hat{y_i} = \beta_0 + \beta_1 x_i$