# TP : Mini-projet de Probabilités SABOUN Rayan, Bachnou Omar 

Nous allons vous presenter le sujet 6 sur la corrélation linéaire.

Objectifs :
* Présenter la corrélation linéaire
* Expliquer et démontrer l’ajustement par la méthode des moindres carrés
*  Expliquer le coefficient de corrélation linéaire
*  Donner des exemples de calculs à l’aide des librairies usuelles en python
*  Donner des exemples de représentations graphiques en python



## Pré-traitement des données

Dans toute la suite on considère le jeu de données `taille_poids_10000.csv` présent dans le répertoire. Pour rappel, on peut le parcourir avec :

In [17]:
import csv

with open('taille_poids_10000.csv') as fichiercsv:
    reader = csv.DictReader(fichiercsv)
    tailles = []
    poids = []
    for ligne in reader:
        tailles.append(float(ligne["Taille_cm"]))
        poids.append(float(ligne["Poids_kg"]))

print(tailles, poids)


[174.96714153011231, 168.61735698828815, 176.47688538100692, 185.23029856408024, 167.65846625276663, 167.6586304305082, 185.79212815507393, 177.6743472915291, 165.30525614065047, 175.42560043585965, 165.36582307187538, 165.34270246429742, 172.41962271566035, 150.86719755342202, 152.75082167486968, 164.37712470759027, 159.87168879665577, 173.14247332595275, 160.91975924478788, 155.87696298664707, 184.65648768921554, 167.74223699513465, 170.67528204687923, 155.75251813786542, 164.55617275474816, 171.10922589709867, 158.49006422577696, 173.75698018345673, 163.99361310081196, 167.08306250206724, 163.98293387770602, 188.52278184508938, 169.86502775262065, 159.42289071044098, 178.2254491210319, 157.79156350028978, 172.08863595004755, 150.40329876120225, 156.7181395110157, 171.96861235869125, 177.3846657999541, 171.7136828118997, 168.8435171761176, 166.98896304410712, 155.21478009632574, 162.8015579160529, 165.39361229040213, 180.57122226218917, 173.43618289568462, 152.36959844637266, 173.240

On converti les donner en nombre flotan

# Corrélation linéaire

## 1. Définition

La corrélation linéaire mesure l’intensité et le sens du lien linéaire entre deux variables quantitatives X et Y.  
Elle indique si les variations de X sont associées à des variations de Y selon une tendance proche d’une droite.

Le coefficient de corrélation linéaire, noté r, est un nombre compris entre −1 et 1.

---

## 2. Formule

Le coefficient de corrélation linéaire de Pearson est :

$r=\dfrac{\sum (x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum (x_i-\overline{x})^2}\,\sqrt{\sum (y_i-\overline{y})^2}}$

Avec les moyennes :

$\overline{x}=\dfrac{1}{n}\sum x_i$  
$\overline{y}=\dfrac{1}{n}\sum y_i$

---

## 3. Exemple de cas d’utilisation

Exemple : étudier le lien entre la taille (X) et le poids (Y).  
On calcule r :

- si $r\approx 1$ : les personnes plus grandes pèsent en général plus lourd ;  
- si $r\approx 0$ : la taille et le poids ne sont pas liés linéairement ;  
- si $r<0$ : plus la taille augmente, plus le poids diminue (cas rare ici).

Autres exemples :  
- heures de révision et note obtenue,  
- température extérieure et consommation d’électricité,  
- prix d’un produit et quantité demandée.

---

## 4. Interprétation des résultats

### Sens du lien
- $r>0$ : relation positive  
- $r<0$ : relation négative  
- $r=0$ : absence de relation linéaire

### Intensité du lien
- $|r|\approx 1$ : lien linéaire fort  
- $|r|\approx 0.5$ à $0.8$ : lien moyen  
- $|r|\approx 0$ à $0.5$ : lien faible  
- $r=\pm 1$ : corrélation parfaite

### Attention
Une corrélation ne signifie jamais qu’une variable cause l’autre.  
Elle décrit uniquement une relation statistique.

---

## 6. Résumé

La corrélation linéaire permet de déterminer :
- la force du lien entre deux variables,  
- le sens de la relation,  
- si un modèle linéaire (droite d’ajustement) est pertinent.


# Ajustement linéaire par la méthode des moindres carrés

On dispose d’un ensemble de points  
(x₁, y₁), (x₂, y₂), …, (xₙ, yₙ)  
et on cherche à approximer la relation entre x et y par une droite :

y ≈ a·x + b

La méthode des moindres carrés consiste à choisir a et b pour minimiser l’erreur entre les points et la droite.

---

## 1. Fonction à minimiser

Pour chaque point (xᵢ, yᵢ), l’erreur verticale est :

eᵢ = yᵢ − (a·xᵢ + b)

La somme des carrés des erreurs est :

S(a, b) = Σ[yᵢ − (a·xᵢ + b)]²

---

## 2. Conditions d’optimalité

On dérive S par rapport à a et b, puis on annule :

∂S/∂a = 0  
∂S/∂b = 0

On obtient les équations suivantes :

Σ xᵢ (yᵢ − a xᵢ − b) = 0  
Σ (yᵢ − a xᵢ − b) = 0

---

## 3. Équations normales

Le système linéaire est :

a Σ xᵢ² + b Σ xᵢ = Σ xᵢ yᵢ  
a Σ xᵢ + b·n = Σ yᵢ

En posant :

Sₓ = Σ xᵢ  
Sᵧ = Σ yᵢ  
Sₓₓ = Σ xᵢ²  
Sₓᵧ = Σ xᵢ yᵢ

le système devient :

a Sₓₓ + b Sₓ = Sₓᵧ  
a Sₓ + b n = Sᵧ

---

## 4. Formules explicites

a = (n·Sₓᵧ − Sₓ·Sᵧ) / (n·Sₓₓ − Sₓ²)

b = (Sᵧ − a·Sₓ) / n

Avec les moyennes :

x̄ = (1/n) Σ xᵢ  
ȳ = (1/n) Σ yᵢ

on peut écrire :

a = Σ (xᵢ − x̄)(yᵢ − ȳ) / Σ (xᵢ − x̄)²

b = ȳ − a·x̄

---

## 5. Interprétation

La pente s’écrit :

a = Cov(X, Y) / Var(X)

Le coefficient de corrélation linéaire est :

r = Σ (xᵢ − x̄)(yᵢ − ȳ) / √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²]

---

## 6. Exemple numérique

Points : (1,2), (2,3), (3,5), (4,4)

Sₓ = 10  
Sᵧ = 14  
Sₓₓ = 30  
Sₓᵧ = 39  
n = 4

a = (4·39 − 10·14) / (4·30 − 10²) = 0.8  
b = (14 − 0.8·10) / 4 = 1.5

La droite ajustée est :

y = 0.8·x + 1.5

---

## 7. Conclusion

La méthode des moindres carrés fournit la droite y = a·x + b qui minimise l’erreur quadratique. Elle constitue la base de l’ajustement linéaire et est étroitement liée au coefficient de corrélation linéaire.


In [None]:
import numpy as np
import scipy as sp

NameError: name 's' is not defined