# Activité 2

## Ajustement linéaire

### Généralités
Considérons un phénomène physique pour lequel un grandeur $y$ dépend d'une grandeur $x$. Proposer un modèle théorique pour ce phénomène, c'est proposer une loi mathématique de la forme $y = f(x)$ où $f$ est la fonction à déterminer.
De l'analyse des résultats d'expérience peut émerger une telle loi. À cet effet, f'observation du nuage de points présentant $x$ en abscisse et $y$ en ordonnée est souvent un point de départ. En particulier, lorsque les points semblent s'aligner, cette étape est indispensable. Sans autre méthode mathématique, elle constitue le seul moyen de justifier, *a priori*, le choix dun *modèle linéaire* pour décrire le phénomène physique à l'aide d'un modèle théorique.
L'*ajustement linéaire* consiste à déterminer la relation mathématique la plus pertinente liant $x$ et $y$, au regard de certains critères. Sans entrer dans les détais techniques, nous adoptons le critère des *moindres carrés* qui consiste à déterminer la droite qui passe au voisinage de tous les points de mesures en minimisant la distance au carré de chaque point à sa valeur théorique.

### Une solution Python

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Pour illustrer notre propos, commençons par lire les points stockés dans le fichier `ajustement.csv`. Ce fichier comporte quatre colonnes :
- colonne des abscisses;
- colonne des ordonnées;
- colonne des incertitudes sur les valeurs en abscisses;
- colonne des incertitudes sur les valeurs en ordonnées.

### Question
>1. Lire les données stockées dans le fichier et affecter à quatre tableaux `x`, `y`, `ux` et `uy` les valeurs de chaque colonne.
2. Afficher le nuage de points.
3. Pour afficher les barres d'erreur, la fonction `errorbar` du module `matplotlib` est utile.    [https://matplotlib.org/api/_as_gen/matplotlib.pyplot.errorbar.html](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.errorbar.html) 

In [None]:
filename = 'ajustement.csv'
data = pd.read_csv(filename, sep=';')
x = data['x']
y = data['y']
ux = data['ux']
uy = data['uy']
plt.errorbar(x, y, xerr = ux, yerr = uy, fmt = 'none', capsize = 5, ecolor = 'blue')
plt.show()

L'observation du nuage de points permet raisonnablement d'envisager une relation linéaire entre $x$ et $y$ sous la forme :
$$ y = a x + b $$
Pour déterminer $a$ et $b$, on va utiliser une fonction `linregress` disponible dans le module `scipy.stats`.

In [None]:
import scipy.stats as stats

Cette fonction renvoie un quintuplet. Les trois premières valeurs sont le coefficient directeur $a$, l'ordonnée à l'origine $b$ et le coefficient de corrélation linéaire $r$. Le deux autres paramètres sont ignorés dans l'immédiat. Ainsi, à partir d'un jeu de valeurs `x` et `y`, on écrit :

In [None]:
a, b, r, _, _ = stats.linregress(x,y)
print(f'a = {a:1.3f}')
print(f'b = {b:1.3f}')
print(f'r = {r:1.3f}')
print(alpha, beta)

### Question
> 4. Sur un même graphe, afficher le nuage de points et la droite d'ajustement.

In [None]:
plt.plot(x, y, 'r+')
y_ajust = a * x + b
plt.plot(x, y_ajust, 'blue')
plt.show()

## Quartet d'Anscombe

### Généralités
Le *quartet d'Anscombe* est la donnée de quatre ensembles de valeurs qui présentent les mêmes propriétés statistiques simples mais qui sont pourtant de nature très différentes. Construites en 1973 par le statisticien Francis Anscombe, elles ont pour vocation de démontrer l'importance de tracer des graphiques avant d'analyser des données (source [wikipédia](https://fr.wikipedia.org/wiki/Quartet_d%27Anscombe)).

### Lecture des données d'Anscombes

In [None]:
# lecture des quatre fichiers de points
# -> anscombe1.csv
# -> anscombe2.csv
# -> anscombe3.csv
# -> anscombe4.csv
import pandas as pd
i = 0
x = [None] * 4
y = [None] * 4
xmin, xmax = 1e10, -1e10
ymin, ymax = 1e10, -1e10
while i < 4:
    # nom du fichier
    filename = 'anscombe' + str(i+1) + '.csv'
    # lecture des données et stockage dans la variable data
    data = pd.read_csv(filename, sep = ';')
    # 
    x[i] = data['abscisse']
    y[i] = data['ordonnée']
    i = i + 1

In [None]:
print(x[0])

### Question
> 5. Tracer quatre graphes associés à chaque fichier.
6. Pour quel graphe les points semblent-ils alignés ?
7. Pour chacun des graphes, calculer le coefficient directeur, l'ordonnée à l'origine et le coefficient de corrélation linéaire. Qu'observe-t-on ? Qu'en conclure ?

In [None]:
# recherche des extréma
xmin = min(x[i].min() for i in range(4)) - 1
xmax = max(x[i].max() for i in range(4)) + 1
ymin = min(y[i].min() for i in range(4)) - 1
ymax = max(y[i].max() for i in range(4)) + 1
# affichage des quatre nuages de points
for i in range(4):
    # fenêtre graphique
    plt.xlim([xmin,xmax])
    plt.ylim([ymin,ymax])
    # tracé
    plt.plot(x[i],y[i],'ro')
    plt.show()

### Statistique élémentaire
Le module `scipy.stats` offre un grand nombre de fonctions statistiques. Parmi ces fonctions, citons :
- `tmean` qui calcule la valeur moyenne d'un ensemble de valeurs;
- `tstd` qui calcule l'écart-type;
Pour le quartet d'Anscombe, on observe les résultats suivants.

In [None]:
for i in range(4):
    print(f'Fichier {i+1}' )
    print(f'Moyenne des x : {stats.tmean(x[i]):1.3f}')
    print(f'Moyenne des y : {stats.tmean(y[i]):1.3f}')
    print(f'Écart-type sur x : {stats.tstd(x[i]):1.3f}')
    print(f'Écart-type sur y : {stats.tstd(y[i]):1.3f}')
    print(f'Coefficient de corrélation linéaire : {stats.linregress(x[i],y[i])[2]:1.3f}\n')

In [None]:
# quelques calculs avec numpy
import numpy as np
for i in range(4):
    print(f'Fichier {i+1}' )
    print(f'Moyenne des x : {np.mean(x[i]):1.3f}')
    print(f'Moyenne des y : {np.mean(y[i]):1.3f}')
    print(f'Écart-type sur x : {np.std(x[i]):1.3f}')
    print(f'Écart-type sur y : {np.std(y[i]):1.3f}')
    print(f'Droite d\'ajustement : {np.polyfit(x[i],y[i],1)}\n')
z = np.polyfit(x[0], y[0], 1)
print(z)

### Conclusion

- Avant de procéder à la détermination de la droite d'ajustement, il convient de construire le graphe du nuage de points pour *voir* si les points semblent être alignés et pour détecter la présence de points aberrants.
- Si tel est le cas, les calculs de la régression linéaire peuvent être menés, la courbe de régression devant être superposée au nuage de points pour *valider* la régression.
- En l'absence d'outils mathématiques spécifiques, seule la représentation graphique permet de valider ou d'invalider une régression linéaire.