<div class="titre-notebook" style="font-size:36px; text-align:center; font-weight:bold; background-color:#f1f1f1; padding:0.01em 16px; margin: 16px auto;">
Régression linéaire
</div>
Disponible sur Capytale avec le code d3aa-1325055

### Importations

In [1]:
import numpy as np              # pour les tableaux
import matplotlib.pyplot as plt # pour les graphiques

# Régression linéaire sans incertitudes
## Données expérimentales
On a mesuré $n\geq 5$ valeurs des grandeurs $X$ et $Y$. On souhaite vérifier si les valeurs mesurées sont en accord avec une relation affine $Y = a X + b$ entre ces grandeurs. On commence par créer un tableau `numpy` avec les valeurs mesurées.

In [2]:
X = np.array([0 , 2 , 4 , 6 , 8 , 10])            # À modifier par vraies valeurs
Y = np.array([0.5 , 7.9 , 11 , 17.5 , 26 , 31.8]) # À modifier par vraies valeurs

## Validation d'un modèle linéaire par régression

La fonction `polyfit(X,Y,d)` de la bibliothèque `numpy` ajuste au plus près 2 listes de données (abscisses `X`, ordonnées `Y`) par une fonction polynomiale de degrè `d`, et renvoie les coefficients du polynôme le mieux ajusté. Ainsi, pour le degrè 1, cela correspond à une regression linéaire $y = ax + b$.

In [16]:
a, b = np.polyfit(X, Y, 1)         # « a » le coefficient directeur, « b » l'ordonnée à l'origine
print(f"a = {a:.3f}, b = {b:.2f}") # .3f pour 3 valeurs après la virgule

a = 3.104, b = 0.26


<div class="myalertblock" style="background-color:#ffdddd; padding:0.01em 16px; margin: 16px auto; border-radius: 4px; box-shadow:0 2px 5px 0 rgba(0, 0, 0, 0.16), 0 2px 10px 0 rgba(0, 0, 0, 0.12)">

Attention! La fonction `polyfit` retournent toujours des valeurs, que le modèle linéaire soit valable ou non !
</div>

<div class="myalertblock" style="background-color:#ffdddd; padding:0.01em 16px; margin: 16px auto; border-radius: 4px; box-shadow:0 2px 5px 0 rgba(0, 0, 0, 0.16), 0 2px 10px 0 rgba(0, 0, 0, 0.12)">

**La seule façon valable de conclure à la validité d’une régression linéaire est une représentation graphique où l’on observe l’alignement des points avec la droite de régression.**
</div>

## Tracé du graphe pour vérification

In [22]:
plt.close()                                 # force la fermeture des figures précédentes

plt.figure(figsize=(8, 6))                  # dimension horizontale, verticale
plt.grid()                                  # affiche un quadrillage de lecture
plt.xticks(fontsize=20)                     # affiche les nombres de l'axe x plus grand
plt.yticks(fontsize=20)                     # affiche les nombres de l'axe y plus grand
plt.xlabel('$grandeur$ en UNITÉ',           # Donne le nom de l'axe x, avec $$ pour le mode math
           fontsize=20)                     # en grand
plt.ylabel('$grandeur$ en UNITÉ',           # Donne le nom de l'axe y, avec $$ pour le mode math
           fontsize=20)                     # en grand

plt.scatter(X, Y,                           # trace un graphe avec X en abscisse et Y en ordonnée
            marker='x', s=100,              # possibilité de customiser le tracé
            color='blue',       
            label='Données')                # pour la légende

xlin = np.linspace(np.min(X),               # découpe l'intervalle des valeurs de x en 100
                   np.max(X),               # pour permettre un tracé lisse des valeurs
                   100)                     # à modifier au besoin
y_reg = a*xlin+b                            # on modélise le lien entre Y et X par une fonction affine

plt.plot(xlin, y_reg,                       # trace un graphe avec xfit en abscisse et yreg en ordonnée
         'r', label='Régression linéaire')

plt.title('Titre efficace et descriptif',
          fontsize=20)
plt.legend(fontsize=15)
plt.tight_layout()                          # évite les débordements ou rognages
plt.show()

<div class="myexampleblock" style="background-color:#ddffdd; padding:0.01em 16px; margin: 16px auto; border-radius: 4px; box-shadow:0 2px 5px 0 rgba(0, 0, 0, 0.16), 0 2px 10px 0 rgba(0, 0, 0, 0.12)">

#### Exercice 1
On mesure la puissance $P$ dissipée par effet Joule dans une résistance, ainsi que l'intensité $i$ la traversant.

| $P$ (W) | $i$ (mA) |
|:-------:|:--------:|
|   2,1   |    1,0   |
|   4,5   |    1,5   |
|   7,9   |    2,0   |
|   18,2  |    3,0   |
|   31,8  |    4,0   |

Ces mesures sont-elles compatible avec le modèle $P=Ri^2$. Si oui, estimer $R$.
</div>

In [5]:
# Votre code pour l'exercice 1


# Régression linéaire avec incertitudes
## Données expérimentales

On considère à nouveau des mesures de $X$ et $Y$, mais cette fois, accompagnées d'incertitudes-types.

In [35]:
x = np.array([0,1,2,3,4,
              5,6,7,8,9,10])                  # à modifier par vraies valeurs
ux = 0.1*np.ones(len(x))                      # incertitude de 0.1 sur chaque valeur
y = np.array([2.20,2.00,1.60,1.55,1.16,
              1.00,0.95,0.60,0.36,0.36,0.18]) # à modifier par vraies valeurs
uy = 0.12*np.ones(len(y))                     # incertitude de 0.12 sur chaque valeur

## Validation d'un modèle linéaire par régression

In [38]:
a, b = np.polyfit(x, y, 1)         # « a » le coefficient directeur, « b » l'ordonnée à l'origine
print(f"a = {a:.3f}, b = {b:.2f}") # .3f pour 3 valeurs après la virgule

a = -0.204, b = 2.11


## Validation graphique avec barres d'erreur

Afin d’ajouter des barres d’erreurs sur un graphique, il faut remplacer la fonction `plt.plot` par la fonction `plt.errorbar`. Une série de nouveaux paramètres permettent de personnaliser ces barres d’erreur.

In [44]:
plt.close()                                 # force la fermeture des figures précédentes

plt.figure(figsize=(8, 6))                  # dimension horizontale, verticale
plt.grid()                                  # affiche un quadrillage de lecture
plt.xticks(fontsize=20)                     # affiche les nombres de l'axe x plus grand
plt.yticks(fontsize=20)                     # affiche les nombres de l'axe y plus grand
plt.xlabel('$grandeur$ en UNITÉ',           # Donne le nom de l'axe x, avec $$ pour le mode math
           fontsize=20)                     # en grand
plt.ylabel('$grandeur$ en UNITÉ',           # Donne le nom de l'axe y, avec $$ pour le mode math
           fontsize=20)                     # en grand

plt.errorbar(x, y,                          # trace les données avec des barres d'erreurs ux et uy
             xerr=ux, yerr=uy,
             linestyle='None', capsize=3,   # possibilité de personnalisation, importante
             color='b', label='Mesures')    # légende

xlin = np.linspace(np.min(x),               # découpe l'intervalle des valeurs de x en 100
                   np.max(x),               # pour permettre un tracé lisse des valeurs
                   100)                     # à modifier au besoin
y_reg = a*xlin+b                            # on modélise le lien entre x et y par une fonction affine

plt.plot(xlin, y_reg,                       # trace un graphe avec xlin en abscisse et yreg en ordonnée
         'r', label='Régression linéaire')

plt.title('Titre efficace et descriptif',
          fontsize=20)
plt.legend(fontsize=15)
plt.tight_layout()
plt.show()

Pour valider le modèle linéaire, il faut vérifier que la droite de régression passe suffisamment près des points de mesures en tenant compte des barres d’incertitudes.

## Simulation de Monte-Carlo pour obtenir des incertitudes sur la pente et l'ordonnée à l'origine

Pour obtenir des incertitudes sur $a$ et $b$, nous allons:

- faire varier aléatoirement les $n$ couples de valeurs mesurées $(x_i,y_i)$ selon des **lois de probabilité uniformes rectangulaires** de demi-largeur la précision $\Delta(x_i) = \sqrt{3}u(x_i)$, simulée grâce à la fonction `np.random.uniform(x_i-Delta, x_i+Delta)` (même chose pour $y_i$).
- Pour chaque série de mesures simulée, faire la regression  linéaire, et obtenir des valeurs de pente $a_k$ et d'ordonnée à l'origine $b_k$. 
- La meilleur estimation de $a$ et $b$ sera la moyenne des valeurs calculées 
- Les incertitude $u(a)$ et $u(b)$ sur ces moyennes seront l'écart-type expérimental des valeurs calculées.

In [48]:
# =========================================================================== #
#                                   Calculs                                   #
# =========================================================================== #


N = 10000                  # nombre de régressions à effectuer

alist, blist = [], []      # création des listes vides pour stocker les valeurs
for i in range(N):
    x_simu = x + np.sqrt(3)*ux*np.random.uniform(-1, 1)
    y_simu = y + np.sqrt(3)*uy*np.random.uniform(-1, 1)

    p = np.polyfit(x_simu, y_simu, 1)

    alist.append(p[0])
    blist.append(p[1])

# =========================================================================== #
#                                 Utilisation                                 #
# =========================================================================== #

a_mean, b_mean = np.mean(alist), np.mean(blist)
ua, ub = np.std(alist, ddof=1), np.std(blist, ddof=1)

print('Coef.directeur =', f'{a_mean:.3e}',       #.3e pour écriture scientifique
      '±', f'{ua:.3e}')                          # avec 3 chiffres significatifs
print("Ordonnée à l'origine =", f'{b_mean:.3e}', # ATTENTION à la rédaction
      '±', f'{ub:.3e}')                          # finale d'une mesure…

Coef.directeur = -2.045e-01 ± 1.406e-16
Ordonnée à l'origine = 2.106e+00 ± 1.211e-01


<div class="myexampleblock" style="background-color:#ddffdd; padding:0.01em 16px; margin: 16px auto; border-radius: 4px; box-shadow:0 2px 5px 0 rgba(0, 0, 0, 0.16), 0 2px 10px 0 rgba(0, 0, 0, 0.12)">

#### Exercice 2
On considère la charge d'un condensateur de capacité $C$ dans un circuit $RC$ série avec $R$ une résistance variable. On réaliser différentes mesures de la constante de temps $\tau$ de la charge en faisant varier $R$. La résistance $R$ est mesurée avec une incertitude-type relative de 2% tandis que la constante de temp $\tau$ est obtenue avec une incertitude-type relative de 4%. On rappel que théoriquement: $\tau = (R + R_\mathrm{int})C$ avec $R_\mathrm{int}$ la résistance interne du GBF utilisé.

Completer le code ci-dessous pour vérifier la validité de la formule precedente et estimer des valeurs de $C$ et $R_\mathrm{int}$ avec incertitudes.
</div>

In [10]:
R = np.array([100,200,300,400,500,600,700,800,900,1000])        # valeurs de R en Ohms
tau = 1e-6*np.array([151,240,356,458,547,651,741,843,949,1041]) # Valeurs de tau en secondes

# À vous de jouer…