---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---



In [None]:
%matplotlib inline

import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

sns.set(color_codes=True)


seed = 42
np.random.seed(seed)



<!-- #region id="aa1c4a63" -->
Il est courant d'afficher une variable en fonction d'une autre afin de voir s'il existe une relation entre elles.
On obtient alors un nuage de points (*scatterplot*). Une relation cohérente peut apparaître entre les données.
Il est logique de se demander si la variable $y$ dépend réellement de la variable $x$. Si c'est le cas, on parle de relation de cause à effet; il y a causalité.

Toutefois, il se peut qu'il y ait corrélation dans nos données, mais pas de causalité. Le lien statistique peut-être
dû à une variable explicative cachée (latente), influençant simultanément les deux autres variables. Un exemple
connu est l'augmentation du nombre de cancers de la peau et des ventes de lotion solaire. Est-ce que la lotion
solaire cause le cancer de la peau? Est-ce l'apparition d'un cancer de la peau pousse une personne à s'acheter de la lotion
solaire? La variable cachée pourrait dans ce cas-ci être l'activité physique.
<!-- #endregion -->

<!-- #region id="3c5a86d2" -->
# Comment déterminer s'il y a causalité dans nos données?
<!-- #endregion -->

<!-- #region id="cfd0a689" -->
Dans une expérience contrôlée, le facteur $x$ est ajusté et la réponse $y$ est mesurée. Si $y$ varie avec $x$ alors il y
a une relation de cause à effet. C'est l'idée derrière les plans d'expériences en génie et les essais
contrôlés en médecine.

Au contraire, si l'on compare des données éparses, comme on le fait souvent en épidémiologie, on peut obtenir
des résultats intéressants, mais simplement dus au hasard.

Les barres d'erreurs dans un graphique fournissent des indices. Dans le cas d'une expérience contrôlée,
les barres d'erreur en $x$ sont souvent identiques et négligeables. C'est le cas si l'on a mesuré un intervalle de temps
avec un chronomètre ou une longueur avec un mètre. Pour cette raison, les erreurs en $x$ n'apparaissent pas dans les graphiques. Dans le cas de données épidémiologiques, les valeurs en $x$ n'ont pas été ajustées pour
faire une mesure; elles sont le résultat de mesures expérimentales, comme le sont celles en $y$. Elles ont donc des erreurs associées elles aussi. Avec ce type de données, les barres d'erreur en $x$ et $y$ sont non négligeables et peuvent varier considérablement; il faut les afficher dans les figures.

La figure suivante montre les deux situations. Dans le panneau de gauche, on a chauffé de l'eau et mesuré sa
température à intervalles réguliers. La température augmente et fluctue lors de la prise de mesures. Dans cet
exemple, le temps contrôle la température. La courbe en rouge correspond à un modèle physique connu.

Dans le second panneau, la relation linéaire est fortuite; les deux variables ont des erreurs de mesures
non négligeables et non constantes. Il n'y a pas de relation de cause à effet dans ce cas-ci. La courbe en rouge
est utilisée pour rehausser l'aspect visuel des données corrélées.
<!-- #endregion -->



In [None]:
# Panneau de gauche: données provenant d'une expérience contrôlée. Erreurs de mesure
# négligeables en x, mais significatives en y. On suppose un bruit multiplicatif.
npts = 20
x1 = np.linspace(0, 300, npts)
y1 = 100 - 80 * np.exp(-x1 / 100)

# Ajout de bruit en y
y1_b = y1 * (1 + 0.1 * np.random.randn(npts))
errY1 = y1_b - y1


# Panneau de droite: données arbitraires. Erreurs de mesure significatives en x et y.
# On suppose des bruits additifs.
x2 = np.sort(10 + 40 * np.random.rand(npts))
y2 = 20 + 4 * x2

# Ajout de bruit en x et y
errX2 = 2 * np.random.randn(npts)
errY2 = 15 * np.random.randn(npts)
x2_b = x2 + errX2
y2_b = y2 + errY2


# Affichage des résultats
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
ax1.plot(x1, y1, color='r')
ax1.errorbar(x1, y1_b, yerr=np.abs(errY1), fmt='o')
ax1.set_title('Expérience contrôlée')
ax1.set_xlabel('Temps (s)')
ax1.set_ylabel('Température ($^\circ$C)')

ax2.plot(x2, y2, color='r')
ax2.errorbar(x2_b, y2_b, xerr=np.abs(errX2), yerr=np.abs(errY2), fmt='o')
ax2.set_title('Expérience non contrôlée')
ax2.set_xlabel('X')
ax2.set_ylabel('Y')
plt.show()
