# Mieux faire parler les tests AB
### Quelques outils de Data-Science pour améliorer les tests AB
#### Rodolfo Ripado || Pizza Party Octobre 2015



# Comment fait-on un test AB ?

1. On implémente deux variantes de la même fonctionnalité
2. On expose chacune à _une partie_ des visiteurs du site, pendant _un certain temps_
3. On _calcule_ le taux de conversion de chacune des variantes
4. On abandonne la moins performante

# Un test AB est ...

* Un technique de conception de fonctionnalités web
* Un exemple de processus de décision "data-driven"
* Un outil pour optimiser **localement** des éléments des pages web

# Qu'est-ce qu'un taux de conversion ?

> Si on pouvait exposer la fonctionnalité à TOUS les visiteurs potentiels du site, ce serait le pourcentage de visiteus qui convertiraient

* Impossible à calculer exactement
* Une propriété fantasmée de la fonctionnalité testée

# Que calcule-t-on donc ?

* Une **estimation** du vrai taux de conversion, à partir d'un échantillon
* Si on répète le test avec un autre échantillon :
  * On n'aura pas exactement le même résultat !
  * On aura, au mieux, *à peu près* le même résultat
  
C'est le hazard !

# La question maintenant est ...

- Comment calcule-t-on le *vrai* taux de conversion ? Est-ce possible ?
- Peut-on au moins avoir une fourchette de valeurs possibles ?

_c'est un job pour ..._

![super stats](images/ss.jpg)

# La théorie des probabilités

Description non déterministe du monde.

Si on veut prédire le lancer d'une pièce de monnaie :
* Explication déterministe : 
  > On étudie l'ensemble de lois physiques qui nous diront pourquoi nous aura _pile_ ou _face_.
* Explication probabiliste :

  > Je ne sais pas si je vais avoir pile ou face.
  > Mais ... 
  > Je sais que si je répète l'expérience assez de fois, j'aurai 50% de _piles_ et 50% de _faces_.

# La théorie des probabilités

* Les événements sont décrit non par par des lois physiques, mais par des lois de probabilité
* Description du monde qui quantifie notre incertitude
* Probabilité : fréquence d'un résultat donné

> "La probabilité d'avoir _pile_ est de 50%" 
> 
> = 
> 
> "Si je répète l'expérience assez de fois, j'aurai 50% de _piles_".

# Qu'est-ce qu'un taux de conversion, probabilistiquement parlant ...

Quand on estime un taux de conversion d'un bouton, la situation est la suivante :
* Population : tous les visiteurs du site LeMonde - $N$
* Nombre $X$ de succès : partie de la population qui cliquerait sur le bouton, si tout le monde le voyait
* Le vrai taux de conversion : $p = \frac{X}{N}$
* $p$ est un __paramètre__ de la population.

Ce vrai taux est impossible à calculer ! Il est une fiction !

# Estimer un taux de conversion

Pour estimer ce taux, on fait une expérience :
* On prend un échantillon aléatoire de la population - $n$
* On présente le bouton à cet échantillon, $x$ personnes cliquent
* On calcule une estimation : $\hat p = \frac{x}{n}$
* $\hat p$ est un __estimateur__ de $p$

Nous sommes dans le domaine de l'**inférence statistique**

# Quelques faits de la nature ...

![p hat variations](images/clt1.png)
* Si on répète l'expérience, $\hat p$ n'aura pas la même valeur !
* Au mieux, $\hat p$ s'approche de $p$, $\hat p$ est __à peu près__ $p$ :
  * $\hat p$ est centrée autour de $p$
  * Elle a un certain "bruit"
  
Quelle est la loi de probabilité de $\hat p$ ? i.e. Comment la valeur de $\hat p$ varie-t-elle ?

# Ce serait un peu long à expliquer mais ...

### <center> $\hat p \sim N(p, \sigma_{\hat p})$, $\sigma_{\hat p} = \sqrt{\frac{\hat p(1 - \hat p)}{n}}$</center>

Autrement dit : ** On connaît la loi de probabilité de notre estimation **

![p hat variations](images/clt1.png)

Intervalles de confiance

* Une fourchette de valeurs "probables" pour $p$, étant donné $\hat p$ :


### $$ p \in \left[\hat p - 1.96 \cdot \sigma_{\hat p},  \hat p + 1.96 \cdot \sigma_{\hat p}\right] $$

* Ceci est l'intervalle de confiance à 95% : 

  **"Il y a 95% de probabilité que cet intervalle contienne le vrai paramètre _p_"**

# Et donc 

Au lieu de dire :

* **"D'après mon test, le taux de conversion du bouton est de 0.02"**

On peut maintenant dire :

* **"D'après mon test, le taux de conversion du bouton est entre 0.01 et 0.03, avec 95% de certitude"**

# Pourquoi c'est important ...

On ne prend pas les mêmes décisions dans ces deux cas :
* $\hat p = 0.02$ et $p \in [0.0002, 0.038]$ 
![Comparez les variantes](images/ABvars4.png)

* $\hat p = 0.02$ et $p \in [0.018, 0.022]$
![Comparez les variantes](images/ABvars3.png)

# Un petit exercice ...

Supposez que vous faîtes un test AB, et vous obtenez le résultat suivant :

* Variante A : $ \hat p_A = 0.2 $ 
* Variante B : $ \hat p_B = 0.25 $

Quelle variante choisissez-vous ?

Et si vous calculez les intervalles de confiance suivants ?

* Variante A : $ \hat p_A = 0.2 $, et $p_A \in [0.01, 0.39]$
 
* Variante B : $ \hat p_B = 0.25 $, et $p_B \in [0.2, 0.3]$

![Comparez les variantes](images/ABvars1.png)

Quelle variante choisissez-vous ?

Et maintenant ?

* Variante A : $ \hat p_A = 0.2 $, et $p_A \in [0.18, 0.22]$ 
* Variante B : $ \hat p_B = 0.25 $, et $p_B \in [0.22, 0.28]$

![Comparez les variantes](images/ABvars2.png)

Quelle variante choisissez-vous ?

# Ce qu'il faut retenir

* La différence entre un **fait** et une **inférence**
* Les décisions _projet_ et les tests AB se basent sur des inférences
* On peut quantifier de degré de certitude des décisions basés sur des inférences
* Une estimation est une fourchette de valeurs, pas une valeur
* S'il y a des \$\$ en jeu, on **doit** quantifier le degré de certitude de ces décisions


# Avec un peu plus de maths ...

Moyennant quelques formules et repères méthodologiques, il est possible de :



* Détecter des erreurs, et ne pas s'alarmer s'il n'y en n'a pas :
  



# Quantifier l'(in)certitude de nos décisions :

- "Je suis sûr à 80% que tel bouton A est meilleur que le B"
- "Je suis sûr à 95% que le taux de conversion est entre 2% et 4%
- "Je suis sûr à 95% que le bouton C est le meilleur des boutons A,B,C,D,E"
- "Si je dis que le bouton A est meilleur que le bouton B, quelle est la probabilité que je me trompe ?"

# Détecter des erreurs, et ne pas s'alarmer s'il n'y en n'a pas :

- Normalement, le bouton doit convertir à un taux entre 1% et 3%, 95% des fois. 
  
  Si je mesure autre chose, il y a probablement quelque chose qui ne tourne pas rond.
  
  Sinon, il ne faut pas s'alarmer ...

# Mieux plainifier nos tests :

- "Pour choisir entre A et B avec une certitude de 95%, je dois laisser courrir mon test pendant 2 semaines"