# Analytique de l'apprentissage

# Signification statistique

## Test A/B

Carnet web IPython (Jupyter Notebook) en complément du **«Chapitre 6 – Vers une IENA pilotée par les données » ** du livre : **« Vers une nouvelle ingénierie des environnements numériques d’apprentissage »**, auteurs du chapitre, Claude Coulombe & Valéry Psyché, éditeurs: Josiane Basque, Gilbert Paquette, licence code source libre MIT

## Amélioration des contenus d'un cours grâce au test A/B

Le test A/B est une méthode statistique qui permet de comparer des expériences afin de choisir celle qui donne de meilleurs résultats sur une base statistiquement valide en considérant un grand nombre d’expériences. Originalement, le test A/B a été conçu pour mesurer l’impact des changements apportés à un site web. Au moyen d’un tirage aléatoire on crée un groupe contrôle d’usagers qui est associé au site web actuel A et un autre groupe d’usagers qui est associé au site web modifié B. 

Dépendant de la métrique utilisée (moyenne à un test, nombre de clics, etc.) et de la distribution statistique présumée (normale, binomiale, etc.) on appliquera un test statistique pour déterminer si une différence mesurée est statistiquement significative ou peut être simplement expliquée par le fruit du hasard. 

Pratiquement, il faut laisser un temps suffisant et égal d’interaction aux deux groupes avec les versions A et B. Aussi, pour faciliter l’identification de changements significatifs, on limitera le nombre de changements quitte à faire de nouveaux tests sur la base d’autres petits changements et ainsi de suite.

## Test de signification statistique

Pour déterminer si l’écart observé entre les moyennes des mesures est statistiquement significatif, nous utilisons un test de signification statistique [WIKIPÉDIA, Statistical significance]. Plus précisément, nous utilisons un test conçu pour comparer des moyennes, le test de signification statistique de Student ou test T de Student [WIKIPÉDIA, Student’s t-test]. Le test T de Student mesure si les valeurs moyennes (espérées) diffèrent significativement d’un échantillon à l’autre.

### Utilisation des bibliothèques Python Pandas (manipulation des données), numpy (calcul numérique), statistiques (scipy) et matplotlib (affichage graphique)

In [9]:
# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np
import scipy.stats
from matplotlib import pyplot as plt

## Test de signification statistique - moyenne

L’objectif est de comparer la moyenne des résultats entre l’expérience de contrôle A avec la moyenne des résultats de l’expérience B afin de déterminer si la différence observée est statistiquement significative. Il faut s’assurer que la différence que nous avons observée n’est pas le fruit du hasard.

Nous faisons l’hypothèse que les deux mesures sont distribuées selon des lois normales et pour les variances, nous faisons l’hypothèse que les variances sont différentes (test T de Welch) [WIKIPÉDIA, Welch’s t-test]. 

Nous désirons comparer les deux distributions en partant de l’hypothèse nulle H0 que les deux échantillons sont issus d’une même distribution et que la moyenne des résultats de l’expérience de contrôle A est la même que la moyenne de l’expérience B.  Le cas échéant, la différence sera considérée comme statistiquement significative. Le signe du résultat du test t_score indique si la moyenne des résultats pour les données de l’expérience B est supérieure à la moyenne de l’expérience de contrôle A et p_score indique le degré de signification. 


In [10]:
# Inspiré de https://rosettacode.org/wiki/Welch%27s_t-test#Using_NumPy_.26_SciPy
# Statistical Significance Tests

def Welch_Ttest(taille_A, taille_B, moyenne_A, moyenne_B, var_A, var_B):
    print("*** Test T de Welch ***")
    signifiant = False
    alpha = 0.05
    moyenne_B_sup = True
    print('Moyenne A = ',moyenne_A)
    print('Moyenne B = ',moyenne_B)
    if moyenne_B >= moyenne_A:
        print("Hypothèse que la moyenne B est supérieure à la moyenne A") 
    else:
        print("Hypothèse que la moyenne B est inférieure à la moyenne A") 
        moyenne_B_sup=False
    t_score = (moyenne_B - moyenne_A)/np.sqrt(var_A/taille_A + var_B/taille_B)
    df = (var_A/taille_A + var_B/taille_B)**2 / (var_A**2/(taille_A**2 * (taille_A - 1)) + var_B**2 / (taille_B**2 * (taille_B - 1)))
    print("df = " + str(df))
    p_value = 2 * scipy.stats.t.cdf(-abs(t_score), df)
    print("t = " + str(t_score))
    print("p = " + str(p_value))
    if moyenne_B_sup:
        if (t_score > 0) and ((p_value/2) < alpha):
            print("*** La différence EST statistiquement significative. ***")
            signifiant = True
        else:
            print("*** La différence N'EST PAS statistiquement significative. ***")
    else:
        if (t_score < 0) and ((p_value/2) < alpha):
            print("*** La différence EST statistiquement significative. ***")
            signifiant = True
        else:
            print("*** La différence N'EST PAS statistiquement significative. ***")
    return signifiant

## Mise en situation
Considérons un cours suivi par 200 apprenants dont la moitié est aléatoirement exposé au contenu A et l’autre moitié au contenu B. Le même test est administré à l’ensemble des apprenants pour mesurer leur performance après l’exposition au contenu. La moyenne des résultats pour le groupe A est de 75 alors que la moyenne du groupe B est de 80, les écarts-types respectifs sont de 30 et 40. Peut-on considérer que l’exposition au contenu B a significativement amélioré les résultats ?

In [11]:
taille_A = 100
moyenne_A = 75
var_A = 30**2
taille_B = 100
moyenne_B = 80
var_B = 30**2
Welch_Ttest(taille_A, taille_B, moyenne_A, moyenne_B, var_A, var_B)

*** Test T de Welch ***
Moyenne A =  75
Moyenne B =  80
Hypothèse que la moyenne B est supérieure à la moyenne A
df = 198.0
t = 1.1785113019775793
p = 0.24000719258136277
*** La différence N'EST PAS statistiquement significative. ***


False

Par contre si nous avions traité des groupes plus nombreux, par exemple des groupes de 500 apprenants, la signification statistique aurait été obtenue.


In [12]:
size_A = 500
mean_A = 75
var_A = 30**2
size_B = 500
mean_B = 80
var_B = 40**2
Welch_Ttest(size_A, size_B, mean_A, mean_B, var_A, var_B)

*** Test T de Welch ***
Moyenne A =  75
Moyenne B =  80
Hypothèse que la moyenne B est supérieure à la moyenne A
df = 925.4451038575669
t = 2.23606797749979
p = 0.025584996125442044
*** La différence EST statistiquement significative. ***


True

## Exemples de pages web 

* Page A visitée 100 fois avec 4 clics
* Page B visitée 40 fois avec 2 clics

La page B est-elle meilleure que la page A?


In [13]:
size_A = 100
mean_A = 4/100
var_A = 0.01
size_B = 40
mean_B = 2/40
var_B = 0.01
Welch_Ttest(size_A, size_B, mean_A, mean_B, var_A, var_B)

*** Test T de Welch ***
Moyenne A =  0.04
Moyenne B =  0.05
Hypothèse que la moyenne B est supérieure à la moyenne A
df = 71.90763968072976
t = 0.5345224838248488
p = 0.5946290087206201
*** La différence N'EST PAS statistiquement significative. ***


False

On obtient les mêmes taux de clics mais cette fois le nombre de visites est de 1000 pour les deux pages A et B.

* Page A visitée 1000 fois avec 40 clics
* Page B visitée 1000 fois avec 50 clics

In [14]:
size_A = 1000
mean_A = 40/1000
var_A = 0.01
size_B = 1000
mean_B = 50/1000
var_B = 0.01
Welch_Ttest(size_A, size_B, mean_A, mean_B, var_A, var_B)

*** Test T de Welch ***
Moyenne A =  0.04
Moyenne B =  0.05
Hypothèse que la moyenne B est supérieure à la moyenne A
df = 1998.0000000000002
t = 2.23606797749979
p = 0.025457331632895753
*** La différence EST statistiquement significative. ***


True