# 17 tests d'hypothèses statistiques en Python

#### Guide de référence de 17 tests d'hypothèses statistiques

## 1. Normality Test
Cette section répertorie les tests statistiques a utiliser pour vérifier si les données ont une distribution gaussienne.

### Shapiro-Wilk Test
#### Teste si un échantillon de données a une distribution gaussienne.

Hypothèse : Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique

Interprétation :
- h0 : l'échantillon a une distribution gaussienne.
- h1 : l'échantillon n'a pas une distribution gaussienne.



In [1]:
# Example of the Shapiro-Wilk Normality Test
from scipy.stats import shapiro
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p = shapiro(data)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably Gaussian')
else:
 print('Probably not Gaussian')

stat=0.895, p=0.193
Probably Gaussian


### D’Agostino’s K^2 Test
#### Teste si un échantillon de données a une distribution gaussienne.
Hypothèse : Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique

Interprétation :
- h0 : l'échantillon a une distribution gaussienne.
- h1 : l'échantillon n'a pas une distribution gaussienne.

In [2]:
# Example of the D'Agostino's K^2 Normality Test
from scipy.stats import normaltest
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
stat, p = normaltest(data)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably Gaussian')
else:
 print('Probably not Gaussian')

stat=3.392, p=0.183
Probably Gaussian




### Anderson-Darling Test
#### Teste si un échantillon de données a une distribution gaussienne.
Hypothèse : Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique

Interprétation :
- h0 : l'échantillon a une distribution gaussienne.
- h1 : l'échantillon n'a pas une distribution gaussienne.

In [4]:
# Example of the Anderson-Darling Normality Test
from scipy.stats import anderson
data = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
result = anderson(data)
print('stat=%.3f' % (result.statistic))
for i in range(len(result.critical_values)):
 sl, cv = result.significance_level[i], result.critical_values[i]
 if result.statistic < cv:
     print('Probably Gaussian at the %.1f%% level' % (sl))
 else:
     print('Probably not Gaussian at the %.1f%% level' % (sl))

stat=0.424
Probably Gaussian at the 15.0% level
Probably Gaussian at the 10.0% level
Probably Gaussian at the 5.0% level
Probably Gaussian at the 2.5% level
Probably Gaussian at the 1.0% level


## 2. Test de corrélation
Cette section répertorie les tests statistiques a utiliser pour vérifier si deux échantillons sont liés.

### Corrélation de Pearson
#### Teste si deux échantillons ont une relation linéaire.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon sont normalement distribuées.
- Les observations dans chaque échantillon ont la même variance.


Interprétation :
- h0 : les deux échantillons sont indépendants.
- h1 : il existe une dépendance entre les échantillons.

In [6]:
# Example of the Pearson's Correlation test
from scipy.stats import pearsonr
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
stat, p = pearsonr(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably independent')
else:
 print('Probably dependent')

stat=0.688, p=0.028
Probably dependent


### Corrélation des rangs de Spearman
#### Teste si deux échantillons ont une relation monotone.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon peuvent être classées

Interprétation :
- h0 : les deux échantillons sont indépendants.
- h1 : il existe une dépendance entre les échantillons.

In [7]:
# Example of the Spearman's Rank Correlation Test
from scipy.stats import spearmanr
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
stat, p = spearmanr(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably independent')
else:
 print('Probably dependent')

stat=0.855, p=0.002
Probably dependent


### Corrélation des classements de Kendall
#### Teste si deux échantillons ont une relation monotone.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon peuvent être classées

Interprétation :
- h0 : les deux échantillons sont indépendants.
- h1 : il existe une dépendance entre les échantillons.

In [8]:
# Example of the Kendall's Rank Correlation Test
from scipy.stats import kendalltau
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
stat, p = kendalltau(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably independent')
else:
 print('Probably dependent')

stat=0.733, p=0.002
Probably dependent


### Test du chi carré
#### Teste si deux variables catégorielles sont liées ou indépendantes.
Hypothèse : 
- Les observations utilisées dans le calcul du tableau de contingence sont indépendantes.
- 25 exemples ou plus dans chaque cellule du tableau de contingence.

Interprétation :
- h0 : les deux échantillons sont indépendants.
- h1 : il existe une dépendance entre les échantillons.

In [9]:

# Example of the Chi-Squared Test
from scipy.stats import chi2_contingency
table = [[10, 20, 30],[6,  9,  17]]
stat, p, dof, expected = chi2_contingency(table)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably independent')
else:
 print('Probably dependent')

stat=0.272, p=0.873
Probably independent


## 3. Tests stationnaires
Cette section répertorie les tests statistiques a utiliser pour vérifier si une série chronologique est stationnaire ou non.

### Test de racine unitaire Dickey-Fuller augmenté
#### Teste si une série chronologique a une racine unitaire, par ex. a une tendance ou plus généralement est autorégressive.
Hypothèse : 
- Les observations sont ordonnées temporellement.

Interprétation :
- h0 : une racine unitaire est présente (la série est non stationnaire).
- h1 : il n’y a pas de racine unitaire (la série est stationnaire).

In [10]:
# Example of the Augmented Dickey-Fuller unit root test
from statsmodels.tsa.stattools import adfuller
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
stat, p, lags, obs, crit, t = adfuller(data)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably not Stationary')
else:
 print('Probably Stationary')

stat=0.517, p=0.985
Probably not Stationary


### Kwiatkowski-Phillips-Schmidt-Shin
#### Teste si une série chronologique est stationnaire ou non.
Hypothèse : 
- Les observations sont ordonnées temporellement.

Interprétation :
- h0 : la série chronologique est tendance-stationnaire.
- h1 : la série chronologique n’est pas stationnaire en tendance.

In [11]:
# Example of the Kwiatkowski-Phillips-Schmidt-Shin test
from statsmodels.tsa.stattools import kpss
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
stat, p, lags, crit = kpss(data)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably Stationary')
else:
 print('Probably not Stationary')

stat=0.594, p=0.023
Probably not Stationary


## 4. Tests d'hypothèses statistiques paramétriques
Cette section répertorie les tests statistiques a utiliser pour comparer des échantillons de données.

### Student’s t-test
#### Teste si les moyennes de deux échantillons indépendants sont significativement différentes.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon sont normalement distribuées.
- Les observations dans chaque échantillon ont la même variance.

Interprétation :
- h0 : les moyennes des échantillons sont égales.
- h1 : les moyennes des échantillons sont inégales.

In [12]:
# Example of the Student's t-test
from scipy.stats import ttest_ind
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = ttest_ind(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=-0.326, p=0.748
Probably the same distribution


### Paired Student’s t-test
#### Teste si les moyennes de deux échantillons indépendants sont significativement différentes.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon sont normalement distribuées.
- Les observations dans chaque échantillon ont la même variance.
- Les observations sur chaque échantillon sont appariées.

Interprétation :
- h0 : les moyennes des échantillons sont égales.
- h1 : les moyennes des échantillons sont inégales.

In [13]:
# Example of the Paired Student's t-test
from scipy.stats import ttest_rel
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = ttest_rel(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=-0.334, p=0.746
Probably the same distribution


### Test d'analyse de variance (ANOVA)
#### Teste si les moyennes de deux échantillons indépendants sont significativement différentes.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon sont normalement distribuées.
- Les observations dans chaque échantillon ont la même variance.

Interprétation :
- h0 : les moyennes des échantillons sont égales.
- h1 : les moyennes des échantillons sont inégales.

In [14]:
# Example of the Analysis of Variance Test
from scipy.stats import f_oneway
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
data3 = [-0.208, 0.696, 0.928, -1.148, -0.213, 0.229, 0.137, 0.269, -0.870, -1.204]
stat, p = f_oneway(data1, data2, data3)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=0.096, p=0.908
Probably the same distribution


## 5. Tests d'hypothèses statistiques non paramétriques

### Mann-Whitney U Test
#### Teste si les distributions de deux échantillons indépendants sont égales ou non.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon peuvent être classées.

Interprétation :
- h0 : les distributions des deux échantillons sont égales.
- h1 : les distributions des deux échantillons ne sont pas égales.

In [15]:
# Example of the Mann-Whitney U Test
from scipy.stats import mannwhitneyu
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = mannwhitneyu(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=40.000, p=0.473
Probably the same distribution


### Wilcoxon Signed-Rank Test
#### Teste si les distributions de deux échantillons appariés sont égales ou non.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon peuvent être classées.
- Les observations sur chaque échantillon sont appariées.

Interprétation :
- h0 : les distributions des deux échantillons sont égales.
- h1 : les distributions des deux échantillons ne sont pas égales.

In [16]:
# Example of the Wilcoxon Signed-Rank Test
from scipy.stats import wilcoxon
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = wilcoxon(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=21.000, p=0.557
Probably the same distribution


### Kruskal-Wallis H Test
#### Teste si les distributions de deux échantillons indépendants ou plus sont égales ou non.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon peuvent être classées.

Interprétation :
- h0 : les distributions des deux échantillons sont égales.
- h1 : les distributions des deux échantillons ne sont pas égales.

In [17]:
# Example of the Kruskal-Wallis H Test
from scipy.stats import kruskal
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stat, p = kruskal(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=0.571, p=0.450
Probably the same distribution


### Friedman Test
#### Teste si les distributions de deux échantillons appariés ou plus sont égales ou non.
Hypothèse : 
- Les observations dans chaque échantillon sont indépendantes et distribuées de manière identique
- Les observations dans chaque échantillon peuvent être classées.
- Les observations sur chaque échantillon sont appariées.

Interprétation :
- h0 : les distributions de tous les échantillons sont égales.
- h1 : les distributions d'un ou plusieurs échantillons ne sont pas égales.

In [18]:
# Example of the Friedman Test
from scipy.stats import friedmanchisquare
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
data3 = [-0.208, 0.696, 0.928, -1.148, -0.213, 0.229, 0.137, 0.269, -0.870, -1.204]
stat, p = friedmanchisquare(data1, data2, data3)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('Probably the same distribution')
else:
 print('Probably different distributions')

stat=0.800, p=0.670
Probably the same distribution
