Le code source de ce cours est disponible sur https://github.com/asardell/statistique-python

<font size="6">  Test d'ind√©pendance üé≤ avec Python </font>

Les tests d'ind√©pendances permettent de d√©finir s'il existe un lien entre deux variables. Il existe diff√©rent test d'ind√©pence, en voici quelques exemples :

* Test ind√©pendance entre deux variables quantitatives / Test de corr√©lation Pearson
* Test d'ind√©pendance entre deux variables qualitatives / Test du Chi¬≤
* Test d'ind√©pendance entre une variable qualitative et une quantitative / Test de Fisher avec l'analyse de la variance (ANOVA)

<br>

Dans une d√©marche d'un projet de machine learning, les test d'ind√©pendance permettent d'exclure des variables explicatives potentiellement non porteuses d'information.

Librairies utilis√©es

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

import numpy as np
import pandas as pd

from scipy.stats import pearsonr
from scipy.stats import bartlett
from scipy.stats import shapiro
from scipy.stats import chi2_contingency
from scipy.stats import kendalltau, spearmanr

from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_regression, make_circles

import statsmodels.stats.multicomp as multi 
import statsmodels.api as sm
from statsmodels.formula.api import ols


# Test de corr√©lation Pearson

L‚Äôint√©r√™t des tests de corr√©lation est d‚Äôapporter plus de pertinence et fiabilit√© aux coefficients de corr√©lation. Il existe diff√©rents test de corr√©lation, nous utilisons celui de Pearson.

On travaille avec le jeu de donn√©es fromage üßÄ disponible en [cliquant ici](https://github.com/asardell/statistique-python/tree/master/Dataset)

In [None]:
df = pd.read_table("../Dataset/fromage.txt", index_col=0)
df.head()

Avant de r√©aliser des tests d'ind√©pendance, on projette graphiquement les donn√©es 2 √† 2

In [None]:
sns.pairplot(df.iloc[:,0:9])

## Matrice des corr√©lations

Voici la matrice des corr√©lations des variables du fichier fromage.

In [None]:
sns.set(rc={'figure.figsize':(10,4)})

df_corr = df.corr()

ax = sns.heatmap(df_corr, xticklabels = df_corr.columns , 
                 yticklabels = df_corr.columns, cmap = 'coolwarm')

L'int√©r√™t des tests de corr√©lation est d'apporter plus de pertinence et fiabilit√© aux coefficients de corr√©lation. Il existe diff√©rents test de corr√©lation, nous utilisons celui de Pearson.

In [None]:
from scipy.stats import pearsonr

On pose les hypoth√®ses de d√©part :

* H0 : Variables ind√©pendantes si p-value > 5%
* H1 : Variables non ind√©pendantes si p-value < 5%

### Lipides vs Magnesium

La premi√®re sortie correspond au coefficient de corr√©lation, la seconde √† la p-value (ou probabilit√© critique)

In [None]:
pearsonr(df.lipides, df.magnesium)

~H0 : Variables ind√©pendantes si p-value > 5%~
<br> H1 : Variables non ind√©pendantes si p-value < 5%

### Sodium vs Retinol

In [None]:
pearsonr(df.sodium, df.retinol)

H0 : Variables ind√©pendantes si p-value > 5%
<br> ~H1 : Variables non ind√©pendantes si p-value < 5%~ <br>
Si on veut rejeter H0 et prendre H1, j'ai 45,5% de chance de me tromper

üì¢ Les tests statistiques sont tr√©s sensibles √† la taille de l'√©chantillon. 
Un coefficient de corr√©lation de 0.14 n'aura pas la m√™me significativit√© sur un √©chantillon de 29 fromages qu'un √©chantillon de 319 fromages avec le m√™me coefficient de corr√©lation.

On construit un daatframe en duppliquant le nombre de lignes

In [None]:
df_append = df.copy()
df_append.reset_index(inplace=True)
df_append = df_append.append([df_append]*10,ignore_index=True)
df_append.shape

Chaque fromage appara√Æt plusieurs fois, on a augment√© la taille de l'√©chantillon

In [None]:
df_append.Fromages.value_counts().head()

On effectue un autre test de corr√©lation avec les m√™mes variables sur l'√©chantillon plus grand.

In [None]:
pearsonr(df_append.sodium, df_append.retinol)

~H0 : Variables ind√©pendantes si p-value > 5%~
<br> H1 : Variables non ind√©pendantes si p-value < 5% <br>

On obtient logiquement le m√™me coefficient de corr√©lation, mais en revanche, cette fois si la p-value est proche de 0.

###  Matrice des p-values

On effectue un test de corr√©lation sur chaque variable 2 √† 2 en isolant uniquement la p-value

In [None]:
a = np.empty((len(df.columns),len(df.columns),))
a[:] = np.nan
for i in range(0,len(df.columns)):
    for j in range(0,len(df.columns)):
        a[i,j] = pearsonr(df.iloc[:,i], df.iloc[:,j])[1]

df_pvalue = round(pd.DataFrame(a, columns=df.columns, index = df.columns),5)

On affiche la matrice des corr√©lations avec un gradiant de couleur

In [None]:
cm = sns.light_palette("green", as_cmap=True) 

df_pvalue.\
style.background_gradient(cmap=cm).set_precision(2)

üí° Obtient-on les m√™mes p-value si on centre et on r√©duit ?

On centre et on r√©duit

In [None]:
from sklearn.preprocessing import StandardScaler
df_CR = StandardScaler().fit_transform(df)
df_CR = pd.DataFrame(df_CR, columns=df.columns)
df_CR.head(3)

On calcule les test de corr√©lation

In [None]:
for i in range(0,len(df.columns)):
    for j in range(0,len(df.columns)):
        a[i,j] = pearsonr(df_CR.iloc[:,i], df_CR.iloc[:,j])[1]

df_CR_pvalue = round(pd.DataFrame(a, columns=df.columns, index = df.columns),5)

On affiche la matrice des p-value

In [None]:
cm = sns.light_palette("green", as_cmap=True) 

df_CR_pvalue.\
style.background_gradient(cmap=cm).set_precision(2)

üí° On obtient bien les m√™mes p-value si on centre et on r√©duit

## ‚õî Cas de relation non lin√©aire

Les diff√©rents coefficients de corr√©lation sont beaucoup plus adapt√©s aux relation lin√©aire. C‚Äôest pourquoi il est important de toujours visualiser les distributions.

Plus d'infos [ici](http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_6/stat98_6.htm)

In [None]:
from sklearn.datasets import make_regression, make_circles
from scipy.stats import kendalltau, spearmanr

### Cas d'une relation lin√©aire et monotone

In [None]:
X, y = make_regression(n_samples=1000, n_features=1,
                                      n_informative=1, noise=50, random_state=0)

plt.scatter(X, y, edgecolor='k', marker='.')
x = pd.DataFrame(X, columns = ['x'])
y = pd.DataFrame(y, columns = ['y'])

In [None]:
print("Pearson " + str(pearsonr(x.x, y.y)))
print(kendalltau(x.x, y.y))
print(spearmanr(x.x, y.y))

### Cas d'une relation non-lin√©aire et non-monotone

La parabole 

In [None]:
X_hyperbole = X[X.y < 0]
fig = plt.figure(figsize=(9, 8))
ax = plt.subplot(221)
ax.scatter(X_hyperbole.x, X_hyperbole.y, s=50, edgecolor='k')
plt.show()

print("Pearson " + str(pearsonr(X_hyperbole.x, X_hyperbole.y)))
print(kendalltau(X_hyperbole.x, X_hyperbole.y))
print(spearmanr(X_hyperbole.x, X_hyperbole.y))

Le cercle

In [None]:
X = make_circles(n_samples=100,factor=0.99, random_state=0, noise=0.05)[0]
X = pd.DataFrame(X, columns=['x','y'])
fig = plt.figure(figsize=(9, 8))
ax = plt.subplot(221)
ax.scatter(X.x, X.y, s=50, edgecolor='k')
plt.show()

print("Pearson " + str(pearsonr(X.x, X.y)))
print(kendalltau(X.x, X.y))
print(spearmanr(X.x, X.y))

# Test du Khi¬≤

L'int√©r√™t du test du Khi¬≤ est de mesurer l'ind√©pendance entre deux variables qualitatives √† partir du tableau de contigence.

On travaille sur le jeu de donn√©es Titanic üßä‚õ¥ disponible en [cliquant ici](https://github.com/asardell/statistique-python/tree/master/Dataset)

In [None]:
df = pd.read_csv("../Dataset/Titanic.csv", index_col=0)
df.head()

In [None]:
df_count = pd.crosstab(df.Survived, df.PClass)
df_count

On pose les hypoth√®ses de d√©part :

* H0 : Variables ind√©pendantes si p-value > 5%
* H1 : Variables non ind√©pendantes si p-value < 5%

### Survived vs PClass

In [None]:
from scipy.stats import chi2_contingency
Khi2_obs, p_value, ddl, effectif_theorique = chi2_contingency(df_count)

In [None]:
p_value

H0 : Variables ind√©pendantes si p-value > 5%
<br> ~H1 : Variables non ind√©pendantes si p-value < 5%~


### Exemple sur donn√©es fictives

In [None]:
obs = np.array([[693,886,534,153], [597,696,448,95]])
chi2_contingency(obs)

H0 : Variables ind√©pendantes si p-value > 5%
<br> ~H1 : Variables non ind√©pendantes si p-value < 5%~ <br>
Si on veut rejeter H0 et prendre H1, j'ai 10,9% de chance de me tromper

Le 10,9% correspond √† la probabilit√© de rejeter √† tord H0. Comment la calculer ?

 Lecture dans la table du Chi2

In [None]:
from scipy.stats import chi2
J = df = np.arange(1,5,1)
I = np.arange(0.05,0.15,0.005)

a = np.empty((len(J),len(I)))
a[:] = np.nan

for i in range(0,len(I)):
    for j in range(0,len(J)):
        a[j,i] = chi2.isf(I[i], J[j])
        
df_chi2 = round(pd.DataFrame(a, columns=I, index = J),5)
df_chi2

On cherche quelle est la probabilit√© critique pour laquelle **Khi2_obs** < Khi2_max de la table sur la ligne correspond √† notre nombre de degr√© de libert√© **ddl**

### üì¢ Taille de l'√©chantillon

Les tests d'ind√©pendance sont tr√©s sensibles √† la taille des √©chantillons. Ici on divise par 100 pour avoir des effectifs faibles mais en conservant les r√©partitions.

In [None]:
chi2_contingency(obs/100)

H0 : Variables ind√©pendantes si p-value > 5%
<br> ~H1 : Variables non ind√©pendantes si p-value < 5%~ <br>

Ici on multiplie par 100 pour avoir des effectifs grands mais en conservant les r√©partitions.

In [None]:
chi2_contingency(obs*100)

~H0 : Variables ind√©pendantes si p-value > 5%~
<br> H1 : Variables non ind√©pendantes si p-value < 5%

# ANOVA

## Anova √† 1 facteur

On effectue une analyse de variance pour mesurer l‚Äôind√©pendance entre une variable qualitative et une quantitative.

Exemple sur le dataset Hotdogs üå≠ disponible en [cliquant ici](https://github.com/asardell/statistique-python/tree/master/Dataset).

In [None]:
df = pd.read_csv("../Dataset/Hotdogs.csv", sep = ";")
df.head()

In [None]:
df.Type.unique()

On va tester l‚Äôind√©pendance entre la variable qualitative Type et la variable quantitatives Calories.

In [None]:
plt.subplots(figsize=(20,4))
ax = sns.boxplot(x="Calories", y="Type", data=df)

Dans une ANOVA, on cherche √† d√©terminer si les moyennes des groupes sont significativement diff√©rentes. On pose donc :

* H0 : Les moyennes de chaque groupe sont √©gales si p-value > 5%
* H1 : Les moyennes de chaque groupe ne sont pas toutes √©gales si p-value < 5%

In [None]:
import statsmodels.api as sm
from statsmodels.formula.api import ols
model = ols('Calories ~ Type', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table

~H0 : Les moyennes de chaque groupe sont √©gales si p-value > 5%~
<br> H1 : Les moyennes de chaque groupe ne sont pas toutes √©gales < 5%

Quand on dispose d‚Äôun petit √©chantillon, la pertinence de ce test repose sur la validation de plusieurs hypoth√®ses :

* l‚Äôind√©pendance entre les √©chantillons de chaque groupe
* l‚Äô√©galit√© des variances que l‚Äôon peut verifier avec un test de Bartlett.
* la normalit√© des r√©sidus avec un test de Shapiro.

### L'ind√©pendance

L‚Äôind√©pendance est une des 3 conditions de validit√© d‚Äôune ANOVA. Seul le contexte de l‚Äô√©tude permet de s‚Äôassurer de l‚Äôind√©pendance entre les √©chantillons de chaque groupe (ici beef, poultry, chicken.)

### L‚Äô√©galit√© des variances

On parle aussi d‚Äôhomosc√©dasticit√©. C‚Äôest une des 3 conditions de validit√© d‚Äôune ANOVA. On cherche √† d√©montrer que les variances de chaque groupe sont √©gales. Dans un boxplot, l‚Äôamplitude des bo√Ætes traduit graphiquement l‚Äô√©galit√© des variances.

In [None]:
plt.subplots(figsize=(20,4))
ax = sns.boxplot(x="Calories", y="Type", data=df)

In [None]:
df.groupby("Type")['Calories'].agg('var')

Mais c‚Äôest le test de bartlett qui permet de tester si les variances sont significativement diff√©rentes ou non avec :

* H0 : Les variances de chaque groupe sont √©gales si p-value > 5%
* H1 : Les variances de chaque groupe ne sont pas toutes √©gales < 5%

In [None]:
bartlett(df.Calories[df.Type == 'Beef'],
        df.Calories[df.Type == 'Meat'],
        df.Calories[df.Type == 'Poultry'])

* H0 : Les variances de chaque groupe sont √©gales si p-value > 5%
* ~H1 : Les variances de chaque groupe ne sont pas toutes √©gales < 5%~

Les variances de chaque groupe sont √©gales. La deuxi√®me condition pour effectuer une anova est valid√©e.

### Normalit√© des r√©sidus

C‚Äôest une des 3 conditions de validit√© d‚Äôune ANOVA. L‚Äôobjectif est de s‚Äôassurer que les r√©sidus suivent une loi normale afin de ne pas affirmer qu‚Äôil existe une diff√©rence de moyenne entre les groupes qui serait caus√©e par le hasard.

On utilise le test de Shapiro-Wilk pour tester la normalit√© des r√©sidus o√π :

* H0 : Les r√©sidus suivent une loi normale si p-value > 5%
* H1 : Les r√©sidus ne suivent pas une loi normale si p-value < 5%

In [None]:
from scipy.stats import shapiro
model = ols('Calories ~ Type', data=df).fit()
shapiro(model.resid)

* ~H0 : Les r√©sidus suivent une loi normale si p-value > 5%~
* H1 : Les r√©sidus ne suivent pas une loi normale si p-value < 5%

N√©anmoins, les conclusions d√©pendent √©galement tu risques qu'on souhaite. Si on veut  1% de chance de se tromper, alors on ne rejette pas H0 car la p-value > 1%

### Cas de variances √©gales entre chaque groupe

In [None]:
A = pd.Series(np.linspace(1,10,9), name='A')
B = pd.Series(np.linspace(31,40,9), name='B')
C = pd.Series(np.linspace(51,60,9), name='C')
Groupe = pd.Series(['A', 'B', 'C']).repeat(9).to_list()

frame = { 'Groupe': Groupe, 'Valeur': pd.concat([A, B, C]) } 
result = pd.DataFrame(frame) 
plt.subplots(figsize=(20,4))
ax = sns.boxplot(x="Valeur", y="Groupe", data=result)

On s'interesse au variance de chaque groupe

In [None]:
result.groupby("Groupe")['Valeur'].agg('var')

Le test de bartlett permet de tester si les variances sont significativement diff√©rentes ou non

In [None]:
from scipy.stats import bartlett
bartlett(A, B, C)

H0 : Les variances de chaque groupe sont √©gales si p-value > 5%
<br> ~H1 : Les variances de chaque groupe ne sont pas toutes √©gales < 5%~
<br> On peut donc faire une ANOVA

In [None]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

A travers l'analyse de la variance on cherche √† d√©terminer si : <br>
H0 : Les moyennes de chaque groupe sont √©gales si p-value > 5%
<br> H1 : Les moyennes de chaque groupe ne sont pas toutes √©gales < 5%

In [None]:
model = ols('Valeur ~ Groupe', data=result).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table

~H0 : Les moyennes de chaque groupe sont √©gales si p-value > 5%~
<br> H1 : Les moyennes de chaque groupe ne sont pas toutes √©gales < 5%

### Cas de variances in√©gales entre chaque groupe

In [None]:
A = pd.Series(np.linspace(1,7,9), name='A')
B = pd.Series(np.linspace(31,50,9), name='B')
C = pd.Series(np.linspace(50,100,9), name='C')
Groupe = pd.Series(['A', 'B', 'C']).repeat(9).to_list()

frame = { 'Groupe': Groupe, 'Valeur': pd.concat([A, B, C]) } 
result = pd.DataFrame(frame) 
plt.subplots(figsize=(20,4))
ax = sns.boxplot(x="Valeur", y="Groupe", data=result)

In [None]:
bartlett(A, B, C)

~H0 : Les variances de chaque groupe sont √©gales si p-value > 5%~
<br> H1 : Les variances de chaque groupe ne sont pas toutes √©gales < 5%
<br> Il n'est donc pas conseill√© de r√©aliser une ANOVA car les r√©sultats ne seraient pas fiables.

## Anova √† 2 facteurs

M√™me principe que l'Anova √† un facteur sauf qu'on ajoute un autre facteur. L'id√©e est de tester l'ind√©pendance de ces facteurs sur une variable quantitative continue 

On utilise le dataset ToothGrowth disponible en [cliquant ici](https://github.com/asardell/statistique-python/tree/master/Dataset). On √©tudie la longueur des odontoblastes (cellules responsables de la croissance dentaire) chez 60 cobayes. Chaque animal a re√ßu l'une des trois doses de vitamine C (0,5, 1 et 2 mg / jour) par l'une des deux m√©thodes d'administration, du jus d'orange ou de l'acide ascorbique (une forme de vitamine C et cod√©e VC) :

* len : lLongueur de la dent
* supp : suppl√©ment (VC ou OJ).
* dose : dose en milligrammes / jour

In [None]:
df = pd.read_csv("../Dataset/ToothGrowth.csv")
df.head(3)

#### On √©tudie la variable supp

In [None]:
df.supp.unique()

In [None]:
plt.subplots(figsize=(20,2))
ax = sns.boxplot(x="len", y="supp", data=df)

In [None]:
bartlett(df.len[df.supp == 'VC'],
        df.len[df.supp == 'OJ'])

H0 : Les variances de chaque groupe sont √©gales si p-value > 5%
<br> ~H1 : Les variances de chaque groupe ne sont pas toutes √©gales < 5%~

#### On √©tudie la variable dose

In [None]:
df.dose.unique()

In [None]:
df.dose = df.dose.astype('category')

In [None]:
plt.subplots(figsize=(20,2))
ax = sns.boxplot(x="len", y="dose", data=df)

In [None]:
bartlett(df.len[df.dose == "0.5"],
        df.len[df.dose == "1.0"],
        df.len[df.dose == "2.0"])

H0 : Les variances de chaque groupe sont √©gales si p-value > 5%
<br> ~H1 : Les variances de chaque groupe ne sont pas toutes √©gales < 5%~

#### On peut faire une ANOVA

H0 : Les moyennes de chaque groupe sont √©gales si p-value > 5%
<br> H1 : Les moyennes de chaque groupe ne sont pas toutes √©gales < 5%

In [None]:
model = ols('len ~ supp + dose', data=df).fit()

In [None]:
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table

üì¢ Le principe de l'Anova √† plusieurs facteurs c'est justement de pouvoir observer les int√©ractions entre les variables

In [None]:
model = ols('len ~ supp + dose + supp:dose', data=df).fit()

anova_table = sm.stats.anova_lm(model, typ=2)
anova_table

üì¢ On voit donc qu'il existe une int√©raction entre les deux variables. Pour mesurer quelles associations sont significativement diff√©rentes des autres, on peut utilise un test de Tukey qui consiste √† faire des tests de comparaison de moyenne sur deux √©chantillon avec toutes les combinaisons d'association

Pour cela, on cr√©e une colonne avec les combinaisons des deux facteurs.

In [None]:
df['combinaison'] = df['supp'] + '-' + df['dose'].astype('str')
df.head(3)

In [None]:
import statsmodels.stats.multicomp as multi 
Results = multi.MultiComparison(df['len'], df['combinaison'])
Results = Results.tukeyhsd()
print(Results)