Le test du $\chi_2$ (wikipedia) sert à comparer deux distributions.<br> Il peut être appliqué sur un tableau de contingence pour comparer la distributions observée avec la distribution qu’on observerait si les deux facteurs du tableau étaient indépendants. On note $M=(m_{ij})$ une matrice de dimension $I \times J$. Le test du $\chi_2$ se calcule comme suit :



### $T = \sum {ij} \frac{(m_{ij} - n_{ij})^2}{n_{ij}} $

La variable aléatoire T suit asymptotiquement une loi du $\chi_2$ à $(I-1)(J-1)$ degrés de liberté (table).</br>
Comment le calculer avec numpy ?

table du $\chi_2$ : https://www.apprendre-en-ligne.net/random/tablekhi2.html

### Tableau au hasard

On prend un petit tableau qu’on choisit au hasard, de préférence non carré pour détecter des erreurs de calculs.

In [1]:
import numpy
M = numpy.array([[4, 5, 2, 1],
                 [6, 3, 1, 7],
                 [10, 14, 6, 9]])
M

array([[ 4,  5,  2,  1],
       [ 6,  3,  1,  7],
       [10, 14,  6,  9]])

## calcul avec scipy

In [2]:
from scipy.stats import chi2_contingency
chi2, pvalue, degrees, expected = chi2_contingency(M)
chi2, degrees, pvalue

(6.168598503892621, 6, 0.4045712090580829)

## calcul avec numpy

In [4]:
N = M.sum()
ni = numpy.array( [M[i,:].sum() for i in range(M.shape[0])] ) # somme des lignes
nj = numpy.array( [M[:,j].sum() for j in range(M.shape[1])] ) # somme des colonnes
ni, nj, N

(array([12, 17, 39]), array([20, 22,  9, 17]), 68)

Et comme c’est un usage courant, numpy propose une façon de faire sans écrire une boucle avec la fonction sum :

In [5]:
ni = M.sum(axis=1)
nj = M.sum(axis=0)
ni, nj, N

(array([12, 17, 39]), array([20, 22,  9, 17]), 68)

In [7]:
for i in range(M.shape[0]):
    print(M[i,:])
    print(M[i, :].sum())

[4 5 2 1]
12
[6 3 1 7]
17
[10 14  6  9]
39


In [8]:
for j in range(M.shape[1]):
    print(M[:,j])
    print(M[:,j].sum())

[ 4  6 10]
20
[ 5  3 14]
22
[2 1 6]
9
[1 7 9]
17


In [11]:
nij = ni.reshape(M.shape[0], 1) * nj / N
nij

array([[ 3.52941176,  3.88235294,  1.58823529,  3.        ],
       [ 5.        ,  5.5       ,  2.25      ,  4.25      ],
       [11.47058824, 12.61764706,  5.16176471,  9.75      ]])

In [12]:
d = (M - nij) ** 2 / nij
d.sum()

6.168598503892621