# Критерии, основанные на статистике Хотеллинга

## Проверка гипотезы $H_0: \mu = \mu_0$
Сгенерируем тестовые данные. Пусть это будет $n$ наблюдений $p$ независимых нормально распределённых величин с различными средними.

In [1]:
import numpy as np
import scipy as sp
import pandas as pd
from scipy.stats import norm, f
from numpy.random import random_integers as rint
from numpy.linalg import inv
n = 1000
p = 7 # it's a good number
m = np.array([float(rint(-5, 5)) for i in range(p)])
data = np.array([norm(loc=mean).rvs(n) for mean in m]).T

Проверим гипотезы о том, что вектор средних равен вектору $\mu_1 = $ `m` и  вектору $\mu_2 = $ `m + 0.7`.

In [2]:
m1 = m
m2 = m + 0.7

In [3]:
print "m1 = " + str(m1)
print "m2 = " + str(m2)
print "data average: " + str(data.mean(axis=0))

m1 = [-1.  1.  1.  0.  3. -1. -4.]
m2 = [-0.3  1.7  1.7  0.7  3.7 -0.3 -3.3]
data average: [-0.97948942  0.89801482  1.00863987  0.02184516  3.01274617 -0.98434081
 -3.97055074]


Для построения требуемой статистики обозначим $\bar{X} = \left(\frac{1}{n}\sum_{i=1}^nx_{ij}\right)_{j=1}^p$,  $\hat{\Sigma}$ -- выборочная ковариационная матрица. Тогда, благодаря знанию о распределении обобщённой статистики Хотеллинга, мы можем определить $$t(\mu) = \frac{n-p}{p(n-1)}n\left(\bar{X} - \mu\right)^T\hat{\Sigma}^{-1}\left(\bar{X} - \mu\right) \sim F(p, n-p)$$

In [4]:
sigma = inv(np.cov(data, rowvar=False)) # inverted sample covariance matrix, 
                                        # rowvar=False means that 
                                        # variables are columns and observations are rows
t = lambda mu: (data.mean(axis=0) - mu).dot(sigma).dot(
               data.mean(axis=0) - mu)*n*(n-p)/(p*(n-1))
critical_value = f(p, n-p).ppf(0.95)
print "критическое значение: " + str(critical_value)
print "t(m1) = " + str(t(m1))
print "t(m2) = " + str(t(m2))

критическое значение: 2.01878444894
t(m1) = 1.6229530944
t(m2) = 454.144528855


Видно, что <<правильные>> и <<неправильные>> варианты хорошо различаются критерием.

## Проверка гипотезы $H_0: \mu_1 = \mu_2$

Для демонстрации работы критерия используем данные об американских городах.

In [5]:
data = pd.read_table("cities.txt", index_col=0, decimal=",", )
data.describe()

Unnamed: 0,OLD,BLACK%,ASIAN%,HISP%,DEATH,POP_CH,POPDEN,CRIME,INCOME,UNEMP,...,SCHOOL,DEGREE,ASSIST,GROSS,CONDOM,LAB_F,MANLAB,TRANSP,TEMPER,PRECEP
count,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,...,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0
mean,11.772727,24.267532,5.212987,13.674026,12.038961,13.688312,4914.038961,10255.584416,21674.662338,6.832468,...,87.115584,22.212987,10.216883,445.831169,5.387013,58.157143,14.066234,9.462338,77.351948,32.763636
std,3.079116,18.471453,9.284726,16.180295,3.532971,24.027462,3995.573042,2782.124691,9559.02257,2.142824,...,6.028792,6.587435,4.990607,97.271785,4.501092,4.993402,5.516211,10.37204,6.472403,14.91226
min,3.6,1.3,0.6,0.4,4.9,-18.6,145.0,5364.0,3.0,2.3,...,70.8,8.1,2.7,308.0,0.7,48.1,3.6,0.2,58.4,4.1
25%,10.0,9.6,1.2,2.6,9.9,-4.9,2411.0,8537.0,20747.0,5.4,...,82.7,17.8,6.4,379.0,2.5,54.4,9.9,2.9,73.5,17.5
50%,11.9,22.0,2.0,5.4,11.3,6.5,3546.0,9958.0,24819.0,6.4,...,88.9,22.0,9.3,422.0,4.2,58.0,12.8,4.7,77.8,36.3
75%,13.7,31.5,4.8,23.0,13.9,25.6,6526.0,11326.0,27555.0,7.7,...,91.6,26.6,13.6,476.0,7.1,61.3,16.7,12.6,82.0,43.5
max,22.2,75.7,70.5,69.0,23.2,94.6,23671.0,18953.0,32451.0,13.1,...,96.1,40.6,26.1,755.0,29.7,71.0,31.3,53.4,93.5,64.0


Предположим, что средний процент афроамериканского, азиатского и испанского населения в южных штатах и на среднем западе не отличается. Для проверки этого предположения разделим данные на относяциеся к северным и южным штатам:

In [6]:
midwest_states = ["IL", "IN", "MI", "OH", "WI", "IA", "KS", "MN", "MO", "NE", "ND", "SD"]
south_states = ["DE", "FL", "GA", "MD", "NC", "SC", "WA", "VA", "WV"]
midwest_data = data[data["STATE"].apply(lambda state: state in midwest_states)]
south_data = data[data["STATE"].apply(lambda state: state in south_states)]

In [7]:
BLACK = "BLACK%"
ASIAN = "ASIAN%"
HISP = "HISP%"

Задача сводится к проверке равенства векторов средних значений для различных групп штатов. Для проверки равенства $\mu_{midwest}$ и $\mu_{south}$ используем статистику Махаланобиса: $$D^2 = \left(\bar{X}_{m} - \bar{X}_{s}\right)^T\hat{\Sigma}^{-1}\left(\bar{X}_{m} - \bar{X}_{s}\right)$$
для которой при объёмах выборок $N_{m}$ и $N_{s}$ известно распределение $$\frac{N_{m}+N_{s}-p-1}{p}\frac{N_m N_s}{\left(N_m+N_s\right)\left(N_m +N_s - 2\right)} D^2 \sim F(p, N_m +N_s-p-1),$$
где $p$ -- размерность наблюдений, в нашем случае -- 3.

In [8]:
n_m = len(midwest_data)
n_s = len(south_data)
p = 3
nation_percent = [BLACK, ASIAN, HISP]
sigma = np.cov(data[
        data["STATE"].apply(lambda state: state in south_states+midwest_states)
    ][nation_percent], rowvar=False)
D = (midwest_data[nation_percent].mean() - south_data[nation_percent].mean()).dot(
     inv(sigma)).dot(
     midwest_data[nation_percent].mean() - south_data[nation_percent].mean())

In [9]:
t = (n_m + n_s - p - 1) * n_m * n_s * D / (p * (n_m + n_s) * (n_m + n_s - 2))
critical_value = f(p, n_m + n_s - p - 1).ppf(0.95)
print "критическое значение: " + str(critical_value)
print "t = " + str(t)
print "p-value = " + str(1-f(p, n_m + n_s - p - 1).cdf(t))

критическое значение: 3.02799838233
t = 0.777437367827
p-value = 0.518574794875


Значение статистики существенно ниже критического значения, поэтому мы не можем отвергнуть гипотезу о равенстве среднего числа афроамериканцев, азиатов и испанцев на Юге и Среднем Западе.
Посмотрим на сами данные:

In [10]:
print midwest_data[nation_percent].mean()
print south_data[nation_percent].mean()

BLACK%    29.406667
ASIAN%     2.073333
HISP%      4.033333
dtype: float64
BLACK%    33.433333
ASIAN%     2.625000
HISP%      8.241667
dtype: float64


Средний процент азиатов действительно совпадает, тогда как количество афроамериканцев и азиатов различается на 4%. Стоит ли считать существенным это различие?