In [19]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn
import math
import scipy.stats as sps
from sympy import *
from matplotlib import cm
plt.style.use('ggplot')
%matplotlib inline

In [2]:
data = pd.read_csv('hw7t3v0.txt', delimiter='\\s+', header=-1)

In [3]:
data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,sample0,-0.085,0.429,-1.196,-0.884,0.202,-0.13,-0.184,-0.891,0.529,0.064,-0.12,1.969,-1.102
1,sample1,-1.57,-1.132,1.796,-0.099,0.389,0.366,-0.808,-1.367,-0.151,1.574,2.821,0.765,0.93
2,sample2,1.77,-0.421,-1.272,0.861,-0.367,-1.311,-1.843,-0.47,3.275,0.254,1.072,0.748,-0.957
3,sample3,-0.023,1.631,-2.051,0.932,0.676,0.895,0.552,-1.318,,,,,
4,sample4,-0.741,-0.183,-0.074,-3.03,-0.042,-0.313,3.694,0.821,-0.077,1.999,0.737,,


In [22]:
samples = np.array([[data[c][i] for c in data.columns 
           if c != 0 and not math.isnan(data[c][i])] for i in range(len(data[0]))])

In [23]:
print(samples)

[ [-0.085000000000000006, 0.42899999999999999, -1.196, -0.88400000000000001, 0.20199999999999999, -0.13, -0.184, -0.8909999999999999, 0.52900000000000003, 0.064000000000000001, -0.12, 1.9690000000000001, -1.1020000000000001]
 [-1.5700000000000001, -1.1320000000000001, 1.796, -0.099000000000000005, 0.38900000000000001, 0.36599999999999999, -0.80799999999999994, -1.367, -0.151, 1.5740000000000001, 2.8210000000000002, 0.76500000000000001, 0.93000000000000005]
 [1.77, -0.42100000000000004, -1.272, 0.86099999999999999, -0.36700000000000005, -1.3109999999999999, -1.8430000000000002, -0.46999999999999997, 3.2749999999999999, 0.254, 1.0720000000000001, 0.748, -0.95700000000000007]
 [-0.023, 1.631, -2.0510000000000002, 0.93200000000000005, 0.67599999999999993, 0.89500000000000002, 0.55200000000000005, -1.3180000000000001]
 [-0.74099999999999999, -0.183, -0.07400000000000001, -3.0299999999999998, -0.042000000000000003, -0.313, 3.694, 0.82099999999999995, -0.076999999999999999, 1.9990000000000001

Выданы независимые выборки. Хотим решить задачу однофакторного дисперсионного анализа:
$X_{ij} = \mu + \beta_j + \varepsilon_{ij}$.
Проверим выполнены ли условия применимости критерия Фишера:
1) либо выборки нормальные, либо $N - k - 1 \ge 20$ и $\frac{\max S_i^2}{\min S_j^2} < 10$, где $N,k$ - общее количество элементов и выборок соответственно, и $S_i^2$ - несмещенная оценка выборочной дисперсии.
2) при равных размерах выборок предыдущие положения (в случае ненормальных выборок) могут нарушаться

Проверим выполнимость условий:

In [33]:
lens = np.array([len(x) for x in samples])
var_ests = np.array([np.var(x,ddof=1) for x in samples])
print(lens)
print(np.sum(lens) - len(lens) - 1)
print(np.max(var_ests)/np.min(var_ests))

[13 13 13  8 11  9 10  9  9 13]
97
20.8400930279


В нашем случае:

1)размеры выборок не равны

2)$N - k - 1 = 97 > 20$

3)$\frac{\max S_i^2}{\min S_j^2} = 21 > 10$

Значит критерий Фишера можно применить только в случае если данные выборки распределены нормально. Но размеры выборок настолько малы, что проверка на нормальност выглядит весьма сомнительным занятием.

Но все же проверим нормальность какими нибудь критериями, статистику найдем моделированием.

Чтобы решить задачу однофакторного дисперсионного анализа применим алгоритм множественной проверки гипотез равенства средних и дисперсий. Воспользуемся критериями Фишера, Краскела-Уоллиса и Джонхиера + проверка на нормальность критерием Шапиро-Уилка + критериями Левина и Бартлетта для проверки равенства дисперсий.
Проверку проведем низходящим методом Холма при $FWER \leq 0.05$.

Из всех критериев нигде не уточнялись ограничения на применимость критерия Барлетта, поэтому его статистику будем искать моделированием.

In [68]:
from statsmodels.sandbox.stats.multicomp import multipletests  # Holm method
from scipy.stats import shapiro  # Shapiro-Wilk test
from scipy.stats import normaltest  # D'Agostino test
from scipy.stats import jarque_bera  # Jarque-Bera test
from scipy.stats import f_oneway  # Fisher test
from scipy.stats import kruskal  # Kruskal-Wallis test
from scipy.stats import levene  # Levene test
from scipy.stats import bartlett  # Bartlett test

In [114]:
def get_stats(statf,n,k=100):
    stats = np.zeros(k)
    gens = sps.norm.rvs(size=(k,n))
    for i in range(k):
        stats[i] = statf(gens[i])[0]
    stats = np.sort(stats)
    return np.array(stats)

def get_mult_stats(statf, lens, k=100):
    stats = np.zeros(k)
    gens = []
    for l in lens:
        gens.append(sps.norm.rvs(size=(k,l)))
    for i in range(k):
        cur = []
        for j in range(len(lens)):
              cur.append(gens[j][i])
        stats[i] = statf(*cur)[0]
    stats = np.sort(stats)
    return np.array(stats)

def run_stats(x,statf,stats):
    st = statf(x)[0]
    p = np.sum((st > stats))/len(stats)
    return 2*min(p,1-p)  # two-tailed p-value

def run_stats_pointer(x,statf,stats):
    st = statf(*x)[0]
    print(st)
    p = np.sum((st > stats))/len(stats)
    return 2*min(p,1-p)  # two-tailed p-value

In [107]:
%%time
stats_sw = {l: get_stats(shapiro,n=l,k=1000) for l in np.unique(lens)} # Shapiro-Wilk stats
stats_da = {l: get_stats(normaltest,n=l,k=1000) for l in np.unique(lens)} # D'Agostino stats
stats_jb = {l: get_stats(jarque_bera,n=l,k=1000) for l in np.unique(lens)} # Jarkue-Bera stats

  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))


CPU times: user 5.43 s, sys: 96.3 ms, total: 5.53 s
Wall time: 5.59 s


In [115]:
# adaptive criteries
run_criteries = [
    (lambda x: run_stats(x, shapiro, stats_sw[len(x)]))
    , (lambda x: run_stats(x, normaltest, stats_da[len(x)]))
    , (lambda x: run_stats(x, jarque_bera, stats_jb[len(x)]))
    , (lambda s: f_oneway(*s)[1])
    , (lambda s: kruskal(*s)[1])
    , (lambda s: levene(*s)[1])
    , (lambda s: bartlett(*s)[1])
]

In [116]:
alphas = [0.05]
for a in alphas:
    p_values = []
    for x in samples:
        p_values.append(run_criteries[0](x))
        p_values.append(run_criteries[1](x))
        p_values.append(run_criteries[2](x))
    for ex in run_criteries[3:]:
        p_values.append(ex(samples))
    reject = multipletests(pvals=p_values, method='holm',alpha=a)[0]
    print('for alpha = ' + str(a) + ' : ' + str(np.sum(reject)) + ' simple hypotheses are rejected:')
    print('p_values: ' + str(p_values))
    print('reject_bits: ' + str(reject))
    print()

for alpha = 0.05 : 1 simple hypotheses are rejected:
p_values: [0.27000000000000002, 0.1379999999999999, 0.14599999999999991, 0.35000000000000009, 0.37, 0.54800000000000004, 0.90199999999999991, 0.58000000000000007, 0.56600000000000006, 0.45800000000000002, 0.71199999999999997, 0.42399999999999993, 0.56200000000000006, 0.49399999999999999, 0.34999999999999998, 0.28599999999999998, 0.078000000000000069, 0.070000000000000062, 0.042000000000000003, 0.024000000000000021, 0.012000000000000011, 0.012, 0.016000000000000014, 0.010000000000000009, 0.504, 0.34400000000000008, 0.45799999999999996, 0.82000000000000006, 0.38, 0.14799999999999999, 0.011961366185681246, 0.082838613078042717, 0.25545391627031572, 3.449629347056787e-06]
reject_bits: [False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False  True]



  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))
  "anyway, n=%i" % int(n))


В итоге, отвергается только критерий Бартлетта равенства дисперсий(при условии нормального распределения), скорее всего отвергается так как неустойчив к выбросам а также выборки очень маленькие. В общем, не отвергаем гипотезу об однофакторной модели с равными парараметрами на уровне 0.05.

In [127]:
print(samples[7])

[1.51, -0.41700000000000004, 4.5590000000000002, 0.84400000000000008, 0.34499999999999997, 1.3719999999999999, -0.34100000000000003, 1.2150000000000001, 10.42]


здесь 10 явно выброс