### Мощность критерия

Представим, что мы провели статитстический тест, и по его результатам не смогли отвергнуть нулевую гипотезу $H_0$. Произойти это могла по 2 причинам:
* нулевая гипотеза действительно верна;
* размер выборки оказался недостаточным для того, чтобы получить по ней оценки параметров генеральной совокупности.

### Пример

In [4]:
import scipy.stats as stats
import numpy as np

Допустим, у нас есть выборка из генеральной совокупности, которая описывается следующими параметрами:
* $\mu$, которое мы хотим оценить;
* $\sigma$, которая нам известна, например, 9.

Уровень значимости установлен на уровне $\alpha = 0.05.$ Допустим, что мы извлекли выборку из 25 единиц и рассчитали выборочные моменты. Теперь мы хотим проверить гипотезу вида:
$$ H_0: \mu = 170,$$
$$ H_1: \mu < 170.$$

Чтобы осуществить дальнейшие расчеты, предположим, что истинный параметр генеральной совокупности $\mu = 175$. 

$$z = \frac{\bar{X}-\mu}{\sigma / \sqrt{n}},$$
$$\bar{X} = \mu + z\left(\frac{\sigma}{\sqrt{n}}\right)$$,

In [6]:
bar_x = 170+stats.norm.ppf(0.95)*(9/np.sqrt(25))

In [7]:
bar_x

172.96073652851265

Иными словами, если мы наблюдаем выборочное среднее около 173 и выше, то нулевую гипотезу следует отклонить в пользу альтернативной. Какова будет мощность критерия в данном случае?

$$P(\bar{X}>173|\,\mu=175) = P\left(z \geq \frac{173-\mu}{\sigma / \sqrt(n)} \right).$$

In [36]:
power = 1 - stats.norm.cdf((bar_x-175)/(9/np.sqrt(25)))

In [37]:
power

0.87137694648697916

Мы получили следующее: вероятность отклонить нулевую гипотезу $H_0: \mu = 170$, если на самом деле $\mu = 175$, равна 0.87.

На практике, критерии с мощностью выше, чем 0.8, считаются в достаточной степени мощными.

### Расчет необходимого объема выборки

Воспользуемся данынми примера, приведенного выше. Тогда, формула для одностроннего теста примет вид:

$$n = \frac{\sigma^2(Z_{\alpha} + Z_{\beta})^2}{(\mu_0-\mu_a)^2},$$

для двустроннего:

$$n = \frac{\sigma^2(Z_{\alpha/2} + Z_{\beta})^2}{(\mu_0-\mu_a)^2},$$

где $\alpha, \beta$ - соответствующие параметры теста, $\mu_a$ - теоретическое среднее, против которого мы рассчитываем мощность критерия.

In [48]:
n = (81 * np.power(stats.norm.ppf(0.95)+stats.norm.ppf(0.87), 2))/float(25)

In [44]:
n

24.882543892235621

Иными словами, минимальный объем выборки необходимый для того, чтобы тест смог "увидеть" различия между данными, порожденными генеральной совокупностью с параметром $\mu=175$, и данными, порожденными генеральной совокупностью с параметром $\mu=170$, имея на руках фиксированную реализацию выборки - 25 единиц.