## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Проверка статистических гипотез

__Статистическая гипотеза__ — предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть на основании имеющихся данных.

Например,
1. Гипотеза: математическое ожидание случайной величины равно $10$.
2. Гипотеза: случайная величина имеет нормальное распределение.
3. Гипотеза: две случайные величины имеют одинаковое математическое ожидание.

Проверяемую гипотезу принято называть __нулевой__ и обозначать $H_0$.

__Пример 1__

Имеется станок, изготавливающий шарики для подшипников, который настроен делать шарики с диаметром $1$ мм. На основании выборки из значений диаметров таких шариков необходимо проверить, правильно ли станок откалиброван (т.е. делает ли он такие шарики, которые он настроен делать). 

В таком случае в качестве нулевой гипотезы $H_0$ берётся гипотеза о том, что математическое ожидание диаметра шарика равно $1$ мм.

Параллельно с нулевой гипотезой рассматривается противоречащая ей гипотеза $H_1$, называемая __альтернативной__ или __конкурирующей__.

В приведённом примере в качестве альтернативной гипотезы будет выступать гипотеза о том, что математическое ожидание диаметра шарика не равно $1$ мм.

В зависимости от задачи альтернативные гипотезы бывают __левосторонние__, __правосторонние__ или __двухсторонние__. 
    
Например, в примере выше альтернативная гипотеза двухсторонняя, поскольку в соответствии с ней математическое ожидание может быть как больше $1$, так и меньше. 

Односторонние гипотезы, возникают, например, при проверке нулевой гипотезы о равенстве математических ожиданий. В таких случаях используются функции, измеряющие _уровень отличия_ двух значений, которые равны $0$, если нулевая гипотеза верна, и больше $0$, если гипотеза неверна.

В любом случае альтернативная гипотеза представляет собой _дополнение к нулевой_ (т.е. хотя бы одна из них всегда верна).

Проверяя нулевую гипотезу, по выборке считается некоторое значение (зависит от вида гипотезы) и сравнивается с теоретическим.

При проверке данной гипотезы необходимо установить, какое отклонение полученного значения от теоретического можно принять как допустимое (т.\,е. __незначимое__), а какое отклонение уже нельзя списать на случайность (__значимое__).

Если отклонение значимо, то гипотеза $H_0$ отвергается в пользу альтернативной. Если же отклонение не является значимым, то гипотеза $H_0$ остаётся в силе.

__Этапы проверки гипотез__

1. Формулируются нулевая и альтернативная гипотезы.
2. Задаётся некоторая __статистика__ (функция от выборки) $S(X)$, которая в условиях справедливости нулевой гипотезы $H_0$ имеет _известное распределение_ (в частности, известна её функция распределения $F_S(x) = P(S < x)$).
3. Фиксируется __уровень значимости__ $\alpha$ — допустимая для данной задачи вероятность _ошибки первого рода_ (чаще всего $0.01$, $0.05$ или $0.1$).
4. Определяется __критическая область__ $\Omega_\alpha$, такая, что $P(S \in \Omega_\alpha | H_0) = \alpha$.
5. Проводится __статистический тест__: для конкретной выборки $X$ считается значение $S(X)$, и если оно принадлежит $\Omega_\alpha$, то заключаем, что данные противоречат гипотезе $H_0$, и принимается гипотеза $H_1$.

__Пример 1 (продолжение)__

Продолжим развивать приведённый выше пример 1. Возьмём выборку из диаметров подшипников, изготовленных станком.

In [None]:
import numpy as np

In [None]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
                    1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
                    0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ])

Нулевая гипотеза утверждает: математическое ожидание диаметра подшипника равно $1$ мм. Альтернативная гипотеза заключается в том, что математическое ожидание отлично от $1$.

In [None]:
samples.mean()

1.1084541666666665

In [None]:
samples.std()

0.27348323071559416

__Выбор статистики $S$__

Выбор статистики $T$ зависит от того, какого рода гипотеза проверяется, какое распределение имеется и какая информация по выборке известна.

Например, если проверяется гипотеза относительно математического ожидания нормально распределённой случайной величины с _известной_ дисперсией, то используется т.н. __Z-статистика__:
$$Z = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}},$$
где $X$ — выборка, $\overline{X}$ — выборочное среднее, $\mu$ — утверждаемое гипотезой $H_0$ значение математического ожидания, $\sigma$ — известное среднее квадратическое отклонение, $n$ — число элементов в выборке.

В предположении вероности гипотезы $H_0$ статистика $Z$ имеет _стандартное нормальное распределение_ (т.е. нормальное распределение с параметрами $\mu = 0$, $\sigma = 1$).

_Замечание._ Условие известной дисперсии, конечно, звучит крайне странно с точки зрения реальных примеров, но бывает и такое.

Если же дисперсия _неизвестна_, используется несколько другая __t-статистика__:
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}},$$
где $\sigma_X$ — несмещённая оценка среднего квадратического отклонения.

В предположении вероности гипотезы $H_0$ t-статистика имеет __распределение Стьюдента__ или __t-распределение__ с параметром $df = n - 1$.

Для проверки гипотез о дисперсии нормального распределения используют квантили _распределения хи-квадрат_ (см. [ссылку](https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D0%B0%D0%BB_%D0%B4%D0%BB%D1%8F_%D0%B4%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%B8_%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B8)).

_Замечание_. Если известна дисперсия, то известно и среднее квадратическое отклонение. Наоборот, если известно среднее квадратическое отклонение, то известная и дисперсия.

Для большинства других распределений соответствующие статистики _не разработаны_, поэтому по-честному применять такие статистические тесты для них нельзя. В таких случаях с можно обойти проблему с помощью Центральной предельной теоремы, однако, тогда результаты будут иметь некоторую погрешность.

__Пример 1 (продолжение)__

Будем считать, что в текущем примере среднее квадратическое отклонение известно и равно $0.25$. Значит, надо использовать статистику
$$Z = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}},$$
и при условии верности нулевой гипотезы она имеет стандартное нормальное распределение. В нашем случае:
$$Z = \dfrac{\overline{X} - 1}{0.25/ \sqrt{n}}$$



In [None]:
def statistic(samples: np.ndarray) -> float:
    return (samples.mean() - 1) / (0.25 / np.sqrt(samples.shape[0]))

__Выбор уровня значимости__

Ошибки первого и второго рода возникают в задачах, в которых требуется определить, произошло какое-то событие или нет.

__Ошибка первого рода__ (т.н. __false positive__) соответствует ситуации, когда было определено, что событие произошло, тогда как реально оно не произошло.

__Ошибка второго рода__ (т.н. __false negative__) — обратная ситуация: было определено, что событие не произошло, а реально оно произошло.

Например, на входе в каждый аэропорт стоит рамка-металлодетектор. Её задача — выявлять людей, которые пытаются пронести в аэропорт что-то опасное. 

В этом случае:
* ошибка первого рода: рамка сработала на человеке, который ничего опасного не несёт,
* ошибка второго рода: рамка не сработала на человеке, который несёт что-то опасное.

Как правило, между вероятностями ошибок первого и второго рода __приходится балансировать__, т.е. уменьшение одной вероятности приводит к увеличению другой.

Например, в примере с рамкой вероятность ошибки первого рода будет невероятно высокой, поскольку ошибки второго рода в этом случае недопустимы.

В контексте проверки статистических гипотез под __событием__ понимается то, что __нулевая гипотеза была отвергнута__.

__Уровень значимости__ — это вероятность ошибки первого рода, т.е. вероятность отвергнуть верную нулевую гипотезу.

Низкие значения уровня значимости $\alpha$ делают проводимый тест __более осторожным__: верояность ошибки первого рода мала, значит, если по результатам теста мнулевая гипотеза отвергается, то можно быть более увереным в том, что она и правда неверна.

Однако, вместе с тем повышается и вероятность не отвергнуть ложную нулевую гипотезу. Т.е. если нулевая гипотеза не была отвергнута, то далеко не факт, что она и впрямь верна.

__Пример 1 (продолжение)__

В продолжающемся примере про подшипники возьмём уровень значимости $\alpha = 0.05$.

In [None]:
alpha = 0.05

__Критическая область__

Под __критической областью__ случайной величины $X$, как правило, понимают её «хвосты», т.е. области, в которые чаще всего случайная величина не попадает.

Например, для нормального распределения справедливо правило двух сигм: вероятность попасть в интервал от $\mu - 2\sigma$ до $\mu + 2\sigma$ равна $0.95$. Следовательно, можно рассмотреть критическую область
$(-\infty, \mu - 2\sigma) \cup (\mu + 2\sigma, \infty),$
соответствующую вероятности $0.05$.

Такая критическая область является __двухсторонней__, поскольку содержит два «хвоста».

Если же случайная величина имеет только один «хвост» (например, экспоненциальное распределение), то и критическая область будет __односторонней__.

При проведении статистического теста строится критическую область для статистики $S(X)$, построенной ранее. Это можно сделать, потому что знаем распределение этой статистики, в частности, её функцию распределения $F_S(x)$.

Кроме того, к этому моменту уже зафиксирован уровень значимости $\alpha$. Это значение является вероятностью попасть в критическую область.

Итак, в зависимости от количества «хвостов» у распределения статистики $S(X)$, критическая область может быть одного из следующих видов:
* Левосторонняя область: $\Omega_\alpha = (-\infty, t_\alpha)$.
* Правосторонняя область: $\Omega_\alpha = (t_{1 - \alpha} , \infty)$.
* Двусторонняя область: $\Omega_\alpha = \left( -\infty, t_{\alpha / 2}\right) \cup \left( t_{1 - \alpha / 2} , \infty \right)$.

Здесь $t_\beta$ обозначает квантиль порядка $\beta$, т.е. $F_S(t_\beta) = \beta$.

__Пример 1 (продолжение)__

Ранее была выбрана статистика
$$Z = \dfrac{\overline{X} - 1}{0.25/ \sqrt{n}}$$

Эта статистика имеет стандартное нормальное распределение, т.е. нормальное распределение с параметрами $\mu = 0$, $\sigma = 1$.
Нормальное распределение имеет два хвоста, поэтому критическая область будет двухсторонней. Для её построения нам понадобятся квантили $t_{\alpha / 2}$ и $t_{1 - \alpha / 2}$ стандартного нормального распределения. Найдём их с помощью `scipy.stats`.

In [None]:
from scipy import stats

In [None]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.9599639845400545, 1.959963984540054)

Итак, критическая область:
$$\Omega_\alpha = (-\infty, -1.96) \cup (1.96, \infty)$$

__Статистический тест__

Осталось лишь провести статистический тест. У нас есть:
1. зафиксированная нами статистика $S(X)$,
2. построенная нами критическая область $\Omega_\alpha$.

Считаем значение статистики от выборки. Если это значение попадает в критическую область, то данные противоречат нулевой гипотезе, и её следует отвергнуть.

Если значение в критическую область не попало, то данные нулевой гипотезе не противоречат.

_Замечание_. То, что данные не противоречат нулевой гипотезе, не означает, что она верна.

__Пример 1 (продолжение)__

Проводим статистический тест.

In [None]:
S = statistic(samples)
S

2.1252589504967747

Значение попало в критическую область. Нулевая гипотеза отвергается.

__Пример 2__

В реальности редко есть что-то кроме самой выборки. Как отмечалось, если дисперсия неизвестна, можно провести статистический тест, однако, нужно будет для этого взять другую статистику, а именно
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}},$$
где $\sigma_X$ — несмещённая оценка среднего квадратического отклонения. В нашем случае это:
$$t = \dfrac{\overline{X} - 1}{\sigma_X / \sqrt{n}}$$

In [None]:
def statistic(samples: np.ndarray) -> float:
    return (samples.mean() - 1) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

Кроме того, распределение этой статистики тоже будет другое: t-распределение Стьюдента. Значит, квантили тоже придётся считать заново.

In [None]:
n = samples.shape[0]

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.068657610419041, 2.0686576104190406)

Итак, теперь критическая область немного шире:
$$\Omega_\alpha = (-\infty, -2.07) \cup (2.07, \infty)$$

(Кстати более широкая критическая область означает, что тест стал более осторожным: в эту область теперь немного _сложнее_ попасть. Это согласуется с интуицией, что когда у нас меньше информации, мы делаем более осторожные выводы.)

Итак, статистический тест:

In [None]:
S = statistic(samples)
S

1.9018640008517087

Значение статистики не попало в критическую область, значит, гипотеза остаётся в силе.

__P-значения__

P-значения позволяют получить результат проверки статистических гипотез сразу для многих уровней значимости. 

Уменьшение уровня значимости приводит к расширению границ критической области: чем меньше уровень значимости, тем сложнее попасть в критическую область и, как следствие, отвергнуть нулевую гипотезу. __P-значение__ представляет собой наибольшее значение уровня значимости $\alpha$, при котором гипотезу можно принять, т.е. при котором значение статистики, посчитанной по выборке, ещё не попадает в критическую область.

__Пример 3__

В примере проверялась гипотеза о математическом ожидании диаметра подшипника. Реализуем этот тест для различных $\alpha$.

In [None]:
n = samples.shape[0]
S = statistic(samples)

n, S

(24, 1.9018640008517087)

In [None]:
print('alpha\ результат ообработки в гипотезе')
print('-------------')

for alpha in np.linspace(0, 0.15, 15):
    t1 = stats.t.ppf(alpha / 2, df=n - 1)
    t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)
    
    print(round(alpha, 4), '\t', t1 <= S <= t2)

alpha\ результат ообработки в гипотезе
-------------
0.0 	 True
0.0107 	 True
0.0214 	 True
0.0321 	 True
0.0429 	 True
0.0536 	 True
0.0643 	 True
0.075 	 False
0.0857 	 False
0.0964 	 False
0.1071 	 False
0.1179 	 False
0.1286 	 False
0.1393 	 False
0.15 	 False


При малых $\alpha$ имеем довольно широкую критическую область, в которую сложнее попасть. На нескольких первых шагах критическая область достаточно широка, что значение статистики в неё не попадает. Но в какой-то момент критическая область сужается настолько, что поглощает значение статистики. С этого момента гипотеза начинает отвергаться.

P-значением будет то значение $\alpha$, при котором происходит этот переход, т.е. когда одна из границ критической области совпадает со значением статистики.

Пусть $F_S(x)$ — функция распределения рассматриваемой статистики, а $t_{\beta}$ — квантиль порядка $\beta$ для этого распределения. Как считать P-значение:

1. Для правосторонней области $\Omega_\alpha = \left( t_{1 - \alpha}, \infty \right)$ имеем условие $t_{1 - \alpha} = S$, откуда $$P_r = 1 - F_S(S)$$

2. Для левосторонней области $\Omega_\alpha = \left( -\infty, t_\alpha \right)$, условие $t_\alpha = S$, откуда $$P_l = F_S(S)$$

3. Для двухсторонней области $\Omega_\alpha = \left( -\infty, t_{\alpha / 2} \right) \cup \left( t_{1 - \alpha / 2} , \infty \right)$ нужна комбинация двух: $$P = 2 \cdot \min (P_l, P_r)$$

В нашем случае область двухсторонняя, так что найдём P-значение по последней формуле.

In [None]:
p_left = stats.t.cdf(S, df=n - 1)
p_right = 1 - stats.t.cdf(S, df=n - 1)

pvalue = 2 * min(p_left, p_right)

pvalue

0.06978674686298825

На практике использовать P-значения можно так: если выбранный нами уровень значимости меньше P-значения, полученного в результате теста, то гипотезу можно принять. В противном случае, гипотезу следует отвергнуть.

Например, для текущей задачи использовался уровень значимости $\alpha = 0.05$. Это меньше, чем получившееся P-значение, поэтому гипотеза принимается.

### Доверительные интервалы

Всё, что было показано ранее - это __точечные__ оценки, т.е. оценивался параметр каким-то единственным числом.  

Минус таких оценок в том, что на его основании нет возможности понять, насколько хорошей такая оценка получилась (т.е. насколько близка она оказалась к реальному значению оцениваемого параметра).

Для исправления этого недостатка используют доверительные интервалы. __Доверительный интервал__ — это интервал, который с некоторой вероятностью (заданной заранее) содержит значение оцениваемого параметра.

Более строго: пусть задано число $p$, называемое __уровнем доверия__ или __доверительной вероятностью__. Доверительным интервалом для параметра $\theta$ называется пара статистик $L$ и $U$, таких, что
$$P(L \leq \theta \leq U) = p$$

Доверительные интервалы используют ту же математическую базу, что и статистические тесты.

Например, пусть дана выборка $X$ из __нормально распределённой__ случайной величины с __известной дисперсией__ $\sigma ^ 2$, и требуется построить доверительный интервал для математического ожидания $\mu$ с доверительной вероятностью $p$. Известно, что в этом случае статистика
$$Z = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}}$$
имеет стандартное нормальное распределение. 

Обозначим $\alpha = 1 - p$. Можно убедиться в том, что
$$P \left( t_{\alpha / 2} \leq Z \leq t_{1 - \alpha / 2} \right) = p,$$
где $t_{\beta}$ — квантиль порядка $\beta$ для стандартного нормального распределения. Подставляя сюда $Z$, получаем
$$P \left( t_{\alpha / 2} \leq \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}} \leq t_{1 - \alpha / 2} \right) = p$$
$$P \left( t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \overline{X} - \mu \leq t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$


<center>
    <div style="width: 350px;border:1px solid black;">
        $P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$
    </div>
</center>

В случае __неизвестной дисперсии__ используется статистика
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}},$$
где $\sigma_X$ — выборочное среднее квадратическое отклонение. Эта статистика имеет распределение Стьюдента, поэтому
$$P \left( t_{\alpha / 2, \: n - 1} \leq t \leq t_{1 - \alpha / 2, \: n - 1} \right) = p,$$
где $t_{\beta, \: n - 1}$ — квантиль порядка $\beta$ для распределения Стьюдента с параметром $df = n - 1$. Аналогичным способом получаем доверительный интервал:
$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

__Пример 4__

Дана выборка из $10$ значений случайной величины $X$:

$$6.9, \: 6.1, \: 6.2, \: 6.8, \: 7.5, \: 6.3, \: 6.4, \: 6.9, \: 6.7, \: 6.1$$

Предполагая, что случайная величина $X$ распределена нормально, построим доверительный интервал для $M(X)$ с доверительной вероятностью $0.95$. Для этого воспользуемся t-распределением.

Найдём среднее и несмещённую оценку для среднего квадратического отклонения:

In [None]:
samples = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

In [None]:
n = samples.shape[0]

mean = samples.mean()
std = samples.std(ddof=1)

n, mean, std

(10, 6.590000000000001, 0.4508017549014448)

Нужные нам квантили найдём с помощью `scipy`:

In [None]:
p = 0.95
alpha = 1 - p

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

Итак, доверительный интервал:

In [None]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(6.267515851415713, 6.912484148584288)

__Доверительные интервалы для дисперсии__ нормальной величины строятся с помощью _распределения хи-квадрат_. Как это делается, описано, например, [здесь](https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D0%B0%D0%BB_%D0%B4%D0%BB%D1%8F_%D0%B4%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%B8_%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B8).

Как и в случае со статистическими тестами, для большинства иных распределений точные доверительные интервалы построить нельзя, но можно построить приблизительные с помощью Центральной предельной теоремы.

## Упражнения для самопроверки

__Задача 1__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

__Задача 2__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. 
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? 
2. Найдите P-значение для данного теста.

__Задача 3__

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.