# Критерии согласия

Проверка гипотезы о законе распределения выглядит следующим образом:
1. Выдвижение гипотезы о виде закона распределения
2. Оценка параметров распределения
3. Проверка гипотезы

Критерии согласия разделяют на два вида: критерии согласия для простых гипотез (однозначно определены) и для сложных гипотез (неизвестен параметр или даже само распределение, только класс).

## Критерии согласия для простых гипотез
### Критерий $\chi^2$ для простой гипотезы

Данный критерий основан на сравнении теор. плотности распределения и гистограммы. 

Разобьем область значений теоретической плотности вероятности на N интервалов и определим $p_i = P\{\xi \in \Delta_i | H_0\}$ - вероятность попадания значений в каждый из интервалов. Также определим $n_i = num\{X_j \in \Delta_i\}$ - количество элементов выборки, попавших в этот интервал.
Интервалы необходимо строить так, чтобы в каждый попадало хотя бы по 1 элементу выборки, применимы все стандартные правила построения гистограмм (и выбора числа столбцов). При этом в каждый интервал должно попадать не менее 5 элементов теоретической плотности вероятности для данной выборки(т.е. $n*p_i \geq 5$). Первый и последний интервал расширяются до бесконечностей.

Построим статистику: $$\chi^2(X_{[n]}) = \sum_{i=1}^r{\frac{n}{p_i} (\frac{n_i}{n} - p_i)^2}$$, где $p_i$ и $n_i$ определены выше, а $n$ - общее число элементов в выборке.

По теореме Пирсона такая статистика сходится к распределению $\chi^2(r-1)$. В случае, если статистика не выполняется, то ее значение будет стремиться к $+\infty$.

Таким образом, критическая область данной статистики: $V_k = (\chi^2_{1-\alpha}(r-1); +\infty)$, а p-value $= 1 - F_{\chi^2}(F_В)$

### Пример
Исследователь Василий по выборке

0.29 0.01 0.50 0.21 0.65 0.34 0.75 0.07 0.07 0.25 1.26 0.11 0.22 0.95 0.63 0.93 0.73 0.37 0.80 1.10

проверяет гипотезу об экспоненциальном законе распределения с параметром λ=2
 генеральной совокупности. Найдите  вероятность попадания генеральной совокупности в интервал (0.2, 0.5]  при условии, что верна нулевая гипотеза.
 
 Чему равен квантиль распределения статистики критерия, участвующий в построении критической области, если уровень значимости равен 0.01?

In [55]:
l = [0.29, 0.01, 0.50, 0.21, 0.65, 0.34, 0.75, 0.07, 0.07, 0.25, 1.26, 0.11, 0.22, 0.95, 0.63, 0.93, 0.73, 0.37, 0.80, 1.10]
Lm = 2
from scipy.stats.distributions import expon,poisson
from scipy.stats import chi2
import numpy as np
p = expon.cdf(0.5, scale = 1 / Lm) - expon.cdf(0.2, scale = 1 / Lm)
print(max(l))
print(min(l))
print(f" p = {p}")

arr = np.array(l)

int1 = arr[ (arr > 0) & (arr <=0.2)]
int2 = arr[ (arr > 0.2) & (arr <=0.5)]
int3 = arr[ (arr > 0.5)]

lens = [len(int1), len(int2), len(int3)]

p1 = expon.cdf(0.2, scale = 1 / Lm) - expon.cdf(0.0, scale = 1 / Lm)

p2 = expon.cdf(0.5, scale = 1 / Lm) - expon.cdf(0.2, scale = 1 / Lm)
p3 = 1 - expon.cdf(0.5, scale = 1 / Lm)
ps = [p1, p2, p3]
n = len(l)

v_list = [(ni-n*pi)**2/(n*pi) for ni,pi in zip(lens,ps)]

v_val = sum(v_list) 
print(F"выборочное значение статистики -- {v_val}")
alpha = 0.01
local_chi = chi2(2)
quantile = local_chi.ppf(1-alpha)
print(F"quantile {quantile}")


1.26
0.01
 p = 0.302440604864197
выборочное значение статистики -- 1.5364013495934465
quantile 9.21034037197618


In [28]:
from scipy.stats.distributions import norm
from scipy.stats import kstest
import numpy as np

# введем данные
a = sorted([451, 450, 444, 454, 447])

# в функцию передаем отсортированный массив и предполагаемый закон распределения, получаем p-value
# и значение статистики D
result = kstest(a, norm(450, np.sqrt(16)).cdf)
result[0]*np.sqrt(5)


0.45010633921368626

Используйте следующие  данные об отказах аппаратуры за 10000 часов работы для проверки гипотезы о том, что число отказов имеет распределение Пуассона:

Число отказов, k
    Количество случаев с k

отказами

    0          427
    1          235
    2          72
    3          21
    4          1
    5          1
    ≥6

             0

Проверьте гипотезу с помощью критерия хи-квадрат при уровне значимости 0.01.

Найдите оценку неизвестного параметра λ
с помощью метода максимального правдоподобия.

(См. ChiSquareTest)