# Критерий Пирсона

1. Разбиваем всю облость значений случайной величины $X$ на $m$ интервалов $\Delta_{1}, \Delta_{2}, ..., \Delta_{m}$
2. Подсчитываем вероятности $p_{i}  (i = 1, 2, ..., m)$ поподания случайной величины $X$ (т.е. наблюдения) в интервал, используя формулу $P(\alpha \leq X \leq \beta) = F_{0}(\beta) - F_{0}(\alpha)$ 
3. Теоретические число значений случайной величины $X$, попавших в интервал $\Delta_{i}$, можно рассчитать по формуле: $n \cdot p_{i}$

Т.о. получаем статистический ряд распределения случайной величины $X$ и теоретический ряд распределения

4. Если эмпирические частоты ($n_{i}$) сильно отличается от теоритических ($np_{i} = n^{'}_{i}$), то проверяемую нулевую гипотезу следует отвергнуть; в противном случае принять.

Согласно теореме Пирсона, при $n \rightarrow \infty$ статистика имеет $\chi^{2}$ - распределение с $k = m - r - 1$ степенями свободы, 

где $m$ - число групп (интервалов) выборки, $r$ - число параметров предпологаемего распределения.
    
В частности, если предпологаемое распределение нормально, то оценивают два параметра ($\alpha$ и $\sigma$), поэтому степеней свободы $k = m - 3$

## Правило применения критерия $\chi^{2}$:

1. Вычисляем выборочное значение статистики критерия:

$\chi^{2} = \sum^{m}_{i=1} \dfrac{(n_{i} - np_{i})^{2}}{np_{i}} = \sum^{m}_{i=1} \dfrac{n^{2}_{i}}{np_{i}} - n$

2. Выбрав уровень значимости $\alpha$ критерия, по таблице $\chi^{2}$ - распределения находим критическую точку (квантиль) $\chi^{2}_{\alpha,k}$.
3. Если $\chi^{2} \leqslant \chi^{2}_{\alpha,k}$, то нулевая гипотеза не противоречит опытным данным, иначе нулевая гипотеза отвергается.

**Необходимым условием применения критерия Пирсона, является наличие в каждом из интервалов не менее 5 наблюдений**

In [1]:
import pandas as pd

## Задание

In [2]:
# Измерены 100 обработанных деталей, отклонения от заданного размера приведены в таблице:
n = 100
df = pd.DataFrame({"[x_{i}, x_{i+1})":[[-3, -2], [-2, -1], [-1, 0], [0, 1], [1, 2], [2, 3], [3, 4], [4, 5]], "n_i": [3, 10, 15, 24, 25, 13, 7, 3]})

alpha = 0.01

# Нулевая гипотеза - отклонения от проектного размера подчиняются нормальному закону распределения
df

Unnamed: 0,"[x_{i}, x_{i+1})",n_i
0,"[-3, -2]",3
1,"[-2, -1]",10
2,"[-1, 0]",15
3,"[0, 1]",24
4,"[1, 2]",25
5,"[2, 3]",13
6,"[3, 4]",7
7,"[4, 5]",3


## Решение
Число набдюдений с крайних интервалах меньше 5, поэтому объединяем их с соседними

In [5]:
df_new = pd.DataFrame({"interval":[[-3, -2, -1], [-1, 0], [0, 1], [1, 2], [2, 3], [3, 4, 5]], "n_i": [13, 15, 24, 25, 13, 10]})
df_new

Unnamed: 0,interval,n_i
0,"[-3, -2, -1]",13
1,"[-1, 0]",15
2,"[0, 1]",24
3,"[1, 2]",25
4,"[2, 3]",13
5,"[3, 4, 5]",10


Случайную величину - отклонение - обозначаем через **X**. Для вычисления вероятностей $p_{i}$ необходимо вычислить параметры, определяющие нормальный закон распределения ($\alpha$ и $\sigma$). их оценки вычисляем по выборке:

In [30]:
def X_Mean(column):    
    x_mean = []
    
    for i in range(column.size):
        x_sum = 0
        j = 0
        for x_i in column[i]:
            x_sum = x_sum + x_i
            j = j + 1
        
        x_mean.append(x_sum / j)
    
    return x_mean   


df_new["x_mean"] = X_Mean(df_new.interval)
df_new

Unnamed: 0,interval,n_i,x_mean
0,"[-3, -2, -1]",13,-2.0
1,"[-1, 0]",15,-0.5
2,"[0, 1]",24,0.5
3,"[1, 2]",25,1.5
4,"[2, 3]",13,2.5
5,"[3, 4, 5]",10,4.0


In [54]:
x = 1 / n * (df_new.n_i * df_new.x_mean).sum()
x

0.885

$x \approx 0.9$

In [58]:
D_B = 1/n * (df_new.n_i * df_new.x_mean ** 2).sum() - x ** 2
D_B

2.8092750000000004

$D_{B} \approx 2.809$

In [59]:
import math 
sigma =  math.sqrt(D_B)
sigma

1.6760891981037287

$\sigma \approx 1.7$

Находим $p_{i}, (i = \overline{1,6})$. Так как $X \sim N(\alpha, \sigma)$ определена на $(-\infty, \infty)$, то крайние интервалы в ряде распределения заменяем, соответственно на $(-\infty, -1)$ и $(3, \infty)$. 

Тогда 

$p_{1} = p\{-\infty < X < -1 \} = \Phi_{0}(\dfrac{-1-0.9}{1.7}) - \Phi_{0}(-\infty) = 0.5 - \Phi(1.12)$ 

$p_{6} = p\{-\infty < X < -1 \} = \Phi_{0}(\infty) -  \Phi_{0}(\dfrac{3-0.9}{1.7}) = 0.5 - \Phi(1.24)$ 

In [85]:
df_new.interval[0][-1]

-1

In [92]:
def F_left(column, x, sigma):
    F = []
    for i in range(column.size):
        if i == (column.size - 1):
            F.append(0.5)
        else:
            F.append((column[i][-1] - x) / sigma)
    return F

def F_right(column, x, sigma):
    F= []
    for i in range(column.size):
        if i == 0:
            F.append(-0.5)
        else:
            F.append((column[i][0] - x) / sigma)
    return F



df_new['F_left'] = [round(i,2) for i in F_left(df_new.interval, x, sigma)]
df_new['F_right'] = [round(i,2) for i in F_right(df_new.interval, x, sigma)]

df_new


Unnamed: 0,interval,n_i,x_mean,F_left,F_right
0,"[-3, -2, -1]",13,-2.0,-1.12,-0.5
1,"[-1, 0]",15,-0.5,-0.53,-1.12
2,"[0, 1]",24,0.5,0.07,-0.53
3,"[1, 2]",25,1.5,0.67,0.07
4,"[2, 3]",13,2.5,1.26,0.67
5,"[3, 4, 5]",10,4.0,0.5,1.26


Результаты F_left и F_right по таблице $\Phi_{0}$

In [97]:
df_F = pd.DataFrame({"F_left":[-0.3686, -0.2019, 0.0279, 0.2486, 0.3962, 0.5], "F_right":[-0.5, -0.3686, -0.2019, 0.0279, 0.2486, 0.3962]})
df_F

Unnamed: 0,F_left,F_right
0,-0.3686,-0.5
1,-0.2019,-0.3686
2,0.0279,-0.2019
3,0.2486,0.0279
4,0.3962,0.2486
5,0.5,0.3962


In [99]:
df_F["difference"] = df_F.F_left - df_F.F_right
df_F["np_i"] = n * df_F["difference"]
df_F

Unnamed: 0,F_left,F_right,difference,np_i
0,-0.3686,-0.5,0.1314,13.14
1,-0.2019,-0.3686,0.1667,16.67
2,0.0279,-0.2019,0.2298,22.98
3,0.2486,0.0279,0.2207,22.07
4,0.3962,0.2486,0.1476,14.76
5,0.5,0.3962,0.1038,10.38


Вычисляем выборочное значение статистики критерия:

$\chi^{2} = \sum^{m}_{i=1} \dfrac{(n_{i} - np_{i})^{2}}{np_{i}} = \sum^{m}_{i=1} \dfrac{n^{2}_{i}}{np_{i}} - n$

In [105]:
x_2 = sum((df_new.n_i**2)/df_F.np_i) - n
x_2

0.8268272341792624

Находим число степеней свободы: 

r = 2
m = 6

k = 6 - 2 - 1 = 3

зная $\alpha = 0.01$

по таблице $\chi^{2}$-распределения находим $\chi^2_{\alpha, k} = 11.3$ 

$\chi^{2} < \chi^{2}_{\alpha,k}$ следовательно нет оснований отвергнуть проверяемую гипотезу
