# **КРИТЕРІЙ ПІРСОНА ДЛЯ ПОРІВНЯННЯ ДЕКІЛЬКОЇ ГРУП ЗА РОЗПОДІЛЕННЯМ ОЗНАКИ**

## *Теоретичні відомості*

Критерій хі-квадрат для аналізу таблиць спряженості був розроблений і запропонований в 1900 році англійським математиком, статистиком, біологом і філософом, засновником математичної статистики і одним з основоположників біометрії Карлом Пірсоном (1857-1936).

*Таблиці спряженості* - це візуальне (табличне) відображення залежності між двома __*якісними*__ ознаками. 
Інтрерпретувати цей зв'язок можна як взаємозвя'зок між розподілом за однією ознакою в залежності від градації іншої ознаки. Прикладом може бути залежність частоти летальності в групах, що приймали різні лікувальні препарати (залежність летальності від схеми лікування), або залежність кількості осіб, що займаються різними видами спорту та частоти травматичних випадків (оцінка травматичності зайнять різними видами спорту).

Рядки таблиці спряженості відповідають значенням однієї змінної, стовпці - значенням іншої змінної. *Для побудови таблиць спряженості кількісні шкали попередньо повинні бути згруповані в інтервали.* Область визначення випадковоъ величини розбивають на $k$ інтервалів, що не перетинаються:

$$x_{0}<x_{1}<...<x_{k-1}<x_{k},$$

де x_{0} - нижня границя області визначення випадкової величини, x_{k} - верхня границя.

На перетині рядка і стовпця вказується частота спільної появи відповідних значень двох ознак.
Сума частот по рядку називається маргінальною частотою рядка; сума частот по стовпцю - маргінальною частотою стовпчика.
У таблиці спряженості можуть бути представлені як абсолютні, так і відносні частоти (в частках або відсотках). Відносні частоти можуть розраховуватися по відношенню:
а) до маргінальної частоти по рядку;
б) до маргінальної частоти по стовпцю;
в) до обсягу вибірки.

Статистична гіпотеза для даного критерію має наступний вигляд:
*   Основна (нульова). Ознаки не пов'язані.
*   Конкуруюча (альтернативна). Ознаки пов'язані.

## Алгоритм розрахунку

В класичному випадку, критерій Пірсона поріявнює розподіл ознаки між двома групами. Алгоритм роботи:


*   *Сформувати таблицю спряженості*, де стовбчики - це порювнювані групи, а рядки - градації ознаки, що досліджується.

Ознака  | Група 1 | Група 2  |
------------- | ------------- |--------- |
Градація ознаки 1  | $n_{11}$   | $n_{21}$   |
Градація ознаки 2  | $n_{12}$   | $n_{22}$   |
Градація ознаки 3  | $n_{13}$   | $n_{23}$   |

  $n_{11}$ - частота з якою градація 1 зустрічається в 1й групі

$n_{12}$ - частота з якоюградація 2 зустрічається в 1й групі

$n_{13}$ - частота з якоюградація 3 зустрічається в 1й групі

$n_{21}$ - частота з якоюградація 1 зустрічається в 2й групі

$n_{22}$ - частота з якоюградація 2 зустрічається в 2й групі

$n_{23}$ - частота з якоюградація 3 зустрічається в 2й групі

Вважаємо, що перша група експериментальна, а друга - теоретична.

*   Перевірити рівність сум частот $\sum n_{i}=\sum \grave{n}_{i}$. Якщо суми відрізняються, вирівняти їх зі збереженням відсоткового співвідношення між частотами всередині групи.

* Розрахувати різницю між експериметальними (емпричними) та контрольним (теоретичними) частотами для кожної градації:

Ознака  | Група 1 | Група 2  | $(n_{i}-\grave{n}_{i})^2$  |
------------- | ------------- |--------- |-------------- |
Градація ознаки 1  | $n_{11}$   | $n_{21}$   |$(n_{11}-\grave{n}_{21})^2$  |
Градація ознаки 2  | $n_{12}$   | $n_{22}$   |$(n_{12}-\grave{n}_{22})^2$  |
Градація ознаки 3  | $n_{13}$   | $n_{23}$   |$(n_{13}-\grave{n}_{23})^2$  |

* Розділити отримані квадрати на теоретичні частити (дані контрольної групи):

Ознака  | Група 1 | Група 2  | $(n_{i}-\grave{n}_{i})^2$  | $\frac{(n_{i}-\grave{n}_{i})^2}{\grave{n}_{i}}$  |
------------- | ------------- |--------- |-------------- |-------------- |
Градація ознаки 1  | $n_{11}$   | $n_{21}$   |$(n_{11}-\grave{n}_{21})^2$  |$\frac{(n_{11}-\grave{n}_{21})^2}{\grave{n}_{21}}$  |
Градація ознаки 2  | $n_{12}$   | $n_{22}$   |$(n_{12}-\grave{n}_{22})^2$  |$\frac{(n_{12}-\grave{n}_{22})^2}{\grave{n}_{22}}$  |
Градація ознаки 3  | $n_{13}$   | $n_{23}$   |$(n_{13}-\grave{n}_{23})^2$  |$\frac{(n_{13}-\grave{n}_{23})^2}{\grave{n}_{23}}^2$  |


* Знайти сумму отриманих значень, позначивши її як $\chi_{emp}^2$.

* Визначити ступінь свободи критерію:

$$r=m-1,$$

де m - кількість градацій ознаки (рядків в таблиці спряженості).

* Визначити за таблицею критичне значення для відповідного рівня значимості $\alpha$ та розрахованого числа ступенів свободи.

* Якщо $\chi_{emp}^2 > \chi_{critical}^2$, то розбіжності між розподіленнями статистично значимі на даному рівні значимості.


## Таблиця критичних значень

Завантажити таблицю критичних значень можна за посиланням: 

https://drive.google.com/open?id=1-525zNUUxYAbY3FStFy79B9O3UMkcuan

## Завдання

1. Обрати реальні дані з kaggle або сгенерувати випадкові дані, що містять розподіл деякої ознаки в двох групах.
2. Побудувати графік, що відображає розподіл ознак в групах.
3. Написати функції, що оцінює зв'язок між ознакою та групою за критерієм Пірсона. Функція має оцінювати розбіжність на двох рівнях - 0,001 та 0,05, в залежністі від параметру significant_level, що передається в неї.
Врахувати у функції випадок, що сума частот ознаки у групах може бути відмінною.
4. Перевірити розбіжність на між групами на даних з п. 1. В результаті сформувати таблицю спряженості наступного вигляду:

Ознака  | Група 1 | Група 2  | 
------------- | ------------- |--------- |
Градація ознаки 1  | $n_{11}  $   | $n_{21}$   |
Градація ознаки 2  | $n_{12}$   | $n_{22}$   |
Градація ознаки 3  | $n_{13}$   | $n_{23}$   |

Додати до таблиці стовбчики з відсотовим розподілом по градаціям всередині груп.
Окремо вивести результати роботи критерію (чи є статистична розбіжність між групами).

In [102]:
import pandas as pd
import matplotlib.pyplot as plt
df=pd.DataFrame({
    "name":["Seraphim","Mayia","Emmylou","Sam", "Andrew","Hannah","Marianne","Lisa"],
    "team":[1,2,1,2,1,2,1,2],
    "points":[5,9,4,3,8,7,1,2]
})

In [103]:
df

Unnamed: 0,name,team,points
0,Seraphim,1,5
1,Mayia,2,9
2,Emmylou,1,4
3,Sam,2,3
4,Andrew,1,8
5,Hannah,2,7
6,Marianne,1,1
7,Lisa,2,2


In [131]:
def tTest(df,sens):
    tab=[[0,0],[0,0],[0,0]]
    for c in range(0,len(df)):
        n=df["team"][c]-1
        m=0
        if(df["points"][c]>3 and df["points"][c]<7):
            m=1
        elif(df["points"][c]>6):
            m=2
        tab[m][n]+=1
    s=[0,0,0]
    sp=[0,0,0]
    sum=0
    for i in range(0,3):
        s[i]=(tab[i][0]-tab[i][0])
        sp[i]=s[i]/tab[i][0]
        sum+=sp[i]
    x=0
    if(sens==0.01):
        x=18.5
    elif(sens==0.05):
        x=14,1
    b=(sum>x)
    dfn=pd.DataFrame({
        "points":["1-3","4-6","7-9"],
        "team 1":[tab[0][0],tab[1][0],tab[2][0]],
        "team 2":[tab[0][1],tab[1][1],tab[2][1]],
        "team 1(%)":[(tab[0][0]/4)*100,(tab[1][0]/4)*100,(tab[2][0]/4)*100],
        "team 2(%)":[(tab[0][1]/4)*100,(tab[1][1]/4)*100,(tab[2][1]/4)*100]
    })
    return dfn,b

In [132]:
dff,b=tTest(df,0.01)

In [157]:
dff

Unnamed: 0,points,team 1,team 2,team 1(%),team 2(%)
0,1-3,1,2,25.0,50.0
1,4-6,2,0,50.0,0.0
2,7-9,1,2,25.0,50.0


In [159]:
b

False