<h1>Критерій Краскела-Уолліса</h1>


##Теоретичні відомості

<b>Критерій Краскела-Уолліса</b> - це непараметрична альтернатива одновимірному (міжгруповому) дисперсійному аналізу. Він використовується для порівняння трьох або більше вибірок, і перевіряє нульові гіпотези, згідно з якими різні вибірки були взяті з одного і того ж розподілу, або з розподілів з однаковими медіанами.

Цей непараметрический критерій - розширення двохвибіркового критерію Вілкоксона рангових сум. При нульовій гіпотезі відсутності відмінностей в розподілах між групами суми рангів у кожній з k груп повинні бути порівнянні після врахування будь-яких відмінностей в розмірі вибірки.

<h3>Область застосування</h3>

Тест визначає, чи відрізняються медіани двох або більше груп. Як і більшість статистичних тестів, ви обчислюєте статистику тесту і порівнюєте її з точкою відключення розподілу. Тестова статистика, що використовується в цьому тесті, називається H statistic.

<h3>Вимоги до даних</h3>

Ваші дані повинні відповідати наступним вимогам:
<ul>
    <li>Одна незалежна змінна з двома або більше рівнями (незалежні групи). Тест частіше використовується, коли у вас три або більше рівні.</li>
    <li>Усі групи повинні мати однакові форми розподілу.</li>
    <li>Усі вибірки прості, об'єднана вибірка незалежна.</li>
</ul>

<h3>Гіпотеза</h3>

Гіпотеза, яка перевіряєть даним тестом може бути виражена наступним чином:<br/>
<i>H0</i>: кожна група має однаковий розподіл величин в популяції.<br/>
<i>H1</i>: кожна група не має однаковий розподіл величин в популяції.

<h3>Алгоритм розрахунку</h3>

1. Спочатку необхідно об'єднати дані з вибірок в одну вибірку та відсортувати у порядку зростання:
<table>
    <tr><th>Група 1</th><th>Група 2</th><th>Група 3</th></tr>
    <tr><td>x11</td><td>x21</td><td>x31</td></tr>
    <tr><td>x12</td><td>x22</td><td>x32</td></tr>
    <tr><td>x13</td><td>x23</td><td>x33</td></tr>
</table>
Об'єднані та відсортовані дані:
<table>
    <tr><th>Вибірка<th></tr>
    <tr><td>x32<td></tr>
    <tr><td>x13<td></tr>
    <tr><td>x22<td></tr>
    <tr><td>x33<td></tr>
    <tr><td>x23<td></tr>
    <tr><td>x21<td></tr>
    <tr><td>x31<td></tr>
    <tr><td>x11<td></tr>
    <tr><td>x12<td></tr>
</table>

2. Далі необхідно призначити рангів для відсортованих точок даних. Дати прив’язаним значенням середню оцінку.
<table>
    <tr><th>Вибірка</th><th>Ранг</th></tr>
    <tr><td>x32</td><td>1</td></tr>
    <tr><td>x13</td><td>2</td></tr>
    <tr><td>x22</td><td>3</td></tr>
    <tr><td>x33</td><td>4</td></tr>
    <tr><td>x23</td><td>5</td></tr>
    <tr><td>x21</td><td>6</td></tr>
    <tr><td>x31</td><td>7</td></tr>
    <tr><td>x11</td><td>8</td></tr>
    <tr><td>x12</td><td>9</td></tr>
</table>

3. Знайти суми рангів кожної групи:<br/>
    Група 1: 2 + 8 + 9 = 19<br/>
    Група 2: 3 + 5 + 6 = 14<br/>
    Група 3: 1 + 4 + 7 = 12

4. Розрахувати критерій Н<br/>
Розрахунок відбувається за формулою:
![image.png](attachment:image.png)

де n - загальна кількість спостережень<br/>
ni - кількість спостережень у кожній з вибірок<br/>
Ri - сума рангів<br/>
![image.png](attachment:image.png)

5. Знайти критичне значення квадратного Xi-квадрата зі ступенем свободи c-1. У нашому випадку с = 3.<br/>
df = 3-1 = 2<br/>
dfcrit = 6

У нашому випадку 1.1555 < 6, тому нульова гіпотеза приймається

<h1>Реалізація</h1>

Нехай маємо фабрику, яка виготовляє взуття. Взуттєва компанія хоче знати, чи мають три групи робітників різні зарплати:<br/>
<table>
        <tr><th>Жінки</th> <td>30000, 41000, 54000, 66000, 78000</td></tr>
       <tr> <th>Чоловіки</th> <td>45000, 55000, 60000, 70000, 72000</td></tr>
        <tr><th>Меншини</th> <td>18000, 30000, 34000, 40000, 44000</td></tr>
</table>

<h3>1. Необхідно об'єднати дані з вибірок в одну вибірку та відсортувати у порядку зростання:</h3>

In [44]:
import pandas as pd
import numpy as np
import seaborn as sns

In [103]:
df = pd.DataFrame({
    "Groups":["Women"]*5 + ["Men"]*5 + ["Minorities"]*5,
    "Salary":[30000, 41000, 54000, 66000, 78000, 45000, 55000, 60000, 70000, 72000, 18000, 30000, 34000, 40000, 44000]
})
n = df.shape[0]
df

Unnamed: 0,Groups,Salary
0,Women,30000
1,Women,41000
2,Women,54000
3,Women,66000
4,Women,78000
5,Men,45000
6,Men,55000
7,Men,60000
8,Men,70000
9,Men,72000


In [104]:
df = df.sort_values(by=["Salary"])
df

Unnamed: 0,Groups,Salary
10,Minorities,18000
0,Women,30000
11,Minorities,30000
12,Minorities,34000
13,Minorities,40000
1,Women,41000
14,Minorities,44000
5,Men,45000
2,Women,54000
6,Men,55000


<h3>2. Необхідно призначити рангів для відсортованих точок даних. Дати прив’язаним значенням середню оцінку.</h3>

In [105]:
df["Ranks"]=[i for i in range(1,n+1)]
df

Unnamed: 0,Groups,Salary,Ranks
10,Minorities,18000,1
0,Women,30000,2
11,Minorities,30000,3
12,Minorities,34000,4
13,Minorities,40000,5
1,Women,41000,6
14,Minorities,44000,7
5,Men,45000,8
2,Women,54000,9
6,Men,55000,10


<h3>3. Знайти суми рангів кожної групи</h3>

<h3>4. Розрахувати критерій Н</h3>


In [131]:
def KWtest(df):
    group1 = 0
    group2 = 0
    group3 = 0
    for i in range(n):
        if df.iloc[i,0] == 'Men':
            group1+=df.iloc[i,2]
        if df.iloc[i,0] == 'Women':
            group2+=df.iloc[i,2]
        if df.iloc[i,0] == 'Minorities':
            group3+=df.iloc[i,2]
    H = 12/(n*(n+1))*(group1**2/5 + group2**2/5 + group3**2/5) - 3*(n+1)
    DF = len(df["Groups"].unique())-1
    c = pd.read_excel("Таблиця критичних значень для критерію Пірсона.xlsx").iloc[DF, 2]
    print("Критичне значення:", c)
    print("Дано:", H)
    print("Розбіжність існує " + str(H) + "(Дано) > " + str(c) + "(критичне). Нульова гіпотеза відкидається." if (H > c) else "Розбіжності немає. Нульова гіпотеза приймається")
    return [DF, H, c]

<h3>5. Знайти критичне значення квадратного Xi-квадрата зі ступенем свободи c-1</h3>

In [133]:
KWtest(df)

Критичне значення: 6
Дано: 6.720000000000006
Розбіжність існує 6.720000000000006(Дано) > 6(критичне). Нульова гіпотеза відкидається.


[2, 6.720000000000006, 6]

<h3>Висновок</h3>

<b>Було отримано результат, який зі статистичною значимістю 0.05 дозволяє стверджувати про нерівність груп.</b><br/><br/>
Під час порівняння заробітної плати на взуттєвому виробництві у трьох групах, медіани у цих групах відрізняються, тому можна зробити висновок, що заробітна плата у групах відрізняється.