# Дисперсійний аналіз

##Теоретичні відомості

**Дисперсійний аналіз** - статистичний метод дослідження взаємозв'язку. Застосовується для аналізу впливу якісної змінної  на одну залежну (кількісну) змінну.
В основі дисперсійного аналізу лежить припущення, що одні змінні можливо розглядати як причини (незалежні змінні), інші - як наслідки (залежні змінні). Незалежні змінні в дисперсійному аналізі називають факторами.
 У зарубежній літературі дисперсійний аналіз часто обозначається як ANOVA, що переводиться як аналіз варіативності (Analysis of Variance).

Дисперсійний аналіз - параметричний метод.




### Область застосування

ANOVA використовують для визначення статистичних відмінностей у *середніх* значення двох або більше групп.

### Вимоги до даних

Ваші дані повинні відповідати наступним вимогам:
1. Залежна змінна має бути безперервною (кількісною).
2. Незалежна змінна має бути категоріальною (містити дві або більше груп).
3. Групи є незалежними.
4. Залежна змінна має нормальний розподіл.
5. Однорідність дисперсій. Групи мають приблизно однакові дисперсії.
6. Залежна змінна не містить викидів.
7. Кожна група має містити принаймні 6 спостережень.
8. Сбалансований дизайн. В ідеалі, групи мають бути однаковими за розміром.


### Гіпотеза

Гіпотеза, яка перевіряєть даним тестом може бути виражена наступним чином:

$H_0 : μ_1  = μ_2 = ... =  μ_n $ («середні  незалежних груп рівні»)

$H_1 : μ_1  ≠ μ_2 ≠ ... ≠ μ_n$ («середні  незалежних груп відмінні»)

### Алгоритм розрахунку

Припустимо, що є три незалежні групи кожна з яких пройшла тест на запам'ятовування 10 слів. Першій групі слова демонструвалися з низькою швидкістю - 1 слово в 5 секунд, другій  з середньою швидкістю - 1 слово в 2 секунди, і третій групі з великою швидкістю - 1 слово в секунду.

Прикладом задачі, яка вирішується методом дисперсійного аналізу є аналіз впливу швидкості демонстрації слів на результат тесту. 

n  | Група 1 (низька швидкість) | Група 2 (середня швидкість) | Група 3 (висока швидкість) |
------------- | ------------- |--------- | ------------- | 
1  | 8   | 7   | 4   | 
2  | 7   | 8   |5   | 
3  | 9   | 5   |3   |
4  | 5   | 4   |6   | 
5  | 6  | 6   |2  |  
6  | 8   | 7  |4  | 
Сума  | 43   | 37  |24   |
Середні  | 7,17   | 3,17   |4  | 

Загальна сума - 104

Основні величини для однофакторного дисперсійного аналізу:
1. $T_c$, cуми індивідуальних значень по кожнії з груп: 43, 37, 24.
2. $\sum{T^2_c}$,  cума квадратів сумарних значень по кожній з груп: $43^2 +  37^2 + 24^2 = 3794$
3. $c$, кількість умов (градацій фактора/ груп): 3
4. $n$, кількість досліджень в групах: 6, 6, 6.
5. $N$, загальна кількість досліджень: 18.
6. $(\sum{x_i})^2$, квадрат загальної суми індивідуальних значень: 10 816
7. $\frac{(\sum{x_i})^2}{N}$,Константа, яку потрібно відняти від кожної суми квадратів:  600,9
8. $x_i$, індивідуальне значення
9. $\sum({x_i}^2)$, сума квадратів індивідуальних значень.


Тоді, послідовність операцій в однофакторному дисперсійному аналізі виглядає наступним чином:
1. Розрахувати внутрішньогрупову дисперсію ($SS_{факт}$).

$$ SS_{факт}  = \frac{\sum{T^2_c}}{n} - \frac{(\sum{x_i})^2}{N} = \frac{3794}{6} - \frac{10 816}{18} = 31,44$$

2. Розрахувати загальногрупову дисперсію ($SS_{заг}$).
$$ SS_{заг} = \sum({x_i}^2) - \frac{(\sum{x_i})^2}{N} =  8^2+7^2+9^2+5^2+6^2+8^2+7^2+7^2+8^2+5^2+ 4^2+ 6^2+ 7^2+ 4^2+ 5^2+ 3^2+ 6^2+ 2^2+ 4^2 - \frac{104^2}{18} = 63,11$$

3. Розрахувати випадкову (залишкову) величину $SS_{вип}$
$$ SS_{вип} = SS_{заг} - SS_{факт} = 63,11 -31,44 = 31,67 $$

4. Визначити кількість ступенів свободи:
$$d_{факт} = c - 1 = 3 - 1 = 2$$
$$d_{заг} = N - 1 = 18 - 1 = 17$$
$$d_{вип} = d_{заг} - d_{факт} = 17 - 2 = 15$$

5. Розділити кожну SS на відповідне число ступенів свободи:
$$MS_{факт} = \frac{SS_{факт}}{d_{факт}} = \frac{31,44}{2} = 15,72$$
$$MS_{вип} = \frac{SS_{вип}}{d_{вип}} = \frac{31,67}{15} = 2,11$$

6. Розрахувати значення $F_{емпір}$
$$ F_{емпір} = \frac{MS_{факт}}{MS_{вип}} = \frac{15,72}{2,11} = 7,45 $$

7. Визначити критичне значення F по таблиці критичних значень: 

$$F_{крит(2,15)} = 3,7 $$

8. Співставити емпіричне та критичне значення F.

При $F_{емпір} \geq F_{крит(2,15)}$ нульова гіпотеза про рівність середніх відхиляється.

$$7,45 > 3,7$$ - рівність середніх не підтверджена.


### Завдання

1. Розрахувати та вивести у вигляді таблиці статистичні характиристики даних (середні та стандартні відхилення для кожної з груп).
2. Побудувати графік розкиду в групах.
3. Побудувати функцію, що реалізовує однофакторний дисперсійний аналіз.
4. Вивести результати розрахунку кожного з етапів вказаних вище у вигляді таблиці.
5. Перевірити результат роботи функції на реальних або сгенерованих даних. Зробити висновок.