# Дисперсинный анализ

**Дисперсионный анализ** &ndash; представляет собой комплекс статистических подходов для анализа результатов наблюдений, зависящих от различных одновременно действующих факторов, включающий методы для выбора наиболее важных факторов и оценку их влияния.

Измере-Измерения или наблюдения могут проводиться как в эксперименталь-экспериментальных науках (например, в генетике), так и в неэкспериментальныхнауках (например, в астрономии). Теория анализа результатовизмерений подсказывает, как планировать проведение опытаили наблюдения, т. е. приводит к планированию эксперимента.Исторически современный метод дисперсионного анализа раз-развивался главным образом в связи с приложениями к задачамсельского хозяйства.

Исторически дисперсионный анализ был развит в начале XX века в работах Р.А. Фишера (Fischer R.A., 1918, 1925, 1935), который также ввел в статистику собственно термины дисперсия и дисперсионный анализ. 


## Параметрический дисперсионный анализ

###  Основная задача, решаемая при помощи дисперсионного анализа

**Формулировка.** Имеется несколько независимых групп наблюдений/измерений, выполненных в различных условиях эксперимента. Требуется установить, влияют ли условиях эксперимента на получаемые в группах измерения? 

В терминах математической статистики задача формализуется как задача множественного сравнения средних значений, соответствующих каждой из групп. В качестве нулевой гипотезы при этом выступает предположение о независимости результатов эксперимента от его условий, или, что тоже самое, гипотеза о равенстве средних в рассматриваемых группах.

Практическая формулировка классической задачи дисперсионного анализа может быть следующей:

**Задача.** Для нескольких различных видов растений, условно обозначим их $A_1, A_2, \ldots, A_k$, измерена длина листа. Требуется установить значимы ли отличия размеров листа для рассматриваемых видов.
*Фактически у нас имеется $n_1$ измерений листьев вида $A_1$, $n_2$ измерений вида $A_2$ и т.д. Нулевая гипотеза состоит в том, что средние значения для групп $A_1, A_2, \ldots, A_k$ равны. Учитывая известный тип распределия (нормальное распределение) внутри групп (а также для общности, возможно, еще какие-либо допущения) необходимо подтвердить или опровергнуть нулевую гипотезу.*

### Предположения классической схемы однофакторного дисперсионного анализа относительно выборочных данных

* данные внутри групп получены из нормального распределения;
* внутригрупповые дисперсии данных одинаковы;
* данные независимы;

Пусть модель измерений имеет следующий вид:
$$x_{i,j} = \mu_{i} + e_{i,j},$$
где  $x_{i,j}$ &ndash; $i$-ое измерение в $j$-й группе; $\mu_i, i=1 \ldots k$ &ndash; внутригрупповые средние;  $e_{i,j}$ &ndash; ошибки; 

Данную модель можно переписать следующим образом:
$$x_{i,j} - \mu = \mu_{i} - \mu + e_{i,j}$$
В условиях нулевой гипотезы ($\mu_j=\mu$) последняя эквивалентна следующему:
$$\sum\limits_{i,j}\left(x_{i,j} - \mu\right)^2 = \sum\limits_{i,j}\left(\mu_{i} - \mu\right)^2 + \sum\limits_{i,j}\left(e_{i,j}\right)^2$$,
или
$$
SS_{total}^2 = SS_{between}^2 + SS_{within}^2
$$
Также в условиях предположений о нормальности можно показать, что 
$SS_{total}^2/N-1$ &ndash; имеет $\chi^2$ распределение с $N-1$ степенями свободы; аналогично:

$SS_{between}^2/(k-1)$ &ndash; имеет $\chi^2$ распределение с $k-1$ степенями свободы;

$SS_{within}^2/(N-k)$ &ndash; имеет $\chi^2$ распределение с $N-k$ степенями свободы;

**Это позволяет сформулировать критерий Фишера:**
$$
\dfrac{SS_{total}^2}{SS_{within}^2} = \dfrac{SS_{between}^2}{SS_{within}^2} + 1,
$$
или в условиях нулевой гипотезы $SS_{between}^2\equiv0$, получим, что
$$
F(k-1, N-k) = \dfrac{SS_{between}^2/(k-1)}{SS_{within}^2/(N-k)}
$$
имеет распределение Фишера с $k-1$ и $N-k$ степенями свободы, что можно использовать для проверки значимости гипотезы.

### Пример. Ирисы Фишера.

Ирисы Фишера &ndahsh; ставший классическим набор данных, на которых Рональд Альмиер Фишер опробировал работу разработанного им метода дискриминантного анализа.

Исторически, однако, данные были собраны американским ботаником Э. Андерсоном; тем не менее, словосочетание "Ирисы Фишера" встречаются гораздо более чаще, чем "Ирисы Андерсона".

Ирисы Фишера входят практически в любой программный пакет для статистической обработки данных. Они состоят из данных о 150 экземплярах ириса. Измерения, выполненные для трех видов ирисов, представлены равновеликими выборками из 50 экземпляров. Измерения выполнены для видов: Ирис щетинистый (*Iris setosa*), Ирис виргинский (*Iris virginica*) и Ирис разноцветный (*Iris versicolor*). Для каждого экземпляра доступны четыре характеристики (в сантиметрах):

* длина наружной доли околоцветника (англ. sepal length);
* ширина наружной доли околоцветника (англ. sepal width);
* длина внутренней доли околоцветника (англ. petal length);
* ширина внутренней доли околоцветника (англ. petal width).

Будем использовать данные, входящие в пакет [scikit-learn](http://scikit-learn.org).

In [185]:
from sklearn import datasets
import pandas as pd

In [186]:
iris = datasets.load_iris() # загружаем данные и присваиваим их переменной iris

In [187]:
irises_as_df = pd.DataFrame(data= pd.np.c_[iris['data'], [iris['target_names'][k] for k in iris['target']]],
                     columns=iris['feature_names'] + ['target'])

In [188]:
irises_as_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null object
sepal width (cm)     150 non-null object
petal length (cm)    150 non-null object
petal width (cm)     150 non-null object
target               150 non-null object
dtypes: object(5)
memory usage: 5.9+ KB


In [189]:
irises_as_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,150.0,150.0,150.0,150.0,150
unique,35.0,23.0,43.0,22.0,3
top,5.0,3.0,1.5,0.2,setosa
freq,10.0,26.0,14.0,28.0,50


In [190]:
sep_wids = [group['sepal width (cm)'].astype(float).tolist() for name, group in irises_as_df.groupby('target')]  

In [191]:
print(sep_wids)

[[3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.4, 3.0, 3.0, 4.0, 4.4, 3.9, 3.5, 3.8, 3.8, 3.4, 3.7, 3.6, 3.3, 3.4, 3.0, 3.4, 3.5, 3.4, 3.2, 3.1, 3.4, 4.1, 4.2, 3.1, 3.2, 3.5, 3.1, 3.0, 3.4, 3.5, 2.3, 3.2, 3.5, 3.8, 3.0, 3.8, 3.2, 3.7, 3.3], [3.2, 3.2, 3.1, 2.3, 2.8, 2.8, 3.3, 2.4, 2.9, 2.7, 2.0, 3.0, 2.2, 2.9, 2.9, 3.1, 3.0, 2.7, 2.2, 2.5, 3.2, 2.8, 2.5, 2.8, 2.9, 3.0, 2.8, 3.0, 2.9, 2.6, 2.4, 2.4, 2.7, 2.7, 3.0, 3.4, 3.1, 2.3, 3.0, 2.5, 2.6, 3.0, 2.6, 2.3, 2.7, 3.0, 2.9, 2.9, 2.5, 2.8], [3.3, 2.7, 3.0, 2.9, 3.0, 3.0, 2.5, 2.9, 2.5, 3.6, 3.2, 2.7, 3.0, 2.5, 2.8, 3.2, 3.0, 3.8, 2.6, 2.2, 3.2, 2.8, 2.8, 2.7, 3.3, 3.2, 2.8, 3.0, 2.8, 3.0, 2.8, 3.8, 2.8, 2.8, 2.6, 3.0, 3.4, 3.1, 3.0, 3.1, 3.1, 3.1, 2.7, 3.2, 3.3, 3.0, 2.5, 3.0, 3.4, 3.0]]


Выполним классическую схему однофакторного дисперсионного анализа по переменной "sepal width (cm)". 

Число групп в данном случае &ndash; 3.

Проверим соответствие нормальному распределению.

In [192]:
from scipy.stats import shapiro # тест Шапиро-Уилка на нормальность
from scipy.stats import bartlett # тест Бартлетта на равенство дисперсий
from scipy.stats import f_oneway # тест Фишера

In [193]:
for ind, array in enumerate(sep_wids):
    print('Значение p-value для теста Шапиро-Уилка (группа %s) = %s' % (ind, shapiro(array)[-1]))

Значение p-value для теста Шапиро-Уилка (группа 0) = 0.20465604960918427
Значение p-value для теста Шапиро-Уилка (группа 1) = 0.33798879384994507
Значение p-value для теста Шапиро-Уилка (группа 2) = 0.1809043288230896


**Вывод:** Гипотеза о нормальности данных для каждой из групп измерений не отвергается. 

Проверим равенство дисперсий внутри групп. Для этого можно использовать критерий Бартлетта.

In [194]:
bartlett(*sep_wids)

BartlettResult(statistic=2.2158125491551637, pvalue=0.33024968989609588)

**Вывод:**  Гипотеза о равенстве внутригрупповых дисперсий не отвергается.

*Таким образом, условия для применения классической схемы дисперсионного анализа выполняются.*

Применяем тест Фишера к данным (т.е. выполняем "One way ANOVA").

In [195]:
f_oneway(*sep_wids)

F_onewayResult(statistic=47.364461402993818, pvalue=1.3279165184572242e-16)

**Вывод:** Данные существенно различаются по выбранному параметру ("sepal width (cm)").

#### Визуализация

In [196]:
%matplotlib notebook
from pylab import show, boxplot

In [197]:
boxplot(sep_wids)
show()

<IPython.core.display.Javascript object>

Поскольку установлено, что гипотеза о равенстве средних отвергнута, необходимо определить какая именно пара видов ответственна за такое поведение: для каких именно видов средние значения рассматриваемого параметра оказываются различными (значимо различаются).

In [198]:
import seaborn as sns
sns.load_dataset('iris').info()
sns.pairplot(sns.load_dataset('iris'), hue='species')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float64
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


<IPython.core.display.Javascript object>

<seaborn.axisgrid.PairGrid at 0x7fa89d35cf98>

### Последующий попарный анализ (нередко называют  post-hoc анализ)

Одним из подходов, который позволяет выполнить сравнительный тест и выявить пару "неравных средних",  является текст Тьюки (honest significant difference (HDS)-тест Тьюки)

In [210]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
res= pairwise_tukeyhsd(pd.np.array(sep_wids).ravel(), pd.np.array(irises_as_df['target']))

In [211]:
res.summary()

group1,group2,meandiff,lower,upper,reject
setosa,versicolor,-0.648,-0.8092,-0.4868,True
setosa,virginica,-0.444,-0.6052,-0.2828,True
versicolor,virginica,0.204,0.0428,0.3652,True


In [212]:
res.plot_simultaneous()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

**Вывод:** Любые из рассматриваемых видов имеют различия по параметру "sepal width (cm)"

## Двухфакторный дисперсионный анализ

Дисперсионный анализ: вложенная модель (данные взяты из книги "Handbook of Biological Statistics", John H. MacDonald)

<table class="centered-table">
<tbody><tr><th>Исследователь:</th><th colspan="3">Brad</th><th colspan="3">Janet</th></tr>
<tr><td>Испытуемая крыса:</td><td>Arnold</td><td>Ben</td><td>Charlie</td><td>Dave</td><td>Eddy</td><td>Frank</td></tr>
<tr><td>&nbsp;</td><td>1.119</td><td>1.045</td><td>0.9873</td><td>1.3883</td><td>1.3952</td><td>1.2574</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.2996</td><td>1.1418</td><td>0.9873</td><td>1.104</td><td>0.9714</td><td>1.0295</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.5407</td><td>1.2569</td><td>0.8714</td><td>1.1581</td><td>1.3972</td><td>1.1941</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.5084</td><td>0.6191</td><td>0.9452</td><td>1.319</td><td>1.5369</td><td>1.0759</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.6181</td><td>1.4823</td><td>1.1186</td><td>1.1803</td><td>1.3727</td><td>1.3249</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.5962</td><td>0.8991</td><td>1.2909</td><td>0.8738</td><td>1.2909</td><td>0.9494</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.2617</td><td>0.8365</td><td>1.1502</td><td>1.387</td><td>1.1874</td><td>1.1041</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.2288</td><td>1.2898</td><td>1.1635</td><td>1.301</td><td>1.1374</td><td>1.1575</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.3471</td><td>1.1821</td><td>1.151</td><td>1.3925</td><td>1.0647</td><td>1.294</td><td></td></tr>
<tr><td>&nbsp;</td><td>1.0206</td><td>0.9177</td><td>0.9367</td><td>1.0832</td><td>0.9486</td><td>1.4543</td><td></td></tr>
</tbody></table>


**Нулевые гипотезы для вложенной схемы**