In [1]:
import numpy as np
from scipy.stats import f

# Дисперсионный анализ
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях.

## Однофакторный дисперсионный анализ
Пусть на значения зависимой переменной влияет только один фактор, он может принимать k >= 2 значений. Будем считать, что дисперсии выборок одинаковы, а матожидание необходимо найти.
Посчитаем следующие значения:
$$Q_1 = \sum_{j=1}^k\sum_{i=1}^{n_j}{(x_{ij} - \bar{x_j})^2}$$, где $n_j$ - длина выборки j, $\bar{x_j}$ - среднее значение выборки j, а всего есть k выборок (могут быть разной длины).
$$Q_2 = \sum_{j=1}^k{n_j (\bar{x_j} - \bar{x})^2}$$, где $\bar{x}$ - общее среднее всех выборок, а $n_j$ - длина соответствующей выборки j.

Тогда $Q_1$ равно точечной оценке дисперсии всех выборок (они равны), а $Q_2$ - оценкой дисперсии, но только в случае, если выполняется нулевая гипотеза.  

Тогда составим следующую статистику: $$F = \frac{Q_2 / (k-1)}{Q_1 / (N-k)}$$, где k и N - количество выборок и общее количество элементов в них (суммарно) соответственно, а $Q_1$ и $Q_2$ - статистики, вычисленные на предыдущем шаге.  
Такая статистика будет иметь распределение Фишера с (k-1, N-k) степенями свободы, если выполняется нулевая гипотеза, а в случае невыполнения нулевой гипотезы, ее значение будет возрастать. Следовательно, критическая область будет равна следующему интервалу: $$V_k = (u_{1-\alpha, k-1, N-k}; +\infty)$$, а p-value = $1 - F_{k-1, N-k}(F_В)$, где $F_В$ - выборочное значение статистики F.  

Если выборочное значение статистики попадает в критическую область (или p-value меньше заданной величины), то считаем, что фактор влияет на матожидание зависимой переменной.

#### Пример
Время химической реакции при различном содержании катализатора распределилось следующим образом:
* 05%: 5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9
* 10%: 4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4, 5.6, 5.2
* 15%: 8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1

Выборки получены из нормально распределенных генеральных совокупностей с равными дисперсиями. Проверить гипотезу о равенстве средних. Уровень значимости принять равным 0.1.

In [2]:
alpha = 0.1

a1 = np.array([5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9])
a2 = np.array([4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4, 5.6, 5.2])
a3 = np.array([8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1])

# вычисляем общую выборку, общую длину и общее среднее
k = 3
A = np.concatenate([a1, a2, a3])
N = len(A)
m = A.mean()

# задаем распределение Фишера, которое будет использоваться
f_local = f(k - 1, N - k)

a1_d = sum((a1 - a1.mean())**2)
a2_d = sum((a2 - a2.mean())**2)
a3_d = sum((a3 - a3.mean())**2)

Q1 = a1_d + a2_d + a3_d
print(f"Q1 = {Q1}")

Q2 = \
    len(a1) * (m - a1.mean())**2 + \
    len(a2) * (m - a2.mean())**2 + \
    len(a3) * (m - a3.mean())**2
print(f"Q2 = {Q2}")

Fv = (Q2 / (k - 1)) / (Q1 / (N - k))
print(f"Выборочное значение статистики: {Fv}")
print(f"Критическая область: ({f_local.ppf(1-alpha)}; +inf)")
print(f"p-value: {1 - f_local.cdf(Fv)}")

Q1 = 11.951499999999998
Q2 = 37.08349999999997
Выборочное значение статистики: 44.991068066769834
Критическая область: (2.4954833142354644; +inf)
p-value: 1.2890964962153362e-09


### Метод линейных контрастов
Метод линейных контрастов позволяет узнать, матожидание каких именно генеральных совокупностей различаются (если однофакторный анализ показал, что они различны).

В общем, он есть, мне лень писать.