**Тест Манна-Уитни,**

также известный как критерий Манна-Уитни U или U-тест, является непараметрическим статистическим тестом, используемым для сравнения двух независимых выборок. Он служит альтернативой t-тесту для независимых выборок, когда не выполняется предположение о нормальности распределения данных или равенстве дисперсий. Тест используется для определения, различаются ли две выборки статистически значимо по своим медианным значениям

In [1]:
from scipy.stats import mannwhitneyu

# Данные двух групп
group_a = [85, 78, 92, 88, 76]
group_b = [91, 82, 89, 77, 80]

# Выполнение теста Манна-Уитни
statistic, p_value = mannwhitneyu(group_a, group_b, alternative='two-sided')

# Вывод результатов
print(f"Статистика U: {statistic}")
print(f"p-значение: {p_value}")

# Интерпретация результатов
alpha = 0.05  # уровень значимости

if p_value < alpha:
    print("Отвергаем нулевую гипотезу: имеются статистически значимые различия между группами.")
else:
    print("Не отвергаем нулевую гипотезу: нет статистически значимых различий между группами.")


Статистика U: 12.0
p-значение: 1.0
Не отвергаем нулевую гипотезу: нет статистически значимых различий между группами.


#### Хи-квадрат

Критерий хи-квадрат (𝜒2) — это статистический тест, который используется для проверки гипотез о распределении категориальных данных. Он позволяет оценить, есть ли значимые различия между наблюдаемыми и ожидаемыми частотами в различных категориях.

Хи квадрат $ \chi^2 $ расчитывается   по формуле:

$$
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}
$$

где:
- $ O_i  $— это наблюдаемая частота,
- $  E_i  $— это ожидаемая частота,
- $ \sum(...)  $суммирует все полученные значения для каждой категории.


1. Строят таблицу сопряженности
2. Считают ожидаемое значение
3. считают хи-квадрат по формуле
4. сравнивают значения по таблице распределений при заданном количестве степеней свободы


Предположим, у нас есть таблица сопряженности, показывающая предпочтения напитков (чай или кофе) у мужчин и женщин. Мы хотим выяснить, существует ли зависимость между полом и предпочтениями в напитках.

In [4]:
import pandas as pd

# Создание данных
data = {
    'Чай': [30, 20, 50],
    'Кофе': [20, 30, 50],
    'Итого': [50, 50, 100]
}

# Индексы строк
index = ['Мужчины', 'Женщины', 'Итого']

# Создание DataFrame
df = pd.DataFrame(data, index=index)

# Вывод DataFrame
df


Unnamed: 0,Чай,Кофе,Итого
Мужчины,30,20,50
Женщины,20,30,50
Итого,50,50,100


In [6]:
# Преобразование DataFrame в массив numpy для расчёта хи-квадрат
observed = df.values

# Применение теста хи-квадрат
chi2, p, dof, expected = chi2_contingency(observed)

# Вывод результатов
alpha = 0.05  # уровень значимости

if p < alpha:
    print("Отвергаем нулевую гипотезу: существует статистически значимая зависимость между полом и предпочтением напитков.")
else:
    print("Не отвергаем нулевую гипотезу: нет статистически значимой зависимости между полом и предпочтением напитков.")


print(f"Статистика хи-квадрат: {chi2}")
print(f"p-значение: {p}")
print(f"Степени свободы: {dof}")
print("Ожидаемые частоты:")
print(expected)

Не отвергаем нулевую гипотезу: нет статистически значимой зависимости между полом и предпочтением напитков.
Статистика хи-квадрат: 4.0
p-значение: 0.40600584970983794
Степени свободы: 4
Ожидаемые частоты:
[[ 25.  25.  50.]
 [ 25.  25.  50.]
 [ 50.  50. 100.]]


#### ANOVA

ANOVA, или анализ дисперсии, — это метод, используемый для сравнения средних значений трех или более групп, чтобы определить, влияет ли независимая переменная на зависимую переменную. 

Частный случай линейной модели


1. Постановка гипотез
2. Расчет общей дисперсии данных и разделение её на компоненты: между группами и внутри групп.
3. Вычисление F-статистики как отношение дисперсии между группами к дисперсии внутри групп.

Допустим мы хотим понять какой тип диеты лучше для похудения

In [7]:
import pandas as pd
from scipy.stats import f_oneway
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Создание DataFrame с данными
data = pd.DataFrame({
    'weight_loss': [2.5, 3.0, 2.8, 3.2, 2.7, 3.0, 3.5, 3.2, 3.8, 3.1, 4.0, 4.5, 4.2, 4.8, 4.1],
    'diet': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C']
})

# Проведение однофакторного ANOVA с помощью scipy
anova_result = f_oneway(
    data[data['diet'] == 'A']['weight_loss'],
    data[data['diet'] == 'B']['weight_loss'],
    data[data['diet'] == 'C']['weight_loss']
)

print("Статистика F:", anova_result.statistic)
print("p-значение:", anova_result.pvalue)

# Проведение однофакторного ANOVA с помощью statsmodels для более детальной информации
model = ols('weight_loss ~ C(diet)', data=data).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

print(anova_table)


Статистика F: 29.797909407665532
p-значение: 2.2169786683477276e-05
            sum_sq    df          F    PR(>F)
C(diet)   5.701333   2.0  29.797909  0.000022
Residual  1.148000  12.0        NaN       NaN


F-статистика: Показывает отношение между вариацией внутри групп и между группами. Большие значения указывают на то, что вариация между группами значительно выше, чем внутри групп.

p-значение: Если p-значение меньше 0.05, мы отвергаем нулевую гипотезу о равенстве средних, что означает, что диеты оказывают различное влияние на потерю веса.