# Основы математической статистики
### Базовые понятия и методы проверки статистических гипотез

### Часть 3. Анализ качественных признаков

### Содержание:

1. Описание данных:
    * Нормальное распределение, выборочные оценки.
    * Проврка гипотез: ошибки первого и второго рода.
    * Статистические критерии, критерии согласия.
    * Чувствительность критерия.
2. Параметрические критерии:
    * Дисперсионный анализ.
    * Критерий Стьюдента.
    * Связанные выборки.
    * Множественные сравнения.
3. Анализ качественных признаков:
    * Z-критерий.
    * Таблицы сопряженности: критерий $\chi^2$.
    * Точный критерий Фишера.
4. Доверительные интервалы:
    * Построение доверительных интервалов.
    * Проверка гипотез с помощью доверительных интервалов.
5. Непараметрические критерии:
    * Критерий Манна—Уитни.
    * Критерий Уилкоксона.

<br>

<hr>

<br>

### Качественные признаки

Статистические процедуры, описанные ранее, предназначены для анализа количественных признаков. Однако очень многие признаки невозможно измерить числом. Например, можно быть либо мужчиной, либо женщиной, либо мертвым либо живым. Можно быть врачом, юристом, рабочим и так далее. Здесь мы имеем дело с **качественными признаками.** Эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение.

Рассмотрим понятие доли для описания качественных признаков. Пусть имеется совокупность (рассмотрим сначала генеральные совокупности) из $N$ объектов. При этом $M$ объектов обладают каким-то качественным признаком, которого нет у остальных $N-M$ объектов. Введем числовой признак $X$: у объектов совокупности, обладающих качественным признаком, он будет равен 1, а у объектов, не обладающих этим признаком, он будет равен 0. Тогда среднее значение $X$ равно:

$$ \mu = \frac{\sum_{i=1}^{N}X}{N} = \frac{1*M + 0*(N-M)}{N} = \frac{M}{N} = p, $$

где $p$ &ndash; доля объектов совокупности, обладающих данным признаком.

Используя такой подход, легко рассчитать стандартное отклонение совокупности:

$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X-\mu)^2}{N}} = \sqrt{\frac{M(1-p)^2 + (N-M)p^2}{N}} = \sqrt{p(1-p)^2 + (1-p)p^2} = \sqrt{p(1-p)}.$$

Теперь поговорит о выборочных оценках параметров распределения. Выборочная оценка доли $\hat{p}$ выражается аналогично среднему по совокупности, разве что $N$ и $M$ совокупности меняются на $n$ и $m$ выборки. Стандартное отклонение же определяется через выборочные доли. Оценка стандартной ошибки выглядит следующим образом:

$$ s_{\hat{p}} = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}. $$

Из центральной предельной теоремы вытекает, что при достаточно большом объеме выборки выборочная оценка $\hat{p}$ приближенно подчиняется нормальному распределению, имеющему среднее $p$ и стандартное отклонение $\sigma_{\hat{p}} = \frac{\sigma}{\sqrt{n}} $. Однако при значениях р, близких к 0 или 1, и при малом объеме выборки это не так. При какой численности выборки можно пользоваться приведенным способом оценки? Математическая статистика утверждает, что нормальное распределение служит хорошим приближением, если и $n\hat{p}$ и $n(1-\hat{p})$ превосходят 5 (иначе рекомендуется использовать биномиальное распределение).

### Z-критерий для долей

**Z-тест (z-критерий Фишера)** &mdash; класс методов статистической проверки гипотез (статистических критериев), основанных на нормальном распределении. С помощью данного критерия можно выполнять проверку равенства средних значений, однако этот метод не рассматривался (и не будет), так как требует знания дисперсии генеральной совокупности.

Что касается качественных признаков и выборочных долей, Z-критерий для этого случая определяется аналогично t-критерию для случая количественных признаков, однако после преобразований выглядит чуть по другому. Статистики критериев подчиняются стандартному нормальному распределению. Сформулируем одновыборочный и двувыборочный критерии.

**Одновыборочный:** пусть имеется одна группа размером $n$. Исследуется некоторый качественный признак, который обладают $m$ объектов. Необходимо проверить равенство выборочной доли $\hat{p} = \frac{m}{n}$ некоторому значению $p_0$. Тогда статистика записывается следующим образом:

$$ z = \frac{\hat{p} - p_0}{\sqrt{p_0 (1-p_0)}}\sqrt{n}, $$

условия применимости: $ np_0 > 10 $ и $ n(1-p_0) > 10$.

**Двувыборочный для несвязанных выборок:** пусть имеются две группы по $n_1$ и $n_2$ объектов в каждой. Исследуется некоторый качественный признак, которым обладают $m_1$ объектов первой группы и $m_2$ второй. Необходимо проверить равенство долей в обоих групах. Тогда статистика записывается следующим образом:

$$ z = \frac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{\hat{p}(1 - \hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, $$

где $\hat{p}_i = \frac{m_i}{n_i}$ &ndash; выборочная доля $i$-ой группы, $\hat{p}$ &ndash; объединенная доля:

$$ \hat{p} = \frac{m_1 + m_2}{n_1 + n_2}, $$

условия применимости: $ n_i\hat{p_i} > 5 $ и $ n_i(1-\hat{p_i}) > 5$.

Часто статистика дополняется поправкой Йейтса, учитывающее дискретный характер распределения качественных признаков:

$$ z = \frac{\left|\hat{p}_1 - \hat{p}_2\right| - \frac{1}{2}\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}{\sqrt{\hat{p}(1 - \hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, $$

**Двувыборочный для связанных выборок:** пусть имеется одна группа размером $n$. Исследуется некоторый качественный признак, который может появиться либо исчезнуть у объектов после проведения эксперимента. Введем следующие обозначения:
* Количество объектов, которые в течение эксперимента приобрели признак: $g$;
* Количество объектов, которые в течение эксперимента потеряли признак: $f$.

Необходимо проверить статистическую значимость изменений в группе. Тогда статистика записывается следующим образом:

$$ z = \frac{f - g}{\sqrt{f + g - \frac{(f - g)^2}{n}}},$$

условия применимости: $ n\hat{p} > 5 $ и $ n(1-\hat{p}) > 5$.

#### Пример

Пусть исследуется новая система антиспама в почтовом сервисе. Было разработано две модели: первая отклонила 204 из 300 недоброжелательных писем, вторая: 427 из 650. Требуется оценить, какая модель работает лучше.

Гипотезы формулируются следующим образом:
* $H_0:$ доля отклоненных писем у двух моделей одинакова;
* $H_1:$ доля отклоненных писем у второй модели выше (альтернатива типа "smaller").

In [1]:
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

In [2]:
refused = [204, 427]
total = [300, 650]
Z, p_z = proportions_ztest(refused, total, alternative='smaller')
print("Значение статистики: " + str(Z))
print("p-value: " + str(p_z))

Значение статистики: 0.7000789018373786
p-value: 0.7580609845056074


Отсюда приходим к выводу, что разичие между моделями не является статистически значимыми при уровне $\alpha=0.05$.

Теперь приведем пример применения критерия для связанных выборок. Исследуем изменение эффективности рекламного объявления в интернете при изменении его цвета. Анализируем по первым $n$ посетителям, если $i$-ый посетитель нажал на баннер, то записываем $1$, в противном случае $0$. Так два раза, до и после эксперимента, затем рассчитываем критерий и сравниваем с критическим значением.

* $H_0:$ доля нажатий по обеим баннерам одинакова;
* $H_1:$ доля нажатий по второму баннеру выше.

In [3]:
def proportions_ztest_rel(group_1, group_2):
    
    g, f = 0, 0
    for g_1, g_2 in zip(group_1, group_2):
        if g_1 == 0 and g_2 == 1:
            g += 1
        elif g_1 == 1 and g_2 == 0:
            f += 1
    
    Z = (f-g) / np.sqrt(f+g - ((f-g)**2) / len(group_1))
    p = stats.norm.cdf(Z)
    
    return Z, p

In [4]:
banner_clicks_old = [0,0,1,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1]
banner_clicks_new = [1,1,0,1,1,1,0,1,0,0,1,1,1,0,0,0,0,0,0,0,1,1,1,1]

Z_rel, p_z_rel = proportions_ztest_rel(banner_clicks_old, banner_clicks_new)
print("Значение статистики: " + str(Z_rel))
print("p-value: " + str(p_z_rel))

Значение статистики: -2.048366225996757
p-value: 0.02026206414325252


Принимаем альтернативную гипотезу, которая говорит о том, что на новый баннер пользователи кликают чаще, при уровне значимости $\alpha=0.05$.

### Таблицы сопряженности: критерий $\chi^2$

<br>

<br>

### Примечание

**Автор: Болгарин Максим. Физический факультет, МГУ, 2019г.**

Данной работой я хотел донести до начинающих программистов и аналитиков основы математической статистики на базовом и понятном для каждого уровне. Моей целью не было просто переписать информацию из учебников и интернет статей, а сгруппировать её в понятном и информативном виде.

#### Источники:
1. [Wikipedia](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)
2. [Стентон Гланц - Медико-биологическая статистика](https://yadi.sk/i/6A1LLMU78QqNPg)
3. [Кобзарь А. И. - Прикладная математическая статистика](https://yadi.sk/i/GDGalzNXL0HsMA)
4. [MachineLearning](http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7)