# Разведывательный анализ данных (Exploratory Data Analysis) #

## Статистические тесты ##

### Тест Шапиро-Уилка ###
#### Проверка нормальности распределения ####

In [1]:
import scipy.stats as stats

alpha = 0.05
data2 = [12, 8, 9, 10, 11, 12, 7, 12, 2, 10,
         3, 9, 18, 4, 11, 13, 13, 17, 14, 3,
         10, 2, 2, 7, 14, 8, 20, 5, 7, 10]
bulk_, p = stats.shapiro(data2)
print('p-value = %.2f' % (p))
if p <= alpha:
    print('Распределение не нормальное')
else:
    print('Распределение нормальное')

p-value = 0.41
Распределение нормальное


Тест хорошо работает на выборках до 5000 объектов. Если ***p-value*** теста больше уровня значимости **$\alpha$**, то мы считаем, что данные распределены нормально.

## Параметрические тесты ##

### Одновыборочный t-критерий (t-test) ###
#### Сравнение среднего значения признака с его заданным значением ####

**Основные входные параметры:**
```
    a — выборочные данные;
    popmean — ожидаемое среднее значение признака;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя).
```
**Примеры задач, когда может понадобиться использование теста:**

- Необходимо проверить, что среднее время, которое пользователи проводят на сайте, больше 5 минут.
- Необходимо установить, соответствуют ли химические показатели товара заявленным на упаковке.

In [3]:
import scipy.stats as stats

alpha = 0.05 
data3 = [41, 38, 40, 46, 40, 46, 41, 44, 43, 39,
         36, 41, 37, 45, 38, 45, 38, 48, 42, 34]

bulk_, p = stats.ttest_1samp(data3, popmean=40, alternative='greater')
print('p-value = {:.3f}'.format(p))
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.103
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


### Тесты Левена и Бартлетта ###
#### Проверка равенства дисперсии в группах выборки ####

Проверить равенство дисперсии в группах можно с помощью тестов Левена или Бартлетта, которые реализованы в функциях **`levene()`** и **`bartlett()`** модуля **`scipy.stats`**.

- Нулевая гипотеза обоих тестов утверждает, что дисперсии групп равны.
- На вход функции получают выборочные данные.
- На выход функции отдают p-значение.
- Тест можно применять, только если данные в обеих выборках распределены нормально.

Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

In [2]:
import scipy.stats as stats
import numpy as np

alpha = 0.05 
data_1 = np.array([41, 38, 40, 46, 40, 46, 41, 44, 43, 39,
                   36, 41, 37, 45, 38, 45, 38, 48, 42, 34])
data_2 = np.array([40, 39, 42, 46, 41, 46, 42, 45, 44, 42,
                   38, 42, 38, 46, 39, 46, 40, 41, 43, 36])

# тест Левена на равенство дисперсий
print('Тест на равенство дисперсий')
result = stats.levene(data_2, data_1)
p = result[1]
print(f'p-value = {p:.3f}')
if p <= alpha:
    print('Дисперсии не одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=False.')
else:
    print('Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.')

Тест на равенство дисперсий
p-value = 0.340
Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.


### Двухвыборочный t-критерий (t-test) ###
#### Сравнение среднего значения в двух независимых группах ####

**Основные входные параметры:**
```
    a, b — выборочные данные двух групп;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя);
    equal_var — равны ли дисперсии в группах (по умолчанию равны).
```
Порядок выборок в параметрах stats.ttest_ind важен: он должен соответствовать альтернативной гипотезе.

**Ограничения применения теста:**

    - Группы должны быть независимыми.
    - Перед использованием необходимо установить равенство (или неравенство) дисперсий в выборках. От этого зависит значение параметра equal_var.

Проверить равенство дисперсии в группах можно с помощью тестов Левена или Бартлетта, которые реализованы в функциях levene() и bartlett() модуля stats библиотеки scipy.

Тест можно применять, только если данные в обеих выборках распределены нормально. Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста (при соблюдении всех его ограничений):**

- Перед испытанием нового фитнес-тренажёра проверяют, что рост и вес в двух группах людей одинаков.
- Есть две выборки студентов из двух университетов. Необходимо узнать, есть ли статистически значимая разница в среднем количестве часов в неделю, которые студенты этих университетов тратят на учёбу.

In [4]:
import scipy.stats as stats
import numpy as np

alpha = 0.05 
data_1 = np.array([41, 38, 40, 46, 40, 46, 41, 44, 43, 39,
                   36, 41, 37, 45, 38, 45, 38, 48, 42, 34])
data_2 = np.array([40, 39, 42, 46, 41, 46, 42, 45, 44, 42,
                   38, 42, 38, 46, 39, 46, 40, 41, 43, 36])

# тест Левена на равенство дисперсий
print('Тест на равенство дисперсий')
result = stats.levene(data_2, data_1)
p = result[1]
print(f'p-value = {p:.3f}')
if p <= alpha:
    print('Дисперсии не одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=False.')
else:
    print('Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.')

# тест на сравнение средних в группах
print('\nТест на равенство средних')
bulk_, p = stats.ttest_ind(data_2, data_1, alternative='greater', equal_var=True)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print('p-значение больше, чем заданный уровень значимости {alpha:.2f}. Нет оснований отвергнуть нулевую гипотезу.')

Тест на равенство дисперсий
p-value = 0.340
Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.

Тест на равенство средних
p-value = 0.260
p-значение больше, чем заданный уровень значимости {alpha:.2f}. Нет оснований отвергнуть нулевую гипотезу.


### Однофакторный дисперсионный анализ (ANOVA) ###
#### Сравнение средних значений в более чем двух независимых группах ####

**Основные входные параметры:**
```
    sample1, sample2, … — выборочные данные групп.
```
**Ограничения применения теста:**

    - Группы должны быть независимыми.
    - Тест можно выполнять на группах с равной дисперсией. Проверку равенства дисперсий также можно выполнить с помощью тестов Левена или Бартлетта. Если дисперсии не равны, необходимо обратиться к непараметрическим тестам.
    - Тест можно применять, только если данные в обеих выборках распределены нормально. Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста (при соблюдении всех его ограничений):**

- Проводится эксперимент, в котором изучают влияние различных видов удобрений на урожайность растений. В эксперименте участвуют несколько выборок растений, к которым применяют разные виды удобрений (более двух).
- Проводится исследование, в котором изучают влияние различных диет на уровень холестерина у людей. В исследовании участвуют три группы людей, каждая из которых придерживается определённой диеты.

In [5]:
import scipy.stats as stats

alpha = 0.05
group_1 = [31, 38, 30, 46, 40, 36, 38, 44, 43, 39,
           36, 41, 37, 35, 38, 35, 38, 38, 42, 34]
group_2 = [36, 45, 41, 41, 35, 32, 34, 42, 48, 43,
           41, 39, 35, 34, 52, 42, 44, 43, 35, 43]
group_3 = [35, 37, 39, 49, 45, 26, 46, 32, 49, 41,
           48, 41, 47, 37, 45, 41, 43, 38, 40, 43]

# тест Левена на равенство дисперсий
print('Тест на равенство дисперсий')
result = stats.levene(group_1, group_2, group_3)
p = result[1]
print(f'p-value = {p:.3f}')
if p <= alpha:
    print('Дисперсии не одинаковы, нужно использовать непараметрический тест')
else:
    print('Дисперсии одинаковы, мы можем использовать тест ANOVA')

# тест на сравнение средних в группах
print('\nТест на равенство средних')
bulk_, p = stats.f_oneway(group_1, group_2, group_3)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

Тест на равенство дисперсий
p-value = 0.303
Дисперсии одинаковы, мы можем использовать тест ANOVA

Тест на равенство средних
p-value = 0.141
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


### Парный t-критерий (t-test) ###
#### Сравнение средних значений в двух зависимых группах ####

**Основные входные параметры:**
```
    a, b — выборочные данные двух зависимых групп;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя).
```
**Ограничения применения теста:**

    - Тест можно применять, только если данные в обеих выборках распределены нормально.
    - Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста:**

- Требуется оценить эффективность нового лекарства, сравнивая показатели здоровья (пульса / давления / уровня сахара в крови) одних и тех же пациентов до и после его применения.
- Требуется оценить эффективность рекламной кампании, сравнивая показатели продаж до и после её запуска.

In [6]:
import scipy.stats as stats
import numpy as np

alpha = 0.05 
data_1 = np.array([41, 34, 35, 47, 39, 42, 36, 43, 48, 38,
                   36, 47, 39, 32, 45, 40, 36, 39, 42, 46])
data_2 = np.array([45, 42, 40, 43, 44, 41, 43, 39, 45, 45,
                   40, 43, 41, 42, 41, 41, 43, 46, 45, 42])

# тест
bulk_, p = stats.ttest_rel(data_2, data_1, alternative='greater')
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.023
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


### Однофакторный дисперсионный анализ (ANOVA) с повторными измерениями ###
#### Сравнение средних значений в более чем двух зависимых группах ####

**Основные входные параметры:**
```
    data — датафрейм с выборочными данными (три колонками: id группы, id объекта, значение признака);
    within — название колонки с id группы;
    subject — название колонки с id объекта;
    depvar — название колонки со значением признака.
```
**Ограничения применения теста:**

    - Тест можно применять, только если данные в обеих выборках распределены нормально.
    - Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста:**

- Требуется оценить эффективность нового лекарства, сравнивания показатели здоровья одних и тех же пациентов до его приёма и через каждую неделю после начала приёма (количество периодов — более двух).
- Требуется изучать влияние нового рекламного материала на покупательское поведение клиентов ежедневно на протяжении недели.

In [7]:
import numpy as np
import pandas as pd
from statsmodels.stats.anova import AnovaRM

alpha = 0.05 
data = pd.DataFrame({'group': np.repeat(['Заряд', 'Планета', 'Энергия'], 5),
                     'object_id': np.tile([1, 2, 3, 4, 5], 3),
                     'value': [36, 45, 41, 41, 35,
                               32, 34, 42, 48, 43,
                               41, 39, 35, 34, 52]
                    })

# тест
print(AnovaRM(data=data, depvar='value', subject='object_id', within=['group']).fit())

              Anova
      F Value Num DF Den DF Pr > F
----------------------------------
group  0.0100 2.0000 8.0000 0.9900



## Непараметрические тесты ##

### Критерий знаков (для одной группы) ###
#### Сравнение значения медианы признака с заданным значением. Это непараметрический аналог одновыборочного t-критерия. ####

**Основные входные параметры:**
```
    samp — выборочные данные;
    mu0 — ожидаемое значение медианы признака.
```
**Пример задачи, когда может понадобиться использование теста:**

- Требуется проверить, соответствует ли время ответа оператора времени, заявленному в программе лояльности (время ответа, как правило, не подчиняется нормальному закону).

In [1]:
from statsmodels.stats.descriptivestats import sign_test

alpha = 0.05 
data = [55, 53, 60, 49, 45, 57, 46, 53, 59, 53,
        53, 55, 42, 41, 59, 43, 47, 60, 50, 57,
        59, 56, 52, 48, 59, 53, 59, 50, 59, 59]

# тест
bulk_, p = sign_test(data, 60)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.000
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


### U-критерий Манна-Уитни ###
#### Оценка различия распределений признака в двух независимых группах. Это непараметрический аналог двухвыборочного t-критерия. ####

**Основные входные параметры:**
```
    x, y — выборочные данные двух групп;
    alternative — вид альтернативной гипотезы:
         ‘two-sided’ (двусторонняя, используется по умолчанию);
         ‘less’ (левосторонняя);
         ‘greater’ (правосторонняя).
```
**Метод основан на следующей процедуре:**

1. Две выборки объединяют и упорядочивают в порядке возрастания признака.
2. Определяют, равномерно ли распределены объекты каждой группы в упорядоченном списке.
    a. Если объекты одной из групп сконцентрированы в одной из частей списка, то распределения признаков неодинаковы.

**Примеры задач, когда может понадобиться использование теста:**

- Требуется сравнить распределение зарплат выпускников университета А с зарплатой пяти выпускников университета Б (распределение зарплаты, как правило, не является нормальным).
- Необходимо узнать, различаются ли распределения потери веса для двух групп: для людей, использующих диету А, и для людей, использующих диету Б (потеря веса, как правило, не распределяется нормально).

In [2]:
import scipy.stats as stats

alpha = 0.05 
data_1 = [55, 53, 60, 49, 45, 57, 46, 53, 59, 53,
          53, 55, 42, 41, 59, 43, 47, 60, 50, 57,
          59, 56, 52, 48, 59, 53, 59, 50, 59, 59]
data_2 = [72, 80, 66, 72, 75, 71, 73, 71, 75, 68,
          63, 68, 62, 65, 77, 66, 67, 62, 60, 74,
          61, 67, 61, 63, 62, 79, 61, 63, 62, 63]

# тест
bulk_, p = stats.mannwhitneyu(data_1, data_2)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.000
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


### Критерий Уилкоксона ###
#### Оценка различия распределений признака в двух зависимых группах. Это непараметрический аналог парного t-критерия. ####

**Основные входные параметры:**
```
    x, y — выборочные данные двух групп;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя).
```
**Этот тест аналогичен критерию знаков (для одной группы).**

**Примеры задач, когда может понадобиться использование теста:**

- Необходимо сравнить два метода обучения, сравнив успеваемость студентов до и после использования каждого из методов (успеваемость не распределена нормально).
- Требуется оценить различия в затратах на производство продукта до и после обновления технологий (затраты не подчиняются нормальному закону).

In [6]:
import scipy.stats as stats

alpha = 0.05 
data_1 = [114, 112, 115, 124, 101, 108, 104, 109, 103, 115,
          100, 129, 120, 129, 117, 125, 112, 105, 128, 107,
          120, 108, 129, 100, 116, 105, 128, 128, 120, 106]
data_2 = [71, 97, 71, 97, 83, 90, 83, 94, 88, 76,
          79, 99, 82, 85, 93, 78, 76, 87, 73, 72,
          89, 89, 71, 86, 78, 93, 86, 95, 83, 73]

# тест
bulk_, p = stats.wilcoxon(data_2, data_1, alternative = 'less')
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.000
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


### Критерий Краскела-Уоллиса (однофакторный дисперсионный анализ на рангах) ###
#### Обобщение U-критерия Манна-Уитни на случай нескольких групп. Оценка различия медиан признака в двух и более независимых группах. Это непараметрический аналог ANOVA. ####

**Основные входные параметры:**
```
    sample1, sample2, … — выборочные данные групп.
```
**Примеры задач, когда может понадобиться использование теста:**

- Необходимо сравнить распределения стоимости заказов в нескольких городах. Чтобы избежать влияния выбросов, вместо сравнения средних значений используют ранги.
- Требуется сравнить распределения стоимости жилья в разных районах города. Чтобы учесть различия в распределении стоимости, вместо сравнения средних значений используют ранги.

In [4]:
import scipy.stats as stats

alpha = 0.05 
data_1 = [106, 96, 105, 119, 91, 118, 108, 98, 103, 102,
          98, 97, 104, 100, 94, 94, 98, 103, 95, 93,
          118, 91, 96, 115, 119, 111, 102, 118, 91, 98 ]
data_2 = [96, 95, 102, 103, 96, 120, 97, 112, 108, 90,
          99, 93, 91, 91, 119, 95, 110, 108, 117, 99,
          100, 99, 119, 98, 101, 95, 118, 110, 114, 116]
data_3 = [99, 106, 92, 97, 98, 95, 119, 120, 116, 93,
          102, 109, 98, 99, 100, 113, 91, 96, 119, 96,
          95, 112, 111, 110, 102, 112, 105, 93, 111, 111]

# тест
bulk_, p = stats.kruskal(data_1, data_2, data_3)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.837
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


### Критерий Фридмана ###
#### Оценка различия распределений признака в двух и более зависимых группах. Это непараметрический аналог парного ANOVA с повторными измерениями. ####

**Основные входные параметры:**
```
    sample1, sample2, … — выборочные данные групп.
````

In [5]:
import scipy.stats as stats

alpha = 0.05 
data_1 = [113, 115, 108, 104, 107, 96, 114, 103, 103, 120,
          92, 103, 120, 100, 110, 106, 112, 99, 118, 113,
          102, 94, 92, 109, 91, 113, 95, 107, 110, 103]
data_2 = [89, 80, 95, 77, 82, 98, 84, 83, 73, 93,
          89, 78, 90, 73, 83, 73, 84, 90, 75, 75,
          86, 88, 72, 72, 96, 75, 87, 99, 80, 82]
data_3 = [62, 84, 67, 71, 64, 89, 65, 70, 86, 77,
          84, 81, 89, 68, 87, 70, 70, 61, 82, 79,
          60, 62, 88, 61, 76, 87, 79, 90, 77, 65]

# тест
bulk_, p = stats.friedmanchisquare(data_1, data_2, data_3)
print(f'p-value = {p:.3f}'.format(p))
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.000
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


## Статистические тесты для категориальных признаков ##

### Критерий $\chi^2$ (хи-квадрат) ###
#### Определение связи между двумя категориальными переменными. Это одновыборочный тест: анализируется взаимосвязь между двумя признаками объектов одной выборки. ####

**Основные входные параметры:**
```
    observed — таблица сопряжённости для двух категориальных переменных.
```
**Таблица сопряжённости — это средство представления совместного распределения двух переменных, в котором:**

- строки соответствуют возможным значениям первого признака;
- столбцы соответствуют возможным значениям второго признака;
- значения ячеек — это количество объектов в выборке с соответствующими значениями первого и второго признаков.

Условие применимости критерия хи-квадрат&nbsp;&mdash; наличие как минимум пяти объектов в каждой ячейке. Если это условие не выполняется, необходимо обратиться к **точному критерию Фишера**.

Таблицу сопряжённости можно построить с помощью функции **`pandas.crosstab`** библиотеки `Pandas`. На вход функции подаются два списка со значениями первого и второго признаков, для которых необходимо построить таблицу сопряжённости.

**Бизнес-задача:**

Оператор сотовой связи хочет узнать, есть ли связь между тарифом, который выбрал клиент, и наличием у него детей. Были собраны необходимые данные по 39 случайным клиентам. Уровень значимости необходимо взять равным 0.05.

**Гипотезы:**

- Нулевая гипотеза: признаки независимы.
- Альтернативная гипотеза: признаки взаимосвязаны.


In [7]:
import scipy.stats as stats
import pandas as pd

alpha = 0.05 
data = pd.read_csv('data/cat_variables_tarif_children.csv')

# вычисление таблицы сопряжённости
table = pd.crosstab(data['Тариф'], data['Наличие детей'])

# тест
bulk1_, p, bulk2_, bulk3_ = stats.chi2_contingency(table)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.373
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


### Критерий Мак-Немара ###
#### Двухвыборочный тест для связанных выборок, который позволяет сравнить бинарные признаки ####

**Основные входные параметры:**
```
    table — таблица сопряжённости размера 2х2.
```
**Бизнес-задача:**

Оператор сотовой связи хочет увеличить долю клиентов, которые пользуются мобильным приложением. Для этого провели соответствующую рекламную кампанию. Необходимо узнать, изменилась ли доля клиентов, пользующихся приложением, после проведения рекламной кампании. Были собраны данные об использовании приложения по 30 случайным клиентам до и после рекламной кампании. Уровень значимости необходимо взять равным 0.05.

**Гипотезы:**

- Нулевая гипотеза: после просмотра рекламы доля клиентов, которые пользуются приложением, не изменилась.
- Альтернативная гипотеза: после просмотра рекламы доля клиентов, которые пользуются приложением, изменилась.


In [8]:
from statsmodels.stats.contingency_tables import mcnemar
import pandas as pd

alpha = 0.05 
data = pd.read_csv('data/cat_variables_usage.csv')

# вычисление таблицы сопряжённости
table = pd.crosstab(data['До'], data['После'])

# тест
res = mcnemar(table)
# извлечение значения p-value из результатов теста
p = res.pvalue
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.013
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


In [13]:
from statsmodels.stats.contingency_tables import mcnemar
import pandas as pd

alpha = 0.05
data = pd.DataFrame([['Есть', 'Есть'], ['Есть', 'Нет'], ['Нет', 'Есть'], ['Нет', 'Есть'],
                     ['Нет', 'Нет'], ['Есть', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Есть'],
                     ['Нет', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Есть'], ['Нет', 'Есть'],
                     ['Есть', 'Есть'], ['Нет', 'Есть'], ['Нет','Нет'], ['Нет', 'Нет'],
                     ['Нет', 'Нет'], ['Есть', 'Нет'], ['Есть', 'Есть'], ['Нет', 'Нет'],
                     ['Нет', 'Есть'], ['Есть', 'Нет'], ['Есть', 'Есть'], ['Нет', 'Нет'],
                     ['Есть', 'Есть'], ['Нет', 'Есть'], ['Есть', 'Есть'], ['Нет', 'Нет'],
                     ['Нет', 'Есть'], ['Нет', 'Нет']],
                    columns=['Старая форма', 'Новая форма'])
display(data.head())
table = pd.crosstab(data['Старая форма'], data['Новая форма'])
display(table)

res = mcnemar(table)
p = res.pvalue
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

Unnamed: 0,Старая форма,Новая форма
0,Есть,Есть
1,Есть,Нет
2,Нет,Есть
3,Нет,Есть
4,Нет,Нет


Новая форма,Есть,Нет
Старая форма,Unnamed: 1_level_1,Unnamed: 2_level_1
Есть,7,3
Нет,12,8


p-value = 0.035
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.
