# Разведывательный анализ данных (Exploratory Data Analysis) #

## Статистические тесты ##

### Тест Шапиро-Уилка ###
#### (Проверка нормальности распределения) ####

In [1]:
import scipy.stats as stats

alpha = 0.05
data2 = [12, 8, 9, 10, 11, 12, 7, 12, 2, 10, 3, 9, 18, 4, 11, 13, 13, 17, 14, 3, 10, 2, 2, 7, 14, 8, 20, 5, 7, 10]
bulk_, p = stats.shapiro(data2)
print('p-value = %.2f' % (p))
if p <= alpha:
    print('Распределение не нормальное')
else:
    print('Распределение нормальное')

p-value = 0.41
Распределение нормальное


Тест хорошо работает на выборках до 5000 объектов. Если ***p-value*** теста больше уровня значимости **$\alpha$**, то мы считаем, что данные распределены нормально.

## Параметрические тесты ##

### Одновыборочный t-критерий (t-test) ###
#### Сравнение среднего значения признака с его заданным значением ####

**Основные входные параметры:**
```
    a — выборочные данные;
    popmean — ожидаемое среднее значение признака;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя).
```
**Примеры задач, когда может понадобиться использование теста:**

    - Необходимо проверить, что среднее время, которое пользователи проводят на сайте, больше 5 минут.
    - Необходимо установить, соответствуют ли химические показатели товара заявленным на упаковке.

In [3]:
import scipy.stats as stats

alpha = 0.05 
data3 = [41, 38, 40, 46, 40, 46, 41, 44, 43, 39, 36, 41, 37, 45, 38, 45, 38, 48, 42, 34]

bulk_, p = stats.ttest_1samp(data3, popmean=40, alternative='greater')
print('p-value = {:.3f}'.format(p))
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.103
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


### Тесты Левена и Бартлетта ###
#### Проверка равенства дисперсии в группах выборки ####

Проверить равенство дисперсии в группах можно с помощью тестов Левена или Бартлетта, которые реализованы в функциях **`levene()`** и **`bartlett()`** модуля **`scipy.stats`**.

- Нулевая гипотеза обоих тестов утверждает, что дисперсии групп равны.
- На вход функции получают выборочные данные.
- На выход функции отдают p-значение.
- Тест можно применять, только если данные в обеих выборках распределены нормально.

Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

In [2]:
import scipy.stats as stats
import numpy as np

alpha = 0.05 
data_1 = np.array([41,38,40,46,40,46,41,44,43,39,36,41,37,45,38,45,38,48,42,34])
data_2 = np.array([40,39,42,46,41,46,42,45,44,42,38,42,38,46,39,46,40,41,43,36])

# тест Левена на равенство дисперсий
print('Тест на равенство дисперсий')
result = stats.levene(data_2, data_1)
p = result[1]
print(f'p-value = {p:.3f}')
if p <= alpha:
    print('Дисперсии не одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=False.')
else:
    print('Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.')

Тест на равенство дисперсий
p-value = 0.340
Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.


### Двухвыборочный t-критерий (t-test) ###
#### Сравнение среднего значения в двух независимых группах ####

**Основные входные параметры:**
```
    a, b — выборочные данные двух групп;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя);
    equal_var — равны ли дисперсии в группах (по умолчанию равны).
```
Порядок выборок в параметрах stats.ttest_ind важен: он должен соответствовать альтернативной гипотезе.

**Ограничения применения теста:**

    - Группы должны быть независимыми.
    - Перед использованием необходимо установить равенство (или неравенство) дисперсий в выборках. От этого зависит значение параметра equal_var.

Проверить равенство дисперсии в группах можно с помощью тестов Левена или Бартлетта, которые реализованы в функциях levene() и bartlett() модуля stats библиотеки scipy.

Тест можно применять, только если данные в обеих выборках распределены нормально. Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста (при соблюдении всех его ограничений):**

    - Перед испытанием нового фитнес-тренажёра проверяют, что рост и вес в двух группах людей одинаков.
    - Есть две выборки студентов из двух университетов. Необходимо узнать, есть ли статистически значимая разница в среднем количестве часов в неделю, которые студенты этих университетов тратят на учёбу.

In [4]:
import scipy.stats as stats
import numpy as np

alpha = 0.05 
data_1 = np.array([41,38,40,46,40,46,41,44,43,39,36,41,37,45,38,45,38,48,42,34])
data_2 = np.array([40,39,42,46,41,46,42,45,44,42,38,42,38,46,39,46,40,41,43,36])

# тест Левена на равенство дисперсий
print('Тест на равенство дисперсий')
result = stats.levene(data_2, data_1)
p = result[1]
print(f'p-value = {p:.3f}')
if p <= alpha:
    print('Дисперсии не одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=False.')
else:
    print('Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.')

# тест на сравнение средних в группах
print('\nТест на равенство средних')
bulk_, p = stats.ttest_ind(data_2, data_1, alternative='greater', equal_var=True)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print('p-значение больше, чем заданный уровень значимости {alpha:.2f}. Нет оснований отвергнуть нулевую гипотезу.')

Тест на равенство дисперсий
p-value = 0.340
Дисперсии одинаковы, в stats.ttest_ind нужно использовать параметр equal_var=True.

Тест на равенство средних
p-value = 0.260
p-значение больше, чем заданный уровень значимости {alpha:.2f}. Нет оснований отвергнуть нулевую гипотезу.


### Однофакторный дисперсионный анализ (ANOVA) ###
#### Сравнение средних значений в более чем двух независимых группах ####

**Основные входные параметры:**
```
    sample1, sample2, … — выборочные данные групп.
```
**Ограничения применения теста:**

    - Группы должны быть независимыми.
    - Тест можно выполнять на группах с равной дисперсией. Проверку равенства дисперсий также можно выполнить с помощью тестов Левена или Бартлетта. Если дисперсии не равны, необходимо обратиться к непараметрическим тестам.
    - Тест можно применять, только если данные в обеих выборках распределены нормально. Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста (при соблюдении всех его ограничений):**

    - Проводится эксперимент, в котором изучают влияние различных видов удобрений на урожайность растений. В эксперименте участвуют несколько выборок растений, к которым применяют разные виды удобрений (более двух).
    - Проводится исследование, в котором изучают влияние различных диет на уровень холестерина у людей. В исследовании участвуют три группы людей, каждая из которых придерживается определённой диеты.

In [5]:
import scipy.stats as stats

alpha = 0.05
group_1 = [31, 38, 30, 46, 40, 36, 38, 44, 43, 39, 36, 41, 37, 35, 38, 35, 38, 38, 42, 34]
group_2 = [36, 45, 41, 41, 35, 32, 34, 42, 48, 43, 41, 39, 35, 34, 52, 42, 44, 43, 35, 43]
group_3 = [35, 37, 39, 49, 45, 26, 46, 32, 49, 41, 48, 41, 47, 37, 45, 41, 43, 38, 40, 43]

# тест Левена на равенство дисперсий
print('Тест на равенство дисперсий')
result = stats.levene(group_1, group_2, group_3)
p = result[1]
print(f'p-value = {p:.3f}')
if p <= alpha:
    print('Дисперсии не одинаковы, нужно использовать непараметрический тест')
else:
    print('Дисперсии одинаковы, мы можем использовать тест ANOVA')

# тест на сравнение средних в группах
print('\nТест на равенство средних')
bulk_, p = stats.f_oneway(group_1, group_2, group_3)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

Тест на равенство дисперсий
p-value = 0.303
Дисперсии одинаковы, мы можем использовать тест ANOVA

Тест на равенство средних
p-value = 0.141
p-значение больше, чем заданный уровень значимости 0.05. У нас нет оснований отвергнуть нулевую гипотезу.


### Парный t-критерий (t-test) ###
#### Сравнение средних значений в двух зависимых группах ####

**Основные входные параметры:**
```
    a, b — выборочные данные двух зависимых групп;
    alternative — вид альтернативной гипотезы:
        ‘two-sided’ (двусторонняя, используется по умолчанию);
        ‘less’ (левосторонняя);
        ‘greater’ (правосторонняя).
```
**Ограничения применения теста:**

    - Тест можно применять, только если данные в обеих выборках распределены нормально.
    - Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста:**

    - Требуется оценить эффективность нового лекарства, сравнивая показатели здоровья (пульса / давления / уровня сахара в крови) одних и тех же пациентов до и после его применения.
    - Требуется оценить эффективность рекламной кампании, сравнивая показатели продаж до и после её запуска.

In [6]:
import scipy.stats as stats
import numpy as np

alpha = 0.05 
data_1 = np.array([41, 34, 35, 47, 39, 42, 36, 43, 48, 38, 36, 47, 39, 32, 45, 40, 36, 39, 42, 46])
data_2 = np.array([45, 42, 40, 43, 44, 41, 43, 39, 45, 45, 40, 43, 41, 42, 41, 41, 43, 46, 45, 42])

# тест
bulk_, p = stats.ttest_rel(data_2, data_1, alternative='greater')
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.023
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.


### Однофакторный дисперсионный анализ (ANOVA) с повторными измерениями ###
#### Сравнение средних значений в более чем двух зависимых группах ####

**Основные входные параметры:**
```
    data — датафрейм с выборочными данными (три колонками: id группы, id объекта, значение признака);
    within — название колонки с id группы;
    subject — название колонки с id объекта;
    depvar — название колонки со значением признака.
```
**Ограничения применения теста:**

    - Тест можно применять, только если данные в обеих выборках распределены нормально.
    - Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

**Примеры задач, когда может понадобиться использование теста:**

    - Требуется оценить эффективность нового лекарства, сравнивания показатели здоровья одних и тех же пациентов до его приёма и через каждую неделю после начала приёма (количество периодов — более двух).
    - Требуется изучать влияние нового рекламного материала на покупательское поведение клиентов ежедневно на протяжении недели.

In [7]:
import numpy as np
import pandas as pd
from statsmodels.stats.anova import AnovaRM

alpha = 0.05 
data = pd.DataFrame({'group': np.repeat(['Заряд', 'Планета', 'Энергия'], 5),
                     'object_id': np.tile([1, 2, 3, 4, 5], 3),
                     'value': [36, 45, 41, 41, 35, 32, 34, 42, 48, 43, 41, 39, 35, 34, 52]
                    })

# тест
print(AnovaRM(data=data, depvar='value', subject='object_id', within=['group']).fit())

              Anova
      F Value Num DF Den DF Pr > F
----------------------------------
group  0.0100 2.0000 8.0000 0.9900



## Непараметрические тесты ##

### Критерий знаков (для одной группы) ###
#### Сравнение значения медианы признака с заданным значением. Это непараметрический аналог одновыборочного t-критерия. ####

**Основные входные параметры:**
```
    samp — выборочные данные;
    mu0 — ожидаемое значение медианы признака.
```
**Пример задачи, когда может понадобиться использование теста:**

    - Требуется проверить, соответствует ли время ответа оператора времени, заявленному в программе лояльности (время ответа, как правило, не подчиняется нормальному закону).

In [1]:
from statsmodels.stats.descriptivestats import sign_test

alpha = 0.05 
data = [55, 53, 60, 49, 45, 57, 46, 53, 59, 53, 53, 55, 42, 41, 59, 43, 47, 60, 50, 57, 59, 56, 52, 48, 59, 53, 59, 50, 59, 59]

# тест
bulk_, p = sign_test(data, 60)
print(f'p-value = {p:.3f}')
if p <= alpha:
    print(f'p-значение меньше, чем заданный уровень значимости {alpha:.2f}. Отвергаем нулевую гипотезу.')
else:
    print(f'p-значение больше, чем заданный уровень значимости {alpha:.2f}. У нас нет оснований отвергнуть нулевую гипотезу.')

p-value = 0.000
p-значение меньше, чем заданный уровень значимости 0.05. Отвергаем нулевую гипотезу.
