In [131]:
import math
import numpy as np
import pandas as pd
from scipy import stats
from scipy import integrate
import scikit_posthocs as sp
import statsmodels.api as sm

Задание №1. Рассчитайте p-value и статистику с помощью соответствующего теста для зависимых выборок на данных Task 1.csv:
- Оба результата округлите до 3х знаков после запятой.
- Какой вывод можно сделать из полученных результатов?

Так как рассматривые выборки зависимы и имеют нормальное распределение (судя по представленному графику), то будем использовать T-тест для зависимых выборок.

In [132]:
task1 = pd.read_csv('data/Biostatistics_HW2_Task_1.csv')

result = stats.ttest_rel(task1.Time_point_1, task1.Time_point_2)
print('p-value: ', round(result.pvalue, 3))
print('statistic: ', round(result.statistic, 3))

p-value:  0.021
statistic:  -2.328


Так как p-value меньше 0.05, то мы можем считать, что две выборки имеют разное распределение.

Задание №2. Рассчитайте p-value и статистику с помощью соответствующего теста для зависимых выборок на данных Task 2.csv:
- Оба результата округлите до 3х знаков после запятой.
- Какой вывод можно сделать из полученных результатов?

Так как рассматривые выборки зависимы и не имеют нормального распределения (судя по представленному графику), то будем использовать тест Вилкоксона.

In [133]:
task2 = pd.read_csv('data/Biostatistics_HW2_Task_2.csv')

result = stats.wilcoxon(task2.Time_point_1, task2.Time_point_2)
print('p-value: ', round(result.pvalue, 3))
print('statistic: ', round(result.statistic, 3))

p-value:  0.413
statistic:  14751.0


Так как p-value больше 0.05, то мы можем считать, что две выборки имеют одинаковое распределение.

Задание №3. Рассчитайте p-value и статистику с помощью соответствующего теста для данных Task 3.csv:
- Оба результата округлите до 3х знаков после запятой.
- Какой вывод можно сделать из полученных результатов?

In [134]:
task3 = pd.read_csv('data/Biostatistics_HW2_Task_3.csv')
task3.head(5)

Unnamed: 0,Group_1,Group_2,Group_3,Group_4
0,-1.4944,7.0439,-7.4954,8.7465
1,0.3574,5.6963,-11.7362,10.1842
2,3.7011,6.7439,-14.145,11.3717
3,1.0644,2.9705,-8.5661,11.0441
4,-6.4899,7.4093,-8.4214,12.8535


Для попарных сравнений будем использовать метод posthoc_ttest из библиотеки scikit_posthocs:

In [135]:
sp.posthoc_ttest([task3.Group_1, task3.Group_2, task3.Group_3, task3.Group_4]).round(3)

Unnamed: 0,1,2,3,4
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,0.0,0.0,0.0,1.0


Так как все попарные p-value меньше 0.05, то мы можем считать, что все выборки имеют разное распределение относительно друг друга.

Задание №4. Если в предыдущем задании у вас получилось, что между группами есть различия, то проведите попарные сравнения, используя поправку Холма-Бонферрони.
- Оба результата округлите до 3х знаков после запятой.
- Какой вывод можно сделать из полученных результатов?

Примечание: для попарных сравнений лучше использовать метод scikit_posthocs.posthoc_ttest.

In [136]:
sp.posthoc_ttest([task3.Group_1, task3.Group_2, task3.Group_3, task3.Group_4], p_adjust='holm').round(3)

Unnamed: 0,1,2,3,4
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,0.0,0.0,0.0,1.0


Судя по всему, использование поправки Холма-Бонферрони никак не повлияло на результат. Так как все попарные p-value меньше 0.05, то мы можем считать, что все выборки действительно имеют разное распределение относительно друг друга.

Задание №5. Составьте таблицу сопряженности для данных Task 5.csv:

Примечание: в строках укажите город, а в столбцах — цвет машины.

In [137]:
task5 = pd.read_csv('data/Biostatistics_HW2_Task_5.csv')
crosstab = pd.crosstab(index=task5.City, columns=task5.Color)
crosstab

Color,Белый,Жёлтый,Зелёный,Красный,Синий,Сиреневый,Чёрный
City,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Лондон,1183,1241,1114,1188,1182,1151,1156
Москва,1178,1180,1251,1233,1182,1200,1193
Токио,1224,1162,1223,1224,1185,1163,1187


Задание №6. Проверьте гипотезу об отсутствии зависимости между городом и цветом машины на данных Task 5.csv
- Выберите подходящий тест, и в качестве ответа приведите статистику и p-value.
- Какой вывод можно сделать из полученных результатов?

Оба результата округлите до 3х знаков после запятой.

Так как у нас в качестве нулевой гипотезы рассматривается независимость данных, то мы можем проверить критерий хи-квадрат:

In [72]:
result = stats.chi2_contingency(crosstab)
print('p-value: ', result.pvalue.round(3))
print('statistic: ', result.statistic.round(3))

p-value:  0.382
statistic:  12.818


Так как p-value больше 0.05, то мы можем считать, что зависимости между цветом машины и городом нет.