# Установка библиотек

In [1]:
import pandas as pd #для работы с таблицами

Для автоматического применения статистического критерия (теста) используется модуль `stats` библиотеки `scipy`.

Этот модуль содержит большое количество вероятностных распределений, корреляционные функции и статистические тесты и многое другое.

Также активно используется библиотека `statsmodels`

Для установки библиотеки `scipy` и `statsmodels` можно воспользоваться менеджером пакетов `pip`.

In [None]:
!pip install scipy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
!pip install statsmodels

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/



# Загрузка данных

Для скачивания данных используем команду `!wget`. 

Данные появятся в локальной директории.

Мы будем использовать информацию о диаметре пицц разных производителей.

In [None]:
!wget https://raw.githubusercontent.com/harika-bonthu/Hypothesis-test-examples/main/pizzas.csv

--2022-07-04 20:22:01--  https://raw.githubusercontent.com/harika-bonthu/Hypothesis-test-examples/main/pizzas.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 539 [text/plain]
Saving to: ‘pizzas.csv’


2022-07-04 20:22:01 (13.1 MB/s) - ‘pizzas.csv’ saved [539/539]



Загрузим данные в память ноутбука.

In [30]:
data = pd.read_csv('Data/new-site.csv')

In [31]:
data.head()

Unnamed: 0,site\tdwell-time
0,0\t2
1,1\t48
2,0\t15
3,1\t16
4,0\t38


In [32]:
data['site'] = data['site\tdwell-time'].apply(lambda x: x.split()[0]).astype('int')

In [33]:
data['tdwell-time'] = data['site\tdwell-time'].apply(lambda x: x.split()[1]).astype('int')

In [34]:
data.drop('site\tdwell-time', axis = 1, inplace=True)

In [35]:
data.head(10)

Unnamed: 0,site,tdwell-time
0,0,2
1,1,48
2,0,15
3,1,16
4,0,38
5,1,169
6,0,571
7,1,38
8,0,233
9,0,146


In [40]:
sum_A = data[data['site'] == 0]['tdwell-time'].sum()
display(sum_A)

16898

In [42]:
sum_B = data[data['site'] == 1]['tdwell-time'].sum()
display(sum_B)

10032

In [44]:
mean_A = data[data['site'] == 0]['tdwell-time'].mean()
display(round(mean_A, 0))

91.0

In [45]:
mean_B = data[data['site'] == 1]['tdwell-time'].mean()
display(round(mean_B, 0))

88.0

# Проверка данных на нормальность


In [46]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

Установим уровень значимости

In [47]:
alpha = 0.05

## Тест Шапиро-Уилка

In [48]:
from scipy.stats import shapiro

In [57]:
_, p = shapiro(data[data['site'] == 0]['tdwell-time'])
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.000
Данные не распределены нормально (мы отвергаем H0)


In [58]:
_, p = shapiro(data[data['site'] == 1]['tdwell-time'])
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.000
Данные не распределены нормально (мы отвергаем H0)


## Тест Д’Агостино

In [50]:
from scipy.stats import normaltest

In [53]:
_, p = normaltest(data['tdwell-time'])
#normaltest возвращает двустороннюю вероятность для проверки гипотезы

print('p=%.3f' % p[0])

# Интерпретация 

if p[0] > alpha/2:
	print(H0)
else:
	print(Ha)

IndexError: invalid index to scalar variable.

# Независимый T-тест 

In [None]:
from scipy.stats import ttest_ind

In [None]:
H0 = 'Нет значимой разницы между диаметрами пиццы в разных пиццериях.'
Ha = 'Есть значимая разница между диаметрами пиццы в разных пиццериях.'

Зависимая переменная (диаметр пиццы) является количественной. Группы происходят из разных совокупностей. Следовательно, мы используем независимый T-тест.

In [None]:
def t_test(df):
    print('\n' + "*** Результаты независимого T-теста ***")
    test_results = ttest_ind(data['Пиццерия №1'], data['Пиццерия №2'], equal_var=True)

    p = round(test_results[1],2)

    if p>alpha:
        print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
    else:
        print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

t_test(data)


*** Результаты независимого T-теста ***
0.47 > 0.05. Мы не можем отвергнуть нулевую гипотезу. Нет значимой разницы между диаметрами пиццы в разных пиццериях.


-----

# Корреляция Спирмана 

In [None]:
from numpy.random import rand
from scipy.stats import spearmanr

data1 = rand(1000) * 20
data2 = data1 + (rand(1000) * 10)


corr, p = spearmanr(data1, data2)

In [None]:
print(corr,p)

0.9080498000498 0.0


In [None]:
if p>alpha:
    print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.")
else:
    print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.")

0.0 <= 0.05. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.


# ANOVA тест

In [None]:
from scipy.stats import f_oneway

Однофакторный дисперсионный анализ ANOVA проверяет нулевую гипотезу о том, что две или более групп имеют одинаковое среднее значение генеральной совокупности.

В качестве данных возьмем информацию по размерам раковины мидий, выращенных в разных местах.

In [None]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]
tvarminne = [0.0703, 0.1026, 0.0956, 0.0973, 0.1039, 0.1045]

In [None]:
_, p = f_oneway(petersburg, magadan, tvarminne)

In [None]:
H0 = 'Нет значимой разницы между средним размером раковины мидий в трех разных местах.'
Ha = 'Есть значимая разница между средним размером раковины мидий в трех разных местах.'

In [None]:
if p>alpha:
  print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
else:
  print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

0.007870900547143829 <= 0.05. Мы отвергаем нулевую гипотезу. Есть значимая разница между средним размером раковины мидий в трех разных местах.


_____

# Домашнее задание

Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan в разделе ANOVA тест, проверьте данные на нормальность и на наличие корреляции. Для этого объедините 2 массива в DataFrame. Обоснуйте выбор теста на корреляцию. Сделайте вывод по гипотезе.
 
 
Также ответьте на вопрос:
Какова разница в среднем размере мидии в зависимости от города-производителя. Обоснуйте выбор теста. Сделайте вывод по гипотезе.


In [None]:
mussels_df = pd.concat([pd.DataFrame({'Petersburg': petersburg}), pd.DataFrame({'Magadan':magadan})], axis=1)
mussels_df['Petersburg'] = mussels_df['Petersburg'].fillna(mussels_df['Petersburg'].median())
display(mussels_df)

Unnamed: 0,Petersburg,Magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.1016,0.0689


In [None]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

In [None]:
alpha = 0.05

In [None]:
# Тест на нормальность Шапиро-Уилка для данных Петербурга
_, p = shapiro(mussels_df['Petersburg'])
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.106
Данные распределены нормально


In [None]:
# Тест на нормальность Шапиро-Уилка для данных Магадана
_, p = shapiro(mussels_df['Magadan'])
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.036
Данные не распределены нормально (мы отвергаем H0)


In [113]:
# Поскольку данные по Магадану распределены не нормально, необходимо применять корреляцию Спирмена.

corr, p = spearmanr(mussels_df['Petersburg'], mussels_df['Magadan'])
print(corr,p)

0.15569141404872366 0.7127617079991629


In [114]:
if p>alpha:
    print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.")
else:
    print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.")

0.7127617079991629 > 0.05. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.


In [None]:
# Между признаками имеется очень слабая связь, или связь отсутствует - 0.15. Посколько p=0.71>0,05, то мы не можем отвергнуть нулевую гипотезу об отсутствии зависимости между переменными.

In [None]:
# Поскольку данные по Магадану распределены не нормально, необходимо воспользоваться непараметрическим тестом. Поскольку зависимая переменная количественная, а группы происходят из разных совокупностей, необходимо воспользоваться тестом "Суммы рангов Уилкоксона".

In [115]:
from scipy.stats import wilcoxon

In [118]:
_, p = wilcoxon(mussels_df['Petersburg'], mussels_df['Magadan'])



In [119]:
H0 = 'Нет значимой разницы между средним размером раковины мидий в двух разных местах.'
Ha = 'Есть значимая разница между средним размером раковины мидий в двух разных местах.'

In [120]:
if p>alpha:
  print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
else:
  print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

0.02506184434388362 <= 0.05. Мы отвергаем нулевую гипотезу. Есть значимая разница между средним размером раковины мидий в двух разных местах.


In [124]:
diff = round(mussels_df['Petersburg'].mean() - mussels_df['Magadan'].mean(), 3)
print('Разница в среднем размере мидии в зависимости от города-производителя составляет: ', diff)

Разница в среднем размере мидии в зависимости от города-производителя составляет:  0.025


# Бонус

Скачаем датасет, содержащий информацию по давлению 120 человек.



In [None]:
!wget https://raw.githubusercontent.com/yug95/MachineLearning/master/Hypothesis%20testing/blood_pressure.csv

--2022-07-04 21:20:43--  https://raw.githubusercontent.com/yug95/MachineLearning/master/Hypothesis%20testing/blood_pressure.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2851 (2.8K) [text/plain]
Saving to: ‘blood_pressure.csv’


2022-07-04 21:20:44 (34.6 MB/s) - ‘blood_pressure.csv’ saved [2851/2851]



In [None]:
data = pd.read_csv('blood_pressure.csv')

In [None]:
print('Размер выборки: ', data.shape)

Размер выборки:  (120, 5)


In [None]:
data.head()

Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
0,1,Male,30-45,143,153
1,2,Male,30-45,163,170
2,3,Male,30-45,153,168
3,4,Male,30-45,153,142
4,5,Male,30-45,146,141


## Z-тест

Проведем Z-тест для проверки двух независимых групп данных на равенство средних значений выборок.

In [54]:
from statsmodels.stats import weightstats

In [56]:
_ ,p = weightstats.ztest(data[data['site'] == 0]['tdwell-time'], x2=data[data['site'] == 1]['tdwell-time'], value=0,alternative='two-sided')
print(float(p))


if p < 0.05:
    print("Мы отвергаем нулевую гипотезу об отсутсвии различий между данными.")
else:
    print("Мы не можем отвергнуть нулевую гипотезу об отсутсвии различий между данными.")

0.8136645546620853
Мы не можем отвергнуть нулевую гипотезу об отсутсвии различий между данными.


## Z-тест на пропорцию

Z-критерий одной пропорции используется для сравнения наблюдаемой пропорции с теоретической.

В этом тесте используются следующие нулевые гипотезы:

$H_0: p = p_0$ (доля мужчин, предоставивших данные о своем давлении, равна гипотетической пропорции $p_0$)

Альтернативная гипотеза может быть двусторонней, левосторонней или правосторонней:

$H_1 (двусторонний): p ≠ p_0$ (доля мужчин не равна некоторому гипотетическому значению $p_0$)
$H_1 (левосторонний): p < p_0$ (доля мужчин меньше некоторого гипотетического значения $p_0$)
$H_1 (правосторонний): p > p_0$ (доля мужчин больше некоторого гипотетического значения $p_0$)

Предположим, что доля мужчин в нашем датачете равна 40%.

$p_0$: гипотетическая доля мужчин = 0.40

$x$: число мужчин в выборке мужчин: `len(data[data.sex == 'Male'])`

$n$: размер выборки = `len(data)`

Покажем, как использовать функцию `proportions_ztest` для выполнения  **z-теста**:

In [None]:
p_0 = 0.4
n = len(data)
x = len(data[data.sex == 'Male'])

print(n, x)

120 60


In [None]:
from statsmodels.stats.proportion import proportions_ztest

#perform one proportion z-test
_, p = proportions_ztest(count=x, nobs=n, value=p_0)

In [None]:
if p < 0.05:
    print("Мы отвергаем нулевую гипотезу о том, что доля мужчин, предоставивших данные о своем давлении, равна 40%.")
else:
    print("Мы не можем отвергнуть нулевую гипотезу.")

Мы отвергаем нулевую гипотезу о том, что доля мужчин, предоставивших данные о своем давлении, равна 40%.
