# Установка библиотек

In [1]:
import pandas as pd #для работы с таблицами
import numpy as np #для работы с массивами

from scipy.stats import shapiro #для ктеста Шапиро-Уилко
from scipy.stats import normaltest #для теста Д'Агостино
from scipy.stats import ttest_ind #независимий Т-тест
from scipy.stats import spearmanr #для корреляции Спирмана
from scipy.stats import f_oneway #для ANOVA теста

# Создание данных

В качестве данных возьмем информацию по размерам раковины мидий, выращенных в разных местах.

In [104]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

In [105]:
Petersburg = pd.Series(np.array(petersburg), name = 'petersburg')
Magadan = pd.Series(np.array(magadan), name = 'magadan')

In [106]:
data = pd.concat([Petersburg, Magadan], axis =1)

In [107]:
data

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,,0.0689


In [108]:
# заменим пропушенное значение средним
data.petersburg.iloc[7] = Petersburg.mean()

# Проверка данных на нормальность

In [102]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

In [32]:
# Установим уровень значимости
alpha = 0.05

### Тест Шапиро-Уилка

In [84]:
_, p = shapiro(data)
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=1.000
Данные распределены нормально


### Тест Д’Агостино

In [103]:
_, p = normaltest(data)
#normaltest возвращает двустороннюю вероятность для проверки гипотезы

print('p=%.3f' % p[0])

# Интерпретация 

if p[0] > alpha/2:
	print(H0)
else:
	print(Ha)

p=0.042
Данные распределены нормально


По итогам двух тестов данные распределены нормально, соответственно будем использовать параметрические тесты.

In [117]:
data.mean()

petersburg    0.103443
magadan       0.078012
dtype: float64

Из данных видно, что разница в среднем размере мидии между Петербургом и Магаданом равна 0.25

# Тест на корреляцию

- Наши данные распределены нормально. 
- Одна непрерывная количественная зависимая переменная 
- 2 группы происходят из разных совокупностей
- 8 объектов в выборке

Исходя из этих параматров будем использовать независимый Т-тест

In [109]:
H0 = 'Нет значимой разницы между средним размером раковины мидий в двух разных местах.'
Ha = 'Есть значимая разница между средним размером раковины мидий в двух разных местах.'

### Независимый T-тест

In [110]:
def t_test(df):
    print('\n' + "*** Результаты независимого T-теста ***")
    test_results = ttest_ind(df['magadan'], df['petersburg'], equal_var=True)

    p = round(test_results[1],2)

    if p>alpha:
        print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
    else:
        print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

t_test(data)


*** Результаты независимого T-теста ***
0.0 <= 0.05. Мы отвергаем нулевую гипотезу. Есть значимая разница между средним размером раковины мидий в двух разных местах.
