### В качестве данных предоставлена информация по размерам раковины мидий, выращенных в разных местах.

In [42]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

In [43]:
import pandas as pd

In [44]:
shells = {'petersburg': petersburg, 'magadan': magadan} #словарь из исходных массивов данных
df = pd.DataFrame.from_dict(shells, orient='index') #создаем DataFrame
df = df.transpose()
df

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,,0.0689


### Проверим данные на нормальность

In [45]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'
alpha = 0.05

Тест Шапиро-Уилка

In [46]:
from scipy.stats import shapiro

In [47]:
_, p = shapiro(df)
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=1.000
Данные распределены нормально


Тест Д’Агостино

In [48]:
from scipy.stats import normaltest

In [49]:
_, p = normaltest(df)
#normaltest возвращает двустороннюю вероятность для проверки гипотезы

print('p=%.3f' % p[1])

# Интерпретация 

if p[1] > alpha/2:
	print(H0)
else:
	print(Ha)

p=0.154
Данные распределены нормально




### Зависимая переменная (размер раковины) является количественной. Группы происходят из разных совокупностей. Следовательно, мы используем независимый T-тест.

In [50]:
from scipy.stats import ttest_ind

In [51]:
H0 = 'Нет значимой разницы между размерами раковин из разных городов.'
Ha = 'Есть значимая разница между размерами раковин из разных городов.'

In [52]:
values = {'petersburg': df['petersburg'].median(), 'magadan': df['magadan'].median()} #заполним пропуск медианным значением столбца
df = df.fillna(values)
df

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.1016,0.0689


In [53]:
def t_test(data):
    print('\n' + "*** Результаты независимого T-теста ***")
    test_results = ttest_ind(df['petersburg'], df['magadan'], equal_var=True)

    p = round(test_results[1],2)

    if p>alpha:
        print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
    else:
        print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

t_test(df)


*** Результаты независимого T-теста ***
0.0 <= 0.05. Мы отвергаем нулевую гипотезу. Есть значимая разница между размерами раковин из разных городов.


### Для поиска корреляции будем использовать метод Пирсона, т.к данные распределены нормально

In [55]:
from scipy.stats import pearsonr

In [58]:
corr, p = pearsonr(df['petersburg'], df['magadan'])
print(corr,p)

0.25666515110501303 0.5394705530383969


In [59]:
if p>alpha:
    print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.")
else:
    print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.")

0.5394705530383969 > 0.05. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.
