### Импортируем библиотеки

In [36]:
import pandas as pd
from scipy.stats import shapiro, normaltest
from scipy.stats import spearmanr, wilcoxon

### Собираем данные в DataFrame

In [37]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

data = {'petersburg':pd.Series(petersburg), 'magadan':pd.Series(magadan)}
df = pd.DataFrame(data)
df

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,,0.0689


### Проверяем данные на нормальность

In [38]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'
alpha = 0.05


_, p = shapiro(df['petersburg'])
print('Petersburg p=%.3f' % p)

if p > alpha:
	print(H0)
else:
	print(Ha)

Petersburg p=1.000
Данные распределены нормально


In [39]:
_, p = shapiro(df['magadan'])
print('Magadan p=%.3f' % p)

if p > alpha:
	print(H0)
else:
	print(Ha)

Magadan p=0.036
Данные не распределены нормально (мы отвергаем H0)


### Так как данные распределены нормально в столбце Петербурга - пропуски можно заменить средним значением

In [40]:
df['petersburg'] = df['petersburg'].fillna(df['petersburg'].mean())
df


Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.103443,0.0689


#### В связи с тем что один из признаков имеет не нормальное распределение - в качестве корреляционного теста стоит выбрать тест Спирмена

In [41]:
corr, p = spearmanr(df['petersburg'], df['magadan'])
print(corr, p)

0.1666666666666667 0.693238811728395


##### Значение P-value у нас получается 69,3%, значит мы принимаем нулевую гипотезу об отсутствии связи между признаками. Это подверждается коэффициентом корреляции 0,167

##### Для проверки гипотезы (Н0 - размер раковины мидии не зависит от города, На - размер раковины мидии зависит от города) необходимо провести тест на сравнение выборок. Так как один из признаков имеет ненормальное распределение - тест должен быть непараметрическим. Независимая переменная - категориальная (город), зависимая - количественная (размер раковины), следовательно нужно провести тест Сумма рангов Уилкоксона. 

In [43]:
_, p = wilcoxon(df['petersburg'], df['magadan'])

print('p=%.3f' % p)

H0 = 'Размер раковины мидии не зависит от города'
Ha = 'Размер раковины мидии зависит от города'

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.023
Размер раковины мидии зависит от города


##### В результате теста можно сделать вывод что город-производитель мидий влияет на размер раковин выращиваемых мидий