Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan в разделе ANOVA-тест, проверьте данные на нормальность и на наличие корреляции. 

Для этого:

- Объедините два массива в DataFrame. 
- Обоснуйте выбор теста на корреляцию. 
- Сделайте вывод по гипотезе.
- Ответьте на вопрос: Какова разница в среднем размере мидии в зависимости от города-производителя
- Обоснуйте выбор теста. 
- Сделайте вывод по гипотезе.

In [41]:
import pandas as pd
import numpy as np

In [42]:
alpha = 0.05 # Significance level

# Объединение

In [43]:
raw = {'petersburg': pd.Series([0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]),
        'magadan':   pd.Series([0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764, 0.0689])
}

data = pd.DataFrame(data=raw)
data.fillna({'petersburg': data['petersburg'].mean()}, inplace=True)

display(data)

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.103443,0.0689


# Тест на нормальность

Так как размер выборки всего лишь 8х2 элементов, то проверка на нормальность скорей всего не будет иметь статистической силы. Я думаю в данном случае стоит использовать непараметрические тесты для подтверждения гипотез, так как они лучше работают на маленьких выборках.

Однако для наглядности я проведу тест Шапиро-Уилка. Тест Д’Агостино работает только с выборками, где кол-во элементов больше 20.

In [44]:
from scipy.stats import shapiro
from scipy.stats import normaltest

In [55]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально'

# Shapiro–Wilk test
_, p = shapiro(data)
print(f"{'Мы не можем отвергнуть нулевую гипотезу.' if p>alpha else 'Мы отвергаем нулевую гипотезу.'}")
print(f"p={'%.3f' % p}: {H0 if p > alpha else Ha}")

Мы не можем отвергнуть нулевую гипотезу.
p=0.100: Данные распределены нормально


Тест доказал, что данные имеют нормальное распределение - но насколько ли можно верить результату? Можно предположить, что размер раковин будет подчиняться нормальному распределению по аналогии с ростом человека.

# Корреляционный тест

Выше я установил, что буду использовать непараметрические тесты. Так как данные являются количественными, то для корреляционного анализа я буду использовать тест Спирмена.  

In [46]:
from scipy.stats import spearmanr

In [56]:
H0 = 'В данных отсутствует зависимость между переменными'
Ha = 'В данных присутствует зависимость между переменными'

_, p = spearmanr(data['petersburg'], data['magadan'])

print(f"{'Мы не можем отвергнуть нулевую гипотезу.' if p>alpha else 'Мы отвергаем нулевую гипотезу.'}")
print(f"p={'%.3f' % p}: {H0 if p > alpha else Ha}")

Мы не можем отвергнуть нулевую гипотезу.
p=0.693: В данных отсутствует зависимость между переменными


# Ответ на вопрос

Так как используются непараметрические тесты, зависимая переменная является количественной и в данных две группы из разных совокупностей, я буду использовать тест на сумму рангов Уилкоксона.

In [48]:
from scipy.stats import ranksums

In [57]:
H0 = 'Нет значимой разницы между размерами мидий в разных городах'
Ha = 'Есть значимая разница между размерами мидий в разных городах'

_, p = ranksums(data['petersburg'], data['magadan'])

print(f"{'Мы не можем отвергнуть нулевую гипотезу.' if p>alpha else 'Мы отвергаем нулевую гипотезу.'}")
print(f"p={'%.3f' % p}: {H0 if p>alpha else Ha}")

Мы отвергаем нулевую гипотезу.
p=0.005: Есть значимая разница между размерами мидий в разных городах
