### Проверить данные на нормальность и на наличие корреляции

Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan, проверить данные на нормальность и на наличие корреляции.  
Обосновать выбор теста на корреляцию и сделать вывод по гипотезе.
 
Какова разница в среднем размере мидии в зависимости от города-производителя?

In [100]:
# импорт библиотек
import pandas as pd
from numpy import median
from scipy.stats import shapiro # для теста Шапиро-Уилка
from scipy.stats import normaltest # для теста Д’Агостино
from numpy.random import rand
from scipy.stats import spearmanr # для корреляции Спирмена
from scipy.stats import wilcoxon # для Критерия Уилкоксона

#### Данные:

In [101]:
# Список размеров раковин мидий в городах
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]
# Так как выборки разной длины, дополним одну медианным значением
petersburg.append(median(petersburg))

### Проверка данных на нормальность


In [102]:
# Проверяем гипотезы
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'
alpha = 0.05

In [103]:
# Тест Шапиро-Уилка
# для города Санкт-Петербург
_, p = shapiro(petersburg)
print('p=%.3f' % p)


if p > alpha:
	print(H0)
else:
	print(Ha)
 
# для города Магадан
_, p = shapiro(magadan)
print('p=%.3f' % p)


if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.106
Данные распределены нормально
p=0.036
Данные не распределены нормально (мы отвергаем H0)


Мы выбрали тест Шапиро-Уилка, так как имеем небольшой массив данных - всего 8 элементов соответственно. Тип данных - количественный. Сравниваются всего две группы

Так как один из признаков распределен ненормально, то мы будем  использовать корреляцию Спирмена

# Корреляция Спирмана 

In [104]:
# Объединяем массивы в DataFrame
data = pd.DataFrame({'Petersburg': petersburg, 'Magadan': magadan})
corr, p = spearmanr(data)
print(corr, p)

0.15569141404872366 0.712761707999163


In [105]:
if p>alpha:
    print(f"{p} > {alpha}", "Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.", 'Значит - Нет значимой разницы между средним размером раковины мидий', sep='\n')
else:
    print(f"{p} <= {alpha}", "Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.", 'Значит - Есть значимая разница между средним размером раковины мидий', sep='\n')

0.712761707999163 > 0.05
Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.
Значит - Нет значимой разницы между средним размером раковины мидий


_____

### Тест на сравнение выборок

При приведении теста на сравнение выборок мы будем использовать Критерий Уилкоксона, потому что имеем две выборки с количественными данными

In [107]:
statistic, p_value = wilcoxon(data['Petersburg'], data['Magadan'], alternative='two-sided')
H_0 = 'Нет значительной разнцы между средними значениями размеров мидий'
H_a = 'Есть значительная разница между средними значениями размеров мидий'
if p_value>alpha:
    print(f"{p_value} > {alpha}", "Мы не можем отвергнуть нулевую гипотезу об отсутсвии значительной разницы", H_0, sep='\n')
else:
    print(f"{p_value} <= {alpha}", "Мы отвергаем нулевую гипотезу об отсутсвии отсутсвии значительной разницы", H_a, sep='\n')

0.0234375 <= 0.05
Мы отвергаем нулевую гипотезу об отсутсвии отсутсвии значительной разницы
Есть значительная разница между средними значениями размеров мидий


Исходя из результатов теста на выборку, модно заключить, что мы отвергаем нулевую гипотезу об отсутсвии отсутсвии значительной разницы, а значит есть значительная разница между средними значениями