# Задание
Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan в разделе ANOVA-тест, проверьте данные на нормальность и на наличие корреляции.

In [40]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

# 1. Объединение двух массивов в DataFrame

In [41]:
import pandas as pd
import numpy as np

In [42]:
data = {'Petersburg': pd.Series([0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]),
        'Magadan':   pd.Series([0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764, 0.0689])
}

df = pd.DataFrame(data=data)
df.fillna({'Petersburg': df['Petersburg'].mean()}, inplace=True)

df

Unnamed: 0,Petersburg,Magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.103443,0.0689


# 2.Тест Шапиро-Уилка на нормальность

Так как размер выборки маленький, то было принято решение проводить тесты на нормальность для каждой группы данных отдельно. Для наглядности проведу тест Шапиро-Уилка.

In [43]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

alpha = 0.05

In [44]:
from scipy.stats import shapiro

In [45]:
_, p = shapiro(magadan)
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.036
Данные не распределены нормально (мы отвергаем H0)


In [46]:
_, p = shapiro(petersburg)
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.242
Данные распределены нормально


Выводы: так как группы данных из одного дата фрейма рапределены по-разному: одна нормально, вторая ненормально, то утверждать однозначно о нормальном распределении нельзя. Будем считать, что выборка распределена ненормально.

# 3. Корреляционный тест

Так как у нас числовые данные, которые распределены ненормально, то в таких случаях допустим корреляционный тест Спирмена.

In [47]:
from scipy.stats import spearmanr

In [48]:
_, p = spearmanr(df['Petersburg'], df['Magadan'])
print(p)

0.693238811728395


In [28]:
if p>alpha:
    print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.")
else:
    print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.")

0.693238811728395 > 0.05. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.


Вывод: Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.

# 4. Тест Уилкоксона
## Какова разница в среднем размере мидии в зависимости от города-производителя



Так как распределение ненормальное, то выбираем непараметрический тест. Среди тестов на сравнение выборок подходит критерий Уилкоксона, учитывая то, что зависимая переменная количественная из двух разных выборок.

In [49]:
from scipy.stats import ranksums

In [50]:
H0 = 'Нет значимой разницы в размере мидий в двух городах.'
Ha = 'Есть значимая разница в размере мидий в двух городах.'

In [51]:
_, p = ranksums(df['Petersburg'], df['Magadan'])

print(p)

print(f"{'Мы не можем отвергнуть нулевую гипотезу.' if p>alpha else 'Мы отвергаем нулевую гипотезу.'}")
print(f"p={'%.3f' % p}: {H0 if p>alpha else Ha}")

0.004574439456210679
Мы отвергаем нулевую гипотезу.
p=0.005: Есть значимая разница в размере мидий в двух городах.


Вывод: В размере мидий в двух разных городах есть значимая разница.