# Домашнее задание блока EDA-4. Статистические тесты

Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan в разделе ANOVA тест, проверьте данные на нормальность и на наличие корреляции. Для этого объедините 2 массива в DataFrame. Обоснуйте выбор теста на корреляцию. Сделайте вывод по гипотезе.

 
Также ответьте на вопрос:
Какова разница в среднем размере мидии в зависимости от города-производителя. Обоснуйте выбор теста. Сделайте вывод по гипотезе.

In [73]:
import pandas as pd

from scipy.stats import shapiro
from scipy.stats import ttest_ind
from scipy.stats import wilcoxon

In [74]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105, None]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

df_data = {'petersburg':(petersburg),'magadan':(magadan)}
mussels_df = pd.DataFrame(df_data)

mussels_df = mussels_df.fillna(mussels_df['petersburg'].median()) #заполним недостающее значение медианным значением по выборке

display(mussels_df)

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.1016,0.0689


## Проверяем данные на нормальность

***Выдвенем гипотезы:***

$H_{0}$: в нашем датафрейме размеры мидий распределены нормально

$H_{a}$: в нашем датафрейме размеры мидий не распределены нормально (не подтвердили $H_{0}$)

Проверим нулевую гипотезу с помощью теста Шапиро-Уилка.

In [75]:
alpha = 0.05

p = round(shapiro(mussels_df)[1], 3)
print(f'p-value = {p}')

if p > alpha:
    print(f'{p} > {alpha}: нулевая гипотеза подтвердилась, распределение данных похоже на нормальное')
else:
    print(f'{p} <= {alpha}: данные не распределены нормально, отбрасываем нулевую гипотезу')

p-value = 0.101
0.101 > 0.05: нулевая гипотеза подтвердилась, распределение данных похоже на нормальное


## Проверяем данные на наличие корреляции

Поскольку данные распределены по нормальному закону, будем применять параметрический тест. Так как данные у нас из одной совокупности, разделенной на две группы (мидии из Санкт-Петербурга и мидии из Магадана), и мы рассматриваем размер мидий, то есть количественную зависимую переменную, и объектов в выборке менее 30, то будем использовать Т-тест для определения наличия корреляции.

***Выдвенем гипотезы:***

$H_{0}$: нет значимой разницы между размерами мидий в разных городах

$H_{a}$: есть значимая разница между размерами мидий в разных городах

In [76]:
alpha = 0.05

p = round(ttest_ind(mussels_df['petersburg'], mussels_df['magadan'], equal_var=True)[1], 3)
print(f'p-value = {p}')

if p > alpha:
    print(f'{p} > {alpha}: значимой разницы между размерами мидий нет')
else:
    print(f'{p} <= {alpha}: нулевая гипотеза опровергнута, есть статистически значимая разница в размерах мидий')

p-value = 0.003
0.003 <= 0.05: нулевая гипотеза опровергнута, есть статистически значимая разница в размерах мидий


## Вывод

Получили, что размеры мидий в наших совокупностях (мидии из Санкт-Петербурга и мидии из Магадана) распределены нормально и между совокупностями есть статистически значимые отличия. Чтобы оценить отличие двух совокупностей используем критерий Уилкоксона.

## Сравним выборки критерием Уилкоксона

***Выдвенем гипотезы:***

$H_{0}$: медианная разница двух совокупностей равна нулю

$H_{1}$: медианная разница двух совокупностей не равна нулю

In [77]:
alpha = 0.05
p = wilcoxon(mussels_df['petersburg'],mussels_df['magadan'])[1]

if p > alpha:
    print(f'{p} > {alpha}: медианная разница двух совокупностей размеров мидий равна нулю')
else:
    print(f'{p} <= {alpha}: медианная разница двух совокупностей размеров мидий не равна нулю')

0.0234375 <= 0.05: медианная разница двух совокупностей размеров мидий не равна нулю


Так как критерий Уилкоксона подтвердил наличие разницы в размерах двух выборок размеров мидий, осчитаем разницу в средних размерах раковин мидий из городов Санкт-Петербург и Магадан, а также медианную разницу между этими выборками.

In [78]:
mean_diff = mussels_df['petersburg'].mean() - mussels_df['magadan'].mean()
print('Разница в средних значениях размеров раковин мидий из Санкт-Петербурга и Магадана:', round(mean_diff, 3))

median_diff = mussels_df['petersburg'].median() - mussels_df['magadan'].median()
print('Разница в медианных размерах раковин мидий из Санкт-Петербурга и Магадана:', round(median_diff, 3))

Разница в средних значениях размеров раковин мидий из Санкт-Петербурга и Магадана: 0.025
Разница в медианных размерах раковин мидий из Санкт-Петербурга и Магадана: 0.029


## Вывод

Исходя из проведенных исследований определили, что размеры мидий распределены нормально, при этом есть разница в размерах мидий в зависимости от города их отлова. Благодаря критерию Уилкоксона определили, что разница не равна нулю. После подсчета разницы в средних и медианных размерах раковин мидий из двух городов, выяснили, что в Санкт-Петербурге раковины мидий больше примерно на 0.029. Размер мидий зависит от солености воды, но соленость Балтийского моря меньше, чем у Охотского моря, значит мидии из Магадана должны быть больше, а мы получили обратные данные. Это может говорить о излишнем опреснении моря или о излишней интенсивности вылова мидий.