# Статистические тесты

Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и magadan в разделе ANOVA тест, проверьте данные на нормальность и на наличие корреляции. Для этого объедините 2 массива в DataFrame. Обоснуйте выбор теста на корреляцию. Сделайте вывод по гипотезе.

Также ответьте на вопрос: Какова разница в среднем размере мидии в зависимости от города-производителя. Обоснуйте выбор теста. Сделайте вывод по гипотезе.

In [1]:
#Подгрузим библиотеки, которые потребуются для работы
import pandas as pd
from scipy.stats import shapiro
from scipy.stats import normaltest
from scipy.stats import pearsonr
from scipy.stats import ttest_ind

In [2]:
#Определим данные и создадим из них DataFrame

petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105, None]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764, 0.0689]

data = pd.DataFrame({'Петербург':petersburg, 'Магадан':magadan})

#Заменим пустое значение на среднее по городу.
data['Петербург'] = data['Петербург'].fillna(data['Петербург'].median())

## Проверка данных на нормальность

In [3]:
#Формулируем нулевую и альтернативную гипотезу
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

# Устанавливаем уровень значимости
alpha = 0.05

#### Тест Шапиро-Уилка

In [4]:
_, p = shapiro(data)
print('p = %.3f' % p)

# Интерпретируем полученный результат 
if p > alpha:
	print(H0)
else:
	print(Ha)

p = 0.101
Данные распределены нормально


#### Тест Д’Агостино

In [5]:
_, p = normaltest(data)

#normaltest возвращает двустороннюю вероятность для проверки гипотезы, выберем минимальное значение из двух
print('p = %.3f' % min(p))

# Интерпретируем полученный результат
if p[0] > alpha/2:
	print(H0)
else:
	print(Ha)

p = 0.035
Данные распределены нормально




## Статистические тесты

In [6]:
#Формулируем нулевую и альтернативную гипотезу

H0 = 'Нет значимой разницы в среднем размере мидии в зависимости от города-производителя.'
Ha = 'Есть значимая разница в среднем размере мидии в зависимости от города-производителя.'

#### Корреляция Пирсона

Проведя тесты на нормальность мы поределили, что данные распределены нормально, значит мы должны использовать параметрические статистические методы. 
Проверим связаны ли переменные, расчитав значение Корреляции Пирсона

In [7]:
print("*** Результаты расчёта Корреляции Пирсона ***")
corr, p = pearsonr(data['Петербург'], data['Магадан'])

#Интерпретируем результат в зависимости от поставленных гипотез.
if corr <= 0.3: print(f"Коэффициент корреляции = {round (corr,2)}. \nСвязь между признаками слабая.")
elif 0.3 < corr <= 0.5: print(f"Коэффициент корреляции = {corr}. \nСвязь между признаками умеренная.")
elif 0.5 < corr <= 0.7: print(f"Коэффициент корреляции = {corr}. \nСвязь между признаками заметная.")
elif 0.7 < corr <= 0.9: print(f"Коэффициент корреляции = {corr}. \nСвязь между признаками высокая.")
elif corr > 0.9: print(f"Коэффициент корреляции = {corr}. \nСвязь между признаками весьма высокая.")


*** Результаты расчёта Корреляции Пирсона ***
Коэффициент корреляции = 0.26. 
Связь между признаками слабая.


#### Независимый t-тест

Так как мы проверяем две различные выборки, а зависимая переменная количественная, то применим Независимый t-тест

In [8]:
def t_test(df):
    print("*** Результаты независимого T-теста ***")
    test_results = ttest_ind(data['Петербург'], data['Магадан'], equal_var=True)

    p = round(test_results[1],2)

    if p>alpha:
        print(f"{p} > {alpha}. \nМы не можем отвергнуть нулевую гипотезу. {H0}")
    else:
        print(f"{p} <= {alpha}. \nМы отвергаем нулевую гипотезу. {Ha}")

t_test(data)

*** Результаты независимого T-теста ***
0.0 <= 0.05. 
Мы отвергаем нулевую гипотезу. Есть значимая разница в среднем размере мидии в зависимости от города-производителя.


В результате проведённых тестов мы выяснили: 
- данные распределены нормально, а значит мы можем применять к ним параметрические методы;
- коэффициент корреляции Пирсона показывает, что между признаками нет линейной зависимости;
- при проверке гипотезы о том, что нет разницы в среднем размере мидии в зависимости от города-производителя, с помощью незавиимого t-теста мы определили, что должны опрвергнуть эту гипотезу. Существует значимая разница в среднем размере мидии в зависимости от города-производителя.