# <mark> *EDA-4. СТАТИСТИЧЕСКИЕ ТЕСТЫ (HW-03)*</mark>

# Задание 

Используя информацию по мидиям Петербурга и Магадана, которые представлены в виде двух массивов petersburg и  magadan проверьте данные на нормальность и на наличие корреляции.

### Для этого:

1. Объедините два массива в DataFrame. 
2. Обоснуйте выбор теста на корреляцию. 
3. Сделайте вывод по гипотезе.
4. Ответьте на вопрос: Какова разница в среднем размере мидии в зависимости от города-производителя?
5. Обоснуйте выбор теста. 
6. Сделайте вывод по гипотезе.

____

In [1]:
# Импортируем необходимые библиотеки.
import pandas as pd
import numpy as np
from scipy.stats import shapiro
from scipy.stats import normaltest
from scipy.stats import spearmanr
from scipy.stats import mannwhitneyu

## Объединение массивов в DataFrame.

In [2]:
# Исходные данные.
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

# Создаем DataFrame.
city_df = pd.DataFrame([petersburg, magadan], index = ['petersburg', 'magadan']).T

# Заполняем пустые значения на 0.
city_df['petersburg'] = city_df['petersburg'].fillna(0)

# Выводим DataFrame.
display(city_df)

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.0,0.0689


## Проверка данных на нормальность

### Тест Шапиро-Уилка

In [3]:
# Создаем гипотезу.
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

# Задаем уровень значимости.
alpha = 0.05

# Вычисляем p-value и выводим его.
_, p = shapiro(city_df)
print('p-value = %.3f' % p)

# Сравнение p-value с уровнем значимости.
if p > alpha:
    print(H0)
else:
    print(Ha)

p-value = 0.023
Данные не распределены нормально (мы отвергаем H0)


### Тест Д’Агостино

In [4]:
from scipy.stats import normaltest
# Создаем гипотезу.
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

# Задаем уровень значимости.
alpha = 0.05

# Вычисляем p-value и выводим его.
_, p = normaltest(city_df)
print('p = %.3f' % p[0])

# Сравнение p-value с уровнем значимости.
if p[0] > alpha/2:
    print(H0)
else:
    print(Ha)

p = 0.002
Данные не распределены нормально (мы отвергаем H0)




### *Вывод:*
*Проведя два теста на нормальность мы выяснили, что имеющиеся данные не распределены нормально. Т.к. установленный уровень значимости оказался выше статистической значимости. Поэтому для дальнейшего выполнения статистических тестов мы будем использовать непараметрические тесты.*

## Корреляция Спирмана

In [5]:
# Создаем гипотезу.
H0 = 'Зависимость между переменными отсутствует.'
Ha = 'Существует зависимость между переменными.'

# Задаем уровень значимости.
alpha = 0.05

# Вычисляем p-value и выводим его.
corr, p = spearmanr(city_df['petersburg'], city_df['magadan'])
print(f"Коэффициент корреляции - {round(corr, 3)}, p-value - {round(p, 3)}.")

# Сравнение p-value с уровнем значимости.
if p > alpha:
    print(f" Мы принимаем нулевую гипотезу: '{H0}', т.к. {round(p, 3)} > {alpha}.")
else:
    print(f" Мы отвергаем нулевую гипотезу и принимает альтернативную: '{Ha}', т.к. {round(p, 3)} <= {alpha}.")

Коэффициент корреляции - 0.286, p-value - 0.493.
 Мы принимаем нулевую гипотезу: 'Зависимость между переменными отсутствует.', т.к. 0.493 > 0.05.


### *Вывод:*
*Для проверки зависимости между переменными мы использовали корреляцию Спирмана, т.к. наши данные являются количественными и при этом нормально не распределены. В результате была принята нулевая гипотеза - "отсутствует зависимость между переменными". Это связано с тем, что полученное p-value оказалось выше уровня значимость. А также полученный коэффициент корреляции равен 0.286, что подпадает под диапазон: 0…+/- 0.3 - "Отсутствие связи или очень слабая связь".*

## U-тест Манна-Уитни (Сумма рангов Уилкоксона)

In [6]:
# Создаем гипотезу.
H0 = 'Нет значимой разницы между средним размером мидии в зависимости от города-производителя.'
Ha = 'Существует значимая разницы между средним размером мидии в зависимости от города-производителя.'

# Задаем уровень значимости.
alpha = 0.05

# Вычисляем p-value и выводим его.
_, p = mannwhitneyu(city_df['petersburg'], city_df['magadan'])
print(_,f"p-value - {p}.")

# Сравнение p-value с уровнем значимости.
if p > alpha:
    print(f" Мы принимаем нулевую гипотезу: '{H0}', т.к. {round(p, 3)} > {alpha}.")
else:
    print(f" Мы отвергаем нулевую гипотезу и принимает альтернативную: '{Ha}', т.к. {round(p, 4)} <= {alpha}.")

51.0 p-value - 0.04988344988344988.
 Мы отвергаем нулевую гипотезу и принимает альтернативную: 'Существует значимая разницы между средним размером мидии в зависимости от города-производителя.', т.к. 0.0499 <= 0.05.


### *Вывод*:
*Для ответа на вопрос "Какова разница в среднем размере мидии в зависимости от города-производителя?" мы провели U-тест Манна-Уитни или его еще называют "Сумма рангов Уилкоксона".*
##### Выбор пал на данный тест по следующим причинам:*
1. *данные являются количественными и не подчинены нормальному растпределению;*
2. *группы данных являются независимыми, т.к. мы не импользуем в выборке одни и те же мидии;*
3. *количество групп - 2.*

*Проведя данный тест мы приняли альтернативную гипотезу, которая гласит, что существует значимая разница в среднем размере мидии в зависимости от города. Значение p - это самый низкий уровень значимости, при котором будет принята нулевая гипотеза. В нашем случае значение р практически равно заданному уровню значимости. На мой взгляд  предоставленных данных недостаточно для того, чтобы судить о том, что город-производителя влияет на средний размер мидии и есть вероятность получить ошибку как первого так и второго рода.*