## Установка библиотек

In [38]:
import pandas as pd #для работы с таблицами
import numpy as np

# для нормализации, стандартизации
from sklearn import preprocessing


## Данные
В качестве данных возьмем информацию по размерам раковины мидий, выращенных в разных местах.

In [39]:
petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]

In [40]:
df1=pd.DataFrame({
   'petersburg': [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105]
})

In [41]:
df2=pd.DataFrame({
   'magadan': [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764,
           0.0689]
})

In [42]:
#Объединим два массива в DATAFRAME
mussels=pd.concat([df1, df2], axis=1)
mussels

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,,0.0689


In [43]:
#Избавимся от NaN, заполним средним значением
mussels['petersburg']=mussels['petersburg'].fillna(mussels['petersburg'].mean())

In [44]:
mussels

Unnamed: 0,petersburg,magadan
0,0.0974,0.1033
1,0.1352,0.0915
2,0.0817,0.0781
3,0.1016,0.0685
4,0.0968,0.0677
5,0.1064,0.0697
6,0.105,0.0764
7,0.103443,0.0689


In [55]:
#Посмотрим какие у нас данные
mussels.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   petersburg  8 non-null      float64
 1   magadan     8 non-null      float64
dtypes: float64(2)
memory usage: 256.0 bytes


# Проверка данных на нормальность

In [45]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

Установим уровень значимости

In [46]:
alpha = 0.05

## Тест Шапиро-Уилка

Обоснование выбора теста: так как нам необходимо определить были ли наши данные получены из распределения Гаусса, выбираем тест Шапиро-Уилка.

In [47]:
from scipy.stats import shapiro

In [61]:
#сделаем тест для каждой из двух выборок.
, p = shapiro(mussels['magadan'])
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.036
Данные не распределены нормально (мы отвергаем H0)


In [62]:
_, p = shapiro(mussels['petersburg'])
print('p=%.3f' % p)

# Интерпретация 

if p > alpha:
	print(H0)
else:
	print(Ha)

p=0.123
Данные распределены нормально


### Вывод: так как данные у нас распределены ненормально, мы отвергаем нулевую гипотезу. В данном случае можно использовать только непарметрические тесты.

# Корреляция Спирмана

Обоснование выбора теста: так как у нас обе переменные количественные, выбираем тест на корреляцию Спирмана.

In [69]:
H0 = 'Нет значимой разницы между размерами раковин мидий, выращенных в разных местах.'
Ha = 'Есть значимая разница между размерами раковин мидий, выращенных в разных местах.'

In [94]:
from numpy.random import rand
from scipy.stats import spearmanr

corr, p = spearmanr(mussels)
print(corr) #ранговая Корреляция
print(p) #коэффициент корреляции

0.1666666666666667
0.693238811728395


In [93]:
if p>alpha:
    print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.")
else:
    print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу об отсутсвии зависимости между переменными.")

0.693238811728395 > 0.05. Мы не можем отвергнуть нулевую гипотезу об отсутсвии зависимости между переменными.


Вывод: ранговая корреляция Спирмена составляет 0.167, а соответствующее значение p равно 0.693. Это указывает на наличие отрицательной корреляции между нашими даннными. Поскольку p-значение корреляции не меньше 0.05 корреляция не является статистически значимой. Мы не можем отвергнуть нулевую гипотезу об отсутствии зависимости между переменными.

### Какова разница в среднем размере мидии в зависимости от города-производителя

In [96]:
petersburg_median=round(mussels['petersburg'].median(), 3)
print(f'Cредний размер мидии в Санкт-Петербурге составляет {petersburg_mean}')
magadan_median=round(mussels['magadan'].median(), 3)
print(f'Cредний размер мидии в Магадане составляет {magadan_mean}')
difference=round(petersburg_median-magadan_median, 3)
print(f'Разница в среднем размере мидии в зависимости от города-производителя сотсавляет {difference}')

Cредний размер мидии в Санкт-Петербурге составляет 0.103
Cредний размер мидии в Магадане составляет 0.073
Разница в среднем размере мидии в зависимости от города-производителя сотсавляет 0.03


# Тест Уилкоксона

Обоснование выбора теста: зависимая переменная (размер мидии) является количественной. Группы происходят из разных совокупностей. Следовательно, мы используем тест Уилкоксона.

In [87]:
H0 = 'Нет значимой разницы между средними размерами раковин мидий, выращенных в разных местах.'
Ha = 'Есть значимая разница между средними размерами раковин мидий, выращенных в разных местах.'

In [88]:
import scipy.stats as stats

In [89]:
def wilcoxon(mussels):
    print('\n' + "*** Результаты теста Уилкоксона ***")
    test_results = stats.wilcoxon(mussels['petersburg'], mussels['magadan'])

    p = round(test_results[1],2)

    if p>alpha:
        print(f"{p} > {alpha}. Мы не можем отвергнуть нулевую гипотезу. {H0}")
    else:
        print(f"{p} <= {alpha}. Мы отвергаем нулевую гипотезу. {Ha}")

wilcoxon(mussels)


*** Результаты теста Уилкоксона ***
0.02 <= 0.05. Мы отвергаем нулевую гипотезу. Есть значимая разница между средними размерами раковин мидий, выращенных в разных местах.


Вывод: Так как p-значение меньше альфы, мы отвергаем нулевую гипотезу. Есть значимая разница между среднимми размерами раковин мидий, выращенных в разных местах (Питер и Магадан).