Создадим генеральную совокупность с оценками от 1 до 5 и размером 1000 наблюдений.

In [22]:
import numpy as np
import random
import pandas as pd

df = []
for i in range(0,1000):
   r = random.randint(1, 5)
   df.append(r)
  
df = np.array(df) 

Ради интереса посмотрим настоящее среднее генеральной совокупности.

In [23]:
df.mean()

2.98

Мы получили генеральную совокупность. Теперь разделим её на две части.

In [24]:
df_a = df[0:499]
df_b = df[500:999]

И из каждой части возьмём равные выборки по сто оценок в каждой:

In [25]:
sample_a = np.random.choice(df_a, size=100)
sample_b = np.random.choice(df_b, size=100)

Теперь проверим нулевую гипотезу о том, что средний балл группы A равен среднему баллу группы B.

`Важно!
Методу ttest_ind можно передать и третий параметр — equal_var. Этот параметр не является обязательным; он передаёт булевы значения, сообщающие методу информацию о том, считать ли дисперсию выборок равной. Если его не указывать, то по умолчанию он задаётся как True. Данный параметр даёт более точные результаты теста. `

Для начала импортируем необходимые библиотеки:

In [26]:
from scipy import stats as st #


Задаём желаемый уровень статистической значимости: 

In [27]:
alpha = .05

Запускаем метод, чтобы получить p-value, которое будем сравнивать с a:

In [28]:
results = st.ttest_ind(sample_a, sample_b, equal_var = True)
print(results)

Ttest_indResult(statistic=-0.764968387302328, pvalue=0.4452011632819767)


Мы видим что, p-value равно 0.84 — это значительно больше желаемого уровня статистической значимости.

Давайте пропишем это в коде:

In [29]:
print('p-value', results.pvalue)

if (results.pvalue < alpha):
   print("Отвергаем нулевую гипотезы - Cредние баллы не равны")
else:
   print("Не отвергаем нулевую гипотезу - Средние баллы обеих групп равны")

p-value 0.4452011632819767
Не отвергаем нулевую гипотезу - Средние баллы обеих групп равны


#### ГИПОТЕЗА О РАВЕНСТВЕ СРЕДНЕГО ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ КОНКРЕТНОМУ ЗНАЧЕНИЮ
Теперь на основе тех же данных проверим гипотезу о равенстве среднего балла одной из выборок и известного нам среднего значения генеральной совокупности.  

Напомним, чему равно среднее всей генеральной совокупности.

In [30]:
df.mean()

2.98

Для примера сравним выборку группы A со средним генеральной совокупности.

Среднее группы A равно: 

In [31]:
sample_a.mean()

2.83

Зададим нулевую и альтернативную гипотезы. 

H0: Выборочное среднее равно 2.98.

H1: Выборочное среднее меньше 2.98.

Для сравнения используем метод ttest_1samp (на вход ему передаются значения выборки и значение, с которым мы хотим провести сравнение):

In [33]:
alpha = .05

t_test = st.ttest_1samp(sample_a, df.mean())


print('pvalue: ', t_test.pvalue / 2)

if (t_test.pvalue / 2 < alpha) and (sample_a.mean() < df.mean()):
   print("Отвергаем нулевую гипотезу")
else:
   print("Не отвергаем нулевую гипотезу")

pvalue:  0.15169379317942425
Не отвергаем нулевую гипотезу


Так как тест односторонний, то полученное значение p-value делится на два, а для того чтобы отвергнуть нулевую гипотезу, среднее значение также должно быть меньше того, с которым проводится сравнение.

Если бы альтернативная гипотеза звучала так: выборочное среднее больше 3.0029, тогда p-value также делилось бы на два, но во втором условии выборочное среднее было бы больше значения, с которым проводится сравнение.

Если задача — сравнить равенство выборочно среднего и сравниваемого значений, без учёта больше оно или меньше, тогда делить p-value на два нет необходимости. Второе условие также не требуется.