# Проверка двусторонней гипотезы в Python. T-тест
**Метод scipy.stats.ttest_1samp()** возвращает два числа для выбранной нулевой гипотезы: 
 - статистику разности и 
 - вероятность получить наблюдаемое или более экстремальное значение статистики — p-value.
![image.png](attachment:image.png) 
**Статистика разности** — это количество стандартных отклонений между предполагаемым в нулевой гипотезе значением и средним выборки. 

Эта разность отмечена на картинке выше: выборочное среднее оказалось почти в двух стандартных отклонениях от предполагаемого среднего генеральной совокупности.

В каком случае нулевая гипотеза отвергается в пользу альтернативной? -Если статистика разности достаточно большая. Статистика разности поможет сориентироваться, отвергать ли нулевую гипотезу, но точное решение следует принимать по p-value.


p-value — это вероятность получить наблюдаемый или ещё более далекий от предполагаемого результат при условии, что нулевая гипотеза верна. Возвращая этот результат, метод **scipy.stats.ttest_1samp()** строит распределение со значением, полученным на выборке, и подсчитывает вероятность того, что оно могло оказаться там или ещё дальше от центра колокола.
![image.png](attachment:image.png)

Важно: по умолчанию p-value возвращается двусторонним. Можно сразу понять, отвергать двустороннюю гипотезу или нет, сравнив это значение с выбранным уровнем значимости.

Общепринятые пороговые значения —5 % и 1 %. Окончательное решение, какой порог считать достаточным, всегда остаётся за аналитиком.

# Распределение Стьюдента
Если значений в выборке немного (не больше 20-30) , то распределение, соответствующее нулевой гипотезе, будет немного шире нормального. Больший разброс объясняется недостатком данных.

Такое распределение называется t-распределением Стьюдента. 

Количество наблюдений в выборке (за вычетом единицы) при построении распределения Стьюдента официально называется количеством степеней свободы. Когда оно растёт, распределение стремится к нормальному распределению с тем же средним

Статистический тест с использованием t-распределения называется t-тестом.

Если значений в выборке много (30 и больше), то распределение Стьюдента настолько близко к нормальному, что можно было бы просто взять нормальное распределение без степеней свободы.

Но чтобы не усложнять себе жизнь выбором нужного теста, принято просто каждый раз применять t-тест — ведь он работает для выборки любого размера.

# Как проверить гипотезу кодом
Итак, для проверки двусторонней гипотезы о равенстве среднего генеральной совокупности некоторому значению используют метод scipy.stats.ttest_1samp(a, popmean, alternative).
Разберём код:
 - ttest — обозначает t-тест;
 - 1samp (от англ. one sample) — показывает, что мы работаем с одной выборкой, сравнивая посчитанную на ней статистику с заданным значением.
 
Методу передают аргументы:
 - **a** (от англ. array — «массив») — набор данных (например, pandas.Series или список Python), который содержит выборку.
 - **popmean** (от англ. population mean — «среднее значение генеральной совокупности», буквально «среднее в популяции») — предполагаемое среднее, на равенство которому вы делаете тест.
 - **alternative** — текстовый параметр, задающий альтернативную гипотезу. Варианты: 
    - 'two-sided' - двусторонняя, 
    - 'less' -левосторонняя  H1
    - 'greater'- правосторонняя H1 (соответственно, двусторонняя, левосторонняя и правосторонняя H1).
     
Если не передать этот аргумент методу, по умолчанию будет проверяться двусторонняя альтернативная гипотеза.

После выполнения метод вернёт **статистику разности** между **popmean и выборочным средним из a**, а также значение **p-value**.

Задача:

Ваш партнёр утверждает, что ваш сайт популярен у пользователей: они проводят на нём 2 часа каждый день. Из записей о времени за день вы взяли выборку в 200 человек. Используйте её и проверьте гипотезу партнёра.

```
from scipy import stats as st
import numpy as np
import pandas as pd

time_at_site = pd.read_csv('/datasets/user_time.csv')

# столько времени должны проводить пользователи на сайте
interested_value = 120 
alpha = 0.05 # уровень статистической значимости
            # можно указать .05 или 0.05

results = st.ttest_1samp(
    time_at_site, 
    interested_value)

print('p-значение:', results.pvalue)

if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')
```   

#Результат

#p-значение: [0.27702871]

#Не получилось отвергнуть нулевую гипотезу

![image-2.png](attachment:image-2.png)

Используйте код в примере до задания. P-value — второе значение в массиве results, который выдаёт метод ttest_1samp. К нему также можно обратиться по имени results.pvalue.
Вам нужно проверить двустороннюю гипотезу, поэтому передавать методу аргумент alternative необязательно. Однако вы можете использовать значение 'two-sided'.

In [1]:
from scipy import stats as st
import pandas as pd

scooters = pd.Series([15, 31, 10, 21, 21, 32, 30, 25, 21,
28, 25, 32, 38, 18, 33, 24, 26, 40, 24, 37, 20, 36, 28, 38,
24, 35, 33, 21, 29, 26, 13, 25, 34, 38, 23, 37, 31, 28, 32,
24, 25, 13, 38, 34, 48, 19, 20, 22, 38, 28, 31, 18, 21, 24,
31, 21, 28, 29, 33, 40, 26, 33, 33,  6, 27, 24, 17, 28,  7,
33, 25, 25, 29, 19, 30, 29, 22, 15, 28, 36, 25, 36, 25, 29,
33, 19, 32, 32, 28, 26, 18, 48, 15, 27, 27, 27,  0, 28, 39,
27, 25, 39, 28, 22, 33, 30, 35, 19, 20, 18, 31, 44, 20, 18,
17, 28, 17, 44, 40, 33,])

optimal_value = 30 # введите ваш код тут

alpha = 0.05 # введите ваш код тут

results = st.ttest_1samp(
    scooters, optimal_value) # введите ваш код тут


print('p-значение:', results.pvalue)

if results.pvalue < alpha: # введите ваш код тут:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')
    
print('\nРезультаты применения метода ttest_1samp:\n', results)    

p-значение: 0.00033528259973700795
Отвергаем нулевую гипотезу

Результаты применения метода ttest_1samp:
 TtestResult(statistic=-3.6936255570180156, pvalue=0.00033528259973700795, df=119)


По-видимому, самокатов на станции было в среднем не 30, а какое-то другое количество. Более того, это число статистически значимо отличается от 30: вероятность случайно получить такую разницу меньше выбранного уровня значимости.

А что, если исследование урбанистов показало бы, что не так важно, когда самокатов больше определённого числа; главное — чтобы не было меньше? 

Тогда интересовала бы только одна сторона неравенства и альтернативная гипотеза содержала бы знак «<», а не «≠».

# Проверка односторонних гипотез в Python

![image.png](attachment:image.png)

Для проведения одностороннего теста нужно использовать знакомый вам метод scipy.stats.ttest_1samp(). 

Теперь в качестве аргументов указывайте **alternative='greater' или alternative='less'** для правосторонней и левосторонней
H1 соответственно.

P-value, которое выдаст метод, будет рассчитываться для одного хвоста распределения.

Задача  
Интернет-магазин разработал новую посадочную страницу. Статистика показала, что чем дальше посетители пролистывали лендинг и чем больше блоков просматривали, тем чаще они делали покупку. Среднее количество просмотренных блоков теми, кто что-то купил — 4.867.

Первые несколько блоков изменили согласно новому гайдлайну от дизайнера, но количество заказов осталось прежним. Может быть, новый дизайн помог пользователям быстрее принимать решение о покупке? Проверьте, сработал ли гайдлайн: в этом случае количество проскролленных блоков сократится.
Используйте выборку из сотни случайных покупателей. В датасете — количество просмотренных блоков лендинга.

 - Нулевая гипотеза: среднее количество просмотренных блоков после изменения дизайна осталось прежним.

 - Альтернативная гипотеза: среднее количество просмотренных блоков после изменения дизайна уменьшилось.

In [3]:
from scipy import stats as st
import pandas as pd

screens = pd.Series([4, 2, 4, 5, 5, 4, 2, 3, 3, 5, 2, 5, 2, 2, 2, 3, 3, 4, 8, 3, 4, 3, 5, 5, 4, 2, 5, 2, 3, 7, 5, 5, 6,  5, 3, 4, 3, 6, 3, 4, 4, 3, 5, 4, 4, 8, 4, 7, 4, 5, 5, 3, 4, 6, 7, 2, 3, 6, 5, 6, 4, 4, 3, 4, 6, 4, 4, 6, 2, 6, 5, 3, 3, 3, 4, 5, 3, 5, 5, 4, 3, 3, 3, 1, 5, 4, 3, 4, 6, 3, 1, 3, 2, 7, 3, 6, 6, 6, 5, 5])

prev_screens_value = 4.867

alpha = 0.05 # уровень статистической значимости

results = st.ttest_1samp(
    screens, 
    prev_screens_value,
      alternative='less')

print('p-значение:', results.pvalue)

if (results.pvalue < alpha):
    print('Отвергаем нулевую гипотезу')
else:
    print('Не отвергаем нулевую гипотезу') 

p-значение: 1.3358596895543794e-06
Отвергаем нулевую гипотезу


Задача

Вы посетили курс известного коуча-предпринимателя. Если вы внедрите его авторскую практику осознанного подхода к бизнесу, то ваш интернет-проект начнёт приносить не менее 50000 рублей в день.
Проверьте гипотезу, что ваш интернет-проект стал приносить не меньше 50000 рублей в день. Для этого используйте датасет дневной выручки за последний месяц.
Напомним: гипотеза со знаком равенства — обычно нулевая. 
Поэтому «всё сложится, как коуч прописал» — это ваша нулевая гипотеза, а «выручка меньше заявленного» — альтернативная.

«Методика бизнес-коуча не сработала!» — так можно будет утверждать только в случае, если выручка будет статистически значимо меньше заявленной суммы.

```
from scipy import stats as st
import numpy as np
import pandas as pd

revenue = pd.read_csv('/datasets/revenue.csv')

interested_value = 50000 # сколько обещал коуч

alpha = 0.05 # укажите уровень статистической значимости
# используйте метод st.ttest_1samp
results = st.ttest_1samp(revenue, interested_value, alternative='less') 

print('p-значение:', results.pvalue) # добавьте в аргумент p-value

if (results.pvalue < alpha):
    print('Отвергаем нулевую гипотезу: выручка значимо меньше 50 тысяч')
else:
    print('Не получилось отвергнуть нулевую гипотезу: выручка \
    достигает запланированных показателей')
    
#Результат

#p-значение: [2.53247976e-22]
#Отвергаем нулевую гипотезу: выручка значимо меньше 50 тысяч    
```    

# Гипотеза о равенстве средних двух генеральных совокупностей

Иногда бывает нужно сравнить средние двух генеральных совокупностей между собой. Например, можно исследовать два периода и на основании взятых из них случайных выборок сделать вывод о том, считать ли средние чеки за эти периоды одинаковыми или нет.


- Если обе генеральные совокупности не очень большие и помещаются в оперативную память вашего компьютера, можно рассчитать их средние и сделать вывод, какое больше. Правда, вывод о значимости этой разницы всё равно не сделать без статистического теста.
- Если только одна из генеральных совокупностей небольшая, можно рассчитать среднее всей первой (меньшей) совокупности — число — и провести тест на равенство этого числа со средним из второй совокупности, оценённым по выборке. 
- Если обе генеральные совокупности большие, придётся сравнивать средние по выборкам из каждой совокупности. На практике так часто и происходит, ведь данных много. В этом случае точно не обойтись без статистического теста.

В Python есть специальный метод для проверки гипотезы о равенстве среднего двух генеральных совокупностей по взятым из них выборкам:  
 - **scipy.stats.ttest_ind(array1, array2, equal_var, alternative)**
 
У метода несколько параметров:
 - **array1, array2** — наборы значений, которые содержат выборки.
 - equal_var (от англ. equal variance — «равная дисперсия») — необязательный параметр. Он управляет тем, будет ли метод считать равными дисперсии выборок. Передаётся как equal_var=True или equal_var=False (True — считать, False — не считать). По умолчанию — True.
 - alternative — текстовый параметр, задающий альтернативную гипотезу.  По умолчанию — 'two-sided'. Варианты: 
     - 'two-sided' -двусторонняя 
     - 'less' - левосторонняя
     - 'greater'  правосторонняя H1).

Итак, если параметр equal_var не указывать, то по умолчанию он примет значение True. Как понять, в каком случае должно быть True, а в каком False? 

Чтобы понять, можно ли применять t-тест, нужно проверить три условия:
 - **Генеральные совокупности не зависят друг от друга**. Если вы рассматриваете одну генеральную совокупность до и после какого-либо изменения, нужно использовать другой тест. Речь о нём пойдёт в следующем уроке.
- **Выборочные средние нормально распределены**. Это условие не должно быть препятствием благодаря ЦПТ. Если размер выборки составляет хотя бы несколько десятков значений, то выборочные средние, которые можно получить из одной и той же генеральной совокупности, будут распределены близко к нормальному вокруг истинного среднего этой совокупности. Это так, даже если сама генеральная совокупность не распределена нормально.

Часто это условие путают с необходимостью нормального распределения самих генеральных совокупностей. Для корректного использования t-теста это необязательно.

Дисперсии рассматриваемых генеральных совокупностей равны. Это коварное условие. С одной стороны, вы никогда точно не знаете, равны ли дисперсии рассматриваемых генеральных совокупностей. С другой — по умолчанию параметр equal_var принимает значение True: дисперсии считаются равными и тест объединяет обе выборки в одну, чтобы эту дисперсию поточнее оценить.

При этом если выборки достаточно велики (30 и больше значений) и равны по размеру между собой, то такой подход оправдан. Симуляции, проведённые учёными, показывают, что даже если дисперсии на самом деле не равны, то тест редко ошибается.

Так что правило тут простое: если выборки разного размера и/или можно предположить, что дисперсии у генеральных совокупностей разные, укажите equal_var=False при вызове метода scipy.stats.ttest_ind().

В остальных случаях используйте тест без изменений.

In [5]:
from scipy import stats as st

sample_1 = [3071, 3636, 3454, 3151, 2185, 3259, 1727, 2263, 2015, 
            2582, 4815, 633, 3186, 887, 2028, 3589, 2564, 1422, 1785, 
            3180, 1770, 2716, 2546, 1848, 4644, 3134, 475, 2686, 
            1838, 3352]
sample_2 = [1211, 1228, 2157, 3699, 600, 1898, 1688, 1420, 5048, 3007, 
            509, 3777, 5583, 3949, 121, 1674, 4300, 1338, 3066, 
            3562, 1010, 2311, 462, 863, 2021, 528, 1849, 255, 
            1740, 2596]

alpha = 0.05 # уровень статистической значимости
# если p-value окажется меньше него, отвергнем гипотезу

results = st.ttest_ind(sample_1, sample_2)

print('p-значение:', results.pvalue)

if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу') 
    

p-значение: 0.1912450522572209
Не получилось отвергнуть нулевую гипотезу


Значение p-value показывает: вероятность случайно получить такое или большее различие равна почти 20 %, хотя средние чеки из разных каналов и не одинаковы. Это явно слишком большая вероятность, чтобы делать вывод о значимом различии между средними чеками.

Мы не использовали дополнительный параметр equal_var=False, потому что у нас достаточно большие и одинаковые по размеру выборки, к тому же в обеих измерена одна и та же переменная. Нет оснований полагать, что разброс будет сильно отличаться.

# Односторонние гипотезы для средних двух генеральных совокупностей
можно сформулировать альтернативную гипотезу ещё двумя способами:
 - Среднее значение первой генеральной совокупности больше среднего значения второй генеральной совокупности.
 - Среднее значение первой генеральной совокупности меньше среднего значения второй генеральной совокупности.
 
Такой подход аналогичен проверке односторонних гипотез для одной выборки. Выше уже говорилось о том, что у метода ttest_ind() есть параметр alternative, который, как и в случае с методом ttest_1samp(), может принимать одну из трёх строк в качестве аргумента:
 - 'two-sided'
 - 'greater' -может использоваться для проверки альтернативной гипотезы «Среднее значение первой генеральной совокупности больше среднего значения второй генеральной совокупности». 
 - 'less'- может использоваться для проверки альтернативной гипотезы «Среднее значение первой генеральной совокупности меньше среднего значения второй генеральной совокупности».
 
Если alternative не задавался явно используется аргумент 'two-sided' — проверяется двусторонняя гипотеза: равны или не равны средние. А

ЗАДАЧА

Рассмотрим пример. Пусть существуют суммы трат двух групп пользователей сервиса: с платной подпиской и без. Проверим гипотезу о том, что пользователи с подпиской оставляют больше денег в приложении.
 - Нулевая гипотеза: средние значения трат пользователей из двух групп равны.
 - Альтернативная гипотеза: среднее значение трат пользователей с подпиской больше, чем среднее значение трат пользователей без подписки
 
Чтобы проверить такую гипотезу, нужно передать в метод ttest_ind()сначала выборку с суммами пользователей с подпиской (first_group_total), затем выборку с суммами пользователей без подписки (second_group_total) — порядок важен. В качестве alternative нужно указать 'greater', то есть «больше».

In [9]:
# импортируем библиотеки
import pandas as pd
import scipy.stats as st

# задаём уровень значимости
alpha = 0.05

# траты первой группы пользователей (с подпиской)
first_group_total = pd.Series([1030.04,  979.13, 1055.95, 1010.72, 
                               1026.73, 1050.37, 1016.69,
        988.54, 1035.16, 1023.99, 1019.9 , 1004.54, 1039.57, 1083.2 ,
       1015.08, 1053.87, 1015.  , 1010.2 , 1058.26,  984.14,  996.72,
        998.69, 1023.89, 1000.57, 1002.99, 1056.2 , 1064.17, 1017.63,
       1044.  , 1026.85])

# траты второй группы пользователей (без подписки)
second_group_total = pd.Series([ 976.47, 1020.  , 1004.24, 1022.44, 
                                1026.49,  954.82, 1044.95,
        985.61,  979.16,  990.87, 1020.94, 1000.64,  988.56, 1010.57,
        999.  , 1007.65,  990.61, 1033.15, 1037.47,  994.76,  987.89,
        996.38,  975.61, 1026.65, 1017.6 , 1005.86,  970.54,  991.88,
       1005.44, 1014.79])

# проводим ttest для двух выборок, в качестве альтернативной 
# используем одностороннюю гипотезу «больше»
results = st.ttest_ind(first_group_total, 
                       second_group_total, 
                       alternative='greater')

print(f'p-value: {results.pvalue}')

# проверяем p-value
if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу\n')
    print('Полученное значение p-value меньше заданного уровня значимости, \n\
поэтому оснований отвергунть нулевую гипотезу нет. Нет основания говорить, \n\
что пользователи с подпиской тратят в сервисе больше денег.')
else:
    print('Нет оснований отвергнуть нулевую гипотезу')
    print('Полученное значение p-value больше заданного уровня значимости, \n\
поэтому можно отвергнуть нулевую гипотезу. Есть основания говорить, \n\
что пользователи с подпиской тратят в сервисе больше денег.')

p-value: 0.0003550397639439689
Отвергаем нулевую гипотезу

Полученное значение p-value меньше заданного уровня значимости, 
поэтому оснований отвергунть нулевую гипотезу нет. Нет основания говорить, 
что пользователи с подпиской тратят в сервисе больше денег.


Задача 1  
Приведены два датасета: среднее время пребывания на сайте пользователей, которые авторизуются с логином и паролем, и тех, кто авторизуется через социальные сети. Проверьте гипотезу о равенстве времени, которое проводят на сайте обе группы.
Установите уровень статистической значимости 0.01

In [10]:
from scipy import stats as st
import numpy as np

# время на сайте пользователей, зашедших с логином и паролем
time_on_site_logpass = [368, 113, 328, 447, 1, 156, 335, 233, 
                       308, 181, 271, 239, 411, 293, 303, 
                       206, 196, 203, 311, 205, 297, 529, 
                       373, 217, 416, 206, 1, 128, 16, 214]

# время на сайте пользователей, зашедших через социальные сети

time_on_site_social  = [451, 182, 469, 546, 396, 630, 206, 
                        130, 45, 569, 434, 321, 374, 149, 
                        721, 350, 347, 446, 406, 365, 203, 
                        405, 631, 545, 584, 248, 171, 309, 
                        338, 505]


alpha = 0.01 # задайте уровень стат. значимости
#st.ttest_ind(first_group_total, second_group_total, alternative='greater')
# проведите стат.тест о равенстве времени,которое проводят на сайте обе группы
results =st.ttest_ind(time_on_site_logpass, time_on_site_social) 

# выведите на экран получившееся p-значение
print('p-значение:', results.pvalue)

if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')

p-значение: 0.0010501061456827461
Отвергаем нулевую гипотезу


Задача 2  
Приведены два датасета: глубина просмотра сайта разными группами пользователей за летние и осенние месяцы. Проверьте гипотезу о равенстве глубины просмотра веб-ресурса. Возможно, летом посетители погружаются в контент ненадолго — стоит учесть при планировании рекламных кампаний в это время года.  
Установите уровень статистической значимости 0.01

In [11]:
from scipy import stats as st
import numpy as np

pages_per_session_autumn = [7.1, 7.3, 9.8, 7.3, 6.4, 10.5, 8.7, 
                            17.5, 3.3, 15.5, 16.2, 0.4, 8.3, 
                            8.1, 3.0, 6.1, 4.4, 18.8, 14.7, 16.4, 
                            13.6, 4.4, 7.4, 12.4, 3.9, 13.6, 
                            8.8, 8.1, 13.6, 12.2]
pages_per_session_summer = [12.1, 24.3, 6.4, 19.9, 19.7, 12.5, 17.6, 
                            5.0, 22.4, 13.5, 10.8, 23.4, 9.4, 3.7, 
                            2.5, 19.8, 4.8, 29.0, 1.7, 28.6, 16.7, 
                            14.2, 10.6, 18.2, 14.7, 23.8, 15.9, 16.2, 
                            12.1, 14.5]

alpha = .01 # задайте уровень стат. значимости
# проведите стат. тест о равенстве глубины просмотра сайта за лето и осень
results = st.ttest_ind(pages_per_session_summer, pages_per_session_autumn)  

# выведите на экран получившееся p-значение
print('p-значение:', results.pvalue)

if results.pvalue < alpha: # сравните получившееся p-значение с alpha
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')

p-значение: 0.002042828065164986
Отвергаем нулевую гипотезу


# Гипотеза о равенстве средних для зависимых (парных) выборок
как проверять гипотезу, если вы анализируете одну генеральную совокупность, с которой произошли некоторые изменения. В этом случае вы будете проверять, равны ли средние совокупности до и после этого изменения.
Гипотезы в таком случае будут сформулированы так:

![image-2.png](attachment:image-2.png)

## метод scipy.stats.ttest_rel()
Чтобы проверить гипотезу о равенстве среднего генеральной совокупности для зависимых (парных) выборок в Python, применим метод scipy.stats.ttest_rel().

Ему достаточно передать всего два параметра: наборы данных до и после. Оба набора должны быть одинаковыми по размеру: каждое измерение должно быть проведено до и после изменения.

Подразумевается, что порядок объектов, для которых сделаны измерения, в обоих массивах тоже одинаковый: k-е по порядку число в первом наборе и k-е число во втором наборе — это измерения для одного и того же объекта до и после изменения.

Приведены два датасета: вес посылок в граммах до и после изменения способа расчёта оплаты доставки (для тех же постоянных потребителей).

Проверьте гипотезу о том, что вес посылок не изменился несмотря на то, что цена доставки стала рассчитываться по-другому.

In [13]:
from scipy import stats as st

before = [157, 114, 152, 355, 155, 513, 299, 268, 164, 320, 
          192, 262, 506, 240, 364, 179, 246, 427, 187, 431, 
          320, 193, 313, 347, 312, 92, 177, 225, 242, 312]

after = [282, 220, 162, 226, 296, 479, 248, 322, 298, 418, 
         552, 246, 251, 404, 368, 484, 358, 264, 359, 410, 
         382, 350, 406, 416, 438, 364, 283, 314, 420, 218]

alpha = 0.05 # уровень статистической значимости

results = st.ttest_rel(before, after)

print('p-значение:', results.pvalue)

if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу о равенстве среднего веса посылок')
else:
    print('Не получилось отвергнуть нулевую гипотезу о равенстве \
среднего веса посылок')

p-значение: 0.005825972457958989
Отвергаем нулевую гипотезу о равенстве среднего веса посылок


Данные дают достаточное основание отвергнуть нулевую гипотезу для выбранного уровня значимости. Значит, можно сделать вывод, что вес посылок изменился.

Задача 1 
Приведены два датасета: время использования одними и теми же пользователями личного кабинета сайта до редизайна и после. 

Проверьте гипотезу, что после редизайна время использования личного кабинета на сайте изменилось (увеличилось или уменьшилось). Установите уровень статистической значимости 0.05.



In [14]:
from scipy import stats as st

time_before = [1732, 1301, 1540, 2247, 1632, 1550, 754, 1946, 1889, 
          2748, 1349, 1648, 1665, 2416, 1470, 1681, 1868, 1629, 
          1271, 1633, 2131, 942, 1599, 1127, 2200, 661, 1207, 
          1737, 2410, 1486]

time_after = [955, 2577, 360, 139, 1618, 990, 644, 1796, 1487, 949, 472, 
         1906, 1758, 1258, 2554, 612, 309, 1864, 1294, 1487, 1164, 1559, 
         491, 2286, 1270, 2069, 1553, 1629, 1704, 1623]

alpha = .05 # задайте уровень статистической значимости

# проведите тест и посчитайте p-значение
results = st.ttest_rel(time_before, time_after) 

# выведите на экран полученное p-значение
print('p-значение:', results.pvalue)
# сравните p-значение с заданным уровнем значимости alpha
if results.pvalue < alpha: 
    print('Отвергаем нулевую гипотезу о равенстве среднего \
времени использования личного кабинета')
else:
    print('Не получилось отвергнуть нулевую гипотезу о равенстве \
среднего времени использования личного кабинета')

p-значение: 0.0751397944405015
Не получилось отвергнуть нулевую гипотезу о равенстве среднего времени использования личного кабинета


Задача 2  
В онлайн-игре произошли изменения: ввели новую игровую логику, которая стимулирует пользователей к стрельбе очередями. У вас есть два датасета: в них количество патронов, которые покупают постоянные игроки в онлайн-игре, до и после изменения. 

Проверьте гипотезу о том, что после нововведений количество используемых патронов изменилось.  

In [16]:
from scipy import stats as st
import pandas as pd

bullets_before = [821, 1164, 598, 854, 455, 1220, 161, 1400, 479, 215, 
          564, 159, 920, 173, 276, 444, 273, 711, 291, 880, 
          892, 712, 16, 476, 498, 9, 1251, 938, 389, 513]

bullets_after = [904, 220, 676, 459, 299, 659, 1698, 1120, 514, 1086, 1499, 
         1262, 829, 476, 1149, 996, 1247, 1117, 1324, 532, 1458, 898, 
         1837, 455, 1667, 898, 474, 558, 639, 1012]

print('Среднее до:', pd.Series(bullets_before).mean())
print('Среднее после:', pd.Series(bullets_after).mean())

alpha = 0.05 # задайте уровень статистической значимости

results = st.ttest_rel(bullets_before, bullets_after) # проведите тест здесь

# выведите на экран полученное p-значение
print('p-значение:', results.pvalue)
# сравните p-значение с заданным уровнем стат. значимости
if results.pvalue < alpha: 
    print('Отвергаем нулевую гипотезу о равенстве среднего числа патронов')
else:
    print('Не получилось отвергнуть нулевую гипотезу о равенстве \
среднего числа патронов')

Среднее до: 591.7333333333333
Среднее после: 932.0666666666667
p-значение: 0.010789503820811123
Отвергаем нулевую гипотезу о равенстве среднего числа патронов


Гипотеза двусторонняя, поэтому только по p-value нельзя судить, в большую или меньшую сторону изменилось количество выстрелов. Однако, посчитав среднее количество патронов для обоих датасетов, с уверенностью можно сказать: очередями стрелять расточительнее.

Кстати, если бы уровень значимости был1%, а не 5 %, нулевую гипотезу мы бы уже не отвергли.

![image.png](attachment:image.png)