# Тестирование гипотез

In [2]:
import numpy as np
from scipy.stats import norm

## Альтернативная и нулевая гипотезы

Для расчета *p-value* используйте формулу `norm.cdf()`. Напомним, что эта функция находит площадь «левого хвоста» на графике плотности стандартного нормального распределения $Z$ — площадь под кривой налево от заданной точки $z$.

## Задача 1. Условия

Производитель аккумуляторных батарей заявляет, что средний срок службы батарейки *АА* составляет $14$ месяцев. Вы подозреваете, что на самом деле это число преувеличено.

Чтобы проверить утверждение производителя, вы взяли случайную выборку из $64$ батареек и посчитали выборочное среднее — $13.5$ месяцев. Известно, что срок службы батарейки имеет стандартное отклонение $2$ месяца. Для тестирования гипотезы используйте уровень значимости $\alpha=0.05$.

Обратите внимание, что как постановка альтернативной гипотезы, так и выбор уровня значимости $\alpha$ может повлиять на вывод, который вы делаете в результате тестирования гипотезы.

Первый шаг при тестировании – постановка нулевой и альтернативной гипотез. Нулевая гипотеза: $\mu=14$. Какую альтернативную гипотезу нужно использовать в данном случае?

In [3]:
n = 64
mu = 13.5
sigma = 2
a = 0.05

In [4]:
print('mu < 14')

mu < 14


Чему равна *z-статистика*?

$ z_{st} = \frac{\bar{x}-\mu_{0} }{\sigma /\sqrt{n}} $

In [5]:
z = (mu - 14) / (sigma / np.sqrt(n))
print(f'{z:.3f}')

-2.000


Чему равно значение *p-value*?

In [6]:
p_value = norm.cdf(z)
print(f'{p_value:.3f}')

0.023


In [7]:
value = -norm.ppf(a)

print(f'{value:.3f}')

1.645


Таким образом, мы **отвергаем** нулевую гипотезу и приходим к выводу, что средний срок службы батарейки **ниже** 14 мес.

## Задача 2. Условия

На упаковке муки указана ее масса — $455$ г. Известно, что масса муки в упаковке распределена приблизительно нормально, и что ее стандартное отклонение составляет $12.5$ граммов. В случайной выборке из $16$ упаковок средняя масса составила $449$ граммов. Протестируйте на уровне значимости 5% нулевую гипотезу о том, что средняя масса упаковки с мукой составляет $455$ граммов.


In [41]:
n = 16
mu = 449
mu0 = 455
sigma = 12.5
a = 0.05

Допустим, у вас нет никаких догадок о том, является ли истинная средняя масса упаковки $\mu$ выше или ниже указанного значения в $455$ граммов. Сформулируйте соответствующую альтернативную гипотезу и протестируйте ее.

Чему равно соответствующее значение *p-value*?

In [42]:
z = (mu - mu0) / (sigma / np.sqrt(n))
print(f'{z:.3f}')

-1.920


In [46]:
p_value = 2 * norm.cdf(z) # *2 cause we calc CDF twice
print(f'{p_value:.3f}')

0.055


In [45]:
p_value > a

True

## Задание 7.7

Вы заподозрили, что производитель сознательно завышает количество граммов, указанное на упаковке, в то время как на самом деле средняя масса ниже. Сформулируйте соответствующую альтернативную гипотезу и протестируйте ее.

Чему в таком случае равно значение *p-value*?

In [47]:
p_value = norm.cdf(z) # *2 cause we calc CDF twice
print(f'{p_value:.3f}')

0.027


In [48]:
p_value > a

False

## Задание 7.8

Согласны ли вы сейчас, что указанное на упаковке количество граммов соответствует истинной средней массе муки в упаковке?

In [49]:
print('Нет, потому что мы отвергаем нулевую гипотезу')

Нет, потому что мы отвергаем нулевую гипотезу


## Задание 7.9

Как изменится ваш ответ, если тестирование будет сделано на уровне значимости 1% (все остальные условия, обозначенные в задаче 2, остаются в силе)?

In [55]:
n = 16
mu = 449
mu0 = 455
sigma = 12.5
a = 0.01

z = (mu - mu0) / (sigma / np.sqrt(n))
print(f'z_st={z:.3f}')

p_value = 2 * norm.cdf(z) # *2 cause we calc CDF twice
print(f'p_value={p_value:.3f}')

z_st=-1.920
p_value=0.055


## z-статистика и t-статистика

Чтобы найти *p-value* для *z-статистики*, применяйте функцию `norm.cdf()`

In [59]:
from scipy.stats import norm

Чтобы использовать t, импортируйте:

In [58]:
from scipy.stats import t

Чтобы найти *p-value* для *t-статистики*, применяйте одну из функций:

- `t.cdf()`, если в альтернативной гипотезе стоит знак `<`; эта функция находит площадь под «левым хвостом» на графике плотности распределения Стьюдента — площадь под кривой слева от заданной точки;
- `1 - t.cdf()`, если в альтернативной гипотезе стоит знак `>`; эта функция находит площадь под «правым хвостом» на графике плотности распределения Стьюдента — площадь под кривой справа от заданной точки. Вместо этой функции можно использовать метод `t.sf() = 1 - t.cdf()`.
- `(1 - t.cdf()) * 2`, если в альтернативной гипотезе стоит знак `≠`; эта функция считает площадь под правым хвостом. Первый аргумент следует взять по модулю `2*(1 -t.cdf(abs(x), df)`.

Функция `scipy.stats.t.cdf()` имеет два обязательных позиционных аргумента: `x` и `df`. Количество степеней свободы df — находим как $k = (n-1)$.

## Задача 1. Условия

Производитель утверждает, что новая модель кондиционера для воздуха потребляет только $6.5$ кВт⋅ч электричества в день. Однако в союзе потребителей убеждены, что истинное среднее количество потребляемой энергии выше этого значения.

Союз проводит собственное исследование на основании случайной выборки в $25$ кондиционеров и находит, что выборочное среднее значение равно $7$ кВт⋅ч. Известно, что количество потребляемой кондиционером энергии распределено нормально и его истинное стандартное отклонение равно $1.4$ кВт⋅ч.


### Задание 8.2

Введите значение *p-value*

In [70]:
n = 25
sigma = 1.4
mu = 7
mu0 = 6.5

z = (mu - mu0) / (sigma / np.sqrt(n))

p_value = 1 - norm.cdf(z)
print(f'{p_value:.3f}')

0.037


### Задание 8.3

Можно ли опровергнуть заявление производителя на уровне значимости 5%? А на уровне значимости 1%?

In [69]:
answer = {
    (True, False): 'Можно опровергнуть на уровне значимости 5 %, но не на уровне значимости 1 % верно',
    (False, True): 'Можно опровергнуть на уровне значимости 1 %, но не на уровне значимости 5 %',
    (True, True): 'В обоих случаях тест позволяет опровергнуть заявление производителя',
    (False, False): 'В обоих случаях у нас недостаточно оснований, чтобы опровергнуть заявление производителя',
}

print(answer[(p_value < 0.05, p_value < 0.01)])

Можно опровергнуть на уровне значимости 5 %, но не на уровне значимости 1 % верно


## Задача 2. Условия

Региональные власти утверждают, что средний годовой доход домохозяйства составляет 12000 USD. Экономист, подозревая, что истинный средний доход может быть меньше, находит на случайной выборке из 135 домохозяйств этого региона, что средний доход равен 11500 USD, а стандартное отклонение равно 5110 USD.

In [72]:
n = 135
mu = 11500
mu0 = 12000
sigma = 5110

### Задание 8.4

Укажите значение тестовой статистики, которую следует использовать в данном случае

In [77]:
z = (mu - mu0) / (sigma / np.sqrt(n))
print(f'{z:.3f}')

-1.137


### Задание 8.5

Введите значение *p-value*

In [91]:
k = n - 1
p_value = t.cdf(z, k)
print(f'{p_value:.3f}')

0.129


У нас недостаточно статистических оснований, чтобы отвергнуть утверждение о среднем доходе в 12000USD

## Задача 3. Условия

Сотрудники компании, специализирующейся на продаже франшиз, заявляют, что процент возврата на инвестиции в проданные ими франшизы уже в первый год составляет $10$ (все дальнейшие значения приведены в процентах, их можно игнорировать как единицы измерения). Была взята выборка из $10$ различных сделок данной компании и рассчитан процент возврата на инвестиции в первый год в каждой из них. Значения приведены ниже:

In [92]:
x = np.array([6.1, 9.2, 11.5, 8.6, 12.1, 3.9, 8.4, 10.1, 9.4, 8.9])
x

array([ 6.1,  9.2, 11.5,  8.6, 12.1,  3.9,  8.4, 10.1,  9.4,  8.9])

Вы хотите проверить достоверность заявления, сделанного компанией, подозревая, что на самом деле средний процент возврата на инвестиции в первый год ниже $10$. Чтобы протестировать соответствующую гипотезу, сначала рассчитайте в Python значение среднего и стандартного отклонения.

In [93]:
n = x.shape[0]
mu = x.mean()
sigma = x.std()

# Задание 8.7

Какую тестовую статистику следует использовать в данном случае?

In [94]:
print('t-статистику')

t-статистику


In [95]:
z = (mu - 10) / (sigma / np.sqrt(n))

In [98]:
k = n - 1
p_value = t.cdf(z, k)
print(f'p_value={p_value:.3f}')

p_value=0.068


In [99]:
a = 0.05
p_value > a

True

In [100]:
print('p-value>0.05, поэтому мы не можем опровергнуть заявление компании')

p-value>0.05, поэтому мы не можем опровергнуть заявление компании


## Задача 1. Условия

Представитель профсоюза утверждает, что 75% сотрудников готовы присоединиться к забастовке, если их требования не будут удовлетворены. Сотрудник компании, ведущий переговоры с профсоюзом, считает, что эта пропорция сильно преувеличена. Он решает проверить утверждение представителя профсоюза, используя уровень значимости 5%. Таким образом, ему надо протестировать следующий набор гипотез:

$ H_{0}: p = 0.75, H_{A}:p < 0.75 $

В выборке из $125$ сотрудников $87$ ответили, что будут готовы поддержать забастовку в случае неудовлетворения требования профсоюза.

In [116]:
p0 = 0.75
n = 125
p = 87 / n
z = (p - p0) / np.sqrt(p0*(1-p0) / n)
print(f'z_st={z:.3f}')

z_st=-1.394


In [115]:
p_value = norm.cdf(z)
print(f'p_value={p_value:.3f}')

p_value=0.082


In [117]:
a = 0.05
p_value < a

False

### Задание 10.3

К какому выводу придет сотрудник компании?

In [119]:
print('Возможно, представитель профсоюза действительно прав и пропорция сотрудников, готовых присоединиться к забастовке равна 75% верно')

Возможно, представитель профсоюза действительно прав и пропорция сотрудников, готовых присоединиться к забастовке равна 75% верно
