In [1]:
import pandas as pd
import numpy as np

from scipy import stats
from sympy import *
from statsmodels.stats.proportion import proportions_ztest

import matplotlib.pyplot as plt

pd.options.display.float_format = '{:,.4f}'.format

import warnings
warnings.filterwarnings("ignore")

# Proportion Z-test

**Одновыборочный:**
$$\frac{p - p_0}{\sqrt{\frac{p_0 \cdot (1 - p_0)}{n}}}$$

**Двувыборочный:**
$$\frac{p_x - p_y}{\sqrt{p \cdot (1 - p) \cdot (\frac{1}{n_x} + \frac{1}{n_y})}}$$

# Одновыборочный

# Задача 1

Фирма рассылает рекламные каталоги возможным заказчикам. Как показал опыт, вероятность того, что организация получившая каталог, закажет рекламируемое изделие, равна $0.08$. Фирма разослала $1000$ каталогов новой, улучшенной, формы и получила $100$ заказов. На уровне значимости $0.05$ выяснить, можно ли считать, что новая форма рекламы существенно лучше прежней. 

$$H_0: p = p_0$$
$$H_1: p > p_0$$


#### Расчет вручную

In [2]:
m = 100
n = 1000
p_0 = 0.08
p = m/n

In [5]:
z = (p - p_0) / np.sqrt(p_0*((1-p_0)/n))
z

2.331262020600785

In [6]:
stats.norm.sf(z)

0.009869773784969059

#### Расчет пакетом statsmodels

In [22]:
proportions_ztest(count=m, nobs=n, value=0.08, alternative='larger')

(2.10818510677892, 0.01750749050983122)

Не бьется, потому что proportions_ztest использует p, а не p_0  в знаменателе

**p-value ниже** уровня статистической значимости $\alpha = 0.05$, принять нулевую гипотезe не можем. Следовательно, **новая форма рекламы существенно лучше прежней**. 

# Задача 2

Обычно применяемое лекарство снимает послеоперационные боли у $80\%$ пациентов. Новое лекарство, применяемое для тех же целей, помогло $90$ пациентам из первых $100$ оперированных. Можно ли на уровне значимости $\alpha = 0.05$ считать, что новое лекарство лучше? А на уровне $\alpha = 0.01$?

$$H_0: p = p_0$$
$$H_1: p > p_0$$

#### Расчет вручную

In [9]:
m = 90
n = 100
p_0 = 0.8
p = m/n

In [10]:
z = (p - p_0) / np.sqrt(p_0*((1-p_0)/n))
z

2.4999999999999996

In [11]:
stats.norm.sf(z)

0.006209665325776138

#### Расчет через пакет stats

In [26]:
proportions_ztest(count=m, nobs=n, value=p_0, alternative='larger')

(3.3333333333333326, 0.00042906033319683827)

**p-value ниже** уровня статистической значимости и $\alpha = 0.05$ и $\alpha = 0.01$, принять нулевую гипотезe не можем. Следовательно, **новое лекарство лучше**. 

# Двувыборочный

# Задача 1

Из $n_1=200$ задач первого раздела курса математики, предложенных для решения, абитуриенты решили $m_1=130$, а из $n_2=300$ задач второго раздела абитуриенты решили $m_2=120$. Можно ли при $\alpha = 0.01$ утверждать, что первый раздел школьного
курса абитуриенты усвоили лучше, чем второй. 

$$H_0: p_1 = p_2$$
$$H_1: p_1 > p_2$$

#### Расчет вручную

In [27]:
n_1, n_2 = 200, 300
m_1, m_2 = 130, 120

p_1 = m_1 / n_1
p_2 = m_2 / n_2
p = (m_1 + m_2) / (n_1 + n_2)

In [28]:
z = (p_1 - p_2) / np.sqrt(p*(1-p)*(1/n_1 + 1/n_2))

z

5.477225575051661

In [29]:
stats.norm.sf(z)

2.160231528913744e-08

#### Расчет пакетом statsmodels¶

In [30]:
count = np.array([m_1, m_2])
nobs = np.array([n_1, n_2])


proportions_ztest(count, nobs, alternative='larger')

(5.477225575051661, 2.160231528913744e-08)

**p-value ниже** уровня статистической значимости $\alpha = 0.05$, принять нулевую гипотезe не можем. Следовательно, **первый раздел школьного курса абитуриенты усвоили лучше**.

## Задача 2

Выборочная проверка надежности материнских плат $2-х$ производителей дала следующие результаты: в течения месяца после продажи в $15$ из $200$ материнских плат производителя $А$ обнаружены дефекты, тогда как среди $400$ материнских плат производителя $В$ $8\%$ оказались дефектами. Существенны ли различия в надежности материнских плат производителей $А$ и $В$? Уровень значимости принять равным $\alpha = 0.01$. 

$$H_0: p_1 = p_2$$
$$H_1: p_1 \neq p_2$$

#### Расчет вручную

In [32]:
n_1, n_2 = 200, 400
m_1, m_2 = 15, 32

p_1 = m_1 / n_1
p_2 = m_2 / n_2
p = (m_1 + m_2) / (n_1 + n_2)

In [33]:
z = (p_1 - p_2) / np.sqrt(p*(1-p)*(1/n_1 + 1/n_2))

z

-0.21487165475555572

In [37]:
stats.norm.cdf(z) * 2

0.8298673849427255

#### Расчет пакетом statsmodels

In [39]:
count = np.array([m_1, m_2])
nobs = np.array([n_1, n_2])


proportions_ztest(count, nobs, alternative='two-sided')

(-0.21487165475555572, 0.8298673849427255)

**p-value выше** уровня статистической значимости $\alpha = 0.01$, отвергнуть нулевую гипотезe не можем. Следовательно, **различия в надежности материнских плат производителей $А$ и $В$ несущественны**.