----
# Терия вероятности
----
версия 1.0.  
14.08.2021

**Содержание:**  
    
 1 часть | 2 часть | | функции
:----------------- |:---------- |:---------- |:----------
<a href='#1'> 1. Основные термины и понятия | <a href='#5'> 5. Тестирование гипотез  | | <a href='#f1'> prob_info(var_list,prob_list, aqquracy=2, name='x')
<a href='#2'> 2. Непрерывня случайная величина | <a href='#5.1.'> 5.1. Тестирование гипотез с выборочном средним | | <a href='#f2'>confidence_int(mean, alpha, n, s=0, sigma=0)
<a href='#2.1.'> 2.1. Стандартная нормальная случайная величина | <a href='#5.2.'> 5.2. Тестирование гипотез о выборочной пропорции | | <a href='#f3'> confidence_int_rate(rate, alpha, n)
<a href='#3'> 3. Центральная предельная теорема | <a href='#5.3.'> 5.3. Тестирование гипотез о разности величин | | 
<a href='#4'> 4. Доверительный интервал | <a href='#5.4.'> 5.4. Тестирование гипотез на разность пропорций | | 
<a href='#4.1.'> 4.1. Доверительный интервал для среднего |     | |
<a href='#4.2.'> 4.2. Распределение Стюдента |   ||
<a href='#4.3.'> 4.3. Доверительный интервал для пропорции |   ||










In [5]:
import pandas as pd
import numpy as np
import math
from scipy.stats import norm
from scipy.stats import t
from statsmodels.stats import weightstats

## Основные термины и понятия

***Трактовка важнейших символов в записи определений и формул***  

Символ | Определение | Трактовка 
:----: |:----------------- |:----------
**Ω** | Множество элементарных исходов | Множество событий, пространство элементарных исходов, достоверное событие
**ω** | Элементарный исход | 
A, B | События |
P(ω), $p_{i}$ | Вероятность элементарного исхода  | 
P(A) | Вероятность события  | 
$$A^c$$ | Дополнение подмножества А до Ω | Событие А не произошло
**μ**, E(Х) | математическое ожидание случайной величины Х | истинное среднее, E(X) = ∑_(i=1)^N x_i * P(x_i)  
Var(Х), D(X) | дисперсия случайной величины Х | Var(X) = E(X - μ)^2
**σ** | Стандартное отклонение случайной величины Х | √ Var(X)
**Z** | Стандартная нормальная величина (μ = 0, σ = 1 )|
$\bar{X}$ | Выборочная средняя | Случайная величина, то есть выступает и как функция вероятности выборочного значения
**s** | Стандартное отклонение выборочной случайной величины Х | 
$\widehat{r}$ |$\frac{Y}{n}$, rate, выборочная пропорция |  Случайная величина, также как и выборочная средняя
N(μ,σ) | Функция распределения нормальной случайной величины |
Z | $Z \sim N (0,1)$, Стандартная нормальная величина | Нормальная величина, у которой μ=0 σ=1
$\alpha$| Уровень ошибки или погрешности | Ошибка или погрешность при вычислении доверительного интервала
$\beta$| Уровень уверенности или доверия | Параметр - обратный $\alpha$


Построение модели случайного эксперимента начинается с описания множества Ω (омега) всевозможных исходов ω, которые могут произойти в результате каждого испытания. ***Множество Ω*** называется *пространством элементарных исходов*, его ***точки (элементы) ω*** – *элементарными исходами* или *элементарными событиями*. Любое ***подмножество A*** пространства Ω (совокупность элементарных исходов ω) называется *событием*; пространство Ω также является событием, но имеющим особое название достоверного события. Говорят, что произошло событие A, если в испытании наблюдается элементарный исход ω ∈ A.

>В эксперименте с подбрасыванием монеты на самом деле происходит не два возможных исхода, а множество разных элементарных исходов (монеты падают как угодно с углом поворота, с местом падения, с временем падения и т.д.), хотя и с общим «признаком»: «сторона, обращенная вверх к наблюдателю», не важно как, не важно, где наблюдатель. В таком определении, множество исходов ω, удовлетворяющих признаку «герб вверх» - называется событие А. И ккжется, что их только два: Герб и Решка. Но, возможно падение и на ребро! Возможно, также, падение мимо стола и закатывание под плинтус! Возможно-возможно. Вот только вероятность таких исходов... ноль! Потому что количество реальных исходов стремится к бесконечности ( 1 / беконечноть => 0 )

Если ограничиться рассмотрением пространств элементарных исходов, состоящих из не более чем счетного числа элементов, то построение вероятностной модели по существу состоит в задании распределения вероятностей на пространстве Ω, в соответствии с которым каждому элементарному исходу ω ∈ Ω ставится в соответствие число p (ω), называемое вероятностью элементарного события ω. Постулируется, что 0 ⩽ p (ω) ⩽ 1, каково бы ни было ω ∈ Ω, и

$$\sum_{\omega \in \Omega }^{}p(\omega ) = 1$$

Вероятность любого составного события A лежит в пределах 0 ⩽ P(A) ⩽ 1 и вычисляется по формуле 

$$P(A) = \sum_{\omega \in A }^{}p(\omega )$$

**Пример.**  
Статистика количества попыток до получения лицензии

| x  | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|:---- |:---: |:---: |:---: |:---: |:---: |:---: |:---: |:---: |
| P(x) | 0.05 | 0.1 | 0.3 | 0.25 | 0.15 | 0.07 | 0.05 | 0.03 |

Здесь (х) - количество попыток для успешного получения лицензии.  
Из таблицы видно, что вероятность получения лицензии с третьей попытки составляет 30% (0,3). А вероятность получения лицензии, потратив 5 или более попыток составляет 30% ( *P(5⩽x) = 0.15+0.07+0.05+0.03 = 0.3* ) 


**Математическое ожидание дискретной случайной величины** - это сумма значений случайной величины, взвешенных по их вероятносnям. Сумма произведений значений и вероятносей этих значений.

*Свойства математического ожидания:* 
1. мат.ожидание константы - равно константе  $E(c) = c$
2. Констатнту можно вынест за знак мат.ожидания $E(cX) = c*E(X)$
3. Мат.ожидание суммы (разности) случайных величин равна сумме (разности) мат.ожиданий этих случайных величин  
$E(X+Y) = E(X) + E(Y), E(X-Y) = E(X) - E(Y) $
4. Мат.ожидание можно испльзовать и для функций от Х  

**Дисперсия дискретной случайной величины** - это математическое ожидание отклонения случайной величины от истинного среднего (математического ожидания). Это сумма произведения квадратов разностей случайных величин от истинного среднего и вероятности случайных величин.  

$$Var(X) = E (X-\mu)^{2} = \sum_{i=1}^{N} (x_{i} - \mu )^{2} * p_{i}$$

*Свойства дисперсии:*
1. Дисперсия константы - равна нулю $Var(c) = 0$
2. Константу можно вынести за знак дисперсии в квадрате.  $Var(cX) = C^2 * Var(X)$
3. Дисперсия суммы или разности случайных ***независимых*** величин равна сумме дисперсий этих величин.  
$Var(X+/-Y) = Var(X) + Var(Y)$  
в случае зависимости X и Y, в формулу добавляется элемент-значение ковариации этих величин $Cov(X,Y)$

**Стандартное отклонение дискретной случайной величины**  - величина отклонения случайной величины от истинного среднего. Это квардратнй корень из дисперсии.

<a id='f1'></a>  Функция расчета вероятностной статистики для набора данных и их вероятностей:

In [2]:
def prob_info(var_list,prob_list, aqquracy=2, name='x'):
    
    import numpy as np
    import math
    
    q="""
    Функция расчета вероятностной статистики для набора данных и их вероятностей
         var_lis - список знеачений
         prob_list - соответствующие списку - вероятности
         accuracy - округление результатов до
         name - название переменной, если нужно для красоты
    """

    import math
    # Преобразование списков в таблицы для удобства манипуляций
    var = np.array(var_list)               # var - массив значений переменной
    prob = np.array(prob_list)             # prob(ability) - массив вероятностей значений переменной

    # Расчет вероятностной статистики  
    expect = sum(var*prob)                      # математическое ожидание, истинное вреднее \mu
    variation = sum(((var - expect)**2)*prob)   # дисперсия Var(x)
    stnd = math.sqrt(variation)                 # стандартное отклонение \sigma
    
    # Формируем итоговый словарь с данными статистики и преиобразуем в датасет
    stat_dic = {"expectation": expect, "variation": variation, "standart": stnd}
    result = pd.DataFrame(stat_dic, columns=["expectation", 'variation', 'standart'], index=[name])

    # возвращаем в результат работы функции с нужным округлением
    return round(result,aqquracy)

In [3]:
stat = pd.DataFrame({'x': [1,2,3,4,5,6,7,8], 'px':[0.05,0.1,0.3,0.25,0.15,0.07,0.05,0.03]})
prob_info(stat.x,stat.px)

Unnamed: 0,expectation,variation,standart
x,3.91,2.5,1.58


<a id='2'></a> 
## Непрерывня случайная величина.

Случайная величина, заданная не таблицей, а функцией не может быть посчитана как диксретная. Так как количество значений, где определена функция бесконечно, то вероятность каждого конкретного значения - будет стремиться к нулю, ведь наша сумма всех вероятностей по-прежнему равна 1.   
**Вероятность** такой случайной величины находится через интеграл функции - **площадь под кривой функции**. Причем, вероятность может быть найдена только на интервале значений.  

### Нормальная случайная величина ### 
- это величина, функция плотности распределения которой представлена в виде колокола. у этой функции есть следующие признаки:  

1. Эта кривая симметрична и имеет форму колокола.
2. Центр, или пик этого распределения, находится на уровне истинного среднего. Туда же попадает медиана. Значения нормальной случайной величины сконцентрированы в центре, и чем дальше мы отодвигаемся от центра, тем реже  случаются значения этой величины.  
4. Может принимать значения от минус бесконечности до плюс бесконечности.  
5. формула имеет страшный вид  

<a id='2.1.'></a>
## Стандартная нормальная случайная величина ## 
**Стандартная нормальная величина** (Z) - частный случай нормальной случайной величины, у которой $\mu = 0, \sigma = 1 $ (математическое ожидание равно 0, а стандартное отклоненине равно 1)

Любую нормально распределенную функцию вероятности случайной величины можно привести к нормальной через такое вырожение:

$$ Z \sim N (0,1) $$


Что означает: нормально распределнная функция распределения вероятности примет те же значения, что и стандартная нормальная величина, если отнять от нее истиное среднее (перенести ее матожидание в 0) , и раздедлить на стандартное отклонение (масштабировать в σ=1).   

Стандартная нормальная величина дает возможнотсь определять, на сколько далеко отстоит конкретное значение X функции распределения, так как это определяется формулой: 

$$ \frac{\bar{X} - \mu}{\sigma} = \frac{(\bar{X} - 0)}{1} = \bar{X} $$


Таким образом, зная на сколько стандартных отклонений отстоит конкреное значение X любой случайной величины, имющей нормально распределнную функцию распределения, можно вычислить вероятность такой величины, через вероятность соответствующего X в *стандарной нормальной величине*

**Пример**  
Допустим, X — это рост случайно выбранного человека. Нам известно, что X распределен нормально со средним 182 см и стандартным отклонением 4 см. Рост конкретного человека равен 190 см. Чему равно значение  для данного человека?

Подставив числа в формулу, мы узнаем, что человек ростом 190 см выше среднего на два стандартных отклонения. Говоря обыденным языком, он существенно выше среднего.

Иными словами, ситуация, когда X > 190, — это то же самое, что и Z > 2, и вероятности этих событий одинаковы.
>       X ~ N (182, 4), x_i = 190,
>       x_mu = (190-182)/4 = 2          = две стандартные величины
>       z = x_mu = 2, P (x > 190) = P (z > 2) = 0.0228  

Среди людей вероятность превышения роста 190 см составляет 2,28%

***
Операторы для нахождения вероятности стандартной нормальной случайной величины по значению величины и обратно: нормальнораспределенной случаной величины по ее вероятности (библиотека ```scipy.stats```). 
****

**Вероятность по значению**  
```norm.cdf(x, loc = 0, scale = 1)```
> x       - значение отрезка (-∞. x] для которого нужно найти вероятность: P (Z ⩽ x). х - значение стандартного отклонения Z.  
> loc     - μ - математическое ожидание  \
> scale   - σ - стандартное отклонение  

Для нахождения вероятности, большей, заданой:  
> P (Z ⩾ x ) = 1 - P(Z ⩽ x )

**Значение по вероятности**  
```norm.ppf(q, loc = 0, scale = 1)```
> q - значение вероятности Z, для которого нужно найти величину х отрезка (-∞. x].  
> loc - μ - математическое ожидание  
> scale - σ - стандартное отклонение  

<a id='3'></a>
## **Центральная предельная теорема**  
Сумма независимых одинаково распределенных случайных величин имеет приблизительно нормальное распределение, если n (число слагаемых в сумме) достаточно велико. Тоже касается и выборочной пропорции
*** 
Для проверки примененимости ЦПТ нужно, чтобы: 
1. это была сумма  
2. слагаемые в сумме не зависимы  
3. вероятности этих величин расперделены одинаково (или равны)  
4. слагаемых в сумме должно быть много. Для выборочного среднего >=30, для выборочной пропорции: $n(\widehat{r}) \geq 5, n(1-\widehat{r}) \geq 5$

Для вычислений для выборочной средней принимается следующие формулы:

$$ \bar{X} \approx N (\mu ,\frac{\sigma }{\sqrt{n}}) $$ 

У выборочного среднего математическое ожидание будет совпадать с математическим ожиданием генеральной совокупности, а стандартное отклонение  будет уменьшаться с размером выборки

$$ E(\bar{X}) = \mu $$,  
$$\sigma (\bar{X}) = \frac{\sigma }{\sqrt{n}}$$

Для вычислений для **выборочной пропорции** принимается следующие формулы:

$$ E(\widehat{r}) = r,  \sigma (\widehat{r}) = \sqrt{\frac{r * ( 1-r))}{n}}$$
$$ \widehat{r} \approx N (r,\sqrt{\frac{r * ( 1-r))}{n}})$$

У выборочной пропорции математическое ожидание будет совпадать с пропорцией в генеральной совокупности, а стандартное отклонение  будет уменьшаться с размером выборки  

>>> Я специально заменил значек пропорции с $\widehat{p}$ (используется в материалах skillFactory) на $ \widehat{r}$. чтобы не путаться с $p$-вероятностью

<a id='4'></a> 
## Доверительный интервал

Нужно различать, что **истинное среднее** и **стандартное отклонение** в генеральной совокупности - это константы. А в выборке - это случайные величины. И основная задача определить через известные параметры выборки - параметры генеральной совокупности. Для этого есть два подхрда: ***точечная оценка*** и ***интервальная оценка***

Выборочная статистика - это как раз **точечная оценка**. И она практически никогда статистика выборки не равна статичтике генеральной совокупности. 

**Интервальная оценка** - это такой подход, когда ответ дается не ввиде числа, а в виде интервала с определнной долей уверенности (точности).

Для образности, пример:
> "Средний рост в выборке составил 178 см" - точечная оценка  

"Истинный средний рост лежит в промежутке 177-179 см, с большой долей уверенности" - интервальная оценка.

<a id='4.1.'></a>
### Доверительный интревал для среднего

$$\mu = \bar{X} + z_{\alpha /2} * \frac{\sigma }{\sqrt{n}}$$

При использовании этой формулы говорят про "уровень доверия", а не про вероятность. Потому что, μ  — это константа. Если это число входит в интервал, посчитанный на нашей выборке, то вероятность этого события равна 1. Если не входит, вероятность этого равна 0. Значит, о вероятности в этом контексте мы говорить не можем.

Ранее определили:
$$ \bar{X} \approx N (\mu ,\frac{\sigma }{\sqrt{n}}) $$ 

Также нами установлено, что любая нормальная величина может быть приведена к стандартной нормальной величине

$$\frac{(\bar{X} - \mu)}{\sigma}$$

Так мы и делаем, вычитаем из среднего (а на самом деле, считая что это функция распределения нашей статистической величины) истинное среднее (μ) и делим на корень из n (количество значений в выборке) - все из формулы 1: 

$$\frac{\bar{X} - \mu }{\frac{\sigma }{\sqrt{n}}} \approx Z \sim N (0,1) $$
$$ \bar{X} = \mu + Z * \frac{\sigma }{\sqrt{n}}$$



$\mu$ - это константа. Z - случайная величина. У случайной величины возможны отклонения как в положительную сторону, так и в отрицательную, а сама величина колеблется ококло 0. Таким образом мы можем объявить некую величину $z_{crit}$ для отображения в формуле и дальнейшего использования

$$ \bar{X} = \mu \pm z_{crit} * \frac{\sigma }{\sqrt{n}}$$

Значит, в среднем выборочное среднее попадает в истинное значение с учетом ошибки. Эта ошибка называется пределом погрешности. Она появляется из-за того, что мы оцениваем выборочное среднее на основании случайной выборки, и случайным образом значение может получиться чуть больше или чуть меньше.

А если поменять местами $\mu$ и $\bar{X}$, то у нас слева окажется константа, а справа - две случайные величины.
$$ \mu = \bar{X} \pm z_{crit} * \frac{\sigma }{\sqrt{n}}$$

Именно это выражение станет основой для получения доверительного интервала. Подставляя значения в эту формулу и подобрав правильное значение z-критического, мы можем сказать, что истинное среднее $\mu$ лежит в интервале с определенной степенью уверенности.


$$z_{crit} = z_{\frac{\alpha }{2}},$$ где

$\alpha$ - это уровень ошибки или погрешность.    
$1 - \alpha$ - это уровень уверенности, достоверности. На 2 делится уровень ошибки, так как обычно нужно взять только одну сторону под кривой.

При использовании говорится: "Мы уверены на 95%..."

$z_{crit} = z_{\alpha / 2}$ - находится при помощи функции ``` norm.ppf ```

В вероятностной интерпретации это будет означать следующее: каждый доверительный интервал подсчитывается на основании случайной выборки, поэтому сам интервал тоже случаен, в зависимости от выборки он может дать значение чуть выше или чуть ниже. А если мы возьмем много выборок и на каждой из них посчитаем доверительный интервал, 95 % из них будут включать в себя истинное значение $\mu$.

<a id='4.2.'></a>
### Распределение Стюдента

Чтобы использовать формулу выше, нужно знать истинное среднее $\mu$. Но это бывает крайне редко. В практике, нам приходится заменять его на *выборочное стандарное оклонение* - **s**. Таким образом, расчет становится менее точным. Вероятно, итоговая случайная величина тоже будет нормально распределена, только разброс у нее будет больше. Такая случайная величина хорошо описывается **распределением Стьюдента, или Т-распределением**.

$$\frac{\bar{X} - \mu }{\frac{s }{\sqrt{n}}} \approx T(k) $$

(k) -это "степени свободы" (degrees of freedom), которое вычисляется как $k = n-1$

Действительно, распределение Стюдента тоже из семейства нормальных распределений, только по сравнению со стандартным - оно имеет больший разброс, то есть, "большую свободу". 

Если выборка была маленькая, то стандартное отклонение **s** будет очень неточным. В этом случае нам нужен больший разброс, то 
есть большая степень свободы. И наоборот, если выборка была очень большая, степень свободы нам понадобится меньше, и тем ближе будет распределение к стандартному нормальному распределению.

Таким образом, если нам не известно $\mu$ то мы используем измененную формулу:

$$ \mu = \bar{X} \pm T_{\alpha /2}(k) * \frac{\sigma }{\sqrt{n}}$$


<a id='f2'></a> Функция расчета доверительного интервала для среднего

In [6]:
def confidence_int(mean, alpha, n, s=0, sigma=0):
    from scipy.stats import norm
    from scipy.stats import t
    import math
    
#    Функция расчета доверительного интервала
#         mean - выборочное среднее или истинное среднее МЮ
#         alpha - доля ошибки (обратный параметр "уверенности")
#         n - количество значений в выборке или в совокупности
#         s - значение выборочного стандартного отклонения
#         sigma - значение истинного стандартного отклонения из генеральной совокумности

# чаще в жизни используется расчет без известного \sigma, поэтому формула устроена так, 
# чтобы считать по функции Т-распределения. Однако, если вместо четвертого позиционного 
# парамера (s) сообщить \sigma с именем sigma, то будет посчитаны значения по функции 
# Z-распределения

    if s:
        value = -t.ppf(alpha / 2, n - 1) * s / math.sqrt(n)
    else:
        value = -norm.ppf(alpha / 2) * sigma / math.sqrt(n)
    return mean - value, mean + value


In [7]:
#90%

alpha_ = 0.1
s_ = 400
n_ = 15
av_ = 2000

mi, ma = confidence_int(av_, alpha_, n_, s_)

round(mi), round(ma)

(1818, 2182)

In [8]:
#99%

alpha_ = 0.01
sigma_ = 1150
n_ = 250
av_ = 3540

mi, ma = confidence_int(av_, alpha_, n_, sigma=sigma_ )
m , mm = confidence_int(av_, alpha_, n_, sigma_ ) # четвертый параметр - это 's', расчет по t-статистике.
round(mi), round(ma), round(m), round(mm)

(3353, 3727, 3351, 3729)

<a id='4.3.'></a>
### Доверительный интервал для пропорции

Формула распределения вероятности пропорции:

$$ \widehat{r} \approx N (r,\sqrt{\frac{r * ( 1-r))}{n}})$$

По той же логике, что и для выборочного среднего, для приведения функции распределения к стандартной нормальной функции , нужно от функции $\widehat{r}$ отнять истинную пропорцию $r$ и разделить на стандартное отклонение, которое для пропорции принято как $\sqrt{\frac{r * ( 1-r))}{n}}$ 


$$ \frac{\widehat{r} - r}{\sqrt{\frac{r * ( 1-r)}{n}}} \approx Z \sim N (0,1) $$

$$ r = \widehat{r} \pm z_{\alpha/2} * \sqrt{\frac{r * ( 1-r)}{n}} $$

<a id='f3'></a> Функция расчета доверительного интервала для пропорции

In [18]:
def confidence_int_rate(rate, alpha, n):
    from scipy.stats import norm
    import math
    
#    Функция расчета доверительного интервала для пропорции
#         rate - выборочная пропорция
#         alpha - доля ошибки (обратный параметр "уверенности")
#         n - количество значений в выборке или в совокупности

    value = -norm.ppf(alpha / 2) * math.sqrt(rate*(1-rate)/n)
    return mean - value, mean + value


### Нахождение значений z-критического и t-критического

Для нахождения критических величин используются формулы
```-norm.ppf(a/2)``` и ```t.ppf((1+b)/2, k)``` где,  
$\alpha$ - уровень ошибки (обратный параметр "уровню доверия"), параметр в формулу нужно передавать разделенным попалам  
$\beta$ - уровень доверия  
k - степени свободы, расчитывается как n-1 (для t-критического)  


Минус перед формулой стандартного распределения переводит значение по модулю, так как функция расположеня на оси от -∞  до +∞ и расчитывается от левого конца графика. Для t-распределния минус не нужен, так как это расчетные значения.

>>> Я специально выделил букву "beta" для папрметра "уровень доверия", как противоположный "alfa" - уровень ошибки. В материалах SkillFactory используется в обоих случаях одна и таже буква "alfa".

<a id='5'></a> 
## Тестирование гипотез

### В тестировании гипотез всегда используется 4 шага:
1. Формулиование гипотез $H_{0}$ и $H_{A}$
2. Сбор наблюдений или статистики
3. Проведение мысленного эксперимента, что $H_{0}$ верна и направление подозрения в неверности $H_{0}$, 
4. Вычисляется вероятность p $H_{0}$, 
5. Если она окажется меньше заданого значения ошибки, то $H_{0}$ отвергается в пользу $H_{A}$, если больше - гипотеза $H_{0}$ подтверждается. 

<a id='5.1.'></a> 
### Тестирование гипотез с выборочном средним
### 1.
Гипотеза $H_{0}$ - это всегда равенство. Мы всегда проверяем точно какое-то значение истонной средней. Альтернативная гипотеза - показывет направление нашего подозрения в неверности нулевой гипотезы, или **недоверия** к $H_{0}$. Оно может быть как в меньшую, так в большую или в разные стороны.  
$H_{0}: \mu = \bar{X}, H_{a}: \mu < \bar{X}$  
$H_{0}: \mu = \bar{X}, H_{a}: \mu > \bar{X}$  
$H_{0}: \mu = \bar{X}, H_{a}: \mu <> \bar{X}$  

### 3.
Проводим мысленный эксперимент. Мы знаем: 
$$ \bar{X} \approx N (\mu ,\frac{\sigma }{\sqrt{n}}) $$ 

Значит, мы можем посчитать, на сколько $\sigma$ отстоит наше наблюдаемо значение от истинного среднего, это называется $z_{stat}$ :  
$$\frac{(\bar{X} - \mu)}{\frac{\sigma }{\sqrt{n}}} = z_{stat}$$  или для использования с выборочным средним и выборочным стандартным отклонением:  
$$\frac{(\bar{X} - \mu)}{\frac{s}{\sqrt{n}}} = t_{stat}$$


### 4.

Считаем теперь вероятность найденного занчения $p (z_{stat}) $

### 5.
Сравниваем полученное значение с заданным уровнем ошибки $\alpha$

$p (z_{stat}) > \alpha $ следовательно $H_{0}$ верна  
$p (z_{stat}) < \alpha $ следовательно $H_{0}$ не верна, верна $H_{A}$

<a id='5.2.'></a> 
### Тестирование гипотез о выборочной пропорции

Повторяем ту же логику, как и с выборочным средним. У нас есть формула распределения слуайной функции пропорции:
$$ \widehat{r} \approx N (r,\sqrt{\frac{r * ( 1-r))}{n}})$$ , которая приводится к функции стандартного нормально распределения через преобразование:
$$ \frac{\widehat{r} - r}{\sqrt{\frac{r * ( 1-r))}{n}}} \approx Z \sim N (0,1) $$

Откуда $z_{stat}$ будет равно:

$$ \frac{\widehat{r} - r}{\sqrt{\frac{r * ( 1-r))}{n}}} = z_{stat}$$

Для нахождения z-статистики используем ```norm.cdf()```, а для  t-статистики  - ```t.cdf()```.  
Причем,  

Формула    | Применение  
:------: |:----------------- 
t.cdf() | если альтернативная гипотеза имеет знак  $H_{0}: \mu = \bar{X}, H_{a}: \mu < \bar{X}$   
1-t.cdf() | если альтернативная гипотеза имеет знак  $H_{0}: \mu = \bar{X}, H_{a}: \mu > \bar{X}$  
2*(1 -t.cdf(abs(x), df) |  если альтернативная гипотеза имеет знак неравенства 

<a id='5.3.'></a> 
### Тестирование гипотез о разности величин

У нас есть две выборочные средние: $$ \bar{X}_{1} \approx N , \bar{X}_{2} \approx N  $$  
Узнаем, чему равно математическое ожидание разности: 

$$ E (\bar{X}_{1} - \bar{X}_{2}) = E (\bar{X}_{1}) - E (\bar{X}_{2}) = \mu_{1} - \mu_{2}$$

А дисперсия разности или суммы переменных равно сумме дисперсий: 

$$ Var (\bar{X}_{1} - \bar{X}_{2}) = Var (\bar{X}_{1}) + Var (\bar{X}_{2}) = \frac{\sigma_{1}^{2}}{n_{1}} + \frac{\sigma_{2}^{2}}{n_{2}}$$

Стандартное отклонение будет корнем из полученного выражения. Так что мы можем описать функцию распределения вероятности этой величины:

$$\bar{X}_{1} - \bar{X}_{2} \sim N (\mu_{1} - \mu_{2}, \sqrt{\frac{\sigma_{1}^{2}}{n_{1}} + \frac{\sigma_{2}^{2}}{n_{2}}}) $$



**Формулируем гипотезу**

$H_{0}$ : $\mu_{0} = \mu_{1}$, а значит их разность равна 0.   
$H_{1}$ : $\mu_{0} >$ или $<$ или $!= \mu_{1}$

**Мысленный эксперимент**

Если предположить, что средние равны, то на сколько необычным оказывается разность дисперсий или стандартных отклонений. Посчитаем статистическое значение

$$z_{stat} = \frac{\bar{x}_{1} - \bar{x}_{2}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}$$

или

$$t_{stat} (k)= \frac{\bar{x}_{1} - \bar{x}_{2}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}$$



Мы можем иногда предположить, что $\sigma_{1} = \sigma_{2}$ и просто обозначим их $\sigma$ (аналогично про s). 

$$z_{stat} = \frac{\bar{x}_{1} - \bar{x}_{2}}{\sigma * \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}$$
$$t_{stat} (k)= \frac{\bar{x}_{1} - \bar{x}_{2}}{s * \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}$$

Но на практике это бывает редко. Тем не менее, считать эти дроби и корни нет нужды, так как есть инструменты для этой цели. Главное, нужно удостоверятся каждый раз, что выборки достаточно большие (n⩾30), случайные и независимые.

Для расчета статистических величин отклонений от среднего применяется модуль ```weightstats``` из паекта ```statsmodels.stats```. 

Если известны $\sigma$ для двух величин, то применяется функция ```weightstats.CompareMeans.ztest_ind()```  
если не известна $\sigma$ - ```weightstats.ttest_ind()```

Аргументами функций являются
1. два списка значений в виде массив
2. *usevar = 'pooled' - принимает значение $\sigma$ равными, второй вариант = 'unequal'
3. *value=0 - принимаем, что в нулевой гипотезе есть разность между $\sigma$
4. *alternative = 'two-sided' - принимаемая альтернативная гипотеза. 'larger', 'smaller'

Функции возращают статистическое значение и значенеи вероятности. ttsest - еще и стпень свободы.


<a id='5.4.'></a> 
### Тестирование гипотез на разность пропорций

Функция распределения Выборочной пропорции записывается так:
$$ \widehat{r} \approx N (r,\sqrt{\frac{r * ( 1-r))}{n}})$$

Математическое ожидание разности пропорций равно разности математических ожиданий или просто разность этих пропорций:
$$ E(\widehat{r}_{1} - \widehat{r}_{2}) = E(\widehat{r}_{1}) - E(\widehat{r}_{2}) = \widehat{r}_{1} - \widehat{r}_{2}$$

Дисперсия разности равна сумме дисперсий:
$$Var(\widehat{r}_{1} - \widehat{r}_{2}) = Var(\widehat{r}_{1}) + Var(\widehat{r}_{2}) = \frac{\widehat{r}_{1} * (1 -\widehat{r}_{1})}{n_{1}} + \frac{\widehat{r}_{2} * (1 -\widehat{r}_{2})}{n_{2}}  $$

А стандартное отклонение - это корень из дисперсии.

**Функция распределения разности пропорций** записывается так:
$$\widehat{r}_{1} - \widehat{r}_{2} \approx N (\widehat{r}_{1} - \widehat{r}_{2}, \sqrt{\frac{\widehat{r}_{1} * (1 -\widehat{r}_{1})}{n_{1}} + \frac{\widehat{r}_{2} * (1 -\widehat{r}_{2})}{n_{2}}})$$

Согласно нулевой гипотезе, нет разницы между выдборочными пропорциями, то есть $\widehat{r}_{1} = \widehat{r}_{2} = r$  , $\widehat{r}_{1} - \widehat{r}_{2} = 0$

В этом случае получается формудла распределния разности:
$$\widehat{r}_{1} - \widehat{r}_{2} \approx N (0 , \sqrt{ r * (1-r) * (\frac{1}{n_{1}} + \frac{1}{n_{2}}})$$

Теперь посчитаем статистическое значение ( отклонение выраженное в сигмах):

$$ z_{stat} = \frac{(\bar{X} - \mu)}{\sigma} =  \frac{(\widehat{r}_{1} - \widehat{r}_{2}) - 0}{\sqrt{ r * (1-r) * (\frac{1}{n_{1}} + \frac{1}{n_{2}}})}$$ 

Но занчение истинной пропорции нам не известно. Хотя вы его может приблизительно оценить на основе данных о нахих выборках и пропорциях в них. по сути, мы возьмем средневзвешенную величину по 

$$ r = \frac{\widehat{r}_{1} * n_{1} + \widehat{r}_{2} * n_{2}}{n_{1} + n_{2}} $$

теперь можем посчитать статстическое значение, удостоверившись, что выборки взяты случайно, независимо и они достаточно большие (считается, что в каждой доле должно попадать не менее 5 значений) 