# Функция массовой вероятности (Probability Mass Function)

Функция массовой вероятности (PMF) это тип распределения вероятности которая определяет вероятность наблюдаемых дискретных значений. Например PMF может быть использована для расчета вероятности результата равное трем при броске игральной шестигранной кости.

Существует несколько видом случайных величин (и ассоциируемые с ними распределения вероятности) которые соответствуют множеству различных видов проблем. Эти повсеместно используемые распределения вероятностей имеют имена и параметры которые по средствам которых можно адаптировать каждое из них под определенную ситуацию.

Пример, предположим что мы подбрасываем монетку какое кол-во раз и подсчитываем кол-во "орлов". Функция массовой вероятности которая описываем наболее вероятный из каждого возможный результат называют биноминальным распределением (**binominal distribution**).

Параметрами биноминального распределения являются:
- *n* кол-во повторений (можно указать 10 если мы хотим подбросить монетку 10 раз)
- *p* процент вероятности (от 0 до 1) успеха каждого повторения (вероятность наблюдения определенного результата в каждый из повторов. В данном примере данный параметр будет равен .5 (50%) потому что вероятность результата "орел" при подбросе монетки каждое повторение равно 50%)

Если мы подбросим монетку 10 раз, мы говорим что кол-во результатов "орел" соответствуют биноманальному распределению.

`Binominal(n=10, p=.5)`

Диаграмма ниже показывает функцию массовой вероятности для данного эксперимента. Высота столбцов представляют вероятность наблюдения каждого возможного результата подсчитанным по средствам PMF.

!['PMF'](./img/2_1.png)

## Расчет вероятности по средствам Python

Для расчета PMF используется метод библиотеки **scipy.stats** называемый **binom.pmf()**

Данный метод принимает три параметра:
- x - интересующее значение
- n - кол-во повторений
- p - вероятность успеха

Например предположим что мы подбрасываем монетку 10 раз и подсчитываем кол-во "орлов". Мы можем использовать указанный метод для расчета вероятности появления 6 орлов следующим образом

In [1]:
from scipy.stats import binom

print(binom.pmf(6, 10, .5))

0.2050781249999999


Таким образом получаем результат равный 20.5% того что при броске монетки 10 раз, ровно 6 раз из них будет "орел" остальные "решка"

## Использование PMF на диапазоне интересующих значений

Ранее мы рассматривали расчет вероятности наблюдения определенного значения используя PMF. Что если нам необходимо найти вероятность наблюдения нескольких дискретных случайных величин? Одним из способов мы можем сложить вероятносты возникновения каждого интересующего нас значения.

Например, давайте предположим что мы подбрасываем монетку 5 раз, и хотим узнать вероятность что из 5 бросков от 1 до 3 результатов будут "орлы". Мы можем представить это визуально как

!['PMF of range of variables'](./img/2_2.png)

Мы можем рассчитать вероятность следуюя равенству *P(x)* это вероятность наблюдения числа успехов (орлов в нашем случае)

`P(1 to 3)=P(1<=x<=3)`

`P(1 to 3)=P(x=1) + P(x=2) + P(x=3)`

`P(1 to 3)=.1562 + .3125 + .3125`

`P(1 to 3)=.7812`

In [7]:
# Теперь проведем туже операцию используя Python
import scipy.stats as stats

sum_probability = 0

for i in range(1,4):
    sum_probability += stats.binom.pmf(i, n=10, p=.5)

print(sum_probability)
# сумма вероятностей всех результатов от 0 до 10 в данном случае равно 1

0.17089843750000006


## Функция кумулятивного распределения (Cumulative Distribution Function)

Функция кумулятивного распределения для дискретных случайных величин может быть выведена из функции массовой вероятности (PMF). Но в отличии от вероятности наблюдения определенного значения, функция кумулятивного распределения возвращает вероятность наблюдейния определеного значения ИЛИ НИЖЕ.

Согласно предыдущему высказыванию, вероятность всех возможных значений в заданном распределении вероятностей в сумме достигают 1. Значение функции кумулятивного распределения возвращает значение равное сумму вероятностей ниже заданного значения, со значением 1 для более больших возможных значений.

Функция кумулятивного распределения постоянно увеличивается, таким образом для двух различных чисел которые может принимать переменная случайных значений, значение функции всегда будет выше для большего заданного числа. Математически это можно представить таким образом

`If x1 < x2 -> CDF(x1) < CDF(x2)`

Мы показали как функция массовой вероятности может быть использована для расчета вероятности наблюдения 3 орлов из 10 бросков используя сложения вероятностей каждого значения от 0 до 2. Функция кумулятивного распределения производит такой же ответ сокращая функция до `CDF(x=2)`. В данном случае, использование CDF проще чем PMF потому что оно требуется всего один расчет заместо трех.

Используя функцию кумулятивного распределения мы можем значительно сократить выражения вычисления требуемых результатов.

In [12]:
# Для того чтобы использовать функцию CDF также следует воспользоваться библиотекой scipy
print(stats.binom.cdf(6, 10, .5))

# таким образом мы вычислили вероятность что при 10 бросках монетки с шансом 82.8% орел/решка выпадут от 0 до 6 раз

# Предположим что мы хоти узнать вероятность что из 10 бросков орлов/решек будет от 4 до 8
# записать данное выражение проще чем кажется
print(stats.binom.cdf(8, 10, .5) - stats.binom.cdf(3, 10, .5))

# таким образом вероятность названного события составляет 81.7%

# или предположим от 7 до 10 при 10 бросках
print(1 - stats.binom.cdf(6, 10, .5))

0.828125
0.8173828125
0.171875


## Функция плотности вероятности (Probability Density Function)

Подобно тому как дискретные случайные величины используют функцию массовой вероятности, *измеряемые случайные величины* используют функцию **плотности вероятности** (**PDF probability density function**). Они определяеют распределение вероятности измеряемых случайных величин и охватывают все возможные значения которые данные случайные величины могут быть равны.

Если графически отображать функцию плотности вероятности то она будет представлять собой кривую соединяющую все возможные значения случайной переменной и общая площадь под данной кривой будет равна 1.

Следующее изображение наглядно показывает графическое представление функцию плотности вероятности. Подсвеченная область представляет вероятность наблюдения значения подсвеченного диапазонаю

!['PDF Probabiluty Density Function'](./img/2_3.png)

В функции плотности вероятности мы не можем расчитать вероятность отдельно взятой точки. Это происходит потому что площадь под одной выбранной точкой будет всегда равна 0.

Как можно догадаться чем меньше интервал выбранных значеий тем уже становится площадь под кривой выбранных значений. При попытке рассчитать площадь под одной выбранной точкой мы получим 0, в таком случае и вероятность возникновения данного события равна 0.

Мы можем расчитать площадь под кривой используя функцию кумулятивного распределения для заданного распределения вероятностей.

Например, высота попадает под тип распределения вероятностей, называемый нормальным распределением. Параметрами нормального являются среднее значение (**Mean**) и стандартное отклонение (**Standart Deviation**), и мы используем форму нормального распределения.

Мы знаем что рост женщин в среднем составляет 167.64 см со стандартным отклонением в 8 см, в таком случае данный параметр является Нормальным распределением.

Давайте предположим что мы хотим узнать вероятность что случайно взятая женщиа будет ростом ниже 158 см. Мы можем использовать функцию кумулятивного распределения для расчета площади под кривой функции плотности вероятности от 0 до 158 см для того чтобы найти вероятность.

!['PDF Example women'](./img/2_4.png)

Мы также можем рассчитать площадь синей области используя Python а именно метод **norm.cdf()** из библиотеки **scipy.stats**. Данный метод принимает три параметра
- x - инетесующее нас значение
- loc - среднее значение распределения вероятности
- scale - стандартное отклонение распределения вероятности

In [14]:
print(stats.norm.cdf(158, 167.64, 8))
# таким образом получаем что вероятность события описанного в примере равна 11.4%

0.11410165094812996


## Функции плотности вероятности и функция кумулятивного распределения (Probability Density Functions & Cumulative Distribution Function)

Мы можем получить разницу между двумя перекрывающимися диапазонами для расчета вероятности что случаная выборка будет находится в диапазоне значений распределения измеряемых значений. Это точно такой же процесс как и расчет вероятности диапазона значений дискретных величин.

!['PDF & CDF'](./img/2_5.png)

Предположим что нам необходимо расчитать вероятность того что рост случайно выбранной женщины будет в диапазоне от 165 до 175 см, предполагая что среднее значение и значение стандартного отклонения не изменились (167.74, 8). Мы можем рассчитать вероятность наблюдаемого значения или ниже. Разница между этими двумя вероятностями будет является вероятностью указанного события. Это может быть сделанно по средствам python используя метод norm.cdf().

In [15]:
print(stats.norm.cdf(175, 167.74, 8) - stats.norm.cdf(165, 167.74, 8))

0.45194145326220503
