# Функции массовой вероятности

Probability Mass Functions (PMF) это тип случайного распределения который определяет вероятность наблюдения определенного значения дискретной случайной величиной.

Например PMF может быть применен для расчета вероятности выпадения тройки при броске игральной кости.

Существует несколько различных случайных величин (и связанных с ними случайные распределения) которые подходят для решения множества различных проблем.

Все они одинаково используют случайное распределение но имеют свои имена и параметры который помогают адаптировать функцию под решения проблемы.

Например если мы будем подбрасывать монетку какое то кол-во раз и будет считать сколько раз нам выпал Орел. Функция массовой вероятности которая описывает вероятность каждого возможного результата называется **биноминальным распределением** (Binominal distribution).

## Binominal Distribution
***PMF (Probability Mass Function)***

Параметрами биноминального распределения:
- n который представляет собой кол-во экспериментов
- p - вероятность события в каждом эксперименте (Для нашего примера выше данный показатель будет равен 50% так как у монетки две стороны)

`Binominal(n=10, p=0.5)`

![Binominal Distribution Graph](Binominal%20Distriburion%20Graph.png)

На графике выше представлено распределение функции массовой вероятности для данного эксперимента. Высота столбца обозначает вероятность наблюдения каждого возможного результата рассчитанный как PMF

## Представление в виде формулы и рассчеты

Предположим что мы хотим понять какова вероятность того что монетка упадет орлом вверх между 1 и 3 экспериментами

$$
P(1 to 3 heads) = P(1<=X<=3)
$$
$$
P(1 to 3 heads) = P(X = 1) + P(X = 2) + P(X = 3)
$$
$$
P(1 to 3 heads) = 0.1562 + 0.3125 + 0.3125 = 0.7812
$$

Сумма вершин всех столбцов всегда будет равна 1

Получается чем больше экспериментов проводится тем больше делится вероятность

# Расчет вероятности с использованием Python

Для расчета PMF используется библиотека scipy.stats точнее его метод binom.pmf()

Данный метод можно использовать для расчета PMF биноминального распределения с любыми значениями и принимает на вход три параметра:
- k: кол-во ожидаемых результатов
- n: общее кол-во экспериментов
- p: вероятность с которой событие может произойти на каждый эксперимет

In [16]:
# импортируем библиотеку
import scipy.stats as stats

print(stats.binom.pmf(k = 6, n = 10, p = 0.5))

# Таким образом вероятность что из 10 бросков будет 6 орлов равна 20.5%

0.2050781249999999


In [18]:
# А если мы хотим посчитать вероятность появления хотя бы 1 орла за 6 экспериментов можем воспользоваться цилом
sum_p = 0
for i in range(6):
    sum_p += stats.binom.pmf(k = i, n = 10, p = 0.5)
print(sum_p)

# Получаем вероятность 62.3% что из 10 экспериментов будет от 0 до 5 орлов

0.6230468749999999


In [22]:
# Проверим утверждение что сумма вероятностей всех экспериментов равна 1
sum_1 = 0
for i in range(11):
    sum_1 += stats.binom.pmf(k = i, n = 10, p = 0.5)
print(sum_1)

# Таким образом получаем что суммарная вероятность приближена к 1 но не абсолютно ему равна

0.9999999999999998


In [29]:
# Также для PMF применимы правила сложения вероятностей а это значит для расчета вероятности что из 10 бросков монеты будет орлов больше 2 можно записать двумся способами
# первый способ
sum_0_to_2 = 0
for i in range(3):
    sum_0_to_2 += stats.binom.pmf(k=i, n=10, p=0.5)
print(sum_0_to_2)
# Получили вероятность что из 10 бросков будет либо 0 либо 1 либо 2 орла
# Для того чтобы получить вероятность наблюдения более 2 орлов из 10 бросков достаточно от 1 отнять вероятность 0, 1 или 2
# По той простой причине что мы знаем что сумма всех вероятностей PMF равна 1
# Таким образом получаем что вероятность что среди 10 бросков орлов будет больше 2 равна
print(1 - sum_0_to_2)

0.05468750000000005
0.9453125


## Cumulative Distribution Function

Давайте теперь рассмотрим функцию кумулятивного распределния

Функция кумулятивного распределения для конечный случайных величин может быть получена из функции массовой вероятности (**PMF probability mass function**)

Однако вместо вероятности наблюдения определенного значения, функция кумулятивного распределения дает вероятность наблюдения определенного значения или меньше. 

Как говорилось ранее вероятность всех возможных результатов равна 1

Значение функции кумулятивного распределения при заданом значении равно сумму вероятностей, меньших ее , со значением 1 для наибольшего возможного числа.

Кумулятивная функция распределения постоянно растет, таким образом для двух различных чисел которые может принять случайная величина, результат функции всегда будет больше наибольшего значения. Математически это можно записать вот так:

$$
IF (x1 < x2) -> CDF(x1) < CDF(x2)
$$

Раннее мы показывали как вероятность массовой функции может быть использованно для расчета вероятности наблюдеяни менее 3 Орлов из 10 бросков монеты, путем сложения вероятностей 0, 1 и 2.

Кумулятивная функция распределения может показать тот же результат по средствам использования функции `CDF(X=2)`. В таком случае использование CDF проще PMF , по простой причие что расчет одного параметра легче 3.

Мы также можем использовать CDF для расчета вероятность конкретного диапазон путем простого вычитания одной вероятности из другой. Математически это можно было бы записать подобный образом

$$
P(3<=X<=6)=P(X<=6) - P(X<3)
$$

## Использования кумулятивной функции распределения в Python
Для реализации CDF используется метод библиотеки scipy.stats называемый CDF который также как и PMF принимает 3 параметра
- k: интересующее значение, ищет вероятность этого значения или ниже 
- n: кол-во экспериментов
- p: вероятность одного независимого события

Поиграемся с той же монеткой

In [30]:
# импортируем библиотеку
import scipy.stats as stats

print(stats.binom.cdf(6, 10, 0.5))

# Таким образом получили вероятность что из 10 бросков с вероятность 82.8% попадутся от 0 до 6 орлов

0.828125


In [31]:
# Для расчета конкретного диапазона допустим от 4 до 8 можем применить правила сложения
print(stats.binom.cdf(8, 10, 0.5) - stats.binom.cdf(3, 10, 0.5))

0.8173828125


In [32]:
# и например для диапазона от 6 до 10 (10 максимальное кол-во экспериментов)
print(1 - stats.binom.cdf(6, 10, 0.5))
# мы можем просто отнять от 1 диапазон от 0 до 6

0.171875


## Probability Density Functions
Функция плотности вероятности (PDF)

Подобно тому как дискретные случайные величины связаны с функцией массовой вероятности (PMF), непрерывные случайные величины связаны с функцией плотности вероятности (PDF Probability Density Functions)

В графическом виде функция плотности вероятности представляется в виде кривой, которая охватывает все возможные значения которые может принимать случайная величина, общая площадь под этой кривой соответственно равно 1.

![PDF (Probability Density Functions) Graph](PDF%20Graph.png)

В PDF мы не можем вычислить вероятность в одной точке, по причине того что вероятность расчитывается как площадь, таким образом значение одного значения (точки) будет стремится к 0.

Площадь под кривой мы можем рассчитать используя CDF (Cumulative Distribution Functions)

Например:

Высота попадает под тип распределения вероятностей, называемым нормальным распределением. Параметрами нормального распределения являются: среднее значения и стандартное отклонение.

Мы знаем что средний рост женщин составляет 167.64 см со стандартным отклонением 8 см, что позволяет отнести их к нормальному распределению.

Допустим, мы хотим узнать вероятность того, что случайно выбранная женщина имеет рост менее 158 см. Мы можем использовать кумулятивную функцию распределения (CDF) для вычисления площади под кривой функции плотности вероятности (PDF) от 0 до 158, чтобы найти эту вероятность.

In [33]:
# Для расчета площади под кривой в Python используется специальный метод cdf используемый в нормальном распределении norm
# импортируем библиотеку
import scipy.stats as stats

print(stats.norm.cdf(158, 167.64, 8))

# Данный метод принимает параметры
# 1 аргумент исследуемое значение
# 2 аргумент среднее значение
# 3 аргумент стандартное отклонение

# Таким образом получили вероятность 11.4% что случайно выбранная девушка будет ростом ниже 158 см

0.11410165094812996


## Связь между CDF и PDF
Как и в биноминальном распределении мы можем вычислить вероятность определенного дипазаном путем вычитания одной вероятности из другой или вычитанием от 1

In [36]:
# Рассмотрим рассчет вероятности непрерывных случайных величин в конкретном диапазоне
# импортируем библиотеку
import scipy.stats as stats

mean = 20
std = 3

# Рассчитать вероятность того что в случайно выбранный день температруа воздуха будет в диапазоне от 18 до 25 градусов
temp_prob_1 = stats.norm.cdf(25, mean, std) - stats.norm.cdf(18, mean, std)
print(temp_prob_1)
# Таким образом вероятность что в любой случайно выбранный день температура воздуха будет между 18 и 25 градусами
# является 69.9%

# Рассчитайте вероятность того что в случайно выбранный день температура воздуха будет выше 24 градусов
temp_prob_2 = 1 - stats.norm.cdf(24, 20, 3)
print(temp_prob_2)
# Таким образом такая вероятность составляет 4.7%


0.6997171101802624
0.09121121972586788
