# Распределение Пуассона (Poisson Distribution)

Существующую числовые распределения вероястности используемые для представления практически любого случайного события. В предыдущем модуле мы изучили тему касательно биноминального распределения для представления события как любое число подброса монетки а также нормальное распределение которое представляет событие как рост случайно выбранной девушки.

Распределение Пуассона другое стандартное распределение, и его используют для описания кол-ва раз когда конкретное событие произошло в определенный зафиксированный отрезок времени или промежуток пространства. Например, распределение Пуассона может быть использовано для описания числа машин проезжающих через опеределенный перекресток в период времени между 16:00 и 17:00 в указанный день. Данное распределение также может быть использованно для определения кол-ва звонков полученных офисом в период времени между 13:00 и 15:00 в опеределенный день.

Распределение Пуассона определяется греческой буквой "лямбда"

Лябмда представляет собой ожидаемое значение - или среднее значение - распределения. Например, если наше ожидаемое число покупателей в период времени с часу дня до двух равно 7, когда мы будем устанавливать параметр для распределения Пуассано он будет равен 7. PMF (Probability Mass Function) для распределения Пуассона(7) будет выглядеть следующим образом:

!['Poisson Distrebution'](./img/3_1.png)

Распределение Пуассона это распределение вероятности дискретных величин, таким образом оно может быть описано функцией массовой вероятности и функцией кумулятивной вероятности.

Мы можем использовать poisson.pmf() метод из библиотки scipy.stats для расчета вероятности наблюдения специфичного значения при передаче методу параметра ожидаемого значения. Например, предподоложим что мы ожидаем что будет дождь 10 раз в течении 30 дней. Кол-во дождливых дней следующий месяц по "Распределению Пуассона" со значением лямбда 10. Мы можем рассчитать вероятность того что будет 6 дождливых дней используя даные полученные раннее.

In [None]:
import scipy.stats as stats

print(stats.poisson.pmf(6, 10))
# где 10 это ожидаемое значение а 6 значение вероятность которого хотим рассчитать

0.06305545800345125


К распределению Пуассона применяются все теже правила и возможности которые были описаны раннее в биноминальном распределении.

Мы можем использовать мтеод poisson.cdf() библиотеки scipy.stats для рассчета вероятности наблюдения определенного значения или ниже. Например, если мы хотим рассчитать вероятность наблюдения 6 дождливых дней или менее следующие 30 дней при ожидаемых 10 мы можем использовать следующий код

In [2]:
print(stats.poisson.cdf(6, 10))

0.13014142088248304


## Ожидаемое значение Распределения Пуассона (Expectation of the Poisson Distribution)

Раннее мы упоминали о параметре лямбда который который определяет ожидаемое значение распределения Пуассона (или среднее значение). Но что же оно обозначает ?

Давайте немного окунемся к контекст: давайте представим что мы продавец, и после многих недель работы, мы рассчитали наше среднее значение продаж в неделю которое равно 10. Если мы возьмем данное значение как ожидаемое для распределения Пуассона, функция массовой вероятности будет выглядеть следующим образом

!['Lambda Poisson Distribution'](./img/3_2.png)

Наиболее длинный столбец представляет значение с наибольшей вероятность возникновения. В данном случае, самый высокий столбец это 10. Но это не так, хоть и среднее значение продаж равно 10. Это значит что среднее значение, полученное согласно всем неделям и на основании этого мы ожидаем наше среднее значение равное 10 продажам каждую неделю.

Давайте посмотрим на это с другой стороны. Возьмем набор данных из 1000 различных значений распределения Пуассона с ожидаемым значением 10. Мы можем использовать метод **poisson.rvs()** из библиотеки **scipy.stats** для генерации случайных величин.

In [4]:
rvs = stats.poisson.rvs(10, size =1000)

# где 10 это ожидаемое значение
# size - размер генерируемого набора

Гистограмма распределения выше выглядела бы следующим образом

![rvs 10 1000](./img/3_3.png)

Мы можем заметить результаты которые как ниже 2 так и выше 20. Самый длинный столбец находится между значениями 9 и 10. Если мы возьмем среднее значение набора из 1000 случайных значений, мы получим следующее

In [5]:
print(rvs.mean())

10.03


Значение очень близкое к 10, подтверждает что используя 1000 случайных событий, ожидаемое значение или среденее равно 10.

Когда мы говорим об ожидаемом значении, мы подразумеваем среднее значение используя большое кол-во результатов наблюдений. Это взаимосвязанно с правилом больших чисел (Law of Large Numbers): чем больше у нас набор данных, тем точнее и правдивее мы получим результаты для отдельно взятой выборки меньшего размера, и среднее значение выборки будет использованно как ожидаемое значение. Таким образом возвращаясь к вопросу продавцов они могут продавть в первую неделю 3, на следующей 16, и еще через неделю 11. В длительном периоде спустя множество недель, ожидаемое значение будет все тем же - 10.

## Разброс Распределения Пуассона (Spread of Possion Disctribution)

Распределение вероятсноти также имеет расчитываемый показатель вариации (**variance**). Вариция это способ измерения разброса или дисперсии значений и вероятностей в распределении. Для Распределение Пуассона, вариация равна лямбде, это значит что ожидаемое значение и вариация равны друг другу в распределении Пуассона.

Мы значем что распределение Пуассона имеет дискретные случайные величины и должна быть больше 0, таким образом если ожидаемое значение будет расти, кол-во возможных значений распределения также будет расти.

Первая диаграмма ниже показывает распределение Пуассона с лямбдой равной 3, вторая диаграмма показывает распределение Пуассона с лямбдой равной 15. Обратите внимание что на второй диаграмме, разброс распределения увеличился. Также, примите на заметку что высотка столбцов на второй диаграмме уменьшилась несмотря на увеличение возможных значений распределения.

![Poisson Distribution lambda 3](./img/3_4.png)

![Poisson Distribution lambda 15](./img/3_5.png)

Как мы могли бы заметить с увеличением значения ожидаемого значения, увеличивается показатель вариации и разброса

Из предыдущих уроков мы знаем как рассчитать покатель вариции используя библиотеку **numpy** и его метод **np.var()**

In [8]:
import numpy as np

rand_vars = stats.poisson.rvs(4, size = 1000)
print(np.var(rand_vars))

3.8465240000000005


По причине того что рассчеты производились из выборки, это возможно что показатель вариации не будет абсолютно точно равен показателю ожидаемого значения. В любом случа, мы ожидаем что они будут очень близки по значению друг к другу в случае если набор данных будет достаточно велик как в примере.

Другой способ увидеть увеличение в возможных значениях это взять диапазон выборки (минмиальное и максимальное значения множества). Код ниже показывает формирования набора из 1000 различных случайных значений распределения Пуассона с ожидаемым значеним 4, и далее выводим минимальное и максимальное значения используя встроенные методы min() и max()

In [None]:
rand_vars = stats.poisson.rvs(4, size = 1000)

print(min(rand_vars), max(rand_vars))

0 12


In [19]:
# Давайте увеличим значение лямбды до 10 и посмотрим как изменяться максимум и минимум
rand_var = stats.poisson.rvs(10, size=1000)

print(min(rand_var), max(rand_var))

0 23


Так как расстояние между значениями стало больше после изменеия лямбды, это показывается увеличение показателя вариации

## Ожидаемое значение Биноминального распределения (Expected Value of the Binominal Distribution)

Другие типы распределений имеют ожидаемое значение и показатель вариации основанной на переданных параметрах, также как и распределение Пуассона. Напоминаем что Биноминальное распределение имеет параметр *n*, представляющий кол-во событий и *p* представляющее вероятность успешного события.

Основывая на следующеем сценраии: мы подбрасываем монетку 10 раз и подсчитываем кол-во "орлов". Как много "орлов" вы ожидаете увидеть? Вы можете подумать что данное значение равно 5, и вы будете правы! Что мы сделали это рассчитали ожидаемое значение без реального проведения его рассчетов. Мы взяли число 10 (кол-во подбросов монеты) и перемножили ее на вероятность выпадения "орла" за один подброс (.5) и результат данного выражения и будет равным ожидаемому значению.

Обратите внимание если бы подбросов было 5 а не 10 в таком случае ожидаемое значение равнялось бы (2.5). Дробное значение ожидаемого значения это нормально, хоть конечно и не возможно получить два с половиной подброса при 5 бросках монетки.

Давайте взглянем на другой пример. Предположим что мы забыли учиться, и мы решили отметить ответ **В** на все 20 вопросов в тесте. Если мы представим что каждая буква в ответах имеет одинаковое значение вероятности быть правильным, насколько вопросов получить ответить правильно ? *n* в таком случае будет равна 20, потому что в тесте 20 вопросов, и *p* будет равно 0.25, потому что есть только 1 правильный ответ из 4 вариантов. Используеся формулу вычисления ожидаемого значения то получим

`Expected (# rigth answers) = E(X) = 20 * 0.25 = 5`

## Показатель вариации биноминального распределения (Variance of the Binominal Distribution)

Показатель вариации биноминального распределения описывает как может изменяться ожидаемое значение успеха. Другими словами, это измерение разброса вероятности среднего значения / ожидаемого значения.

Показатель вариации биноминального распределения также просто рассчитывается как и ожидаемое значение с использование параметра *n* - кол-во повторений и *p* - вероятность успеха. Давайте используем 10 подбросов монеты как пример для того чтобы понять как рассчитывается показатель вариации. Каждый подброс монеты имеет некоторую вероятность того что выдает "орел" или "решка" (50 на 50).

Показатель вариации отдельно взятого подброса монеты будет равно вероятность что наблюдение будет успешно перемноженное на вероятность того что наблюдение будет НЕ успешно.

`p(1-p) or .5 * .5`

Так как мы имеет параметр *n* равный 10, показатель вариации будет равен умножению показателя вариации одного подброса на общее кол-во повторений.

Таким образом получаем

`Variance (# of Heads) = Var(X) = n * p * (1-p)`

`Variance (# of Heads) = 10 * .5 * .5 = 2.5`

Давайте подведем итог в проекте с тестом (20 вопросов 4 варианта ответов). Показатель вариации того что будет дан правильный ответ на отдельно взятый вопрос равен 0.25 * 0.75. Так как у нас 20 вопросов в таком случае показатель вариации будет равен 20 * 0.25 * 0.75 = 3.75.

Мы можем ожидать до 5 правильный ответов, но общий показатель вариации распределения вероятности равен 3.75.

## Свойства показателя вариации и ожидаемого значения (Properties of Expectation and Variance)

Сушествует несколько свойств ожидамого значения и показателя вариации которые сопровождают их в рамках всего распределения.

### Свойства ожидаемого значения

Ожидаемое значение двух независимых случайных переменных представляется в виде суммы двух ожидаемых значений каждой переменной в отдельности

`E(X + Y) = E(X) + E(Y)`

Например если мы хотим посчитать общее кол-во "орлов" между 10 четвертаками и 6 никелевыми монетами, ожидаемое значение будет скомбинировано из 5 от четвертаков и 3 от никелевых монет в итоге получится 8.

Перемножение случайной переменной с константой *a* изменят ожидаемое значение на перемножение на ту же константу.

`E(aX) = aE(X)`

Например ожидаемое значение "орлов" из 10 подбросов являются 5. Если мы хотим рассчитать число "орлов" из этого события умноженного на 4 (40 подбросов), ожидаемое значение также будет увеличино в 4 раза.

Добавление константы к распределению исзменит ожидаемое значение на тоже значение константы

`E(X+a) = E(X) + a`

Предположим что тесту была дана оценка, и средняя оценка является 78 из 100. Если учитель решит увеличит кол-во баллов каждой оценки на 2, средняя оценка станет 80.

### Свойства показателя вариации

Увеличение значений в распределении на постоянное значение *a* не изменяет показатель вариации.

`Var(X + a) = Var(X)`

Это происходит потомучто показатель вариации поятонного значения равно 0 (не существет диапазона состоящего из одного значения). Добавление константы к случайному значению не добавляется никакой дополнительной вариации. Давайте рассмотрим данное свойства на предыдущем примере с оценками: в отличии от ожадемого значения (или среднего значения) которое изменилось с 78 до 80, разброс и дисперсия (показатель вариации) оценок за тест остается не изменным.

Увеличение значение случайных переменных путем перемножение их на постоянное значение увеличивает показатель вариации в квадратной проворции.

`Var(aX) = a^2 Var(X)`

Сумма показателей вариации двух случайных переменны это сумма показатель вариации каждой из переменной.

`Var (X + Y) = Var(X) + Var(Y)`

Данный принцип сохраняется только если X и Y являются независимыми случайными переменными. Давайте предположим что X это событие выпадения "орла" каждый отдельный подброс монетки, а Y это событие выпадения 2 при броске игральной кости. В таком случае получим рассчет

`Var(X) = 0.5 * (1 - 0.5) = 0.25`

`Var(Y) = 0.167 * (1 - 0.167) = 0.139`

`Var(X + Y) = Var(X) + Var(Y) = 0.25 + 0.139 = 0.389`