<img src="https://cs6.pikabu.ru/images/big_size_comm/2017-08_6/1504088679155420172.png" height="400" width="800"> 

## <center>Наука о данных <br>  <br> Комбинаторика и генерация случайных чисел! </center>

---

### 1. Комбинаторика

Из курса дискретной математики мы знаем как посчитать число 


* сочетаний
$$
C_{n}^{k}={\frac {n!}{k!\left(n-k\right)!}}
$$

* размещений
$$
{\displaystyle A_{n}^{k}={\frac {n!}{(n-k)!}}}
$$

* перестановок
$$
P_{n}=A_{n}^{n}={\frac  {n!}{(n-n)!}}={\frac  {n!}{0!}}=n!
$$

Во всех формулах нужно высчитывать факториал. В пакете `math` есть функция `factorial`, которая принимает один аргумент - целое неотрицательное число и возвращает факториал этого числа.

In [142]:
from math import factorial

In [143]:
factorial(5) / (4)

30.0

Так мы можем посчитать, например, число сочетаний из *n* по _k_.


In [144]:
n = 5
k = 3
print("Число сочетаний из {} по {} равно".format(n, k), int(factorial(n) / (factorial(k) * factorial(n - k))))

Число сочетаний из 5 по 3 равно 10


Мы можем не просто найти, например, число сочетаний, но и вывести их в яновм виде. В этом нам поможет пакет `itertools`. С его помощью можно получать сочетания, перестановки и размещения.

In [145]:
from itertools import combinations, combinations_with_replacement, permutations

У всех функций два аргумента:

1. Итерируемый объект(массив, строка и т.д.).
2. k

In [146]:
numbers = [1, 2, 3]
s = 'abc'

In [147]:
# сочетания
print(list(combinations(numbers, 2)))
print(list(combinations(s, 2)))

[(1, 2), (1, 3), (2, 3)]
[('a', 'b'), ('a', 'c'), ('b', 'c')]


In [148]:
# сочетания с повторениями
print(list(combinations_with_replacement(numbers, 2)))
print(list(combinations_with_replacement(s, 2)) )

[(1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)]
[('a', 'a'), ('a', 'b'), ('a', 'c'), ('b', 'b'), ('b', 'c'), ('c', 'c')]


In [149]:
# размещения
print(list(permutations(numbers, 2)))
print(list(permutations(s, 2)))

[(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)]
[('a', 'b'), ('a', 'c'), ('b', 'a'), ('b', 'c'), ('c', 'a'), ('c', 'b')]


Все перестановки можно получить с помощью размещений.

In [150]:
print(list(permutations(numbers, len(numbers))))
print(list(permutations(s, len(s))))

[(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)]
[('a', 'b', 'c'), ('a', 'c', 'b'), ('b', 'a', 'c'), ('b', 'c', 'a'), ('c', 'a', 'b'), ('c', 'b', 'a')]


### 2. Создание списка

Если бы мы захотели создать массив с числами от $1$ до $N$, то мы бы сделали это следующим образом. 

In [151]:
N = 10
res = []

for x in range(1, N + 1):
    res.append(x)

res

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

Однако то же самое можно сделать с помощью __list comprehensions__ . Код уменьшится, а также такой способ генерации списоков работает намного быстрее.

In [152]:
res = [x for x in range(1, N + 1)]
res

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

Можно не только создавать массивы, но и менять уже существующие. Найдем квадраты наших чисел.

In [153]:
squar_res = [x**2 for x in res]
squar_res

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

### 3. Генерация случайных величин

Иногда для решения задач по теории вероятностей или исследования свойств статистических алгоритмов нужно сгенерировать случайную выборку из какого-нибудь распределения. Для генерации мы будем пользоваться пакетом `random`. Это самый простой способ генерации.

In [154]:
import random as rd

Внутри пакета есть непрерывные распределения. Давайте попробуем сгенерировать случайное число из **нормального распределения**, $X \sim N(\mu, \sigma^2)$. Того самого распределения, плотность которого выглядит как-то вот так: 

$$
f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \cdot  e^{-\frac{(x - \mu)^2}{2 \sigma^2}}
$$


Параметр ```mu``` задаёт $\mu$, ```sigma``` — среднеквадратичное отклонение $\sigma$.

In [155]:
rd.normalvariate(mu=4, sigma=5)

-1.808754511976499

А теперь сгенерируем случайное число из **равномерного распределения**, $X \sim U[a, b]$. Плотность этого распределения выглядит так: 

$$
f(x)=\left\{{\begin{matrix}{1 \over b-a},&x\in [a,b]\\0,&x\not \in [a,b]\end{matrix}}\right .
$$

In [156]:
rd.uniform(a=5, b=10)

6.161932848910148

И еще одним знакомым нам распределением будет __экспоненциальное распределение__, $X \sim {\displaystyle \mathrm {Exp} (\lambda )} $. А вот и его плотность:

$$
f(x)={\begin{cases}\lambda \,e^{{-\lambda x}},&x\geq 0,\\0,&x<0.\end{cases}}
$$

In [157]:
rd.expovariate(lambd=5)

0.2953790259454355

Мы можем сгененировать целую случайную выборку с помощью list comprehensions. Давайте получим случайную выборку из равномерного распеределения, а также найдем математическое ожидание и дисперсию.

$$X \sim U[a, b]$$

$${\mathbb  {E}}\left[X\right]={\frac  {a+b}{2}}$$

$${\displaystyle \operatorname {Var} \left[X\right]={\frac {(b-a)^{2}}{12}}}$$

In [158]:
N = 10**3 # размер выборки

unif = [rd.uniform(a=5, b=10) for i in range(N)]

Чтобы найти  математическое ожидание и дисперсию по выборке, возмользуемся функциями __mean__ и __var__ из пакета `numpy`.

In [159]:
from numpy import mean, var

In [160]:
print(mean(unif))
print(var(unif))

7.463671723022411
2.0419432241780227


В пакете `random` есть также несколько других полезных функций, все они на вход принимают итерируемый объект(массив, строка и т.д.).

* `choice` - случайно выбирается один объект
* `choices` - случайно выбирается k объектов (могут повторяться)
* `sample` - случайно выбирается k **уникальных** объектов

In [161]:
rd.choice(range(10))

8

In [162]:
rd.choices(range(10), k=5)

[3, 4, 7, 2, 6]

In [163]:
rd.sample(range(10), k=5)

[2, 9, 5, 1, 3]

В пакете `random` имеется малое количесто распределений, к тому же они непрерывные. К счастью, в пакете `scipy` есть огромное количество различных распрелений на все случаи жизни.

Чтобы сварить в `scipy` любую случайную величину, нужно сделать две вещи: 

* Создать генератор. 

Внутри пакета `scipy.stats` есть [много разных распределений.](https://docs.scipy.org/doc/scipy-0.14.0/reference/stats.html) Среди всего этого обилия нужно найти нужное распределение и задать его параметры. Непрерывные распределения у нас уже были, поэтому давайте сделаем это на примере **распределения Пуассона**, $X \sim Pois(\lambda)$.

$$
p(k)\equiv \mathbb {P} (Y=k)={\frac {\lambda ^{k}}{k!}}\,e^{-\lambda }
$$


Параметр ```mu``` задаёт $\lambda$.

In [164]:
import scipy.stats as sts

In [165]:
pois = sts.poisson(mu=5) # задали генератор 

Когда конкретный генератор готов, у него можно вызывать разные методы: 

* `rvs` сгенерирует нам выборку из распределения объёма `size`
* `cdf` вычислит для нас значение функции распределения (cumulative distribution function) в указанной точке
* `pdf` вычислит значение плотности распределения (probability density function) в указанной точке (**для непрерывных распределений**)
* `pmf` вычислит вероятность получения заданного значения (**для дискретных распределений**)
* `ppf` вычислит квантиль, указанного уровня(**для непрерывных распределений**)

In [166]:
sample = pois.rvs(size=100)  # сгенерируем 100 значений
sample[:10]

array([4, 4, 3, 3, 6, 9, 7, 2, 7, 4])

In [167]:
pois.cdf(5)

0.615960654833063

In [168]:
pois.pmf(5)

0.17546736976785068

### 4. Задачки

### 21

У вас есть числа от 1 до 10. Выведите все тройки чисел, которые в сумме равны 21.

In [176]:
numbers = list(range(1, 11))

In [177]:
for comb in combinations(numbers, 3):
    if sum(comb) == 21:
        print(comb)

(2, 9, 10)
(3, 8, 10)
(4, 7, 10)
(4, 8, 9)
(5, 6, 10)
(5, 7, 9)
(6, 7, 8)


### Вероятность

Иногда не очень приятно выводить плотности для комбинации случайных величин или условные плотности, а потом еще брать интегралы. Вместо этого можно сгененрировать случайные величины и найти все, что нам требуется. 

Предположим, что у нас есть две случайные величины $X \sim N(3, 2^2)$, $Y \sim U[0, 1]$. Найдите:

1. $P(X - 3Y > 0)$
2. $P(X - 3Y > 0 | Y > 0.5)$
3. $E[XY]$
4. $E[XY|Y > 0.5]$

Для начала сгенерируем выборку.

In [179]:
N = 10**5

X = [rd.normalvariate(mu=3, sigma=2) for i in range(N)]
Y = [rd.uniform(a=0, b=1) for i in range(N)]

#### 1. $P(X - 3Y > 0)$

Обозначим новую случайную величину $Z = X - 3Y$.

In [180]:
Z = [z[0] - 3 * z[1] for z in zip(X, Y)]

In [181]:
Z_over_zero = [z > 0 for z in Z]

In [182]:
sum(Z_over_zero) / N

0.75452

#### 2. $P(X - 3Y > 0 | Y > 0.5)$

Смотрим для каких значений в выборке выполняется наше условие. На выходе получаем массив с True и False.

In [193]:
condition = [y > 0.5 for y in Y]
condition[:3]

[True, False, True]

Выбираем только те значения, которым удовлетворяет наше условие. В list comprehensions можно в конце добавить if.

In [197]:
new_X = [x for x, con in zip(X, condition) if con]
new_Y = [y for y, con in zip(Y, condition) if con]

In [198]:
new_Z = [z[0] - 3 * z[1] for z in zip(new_X, new_Y)]
new_Z_over_zero = [z > 0 for z in new_Z]

In [201]:
sum(new_Z_over_zero) / len(new_Z_over_zero)

0.6450641894585759

Вероятность уменьшилась относительно предыдущей. Это достаточно логично. Почему?

#### 3. $E[XY]$

Обозначим новую случайную величину $R = XY$.

In [206]:
R = [r[0] * r[1] for r in zip(X, Y)]
sum(R) / len(R)

1.5045837795296855

#### 4. $E[XY|Y > 0.5]$

У нас уже есть `new_X` и `new_Y`, которые удовлетворяют этому условию. Используем их.

In [209]:
new_R = [r[0] * r[1] for r in zip(new_X, new_Y)]
sum(new_R) / len(new_R)

2.2519795447849185

### Задачка про удава Анатолия

Удав Анатолий любит французские багеты. Длина французского багета равна 1 метру. За один заглот Удав Анатолий заглатывает кусок случайной длины, равномерно распределённый на отрезке $[0;1]$. Для того, чтобы съесть весь багет удаву потребуется случайное количество $N$ заглотов.
 
Найдите $E(N)$ и $Var(N)$. 

Эту задачку очень сложно решить в лоб, но можно попробовать замоделировать поедание багета много раз и найти нужные нам характеристики. Кстати говоря,в сборнике сложных задач по терверу, [культурном коде](https://github.com/bdemeshev/probability_dna/raw/master/probability_dna.pdf), можно найти три разных решения этой задачки. Она там находится под номером 46.

In [14]:
# Багеты! Давайте начнём с одной итерации эксперемента.

l = 1 # длина багета
m = 0 # число заглотов

# пока длина багета больше 0
while l > 0:
    # делай заглоты 
    l -= rd.uniform(0, 1)
    m += 1 # на один заглот стало больше

print(m)

2


Одну итерацию можно обернуть в функцию, чтобы удобно использовать её в дальнейшем.

In [15]:
def eat_one_baguette():
    l = 1
    m = 0 
    while l > 0:
        l -= rd.uniform(0, 1)
        m += 1

    return(m)

eat_one_baguette()

2

Теперь мы можем провести много итераций эксперимента. Удобней всего это сделать через генератор списков, которым мы пользовались раньше.

In [139]:
N = 10**6 # количество итераций эксперимента
exper_results = [eat_one_baguette() for i in range(N)]

Теперь у нас есть массив с количеством поеданий в каждом эксперименте. Мы можем найти математическое ожидание и дисперсию.

In [140]:
print(mean(exper_results))
print(var(exper_results))

2.7180966
0.7653598730684401


---