# Теория вероятностей и математическая статистика

## Урок 1

## Случайные события. Вероятность события. Условная вероятность. Формула Байеса

### Разбор домашнего задания

__Задача 1__

Имеется колода в 52 карты. Найти число возможностей вытянуть из неё 4 карты так, чтобы среди них был хотя бы один туз.

__Решение__

Для того, чтобы найти искомое число, нужно посчитать число исходов, соответствующих вытягиванию $1$, $2$, $3$ и $4$ тузов, а затем сложить эти числа. Все эти значения считаются аналогично. Например, посчитаем число исходов в первом случае. Для этого нужно посчитать число возможностей вытащить один туз из «колоды» в $4$ туза ($C_4^1$) и число возможностей вытащить $3$ произвольные карты из оставшейся колоды в $48$ карт ($C_{48}^3$):
$$N_1 = C_4^1 \cdot C_{48}^3.$$ 

Аналогично для $i \leq 4$:
$$N_i = C_4^i \cdot C_{48}^{4 - i}.$$

In [None]:
import numpy as np

In [None]:
def combinations(n: int, k: int) -> int:
    """Число сочетаний.
    """
    
    return np.math.factorial(n) // (np.math.factorial(k) * np.math.factorial(n - k))

In [None]:
sum(combinations(4, i) * combinations(48, 4 - i) for i in range(1, 5))

76145

Другой способ посчитать то же самое значение — посчитать общее число исходов ($C_{52}^4$) и вычесть из него число исходов, при которых в руке вообще не оказалось туза ($C_{48}^4$):

In [None]:
combinations(52, 4) - combinations(48, 4)

76145

Теперь про ошибки. Одно из самых популярных ошибочных решений этой задачи выглядит следующим образом:

In [None]:
combinations(4, 1) * combinations(51, 3)

83300

Рассуждение такое: вытянем сначала $1$ туз, а потом оставшиеся $3$ карты вытянем из оставшихся карт (коих $51$ штука). Так мы гарантируем, что в руке всегда будет хотя бы один туз.

Ошибка этого рассуждения достаточно тонкая. Она заключается в том, что при таком подходе некоторые комбинации считаются несколько раз. Например, возьмём сперва туз червей. Его мы вынимаем из колоды и затем вытягиваем $3$ карты из $51$ всеми возможными способами. В частности, там будет, например, комбинация, состоящая полностью из тузов.

Теперь возьмём другой туз, например, туз пик. Проделаем то же самое: уберём его из колоды и переберём комбинации по $3$ из оставшейся $51$ карты. Тут мы опять встретим комбинацию, полностью состоящую из тузов. Получается, что такую комбинацию мы посчитаем несколько раз. И таких комбинаций будет достаточно много. Потому мы и получаем ответ, который ощутимо больше, чем правильный.

Другая ошибка более проста:

In [None]:
combinations(4, 1) * combinations(48, 3)

69184

Как мы уже поняли, это значение равно числу способов достать $4$ карты так, чтобы среди них был в точности один туз. Но нам нужны не только такие комбинации, но и те, в которых $2$, $3$ или $4$ туза.

__Задачи 2 и 3__

Из 60 вопросов, входящих в экзаменационные билеты, студент знает 50. Случайным образом студент вытягивает 3 вопроса. Какова вероятность, что все выбранные вопросы знакомы студенту? Какова вероятность что два из трёх вопросов знакомы студенту?

__Решение__

Общее число исходов при вытягивании $3$ билетов из $60$ равно 
$C_{60}^3 = \dfrac{60!}{3! \cdot 57!} = \dfrac{60 \cdot 59 \cdot 58}{6}$.

Число исходов, благоприятных для события «все билеты знакомые», равно 
$C_{50}^3 = \dfrac{50 \cdot 49 \cdot 48}{6}$. Итак, вероятность первого события:

In [None]:
combinations(50, 3) / combinations(60, 3)

0.5727644652250146

Чтобы посчитить число благоприятных исходов для второго события, надо посчитать число возможностей выбрать $2$ знакомых билета (из $50$) и $1$ незнакомый билет (из $10$). Число таких исходов: 
$C_{50}^2 \cdot C_{10}^1 = \dfrac{50 \cdot 49}{2} \cdot 10$. Итак, вероятность второго события:

In [None]:
combinations(50, 2) * combinations(10, 1) / combinations(60, 3)

0.35797779076563413

Теперь об ошибках. В целом есть и другой подход к этой задаче: воспринимать каждое вытягивание билета как отдельное событие. Такой подход тоже верный, но с ним нужно быть аккуратнее. Например, посчитаем вероятность, что все билеты известны:

In [None]:
50 / 60 * 49 / 59 * 48 / 58

0.5727644652250147

Всё верно и сошлось с предыдущим ответом. А теперь посчитаем вероятность вытянуть два знакомых из трёх. Тут обычно рассуждение такое: первый — знакомый, второй - тоже, а третий — нет:

In [None]:
50 / 60 * 49 / 59 * 10 / 58

0.11932593025521138

Ошибка такого рассуждения в том, что мы учли не все варианты. А что если незнакомый билет был вытянут первым? Или вторым? Учитывая все эти варианты, получаем что-то вроде:

In [None]:
(50 / 60 * 49 / 59 * 10 / 58) + (10 / 60 * 50 / 59 * 49 / 58) + (50 / 60 * 10 / 59 * 49 / 58)

0.35797779076563413

Тут уже ответ верный.

Другая ошибка заключается в том, что, читая условие про два знакомых билета, мы не учитываем ещё одно неявное условие: коль два билета знакомы, значит, третий должен быть незнакомым. Без этого условия получаем:

In [None]:
combinations(50, 2) / combinations(60, 3)

0.03579777907656341

Как мы уже поняли, этот ответ является неверным, потому что тут не учтена вероятность вообще вытянуть незнакомый билет (а эта вероятность не равна $1$).

__Задача 4__

Допустим, имеется некоторая очень редкая болезнь (поражает 0.1% населения). Вы приходите к врачу, вам делают тест на эту болезнь, и тест оказывается положительным. Врач говорит вам, что этот тест верно выявляет 99% больных этой болезнью и всего лишь в 1% случаев даёт ложный положительный ответ.

_Вопрос_: какова вероятность, что вы действительно больны ей?

_Подсказка_: используйте формулу Байеса с раскрытием знаменателя с помощью формулы полной вероятности.

__Решение.__

Определим следующие события. Событие $A$ — вы больны этой болезнью, событие $B$ — для вас тест на эту болезнь оказался положительным.

В этом случае нам нужно найти вероятность $P(A | B)$ (поскольку вы уже знаете, что тест дал положительный результат). По формуле Байеса:
$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

Также раскроем знаменатель по формуле полной вероятности следующим образом:
$$P(B) = P(B | A) \cdot P(A) + P \left( B | \overline{A} \right) \cdot P \left( \overline{A} \right)$$

Подставляя сюда известные нам величины, получаем:
$$P(B) = 0.99 \cdot 0.001 + 0.01 \cdot 0.999 = 0.01098$$

In [None]:
P_b = 0.001 * 0.99 + 0.999 * 0.01

print(P_b)

0.01098


Подставляя это значение в формулу Байеса, получаем:
$$P(A | B) = \dfrac{0.99 \cdot 0.001}{0.01098} = 0.0902$$

In [None]:
0.001 * 0.99 / P_b

0.09016393442622951

### Разбор дополнительных заданий

__Задача 1__

Подбрасываются три игральных кубика. Оцените вероятность того, что сумма значений этих кубиков не будет превышать 6.

_Подсказка_: оценкой вероятности может служить, например, относительная частота при большом числе опытов. Попробуйте реализовать наибольшее число опытов, которое позволяют ваш компьютер и/или ваше терпение.

_Замечание_: вообще в этом курсе мы не используем такие численные методы оценки вероятностей, и в будущем мы не будем их применять. Но тут сделаем исключение один раз.

__Решение__

Результаты бросков трёх игральных кубиков можно моделировать с помощью функции `randint` из модуля `random` библиотеки `numpy`. Ранее мы подавали туда аргумент `size`, отвечающий за число возвращаемых реализаций. В этот аргумент можно подать не число, а кортеж чисел, тогда вернётся не одномерный массив, а многомерный.

In [None]:
n_samples = 10 ** 8

dice_values = np.random.randint(1, 7, size=(n_samples, 3))
dice_values

array([[6, 2, 4],
       [3, 2, 2],
       [3, 5, 6],
       ...,
       [2, 2, 5],
       [1, 1, 5],
       [2, 6, 5]])

Чтобы посчитать сумму значений кубиков при каждой реализации, можно воспользоваться методом `.sum()`, при этом передать туда аргумент `axis=1`. Тогда суммирование будет производиться вдоль второй (начиная с нуля) оси, т.е. суммироваться будут только отдельные строчки.

In [None]:
samples = dice_values.sum(axis=1)
samples

array([12,  7, 14, ...,  9,  7, 13])

Итак, нас интересует событие $A$, заключающееся в том, что сумма трёх кубиков оказалась не больше $6$. Посчитаем, сколько раз такое событие наступило.

In [None]:
n_successes = (samples <= 6).sum()
n_successes

9258449

Чтобы получить относительную частоту, разделим это число на общее число опытов:

In [None]:
frequency = n_successes / n_samples
frequency

0.09258449

А давайте попробуем найти ту же вероятность аналитически. (Этого не требовалось в задаче, но любопытства ради давайте найдём.) Есть классный элегантный способ это сделать.

Сперва найдём вероятность того, что сумма трёх кубиков будет в точности равна $6$. Другими словами, нужно найти число способов составить число $6$ из трёх кусков. Представим себе ленту из $6$ ячеек. Разбиение её на 3 части равнозначно выбору $2$ позиций, в которых эту ленту нужно разрезать. Все таких позиций $5$. Итак, получается, что число исходов для числа $6$ равно $C_5^2 = 10$:

In [None]:
combinations(5, 2)

10

А сколько всего исходов? Поскольку мы бросаем $3$ кубика, каждый из которых имеет $6$ разных сторон, число исходов будет равно $6^3 = 216$. Итак, вероятность получить в сумме ровно $6$:

In [None]:
combinations(5, 2) / 6 ** 3

0.046296296296296294

Продолжим аналогично. Чтобы получить $5$, нужно разбить ленту с пятью ячейками на $3$ части:

In [None]:
combinations(4, 2) / 6 ** 3

0.027777777777777776

Чтобы получить $4$:

In [None]:
combinations(3, 2) / 6 ** 3

0.013888888888888888

Чтобы получить $3$:

In [None]:
combinations(2, 2) / 6 ** 3

0.004629629629629629

Ну а меньше трёх число быть не может, поскольку оно составлено из трёх значений кубиков. Итак, искомая вероятность:

In [None]:
sum(combinations(k, 2) for k in range(2, 6)) / 6 ** 3

0.09259259259259259

__Задача 2__

Бросается игральная кость. Пусть событие `A` — появление чётного числа, событие `B` — появление числа больше трёх. Являются ли эти события независимыми?

__Решение__

По определению события $A$ и $B$ являются независимыми, если $P(A|B) = P(A)$. Первая вероятность — это вероятность числа быть чётным при условии, что оно больше трёх, т.е. $P(A|B) = \dfrac{2}{3}$. При этом, безусловная вероятность $P(A)$, очевидно, равна $\dfrac{1}{2}$. Итак, события $A$ и $B$ зависимы.