# MATH&ML-7 Теория вероятностей в контексте наивного байесовского классификатора.
###  Содержание <a class="anchor" id=0></a>

- [1. Введение](#2)
- [2. Классическая верочтность. Сложение и умножение](#2)
- [3. Условная вероятность](#3)
- [4. Полная вероятность](#4)
- [5. Теорема Байеса](#5)
- [6. Наивный бейсовский классификатор: практика](#6)
- [7. Случайная величина и её характеристики](#7)
- [8. Дискретные распределения](#8)
- [9. Неприрывные распределения](#9)
- [10. Итоги](#10)

# 1. Введение <a class="anchor" id=0></a>

[к содержанию](#0)

>**Детерминированность** — это ситуация, в которой одно и то же действие всегда приводит к одному и тому же результату.

Но что, если вы бросаете два кубика и делаете ставку на сумму? Какое число выбрать для ставки?

Может показаться, что сумма очков на двух равновероятных кубиках также равновероятна, но это не так: 6 и 7 будут выпадать гораздо чаще, чем 2 или 12. Для наглядности можно отобразить все возможные комбинации в таблице:

|  | **1** | **2** | **3** | **4** | **5** | **6** |
| - | - | - | - | - | - | - |
| **1** |(1,1)|(1,2)|(1,3)|(1,4)|(1,5)|(1,6)|
| **2** |(2,1)|(2,2)|(2,3)|(2,4)|(2,5)|(2,6)|
| **3** |(3,1)|(3,2)|(3,3)|(3,4)|(3,5)|(3,6)|
| **4** |(4,1)|(4,2)|(4,3)|(4,4)|(4,5)|(4,6)|
| **5** |(5,1)|(5,2)|(5,3)|(5,4)|(5,5)|(5,6)|
| **6** |(6,1)|(6,2)|(6,3)|(6,4)|(6,5)|(6,6)|

Как видите, для того, чтобы выпало 12 , нужны две шестёрки, а, например, для 7 есть много вариантов, поэтому шанс угадать больше. Но насколько больше? В целом, поскольку у нас выписаны все варианты, мы можем примерно понять, насколько чаще в сумме будет выпадать 7, а не 12.

<img src=m7_img1.png width=300>

Тогда всё становится ещё сложнее. Выписывать все варианты мы уже не сможем, так как их слишком много.

<img src=m7_img2.png width=600>

>Здесь нам уже понадобится **теория вероятностей** — наука, которая позволяет сделать предположения о более простых вероятностях (об очках на одном кубике) и на их основе математически вывести гораздо более сложные (об очках на нескольких кубиках). К примеру, теория вероятностей помогает ответить на вопрос: «На что ставить, чтобы увеличить шансы на выигрыш?»

Мы не случайно начали юнит с примера про кубики: именно попытки предсказать вероятности выигрыша в такие азартные игры, как игральные кости или орлянка несколько столетий назад дали стимул развитию этой области математики. Но, разумеется, теория вероятностей широко используется и по сей день и может быть полезна не только для того, чтобы оценить свои шансы в казино.

Изучение вероятности важно, так как она имеет дело с количественными оценками ситуаций с неопределёнными результатами.

* При **производстве** какого-то продукта всегда неясно, получится ли он с дефектом. Тестирование каждого продукта, который должен выйти в продажу, было бы невероятно дорогим и трудозатратным. Однако понимание вероятности дефекта позволяет заранее заложить её в издержки и проработать политику решения ситуаций с бракованными товарами.

* Также всякий раз, когда человек вкладывает деньги в акции, он, осознавая это или нет, занимается оценками вероятностей. Каждая **инвестиция** имеет некоторую степень неопределённости: никто не может быть уверен, какова будет стоимость акций в будущем. Инвестируя деньги в акции, вы, по сути, предполагаете высокую вероятность того, что эти акции вырастут в цене. Продажа же акций означает, что вы оцениваете вероятность падения цены как довольно большую. Профессиональные финансовые аналитики, как правило, уделяют много внимания оценкам вероятности при просчёте своих рисков. Они используют исторические данные и огромный поток ежедневной информации, чтобы определить вероятность увеличения или уменьшения стоимости инвестиций.

* Вероятностные модели также постоянно используются в **анализе данных**: в алгоритмах классификации и прогнозирования, а также при построении рекомендательных систем и в стохастических алгоритмах оптимизации.

* Если мы хотим построить алгоритм, который будет рекомендовать фильмы пользователю сервиса, для каждого фильма необходимо рассчитать вероятности, выражающие соответствие фильма предпочтениям человека. После этого можно будет предложить пользователю те фильмы, у которых эти вероятности наибольшие.

* Если вы сможете собрать данные о том, какие вопросы и как часто встречаются на собеседованиях на позицию специалистов по машинному обучению, то сможете предсказать вероятность столкнуться с задачей на тему данного модуля при трудоустройстве.

***
>Под **случайным экспериментом** понимается такой эксперимент, результат которого не детерминирован изначально.

Предположим, если мы заходим на наш сайт в какой-то случайный момент времени и узнаём количество пользователей, находящихся на сайте в данный момент, мы совершаем случайный эксперимент, ведь заранее никак нельзя предугадать, сколько точно людей будет на сайте в то или иное время.

>Приведём ещё несколько примеров случайных экспериментов:
>
>* подбрасывание игральной кости;
>* вытаскивание карты из колоды;
>* подсчёт числа людей, находящихся в помещении;
>* выстрел по мишени;
>* сдача студентом экзамена;
>* запуск случайной песни из плейлиста.

Все вышеперечисленные эксперименты объединяет то, что каждый раз мы не можем точно знать, что получится в итоге — результаты могут быть разными. Например, если мы открываем плейлист и просим плеер выбрать случайную песню, то в результате слышим одну из песен, которые мы уже выбрали ранее. Или, если мы берём колоду карт и вытягиваем одну из них, то в результате получаем карту какой-то определённой масти и достоинства.

>Так появляется понятие **элементарного исхода** — любого возможного исхода случайного эксперимента. Например, если вернуться к примеру про количество пользователей на сайте, то все элементарные исходы — это все возможные количества посетителей на сайте.
>
>Разумеется, по результатам эксперимента обычно может получаться много различных результатов (элементарных исходов). Всё множество таких исходов носит называется пространством элементарных исходов и обычно обозначается буквой $\Omega$ (омега).

Ниже можно увидеть примеры случайных экспериментов и пространства элементарных исходов:

| **СЛУЧАЙНЫЙ ЭКСПЕРИМЕНТ** | **ПРОСТРАНСТВО ЭЛЕМЕНТАРНЫХ ИСХОДОВ** |
| - | - |
| Сдача экзамена TOEFL | Любое число от 0 до 120 |
| Бросок одного шестигранного кубика | 1, 2, 3, 4, 5, 6 |
| Попытка устроиться на определённую должность | 	«Устроился» ли «не устроился» |
| Подбрасывание монетки два раза | ОО, ОР, РО, РР, где Р — это решка, а О — орёл |


# 2. Классическая верочтность. Сложение и умножение <a class="anchor" id=2></a>

[к содержанию](#0)

Вероятностью случайного события $A$ называется отношение числа $n$ равновероятных элементарных исходов, составляющих событие $A$, к числу всех возможных элементарных исходов $N$:

$P(A)=\frac{n}{N}$

Элементарные исходы, составляющие событие $A$, также очень часто называют исходами, **благоприятными или благоприятствующими для события** $A$.

>Вы работаете в компании, которая разрабатывает новое лекарство.
>
>В клинических испытаниях участвовали `2800` человек. Ухудшение состояния было зарегистрировано у `7` из них.
>
>Необходимо понять, какова вероятность, что новое лекарство вызовет ухудшение состояния пациента, так как, если она велика, то лекарство требует доработки.
>

Итак, в данном случае $2800$ — это общее количество исходов события, а $7$ — количество благоприятных исходов. Согласно определению вероятности, вероятность серьёзных побочных эффектов вычисляется следующим образом:

$\frac{7}{2800}=0.0025$

Можно также сказать, что вероятность — это число, которое оценивает степень возможности наступления того или иного случайного события. Вероятности всегда находятся в диапазоне **от 0 до 1 включительно**:

$0 \leq P(A) \leq 1$

Чем больше полученное значение, тем более вероятно, что событие произойдёт. Вероятность $0$ означает, что событие **никогда не случится**. Такое событие называют **невозможным**:

$P(A)=P(\oslash)=\frac{n}{N}=\frac{0}{N}=0$

Вероятность 1 означает, что событие произойдёт **в любом случае** — такое событие называют **достоверным**:

$P(A)=P(\Omega)=\frac{n}{N}=\frac{N}{N}=1$

Все остальные значения от 0 до 1 представляют различные уровни вероятности.


***

>**Дополнение события** $A$ — это подмножество таких исходов во всём пространстве исходов, что они не благоприятствуют событию $A$. Дополнение события $A$ само по себе тоже является событием и обозначается как $\overline{A}$.

Важно понимать, что у события и дополнения к нему нет общих исходов, то есть они взаимоисключающие или, как это обычно называют в теории вероятностей, несовместные. Также событие и дополнение к нему содержат в сумме абсолютно все исходы из пространства исходов. Из этого следует, что сумма их вероятностей равняется одному:

$P(A)+P\left(\overline{A}\right)=1$

Например, если мы знаем, что вероятность того, что пойдёт дождь, равна $0.7$, то вероятность того, что дождя не будет, равна $1-0.7=0.3$. События «пойдёт дождь» и «дождя не будет» являются **несовместными**, так как не может быть, чтобы одновременно шёл дождь и его не было. Также они покрывают всё пространство исходов, так как никаких других вариантов быть не может.

Если у нас есть любое количество взаимоисключающих событий, которые описывают абсолютно все возможные элементарные исходы, то сумма их вероятностей равна 1:

$P\left(A_{1}\right)+P\left(A_{2}\right)+P\left(A_{3}\right)+\ldots+P\left(A_{n}\right)=1$



## ПРАВИЛО СУММЫ

>Вероятностное **правило суммы** используется в ситуациях, когда необходимо найти вероятность наступления **объединения событий**.

К примеру, если есть события «Маша получила за тест 4» и «Маша получила за тест 5», их объединением будет событие «Маша получила за тест 4 или 5», и для вычисления его вероятности нам как раз понадобится правило суммы.

Это правило используется для **несовместных событий**, то есть событий, которые не могут произойти одновременно.

Если события $A$ и $B$ являются несовместными, то вероятность для объединения этих событий вычисляется по следующей формуле:

$P(A \cup B)=P(A)+P(B)$

Разумеется, формулу для вероятности объединения событий можно легко вывести математически. За $S$ обозначим всё пространство исходов:

$P(A \cup B)=\frac{\left|A \right|+\left|B \right|}{\left|S \right|}=\frac{\left|A \right|}{\left|S \right|}+\frac{\left|B \right|}{\left|S \right|}=P(A)+P(B)$

>В магазине одежды есть в наличии две зеленые юбки, три — красные и четыре — синие. Приходит покупательница и случайным образом выбирает юбку, причём каждая юбка может быть выбрана с одинаковой вероятностью. Точно известно, что она выберет только одну юбку.
>
>Какова вероятность того, что покупательница выберет зелёную или синюю юбку?
>
>Определим события $G$ и $B$ следующим образом:
>
>* $G$ = клиентка выбирает зелёную юбку;
>* $B$ = клиентка выбирает синюю юбку.
>Нельзя купить одновременно зелёную и синюю юбку, так что можно без проблем применить правило для вероятности суммы:
>
>$P(G \cup B)=P(G)+P(B)=\frac{2}{9}+\frac{4}{9}=\frac{2}{3}$
>
>Получаем, что с вероятностью $\frac{2}{3}$ будет выбрана зелёная или синяя юбка.

***
## ПРАВИЛО УМНОЖЕНИЯ

Перейдём к правилу умножения или, его ещё называют, **правилу произведения**.

>Правило произведения используется для нахождения вероятности пересечения событий:
>
>$P (A \cap B) = P(A) \times P(B)$

Пусть нам известно, что среди людей, заходящих в магазин, `70 %` ничего не покупают. Остальные с равной вероятностью покупают `1`, `2` или `3` бутылки воды.

Допустим, что в магазин заходят два человека. Если событие $A$ — это «покупка чётного числа бутылок первым человеком», а событие $B$ — «покупка вторым человеком более чем одной бутылки», давайте найдём вероятность события $A \cap B$, то есть вероятность того, что один человек купил чётное количество бутылок, а второй купил более одной бутылочки.

Рассмотрим элементарные исходы, благоприятные событию $A$, и его вероятность:

$A = \{0,2 \}, \ P(A) = 0.8$

Сделаем то же самое для события $B$:

$B = \{2,3 \}, \ P(B) = 0.2$

Тогда вероятность их пересечения ищем следующим образом:

$P (A \cap B) = 0.8 \cdot 0.2 = 0.16$

***
## ОБОБЩЁННОЕ ПРАВИЛО СУММЫ

Применение рассмотренного нами правила суммы несколько ограничено, поскольку требует несовместных событий.

?Что, если события всё же могут быть совместными, то есть происходить одновременно?

Приведём обобщенное правило суммы, которое можно применять и в таких ситуациях:

$P(A \cup B)=P(A)+P(B)-P(A \cap B)$

Давайте рассмотрим, как выводится это правило.

Дело в том, что при сложении вероятностей наступления событий $A$ и $B$ мы считаем центральную часть (пересечение) дважды. Поэтому нам необходимо вычесть вероятность пересечения данных событий, чтобы она была вычислена только один раз.

$P(A \cup B)=\frac{\left|A \right|}{\left|S \right|}+\frac{\left|B \right|}{\left|S \right|}-\frac{\left|A \cap B \right|}{\left|S \right|}=P(A)+P(B)-P(A \cap B)$

Пусть 30 % клиентов нашей клининговой компании — женщины. Также мы знаем, что $\frac{2}{3}$ женщин пользуются нашими услугами еженедельной уборки, а $\frac{1}{3}$ — нет. Среди мужчин $\frac{3}{7}$ пользуются услугами еженедельной уборки, а $\frac{4}{7}$ ими не пользуются.

Необходимо найти вероятность, что случайно выбранный клиент либо женского пола, либо пользуется нашими услугами еженедельной уборки, либо и то, и другое.

Просто сложить вероятность, что клиент женского пола, и вероятность, что клиент пользуется рассматриваемыми услугами, нельзя, так как в таком случае мы дважды посчитаем женщин, которые используют еженедельную уборку.

Можно представить наши данные в виде следующей таблицы:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	20 %|	10 %|
|Мужчины|	30 %|	40 %|

Чтобы рассчитать все значения, мы воспользовались информацией из условия задачи.

Если мы знаем, что всего женщин 30 %, и $\frac{2}{3}$ из них пользуются нашими услугами еженедельной уборки, а $\frac{1}{3}$ — нет, то легко рассчитать:

* процент женщин, которые используют услугу: $30 \%* \frac{2}{3} = 20 \%$;
* процент женщин, которые не используют услугу: $30 \%* \frac{1}{3} = 10 \%$.

Аналогичные расчёты можно провести и для мужчин.

Если пользоваться формулой, то для начала необходимо сложить вероятности того, что клиент женского пола:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	`20 %`|	`10 %`|
|Мужчины|	30 %|	40 %|

Затем надо прибавить вероятность того, что клиент пользуется нашими услугами:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	`20 %`|	10 %|
|Мужчины|	`30 %`|	40 %|

Тогда мы получим, что мы посчитали 30 % и 10 % по одному разу, а 20 % — два раза:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	**20 %**|	`10 %`|
|Мужчины|	`30 %`|	40 %|

Поэтому вычитаем 20 % и получаем необходимый нам результат:

$50 \% + 30 \% - 20 \% = 60 \%$

# 3. Условная вероятность <a class="anchor" id=3></a>

[к содержанию](#0)

# 4. Полная вероятность <a class="anchor" id=4></a>

[к содержанию](#0)

# 5. Теорема Байеса <a class="anchor" id=5></a>

[к содержанию](#0)

# 6. Наивный бейсовский классификатор: практика <a class="anchor" id=6></a>

[к содержанию](#0)

# 7. Случайная величина и её характеристики <a class="anchor" id=7></a>

[к содержанию](#0)

# 8. Дискретные распределения <a class="anchor" id=8></a>

[к содержанию](#0)

# 9. Неприрывные распределения <a class="anchor" id=9></a>

[к содержанию](#0)

# 10. Итоги <a class="anchor" id=10></a>

[к содержанию](#0)