# MATH&ML-7 Теория вероятностей в контексте наивного байесовского классификатора.
###  Содержание <a class="anchor" id=0></a>

- [1. Введение](#2)
- [2. Классическая верочтность. Сложение и умножение](#2)
- [3. Условная вероятность](#3)
- [4. Полная вероятность](#4)
- [5. Теорема Байеса](#5)
- [6. Наивный бейсовский классификатор: практика](#6)
- [7. Случайная величина и её характеристики](#7)
- [8. Дискретные распределения](#8)
- [9. Неприрывные распределения](#9)
- [10. Итоги](#10)

# 1. Введение <a class="anchor" id=0></a>

[к содержанию](#0)

>**Детерминированность** — это ситуация, в которой одно и то же действие всегда приводит к одному и тому же результату.

Но что, если вы бросаете два кубика и делаете ставку на сумму? Какое число выбрать для ставки?

Может показаться, что сумма очков на двух равновероятных кубиках также равновероятна, но это не так: 6 и 7 будут выпадать гораздо чаще, чем 2 или 12. Для наглядности можно отобразить все возможные комбинации в таблице:

|  | **1** | **2** | **3** | **4** | **5** | **6** |
| - | - | - | - | - | - | - |
| **1** |(1,1)|(1,2)|(1,3)|(1,4)|(1,5)|(1,6)|
| **2** |(2,1)|(2,2)|(2,3)|(2,4)|(2,5)|(2,6)|
| **3** |(3,1)|(3,2)|(3,3)|(3,4)|(3,5)|(3,6)|
| **4** |(4,1)|(4,2)|(4,3)|(4,4)|(4,5)|(4,6)|
| **5** |(5,1)|(5,2)|(5,3)|(5,4)|(5,5)|(5,6)|
| **6** |(6,1)|(6,2)|(6,3)|(6,4)|(6,5)|(6,6)|

Как видите, для того, чтобы выпало 12 , нужны две шестёрки, а, например, для 7 есть много вариантов, поэтому шанс угадать больше. Но насколько больше? В целом, поскольку у нас выписаны все варианты, мы можем примерно понять, насколько чаще в сумме будет выпадать 7, а не 12.

<img src=m7_img1.png width=300>

Тогда всё становится ещё сложнее. Выписывать все варианты мы уже не сможем, так как их слишком много.

<img src=m7_img2.png width=600>

>Здесь нам уже понадобится **теория вероятностей** — наука, которая позволяет сделать предположения о более простых вероятностях (об очках на одном кубике) и на их основе математически вывести гораздо более сложные (об очках на нескольких кубиках). К примеру, теория вероятностей помогает ответить на вопрос: «На что ставить, чтобы увеличить шансы на выигрыш?»

Мы не случайно начали юнит с примера про кубики: именно попытки предсказать вероятности выигрыша в такие азартные игры, как игральные кости или орлянка несколько столетий назад дали стимул развитию этой области математики. Но, разумеется, теория вероятностей широко используется и по сей день и может быть полезна не только для того, чтобы оценить свои шансы в казино.

Изучение вероятности важно, так как она имеет дело с количественными оценками ситуаций с неопределёнными результатами.

* При **производстве** какого-то продукта всегда неясно, получится ли он с дефектом. Тестирование каждого продукта, который должен выйти в продажу, было бы невероятно дорогим и трудозатратным. Однако понимание вероятности дефекта позволяет заранее заложить её в издержки и проработать политику решения ситуаций с бракованными товарами.

* Также всякий раз, когда человек вкладывает деньги в акции, он, осознавая это или нет, занимается оценками вероятностей. Каждая **инвестиция** имеет некоторую степень неопределённости: никто не может быть уверен, какова будет стоимость акций в будущем. Инвестируя деньги в акции, вы, по сути, предполагаете высокую вероятность того, что эти акции вырастут в цене. Продажа же акций означает, что вы оцениваете вероятность падения цены как довольно большую. Профессиональные финансовые аналитики, как правило, уделяют много внимания оценкам вероятности при просчёте своих рисков. Они используют исторические данные и огромный поток ежедневной информации, чтобы определить вероятность увеличения или уменьшения стоимости инвестиций.

* Вероятностные модели также постоянно используются в **анализе данных**: в алгоритмах классификации и прогнозирования, а также при построении рекомендательных систем и в стохастических алгоритмах оптимизации.

* Если мы хотим построить алгоритм, который будет рекомендовать фильмы пользователю сервиса, для каждого фильма необходимо рассчитать вероятности, выражающие соответствие фильма предпочтениям человека. После этого можно будет предложить пользователю те фильмы, у которых эти вероятности наибольшие.

* Если вы сможете собрать данные о том, какие вопросы и как часто встречаются на собеседованиях на позицию специалистов по машинному обучению, то сможете предсказать вероятность столкнуться с задачей на тему данного модуля при трудоустройстве.

***
>Под **случайным экспериментом** понимается такой эксперимент, результат которого не детерминирован изначально.

Предположим, если мы заходим на наш сайт в какой-то случайный момент времени и узнаём количество пользователей, находящихся на сайте в данный момент, мы совершаем случайный эксперимент, ведь заранее никак нельзя предугадать, сколько точно людей будет на сайте в то или иное время.

>Приведём ещё несколько примеров случайных экспериментов:
>
>* подбрасывание игральной кости;
>* вытаскивание карты из колоды;
>* подсчёт числа людей, находящихся в помещении;
>* выстрел по мишени;
>* сдача студентом экзамена;
>* запуск случайной песни из плейлиста.

Все вышеперечисленные эксперименты объединяет то, что каждый раз мы не можем точно знать, что получится в итоге — результаты могут быть разными. Например, если мы открываем плейлист и просим плеер выбрать случайную песню, то в результате слышим одну из песен, которые мы уже выбрали ранее. Или, если мы берём колоду карт и вытягиваем одну из них, то в результате получаем карту какой-то определённой масти и достоинства.

>Так появляется понятие **элементарного исхода** — любого возможного исхода случайного эксперимента. Например, если вернуться к примеру про количество пользователей на сайте, то все элементарные исходы — это все возможные количества посетителей на сайте.
>
>Разумеется, по результатам эксперимента обычно может получаться много различных результатов (элементарных исходов). Всё множество таких исходов носит называется пространством элементарных исходов и обычно обозначается буквой $\Omega$ (омега).

Ниже можно увидеть примеры случайных экспериментов и пространства элементарных исходов:

| **СЛУЧАЙНЫЙ ЭКСПЕРИМЕНТ** | **ПРОСТРАНСТВО ЭЛЕМЕНТАРНЫХ ИСХОДОВ** |
| - | - |
| Сдача экзамена TOEFL | Любое число от 0 до 120 |
| Бросок одного шестигранного кубика | 1, 2, 3, 4, 5, 6 |
| Попытка устроиться на определённую должность | 	«Устроился» ли «не устроился» |
| Подбрасывание монетки два раза | ОО, ОР, РО, РР, где Р — это решка, а О — орёл |


# 2. Классическая верочтность. Сложение и умножение <a class="anchor" id=2></a>

[к содержанию](#0)

Вероятностью случайного события $A$ называется отношение числа $n$ равновероятных элементарных исходов, составляющих событие $A$, к числу всех возможных элементарных исходов $N$:

$P(A)=\frac{n}{N}$

Элементарные исходы, составляющие событие $A$, также очень часто называют исходами, **благоприятными или благоприятствующими для события** $A$.

>Вы работаете в компании, которая разрабатывает новое лекарство.
>
>В клинических испытаниях участвовали `2800` человек. Ухудшение состояния было зарегистрировано у `7` из них.
>
>Необходимо понять, какова вероятность, что новое лекарство вызовет ухудшение состояния пациента, так как, если она велика, то лекарство требует доработки.
>

Итак, в данном случае $2800$ — это общее количество исходов события, а $7$ — количество благоприятных исходов. Согласно определению вероятности, вероятность серьёзных побочных эффектов вычисляется следующим образом:

$\frac{7}{2800}=0.0025$

Можно также сказать, что вероятность — это число, которое оценивает степень возможности наступления того или иного случайного события. Вероятности всегда находятся в диапазоне **от 0 до 1 включительно**:

$0 \leq P(A) \leq 1$

Чем больше полученное значение, тем более вероятно, что событие произойдёт. Вероятность $0$ означает, что событие **никогда не случится**. Такое событие называют **невозможным**:

$P(A)=P(\oslash)=\frac{n}{N}=\frac{0}{N}=0$

Вероятность 1 означает, что событие произойдёт **в любом случае** — такое событие называют **достоверным**:

$P(A)=P(\Omega)=\frac{n}{N}=\frac{N}{N}=1$

Все остальные значения от 0 до 1 представляют различные уровни вероятности.


***

>**Дополнение события** $A$ — это подмножество таких исходов во всём пространстве исходов, что они не благоприятствуют событию $A$. Дополнение события $A$ само по себе тоже является событием и обозначается как $\overline{A}$.

Важно понимать, что у события и дополнения к нему нет общих исходов, то есть они взаимоисключающие или, как это обычно называют в теории вероятностей, несовместные. Также событие и дополнение к нему содержат в сумме абсолютно все исходы из пространства исходов. Из этого следует, что сумма их вероятностей равняется одному:

$P(A)+P\left(\overline{A}\right)=1$

Например, если мы знаем, что вероятность того, что пойдёт дождь, равна $0.7$, то вероятность того, что дождя не будет, равна $1-0.7=0.3$. События «пойдёт дождь» и «дождя не будет» являются **несовместными**, так как не может быть, чтобы одновременно шёл дождь и его не было. Также они покрывают всё пространство исходов, так как никаких других вариантов быть не может.

Если у нас есть любое количество взаимоисключающих событий, которые описывают абсолютно все возможные элементарные исходы, то сумма их вероятностей равна 1:

$P\left(A_{1}\right)+P\left(A_{2}\right)+P\left(A_{3}\right)+\ldots+P\left(A_{n}\right)=1$



## ПРАВИЛО СУММЫ

>Вероятностное **правило суммы** используется в ситуациях, когда необходимо найти вероятность наступления **объединения событий**.

К примеру, если есть события «Маша получила за тест 4» и «Маша получила за тест 5», их объединением будет событие «Маша получила за тест 4 или 5», и для вычисления его вероятности нам как раз понадобится правило суммы.

Это правило используется для **несовместных событий**, то есть событий, которые не могут произойти одновременно.

Если события $A$ и $B$ являются несовместными, то вероятность для объединения этих событий вычисляется по следующей формуле:

$P(A \cup B)=P(A)+P(B)$

Разумеется, формулу для вероятности объединения событий можно легко вывести математически. За $S$ обозначим всё пространство исходов:

$P(A \cup B)=\frac{\left|A \right|+\left|B \right|}{\left|S \right|}=\frac{\left|A \right|}{\left|S \right|}+\frac{\left|B \right|}{\left|S \right|}=P(A)+P(B)$

>В магазине одежды есть в наличии две зеленые юбки, три — красные и четыре — синие. Приходит покупательница и случайным образом выбирает юбку, причём каждая юбка может быть выбрана с одинаковой вероятностью. Точно известно, что она выберет только одну юбку.
>
>Какова вероятность того, что покупательница выберет зелёную или синюю юбку?
>
>Определим события $G$ и $B$ следующим образом:
>
>* $G$ = клиентка выбирает зелёную юбку;
>* $B$ = клиентка выбирает синюю юбку.
>Нельзя купить одновременно зелёную и синюю юбку, так что можно без проблем применить правило для вероятности суммы:
>
>$P(G \cup B)=P(G)+P(B)=\frac{2}{9}+\frac{4}{9}=\frac{2}{3}$
>
>Получаем, что с вероятностью $\frac{2}{3}$ будет выбрана зелёная или синяя юбка.

***
## ПРАВИЛО УМНОЖЕНИЯ

Перейдём к правилу умножения или, его ещё называют, **правилу произведения**.

>Правило произведения используется для нахождения вероятности пересечения событий:
>
>$P (A \cap B) = P(A) \times P(B)$

Пусть нам известно, что среди людей, заходящих в магазин, `70 %` ничего не покупают. Остальные с равной вероятностью покупают `1`, `2` или `3` бутылки воды.

Допустим, что в магазин заходят два человека. Если событие $A$ — это «покупка чётного числа бутылок первым человеком», а событие $B$ — «покупка вторым человеком более чем одной бутылки», давайте найдём вероятность события $A \cap B$, то есть вероятность того, что один человек купил чётное количество бутылок, а второй купил более одной бутылочки.

Рассмотрим элементарные исходы, благоприятные событию $A$, и его вероятность:

$A = \{0,2 \}, \ P(A) = 0.8$

Сделаем то же самое для события $B$:

$B = \{2,3 \}, \ P(B) = 0.2$

Тогда вероятность их пересечения ищем следующим образом:

$P (A \cap B) = 0.8 \cdot 0.2 = 0.16$

***
## ОБОБЩЁННОЕ ПРАВИЛО СУММЫ

Применение рассмотренного нами правила суммы несколько ограничено, поскольку требует несовместных событий.

?Что, если события всё же могут быть совместными, то есть происходить одновременно?

Приведём обобщенное правило суммы, которое можно применять и в таких ситуациях:

$P(A \cup B)=P(A)+P(B)-P(A \cap B)$

Давайте рассмотрим, как выводится это правило.

Дело в том, что при сложении вероятностей наступления событий $A$ и $B$ мы считаем центральную часть (пересечение) дважды. Поэтому нам необходимо вычесть вероятность пересечения данных событий, чтобы она была вычислена только один раз.

$P(A \cup B)=\frac{\left|A \right|}{\left|S \right|}+\frac{\left|B \right|}{\left|S \right|}-\frac{\left|A \cap B \right|}{\left|S \right|}=P(A)+P(B)-P(A \cap B)$

Пусть 30 % клиентов нашей клининговой компании — женщины. Также мы знаем, что $\frac{2}{3}$ женщин пользуются нашими услугами еженедельной уборки, а $\frac{1}{3}$ — нет. Среди мужчин $\frac{3}{7}$ пользуются услугами еженедельной уборки, а $\frac{4}{7}$ ими не пользуются.

Необходимо найти вероятность, что случайно выбранный клиент либо женского пола, либо пользуется нашими услугами еженедельной уборки, либо и то, и другое.

Просто сложить вероятность, что клиент женского пола, и вероятность, что клиент пользуется рассматриваемыми услугами, нельзя, так как в таком случае мы дважды посчитаем женщин, которые используют еженедельную уборку.

Можно представить наши данные в виде следующей таблицы:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	20 %|	10 %|
|Мужчины|	30 %|	40 %|

Чтобы рассчитать все значения, мы воспользовались информацией из условия задачи.

Если мы знаем, что всего женщин 30 %, и $\frac{2}{3}$ из них пользуются нашими услугами еженедельной уборки, а $\frac{1}{3}$ — нет, то легко рассчитать:

* процент женщин, которые используют услугу: $30 \%* \frac{2}{3} = 20 \%$;
* процент женщин, которые не используют услугу: $30 \%* \frac{1}{3} = 10 \%$.

Аналогичные расчёты можно провести и для мужчин.

Если пользоваться формулой, то для начала необходимо сложить вероятности того, что клиент женского пола:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	`20 %`|	`10 %`|
|Мужчины|	30 %|	40 %|

Затем надо прибавить вероятность того, что клиент пользуется нашими услугами:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	`20 %`|	10 %|
|Мужчины|	`30 %`|	40 %|

Тогда мы получим, что мы посчитали 30 % и 10 % по одному разу, а 20 % — два раза:

| |Пользуются услугами|Не пользуются услугами|
|-|-|-|
|Женщины|	**20 %**|	`10 %`|
|Мужчины|	`30 %`|	40 %|

Поэтому вычитаем 20 % и получаем необходимый нам результат:

$50 \% + 30 \% - 20 \% = 60 \%$

# 3. Условная вероятность <a class="anchor" id=3></a>

[к содержанию](#0)

>**Условная вероятность** — это вероятность события при некоторых уже известных условиях.


Например, нам может быть необходимо найти вероятность, что человек вернёт ипотеку, если у него уже есть кредит на автомобиль, или вероятность того, что клиент компании уйдёт к конкурентам, если нам известно, что он отклонял все рекламные предложения в течение предыдущего года.

>Условная вероятность события $B$ при условии $A$ определяется как вероятность того, что событие $B$ произойдёт после того, как событие $A$ уже произошло, и обозначается следующим образом:
>
>$P(B|A)$
>
Чтобы найти формулу для поиска условной вероятности, запишем, что вероятность того, что произойдёт и событие $A$ и событие $B$ сразу (по сути, это пересечение событий $A$ и $B$) — это вероятность того, что произойдёт событие $A$, умноженная на вероятность того, что произойдёт событие $B$ (при условии, что $A$ уже произошло). Это соотношение получается напрямую из правила произведения, которое вы изучили в предыдущем юните:

$P(A \ и \ B)=P(A) \cdot P(B \mid A)$

Поделим обе части на $P(A)$

$\frac{P(A \text { и } B)}{P(A)}=\frac{P(A) \cdot P(B \mid A)}{P(A)}$

В правой части сократим $P(A)$ в числителе и знаменателе и получим формулу для поиска условной вероятности:

$\frac{P(A \text { and } B)}{P(A)}=P(B \mid A)$

***

Представим, что некий стажёр пытается устроиться на работу. С вероятностью $0.06$ он успеет вовремя прийти на собеседование и получит работу. С вероятностью $0.2$ он в принципе придёт на собеседование вовремя. Необходимо найти вероятность, что стажёр получит работу, если известно, что он уже пришёл на собеседование в нужное время.

Обозначим за $N$ событие, что стажёр пришёл вовремя, а за $T$ — событие, что его взяли на работу. Тогда получаем следующую формулу:

$P(T \mid N)=\frac{P(N \text { и } T)}{P(N)}=\frac{0.06}{0.20}=0.30$

Получаем, что стажёр получит работу при условии, что он вовремя пришел на встречу, **с вероятностью $0.3$**.

***
Среди людей, заходящих в магазин, `70 %` ничего не покупают. Остальные с равной вероятностью покупают `1`, `2` или `3` бутылки воды. Найдите вероятность купить 2 бутылки, если точно известно, что количество купленных бутылок меньше трёх.

Запишем выражение для поиска условной вероятности, согласно рассмотренной ранее формуле:

$P(\{2\} \mid\{0,1,2\})=\frac{P(\{2\} \cap\{0,1,2\})}{P(\{0,1,2\})}$

В числителе нам нужна вероятность того, что одновременно было куплено две бутылки и какое-то количество из множества $\{0,1,2\}$. Разумеется, это то же самое, что вероятность покупки просто двух бутылок:

$\frac{P(\{2\} \cap\{0,1,2\})}{P(\{0,1,2\})}=\frac{P(\{2\})}{P(\{0,1,2\})}=\frac{0.1}{0.9}=1 / 9$

Получаем, что из тех, кто покупает меньше трёх бутылок воды, ровно две бутылки берёт один человек из девяти покупателей.

>Обратите внимание, что, хотя в пересечении один исход, а в условии — три, вероятность не равна $\frac{1}{3}$. Так получилось потому, что модель неравновероятна и ноль (то есть исход, когда человек ничего не купил) имеет существенно больший вес, чем остальные исходы.

***
В конференции участвуют 1000 человек: 300 мужчин и 700 женщин. Известно, что 240 мужчин и 280 женщин пьют кофе. Необходимо найти, с какой вероятностью случайно взятый человек с конференции:

* пьёт кофе, если пол неизвестен;
* пьёт кофе, если это мужчина;
* пьёт кофе, если это женщина.

Для начала опишем всё пространство элементарных исходов. Для простоты введём следующие обозначения:

$\Omega=\{M D, M N, F D, F N\}$

$\mathrm{M} - male \ (мужчина)$

$\mathrm{F} - female \ (женщина)$

$\mathrm{D} - drinks \ (пьёт)$

$\mathrm{N} - does \ not \ drink \ (не \ пьёт)$

Рассчитаем вероятности для каждого исхода:

* вероятность, что это мужчина, пьющий кофе: $P(M D)=\frac{240}{1000}=0.24$;
* вероятность, что это мужчина, не пьющий кофе: $P(M N)=\frac{300-240}{1000}=0.06$;
* вероятность, что это женщина, пьющая кофе: $P(F D)=\frac{280}{1000}=0.28$;
* вероятность, что это женщина, не пьющая кофе: $P(F N)=\frac{700-280}{1000}=0.42$.

Тогда вероятность того, что человек (мужчина или женщина) пьёт кофе, мы можем вычислить, вспомнив правило сложения вероятностей, изученное в прошлом юните:

$P(D)=P(\{M D, F D\})=0.24+0.28=0.52$

Теперь рассчитаем условную вероятность того, что человек пьёт кофе, если мы знаем, что это мужчина:

$P(D \mid M)=P(\{M D, F D\} \mid\{M D, M N\})= \frac{P(\{M D\})}{P(\{M D, M N\})}=\frac{0.24}{0.3}=0.8$

То же самое делаем для женщин:

$P(D \mid F)=P(\{M D, F D\} \mid\{F D, F N\})=\frac{P(\{F D\})}{P(\{F D, F N\})}=\frac{0.28}{0.7}=0.4$



Итак, мы рассчитали условные вероятности для этого примера. Теперь давайте в рамках этой же ситуации рассмотрим разницу между вероятностью пересечения событий и условной вероятностью. Для этого попробуем найти вероятности двух похожих, но всё же принципиально разных событий:

* случайно взятый человек с конференции пьёт кофе и является женщиной;
* случайно взятый человек с конференции пьёт кофе, если уже известно, что это женщина.

Может показаться, что эти события похожи, однако это не так. Давайте рассчитаем вероятность сначала первого, а затем второго события.

Для нахождения вероятности первого события используем правило произведения:

$P(F \cap D)=P(F D)=0.28$

Для вычисления вероятности второго события используем формулу условной вероятности:

$P(D \mid F)=P(\{M D, F D\} \mid\{F D, F N\})=\frac{P(\{F D\})}{P(\{F D, F N\})}=\frac{0.28}{0.7}=0.4$

Можно увидеть, что результаты получились разные, так как это две принципиально разные ситуации — пожалуйста, будьте внимательны и не путайте эти случаи при решении задач.

## УСЛОВНАЯ ВЕРОЯТНОСТЬ И МАТРИЦА ОШИБОК

Рассмотрим, как условная вероятность используется в машинном обучении для оценки качества классификации.

Допустим, у нас есть выборка из изображений, которые мы хотим классифицировать на две группы — фотографии чихуахуа и фотографии кексов с ягодами:

<img src=m7_img3.png>

Мы реализовали один из алгоритмов машинного обучения (например, логистическую регрессию или KNN) и получили следующие результаты:

|  | Чихуахуа (предсказание) | 	Кекс (предсказание) |
| - | - | - |
| Чихуахуа (реальное изображение) | 450 | 100 |
| Кекс (реальное изображение) | 150 | 550 |

По столбцам мы видим предсказания алгоритма, а по строкам — реальные изображения. То есть, например, на 450 фотографиях действительно чихуахуа, и модель корректно это отразила, а вот на 100 фотографиях в реальности чихуахуа, но модель приняла собаку за кекс.

?Теперь представим, что мы загружаем в алгоритм новую картинку и нам необходимо понять: если модель выдаёт, что на картинке — чихуахуа, то с какой вероятностью это действительно так?

Таким образом, мы хотим найти следующую вероятность:

$P(на \ фото \ действительно \ чихуахуа|алгоритм \ предсказал \ чихуахуа \ на \ фото)$

Ещё раз взглянем на результаты и будем рассматривать только на первый столбец, поскольку нам уже известно, что алгоритм предсказал, что на фото чихуахуа:

Всего в рассматриваемом пространстве ответов 600 предсказаний.

Из 600 сделанных прогнозов 450 верны, а 150 — неверны.

Таким образом, условная вероятность составляет $450/600 = 3/4$.

*** 
Вероятно, вы уже отметили, что, по сути, перед вами уже знакомая вам матрица ошибок, часто используемая в машинном обучении для оценки качества классификации. Вы наверняка умеете вычислять различные метрики, и теперь пришло время осознать, что на самом деле ранее вы постоянно вычисляли условные вероятности, когда рассчитывали качество модели:

$Precision = P(X предсказан как класс \ 1 \ и \ действительно им является \ | X \ предсказан \ как \ класс \ 1) = P(TP / (TP + TN))$

$Recall = P(X предсказан как класс \ 1 \ и \ действительно им является \ | X \ действительно \ принадлежит \ классу \ 1) = P(TP / (TP + FP))$

$Specuficity = P(X предсказан как класс \ 0 \ и \ действительно им является \ | X \ действительно \ принадлежит \ классу \ 0) = P(TN / (TN + FN))$



## НЕЗАВИСИМОСТЬ СОБЫТИЙ

В применении теории вероятностей к анализу данных очень важно понятие независимости. Нам важно знать, влияет ли одно явление на другое или они не зависят друг от друга. Сейчас мы говорим о вероятности событий, поэтому и независимость рассмотрим тоже для событий.

>События $A$ и $B$ называются **независимыми**, если вероятность их пересечения равна произведению вероятностей
>
>$P(A \cap B)=P(A) \cdot P(B)$

Основная суть независимых событий заключается в том, что вероятность $A$ не зависит от наличия условия, связанного с $B$, то есть при наступлении события $A$ событие $B$ происходит так же часто, как и без него.

***

Дано вероятностное пространство, которое определено следующим образом:

$\Omega=\{1,2,3,4,5,6\}$

Причём появления разных чисел не равновероятны, а соответствуют следующим вероятностям:

$\begin{array}{lll}P(1)=0.3 & P(3)=0.1 & P(5)=0.1 \\ P(2)=0.3 & P(4)=0.05 & P(6)=0.15\end{array}$

Необходимо проверить на независимость две пары событий:

$A = \ "нечётное" \ число$ ; $B = \ "число \ меньше \ 3"$

$A = \ "нечётное" \ число$ ; $C = \ "число \ равное \ 3 или 4"$

Сначала разберёмся с первой парой — найдём благоприятные исходы для каждого события и для их пересечения:

$A=\{1,3,5\}, B=\{1,2\}$

$A \cap B=\{1,3,5\} \cap\{1,2\}=\{1\}$

Далее рассчитаем необходимые вероятности:

$P(A \cap B)=P(\{1\})=0.3$

$P(A) \cdot P(B)=P(\{1,3,5\}) \cdot P(\{1,2\})=0.5 \cdot 0.6=0.3$

Получаем равенство:

$P(A \cap B)=P(A) \cdot P(B)$

Так как выполняется условие о том, что вероятность пересечения событий $A$ и $B$ совпадает с произведением вероятностей событий $A$ и $B$, то можно сделать вывод, что события $A$ и $B$ независимы.

Теперь рассмотрим вторую пару событий.

$P(A \cap C)=P(\{3\})=0.1$

$P(A) \cdot P(C)=P(\{1,3,5\}) \cdot P(\{3,4\})=0.5 \cdot 0.15=0.075$

Получаем, что равенство не выполнено:

$P(A \cap C) \neq P(A) \cdot P(C)$

Это значит, что события $A$ и $C$ являются зависимыми.

# 4. Полная вероятность <a class="anchor" id=4></a>

[к содержанию](#0)

Прежде чем разобраться с тем, что это такое, необходимо вспомнить понятие **несовместных**, или взаимоисключающих событий, то есть таких, которые не могут произойти в одно и то же время. Если случится одно, **другое не произойдёт**.

К примеру, если событие $A$ заключается в том, что сегодня выходной день, а событие $B$ — что будний, то данные события являются взаимоисключающими, так как не может быть, чтобы у человека был одновременно и рабочий день, и выходной. Также, например, не может одновременно выпасть нечётное и чётное число очков на кубике, покупатель не может одновременно купить товар и не купить его и т.д.

Отсюда вытекает понятие **разбиения**.

>**Разбиение вероятностного пространства** — это взаимоисключающие и совместно исчерпывающие события. Проще говоря, это события, которые не пересекаются (т. е. не имеют общих исходов), но в объединении дают все возможные исходы.

Давайте рассмотрим пример разбиения вероятностного пространства ↓

Пусть у нас есть собственная кондитерская, в которой мы продаём пирожные. Каждый клиент обычно покупает равновероятно от 1 до 6 пирожных (получается, что для каждого количества вероятность равна $\frac{1}{6}$), то есть пространство всех элементарных исходов задаётся следующим образом:

$\Omega=\{1,2,3,4,5,6\}$

Рассмотрим следующие события:

$A=\{1,2\}, \ B=\{3\}, \ C=\{4,5,6\}$

* $A$ — клиент купил одно или два пирожных;
* $B$ — клиент купил три пирожных;
* $C$ — клиент купил от четырёх до шести пирожных.

Эти события являются взаимоисключающими, так как у них нет общих исходов:

$A \cap B=\varnothing, B \cap C=\varnothing, A \cap C=\varnothing$

При этом их объединение даёт все возможные элементарные исходы:

$A \cup B \cup C=\{1,2,3,4,5,6\}=\Omega$

Получается, что эти события образуют разбиение вероятностного пространства.

Рассмотрим ещё один пример в контексте истории с пирожными. Теперь события будут следующими:

$A=\{1,2\}, \ B=\{3,4\}, \ C=\{4,5,6\}$

Такой набор событий не будет образовывать разбиение, так как у событий есть общие исходы, а значит, они не являются взаимоисключающими:

$B \cap C=\{4\} \neq \varnothing$

***
**Задание 4.2**

Среди студентов-первокурсников онлайн-магистратуры SkillFactory 30 % устроились на работу в первый месяц обучения, а остальные — позже. Среди тех, кто устроился на работу в первый месяц, 70 % получили повышение в течение года, а среди тех, кто устроился позже, — 50 %.

1. Какие значения удобнее использовать в качестве разбиения в этой задаче?

>Студенты, которые устроились на работу в первый месяц, и студенты, которые устроились позже.

2. Какая доля первокурсников SkillFactory устроилась на работу в первый месяц обучения и получила повышение в течение первого года работы?

>0.21

3. Найдите вероятность того, что случайный первокурсник SkillFactory получил повышение на работе в течение года.

> 0.56

***

Теперь мы можем перейти к **формуле полной вероятности**, которая как раз основана на идее разбиения вероятностного пространства.

Теорема полной вероятности очень полезна в случаях, когда мы ищем вероятность возникновения события, которое является суммой двух (или более) событий из разных частей разбиения.

>Чтобы идея была более понятной, рассмотрим её на примере: если мы хотим найти число пьющих кофе людей, то мы можем сделать это, сложив количество пьющих кофе мужчин и пьющих кофе женщин, если нам известны эти значения.
>
>Та же самая идея на языке вероятностей звучит следующим образом: вероятность, что случайно выбранный человек пьёт кофе, равна сумме вероятности, что человек пьёт кофе и является мужчиной, и вероятности, что человек пьет кофе и является женщиной.

Искать вероятности отдельно для мужчин и женщин — часто более выгодная стратегия, так как обычно поиск более простых вероятностей (для отдельных элементарных исходов, а не для всего события сразу) намного проще.

Давайте рассмотрим применение этой теоремы на примере, а уже после изучим её математическую формулировку ↓

Вы являетесь владельцем кафе и знаете, что в дни, когда нет дождя, вы получаете необходимую выручку с вероятностью $0.5$. Если в городе дождь, то люди скорее заказывают еду с доставкой и не приходят к вам в кафе — в такие дни вы получаете нужный доход с вероятностью $0.3$.

На основе исторических данных известно, что в случайный день с вероятностью $0.6$ в городе нет дождя.

Какова вероятность, что завтра вы получите необходимый доход?

Давайте построим схему. У нас есть два варианта: нет дождя или есть дождь с вероятностями $0.6$ и $0.4$ $(1-0.6)$ соответственно:

<img src=m7_img4.png width=300>

Мы знаем, что если дождя нет, то хорошая выручка будет с вероятностью $0.5$. Значит, плохая выручка тоже будет с вероятностью $0.5$:

<img src=m7_img5.png width=600>

Также мы знаем, что если идёт дождь, мы получим хорошую выручку с вероятностью $0.3$. Соответственно, плохая выручка у нас получается с вероятностью $1-0.3 = 0.7$:

<img src=m7_img6.png width=600>

Нас интересуют те комбинации событий, которые приводят к хорошей выручке:

<img src=m7_img7.png width=600>

То есть нам необходимо рассчитать вероятности для двух событий:

* когда нет дождя и получилась хорошая выручка;

* когда есть дождь и получилась хорошая выручка.

Из предыдущего юнита вы наверняка помните соотношение, которым мы сейчас и воспользуемся:

$P(A \ и \ B)=P(A) \times P(B \mid A)$

* Рассчитаем вероятность для «ветки» с отсутствием дождя: $0.6*0.5=0.3$.

* Рассчитаем вероятность для «ветки» с дождём: $0.4*0.3=0.12$.

Так как нам подойдёт либо первый вариант, либо второй, то по правилу сложения мы просто складываем эти вероятности:

$0.3+0.12=0.42$

Итак, мы вычислили вероятность получить хорошую выручку — она равна $0.42$ — и решили задачу с помощью теоремы полной вероятности.

Наверняка алгоритм решения вам уже понятен, но всё же приведём математическую формулировку теоремы:

$P(B)=\sum_{i=1}^{n} P\left(B \mid A_{i}\right) P\left(A_{i}\right)$

В данной формуле:

* $P(B)$ — вероятность наступления события $B$;

* $P(A_i)$ — вероятность наступления события $A_i$, которое является условием для события $B$;

* $P(B|A_i)$— условная вероятность наступления события $B$, если известно, что произошло событие $A_i$.

Давайте разберём ещё несколько примеров решения задач на использование данной формулы ↓

***
Предположим, что два производителя, $A$ и $Б$, поставляют двигатели для гоночных автомобилей `Formula 1` со следующими характеристиками:

* 99 % двигателей завода $А$ служат более 5 000 км;

* завод $B$ производит двигатели, которые прослужат более 5 000 км с вероятностью 95 %;

* 70 % двигателей произведены заводом $А$, а остальные — заводом $Б$.

Найдите вероятность того, что двигатель прослужит более 5 000 км.

Попробуем снова нарисовать дерево вероятностей, которым мы пользовались в предыдущем примере:

<img src=m7_img8.png width=600>

Так как нас интересуют те события, где двигатель прослужит более 5 000 км, то нужные нам ветви будут следующими:

<img src=m7_img9.png width=600>



Осталось только выполнить необходимые расчёты:

* Вероятность, что двигатель с завода $А$ и прослужит более 5 000 км, равна $0.7*0.99=0.693$.

* Вероятность, что двигатель с завода $Б$ и прослужит более 5 000 км, равна $0.3*0.95=0.285$.

Осталось вычислить итоговую вероятность:

$0.693+0.285=0.978$

Получается, что случайно выбранный двигатель прослужит более 5 000 км с вероятностью $0.978$.

Разумеется, мы могли бы найти ответ не с помощью дерева вероятностей, а уже с использованием  формулы полной вероятности. Тогда решение выглядело бы следующим образом:

$P(двигатель \ прослужит \ более \ 5000 \ км) =$

$P(двигатель \ прослужит \ более \ 5000 \ км \ \mid \ двигатель \ с \ завода \ А) * P(двигатель \ с \ завода \ А) +$

$+  P(двигатель \ прослужит \ более \ 5000 \ км \ \mid \ двигатель \ с \ завода \ Б) * P(двигатель \ с \ завода \ Б) =$

$= 0.7*0.99 + 0.3*0.95 = 0.693 +   0.285 = 0.978$



***
`1 %` клиентов постоянно жалуются на сервис — из них `60 %` уйдут. Ещё `10 %` клиентов периодически жалуются на сервис — из них `10 %` уйдут. Оставшиеся `89 %` клиентов никогда не жалуются на сервис — из них `3 %` уйдут.

Найдите:

* долю уходящих клиентов каждого типа от всех клиентов;
* долю уходящих клиентов от всех клиентов;
* долю каждого типа клиентов среди уходящих клиентов.

Для удобства введём обозначения событий:

* `CUC` — Constantly Unhappy Customer (постоянно недовольный);
* `DC` — Dissatisfied Customer (недовольный);
* `CSC` — Completely Satisfied Customer (довольный);
* `C` — Churn (ушедший).

Рассчитаем вероятности для событий, которые касаются характеристик клиентов:

* вероятность того, что клиент постоянно недоволен: $P(C U C)=0.01$;
* вероятность того, что клиент периодически недоволен: $P(D C)=0.1$;
* вероятность того, что клиент доволен: $P(C S C)=0.89$.

Теперь рассчитаем условные вероятности, которые характеризуют то, с какой вероятностью уйдёт клиент в зависимости от его типа:

* вероятность того, что клиент уйдёт, если он постоянно недоволен: $P(C|C U C)=0.6$;
* вероятность того, что клиент уйдёт, если он периодически недоволен: $P(C|D C)=0.1$;
* вероятность того, что клиент уйдёт, если он доволен: $P(C|C S C)=0.03$.

Рассчитаем доли (вероятности)  уходящих клиентов для каждого типа клиентов:

* вероятность того, что клиент постоянно недоволен и уйдёт: $P(C \cap C U C) = P(C \mid CUC) \cdot P(CUC) = 0.6 \cdot 0.01 = 0.006$;
* вероятность того, что клиент периодически недоволен и уйдёт: $P(C \cap D C)=0.1 \cdot 0.1 = 0.01$;
* вероятность того, что доволен и уйдёт: $P(C \cap C S C)=0.03 \cdot 0.89 = 0.0267$.

Теперь мы можем найти долю уходящих клиентов для всех их клиентов. По сути, доля — это и есть вероятность, так что просто применяем формулу полной вероятности:

$P(C) = P(C \mid CUC) \cdot P(CUC) + P(C \mid DC) \cdot P(DC) + P(C \mid CSC) \cdot P(CSC) =$

$= 0.01 \cdot 0.6 + 0.1 \cdot 0.1 + 0.89 \cdot 0.03 = 0.0427$

Также мы можем найти долю каждого типа клиентов среди уходящих клиентов:

* доля постоянно недовольных клиентов среди ушедших: $P(CUC \mid C) = \frac{P(C \cap CUC)}{P(C)} = \frac{0.006}{0.0427} \approx 0.14$;
* доля периодически недовольных клиентов среди ушедших: $P(DC \mid C) = \frac{P(C \cap DC)}{P(C)} = \frac{0.01}{0.0427} \approx 0.23$;
* доля довольных клиентов среди ушедших: $P(CSC \mid C) = \frac{P(C \cap CSC)}{P(C)} = \frac{0.0267}{0.0427} \approx 0.63$.

# 5. Теорема Байеса <a class="anchor" id=5></a>

[к содержанию](#0)

Возможно, вы сталкивались с тем, что в ответ на какие-то ваши запросы в интернете выводится не ровно то, что вы ищете, а какие-то ассоциации с поисковым запросом. Например, если вы будете искать информацию про красную и синюю таблетку, то, скорее всего, в выдаче результатов у вас будет фильм «Матрица». Как поисковая система смогла «понять», что вам может быть нужен именно этот фильм? Разумеется, она его не смотрела и не умеет намеренно искать по кратким содержаниям. Однако, имея багаж знаний в виде множества других поисковых запросов, она знает, что вы вероятнее всего ищете. Эта вероятность вычисляется с помощью **теоремы (формулы) Байеса**.

Теорема Байеса используется во многих методах машинного обучения, например в спам-фильтрах, чтобы определять, является ли электронное письмо спамом, учитывая слова в этом письме. Кроме того, многие задачи в статистике, например, связанные с интерпретацией медицинских результатов, лучше всего описываются с использованием теоремы Байеса.

>**Идея теоремы Байеса** заключается в том, что если у нас есть одна условная вероятность (например, $B$ при условии $A$), а мы хотим найти другую ($A$ при условии $B$), то мы можем получить из одной вероятности другую по определённому правилу. 

Если мы посмотрим на две условных вероятности, то увидим, что они связаны общим числителем:

$P(B \mid A) = \frac{P(A \cap B)}{P(A)}$ и $P(A \mid B) = \frac{P(A \cap B)}{P(B)}$

Это значит, что их можно без проблем выразить друг через друга.

Давайте попробуем сделать это, то есть, по сути, **попробуем доказать теорему Байеса ↓**



>Она записывается следующим образом:
>
>$P(A \mid B)=\frac{P(B \mid A) \cdot P(A)}{P(B)}$
>
>Запомним это, а теперь запишем формулу для вероятности события $A$ при условии $B$:
>
>$P(B \mid A)=\frac{P(A \cap B)}{P(A)}$
>
>Если мы домножим в этой формуле обе части на $P(A)$, то она примет следующий вид:
>
>$P(A \cap B)=P(B \mid A) \cdot P(A)$
>
>Теперь возьмём формулу условной вероятности для вероятности события $A$ при условии $B$
>
>$P(A \mid B)=\frac{P(A \cap B)}{P(B)}$
>
>и подставим в числитель правой части соотношение, выведенное ранее:
>
>$P(A \cap B)=P(B \mid A) \cdot P(A)$
>
>Тогда получим:
>
>$P(A \mid B)=\frac{P(B \mid A) \cdot P(A)}{P(B)}$
>
>Это ровно то, что нам нужно. Таким образом, мы только что доказали теорему Байеса.

Теперь давайте на конкретном **примере** рассмотрим, как теорема Байеса помогает в решении задач. Начнём с уже известного по предыдущему юниту кейса про отток клиентов ↓

? 1 %  клиентов постоянно жалуется на сервис — из них 60 % уйдут. Ещё 10 % клиентов периодически жалуются на сервис — из них 10 % уйдут. Оставшиеся 89 % клиентов никогда не жалуются на сервис — из них 3 % уйдут.

Найдите долю довольных клиентов среди ушедших.

Мы, зная информацию об ушедших клиентах среди довольных, можем выразить долю довольных клиентов среди ушедших, то есть получить одну условную вероятность через другую.

Для начала найдём общую долю оттока клиентов. В целом, мы уже делали это в предыдущем юните, так что просто повторим уже известные вам вычисления:

$P(C) = P(C \mid CUC) \cdot P(CUC) + P(C \mid DC) \cdot P(DC) + P(C \mid CSC) \cdot P(CSC) =$

$= 0.6 \cdot 0.01 + 0.1 \cdot 0.1 + 0.03 \cdot 0.89 = 0.0427$

Если мы говорим про отток довольных клиентов, то в общей формуле можно найти слагаемое, в котором вычисляется именно доля оттока довольных клиентов:

$P(C) = P(C \mid CUC) \cdot P(CUC) + P(C \mid DC) \cdot P(DC)$ $\overline{+ P(C \mid CSC) \cdot P(CSC)}$

Тогда получаем, что доля довольных клиентов среди всех ушедших равна отношению доли ушедших и довольных клиентов к доле всех ушедших:

$P(C S C \mid C)=\frac{P(C \mid C S C) P(C S C)}{P(C)}=\frac{0.03 \cdot 0.89}{0.0427} \approx 0.63$

→ Получается, что больше всего денег мы потеряем из-за тех клиентов, которые были довольны и не жаловались. Это является контринтуитивным предположением, но теория вероятности в том числе нужна для того, чтобы выстраивать стратегию принятия решений на основе чётких доказательств, ведь наше мышление и интуиция часто нас подводят.

Теперь нам необходимо ввести два новых понятия: **априорные вероятности** и **апостериорные вероятности**.

>Под **априорными вероятностями** понимаются безусловные вероятности, то есть они фиксированы и не зависят от вероятностей наступления других событий.

В нашей задаче это следующие вероятности:

* $P(CUC)= 0.01$

* $P(DC) = 0.1$

* $P(CSC) = 0.89$

>Апостериорные вероятности, напротив, обусловлены вероятностями наступления каких-то ещё случайных событий.

В рамках нашей задачи такой вероятностью является $P(CSC \mid C)$.

Очень часто формулу Байеса применяют для оценки результатов медицинских тестов, поэтому давайте рассмотрим ещё один пример в таком контексте ↓
***

Редкое заболевание встречается у 1 % людей. Тест ошибочно показывает наличие болезни у здоровых людей с вероятностью 2 % и ошибочно показывает отсутствие болезни у больных с вероятностью 3 %.

Найдите вероятность, что человек на самом деле болен, если тест на заболевание положителен.

Введём обозначения, чтобы было проще записывать решение:

* $S$ — sick (болен);
* $H$ — healthy (здоров);
* $P$ — positive (тест на заболевание положительный);
* $N$ — negative (тест на заболевание отрицательный).

Теперь найдём априорные вероятности для событий «человек болен» и «человек здоров»:

$P(S)=0.01$

$P(H)=0.99$

Также найдём условные вероятности, которые понадобятся нам при решении задачи:

* вероятность того, что тест показывает положительный результат, если человек здоров: $P(P \mid H) = 0.02$;
* вероятность того, что тест показывает отрицательный результат, если человек здоров: $P(N \mid H) = 0.98$;
* вероятность того, что тест показывает положительный результат, если человек болен: $P(P \mid S) = 0.97$;
* вероятность того, что тест показывает отрицательный результат, если человек болен: $P(N \mid S) = 0.03$.

Для удобства обобщим эти результаты в виде таблицы:

|  | Положительный тест	| Отрицательный тест |
| - | - | - |
| Здоров | 0.02 | 0.98 |
| Болен | 0.97 | 0.03 |

Пока человек не прошёл медицинский тест, мы считаем его здоровым с вероятностью 99 % и больным — с вероятностью 1 %. Но когда он пройдет тест, у нас появится новая информация и вероятности изменятся.

Давайте найдём полную вероятность, которая складывается из вероятности двух событий:

* человек болен и получил положительный тест: $P(P \mid S) P(S)$;
* человек здоров и получил положительный тест: $P(P \mid H) P(H)$.

Вычисляем результат:

$P(P)=P(P \mid S) P(S)+P(P \mid H) P(H)=0.97 \cdot 0.01+0.02 \cdot 0.99=0.0295$ 

Теперь вычислим условную вероятность, пользуясь формулой Байеса:

$P(S \mid P)=\frac{P(P \mid S) P(S)}{P(P)}=\frac{0.97 \cdot 0.01}{0.0295} \approx 0.3288$

>Итак, вероятность того, что человек болен, если получил положительный тест, — всего $0.33$. Задумайтесь об этом: этот результат, как и в прошлом примере, может показаться противоречащим интуиции. Это в очередной раз подчёркивает мощность теоремы Байеса: она помогает определять истинные значения вероятностей там, где невозможно оценить их просто по интуиции или из соображений здравого смысла. Теорема Байеса позволяет принимать безошибочные решения на основе вероятностных данных.

***
## БАЙЕСОВСКАЯ СТАТИСТИКА

При разборе задач этого юнита вы могли заметить, что теорема Байеса помогает «пересчитывать» априорные вероятности с учётом каких-то дополнительных обстоятельств. Эта её особенность настолько полезна и часто применима, что дала начало новой ветви математической статистики — **байесовской статистике**.

>**Байесовская статистика** предоставляет математические инструменты для обновления представлений о случайных событиях в свете появления новых данных или свидетельств об этих событиях.

Это контрастирует с другой формой статистического вывода, известной как классическая, или частотная статистика, которая предполагает, что вероятности — это частота конкретных случайных событий, происходящих в длительном цикле повторяющихся испытаний.

В частотной статистике мы считаем, что случайную величину можно оценить, только если будет проведено большое количество экспериментов. В байесовском подходе случайная величина — это детерминированный процесс, который можно просчитать даже без экспериментов, если знать значение всех влияющих на процесс факторов. Конечно же, узнать их невозможно, поэтому мы будем корректировать оценки после каждой новой порции информации.

Например, если нас попросят найти вероятность того, что в день $X$ будет конец света, частотная статистика потребует много раз прожить день $X$, посчитать процент дней, когда конец света случился, и после этого даст оценку вероятности. Байесовский же подход сможет обойтись и без экспериментов, если удастся просчитать все факторы, влияющие на конец света.

>Пусть у нас есть монетка, которая является «шулерской», то есть одна из её сторон выпадает чаще другой. Рассмотрим различия в оценке вероятностей выпадения решки и орла в классической парадигме и при байесовском подходе.
>
>В классическом подходе вероятность получить орёл при подбрасывании «нечестной» монеты — долгосрочная относительная частота появления орла при повторных подбрасываниях монеты. Таким образом, чем больше мы подбрасываем монету, тем больше число выпавших орлов в процентах от общего количества подбрасываний стремится к «истинной» вероятности того, что на монете выпадет орёл.
>
>>Философия байесовской статистики такова, что до первого подбрасывания мы считаем, что монета «честная», то есть по умолчанию используем априорную вероятность.
>>
>>Допустим, после нескольких бросков монета постоянно выпадает орлом. Тогда мы модифицируем исходную вероятность: добавляем информацию о том, что у нас выпало несколько орлов подряд, и постепенно наши оценки «честности» монеты меняются. Таким образом, предыдущее убеждение о «честности» монеты модифицируется. Апостериорное убеждение в итоге будет сильно изменено по сравнению с априорным убеждением о «честной» монете.

***
## ДОПОЛНИТЕЛЬНО

Байесовская статистика, по сути, представляет собой отдельную философию внутри теории вероятностей и математической статистики. Это очень объёмная тема, чтобы говорить о ней сейчас даже с минимальными подробностями. Если она вас заинтересовала, рекомендуем прочитать следующие статьи:

* [ "Are you a Bayesian or a Frequentist? (Or Bayesian Statistics 101)"](https://www.behind-the-enemy-lines.com/2008/01/are-you-bayesian-or-frequentist-or.html) (о различиях частотной и байесовской статистики)

* [«Скажи Байесу "да!". Забудь про интуицию — просто думай, как Байес завещал»](https://nauka.tass.ru/sci/6815287)

* [«Частотный и байесовский подходы к A/B тестированию: подробное сравнение | Урок 7»](https://vc.ru/u/1174886-koptelnya/411293-chastotnyy-i-bayesovskiy-podhody-k-a-b-testirovaniyu-podrobnoe-sravnenie-urok-7)

***

# 6. Наивный бейсовский классификатор: практика <a class="anchor" id=6></a>

[к содержанию](#0)

>**Наивный байесовский классификатор** (**НБК**, англ. `Naive Bayes Classifier`, `NBC`) решает задачу классификации объектов по типам. Большим преимуществом этого алгоритма является его простота, как идейная, так и алгоритмическая.

Наивная байесовская классификация — это достаточно простой вероятностный алгоритм, основанный на том, что все признаки модели независимы.

Если, например, мы говорим про задачу классификации спам-писем и обычных писем, то в этом контексте мы считаем, что каждое слово в сообщении не зависит от всех других слов, то есть каждое слово мы учитываем, не обращая внимания на контекст.

Алгоритм классификации выдаёт вероятность того, является письмо спамом или нет, основываясь на наборе слов в письме. Расчёт этой вероятности основан на формуле Байеса, а компоненты формулы рассчитываются на основе частот слов во всём наборе сообщений.

Давайте разберёмся, как работает алгоритм ↓

Прежде всего, возьмём формулу Байеса и применим её к нашей задаче:

$P(Спам \mid w_1, w_2, ..., w_n) \propto P(Спам) \cdot \prod^n_{i = 1} P(w_i \mid Спам)$

Вероятность того, что письмо является спамом при условии, что в нём есть определённые слова (которые мы обозначили), пропорциональна произведению двух значений:

* вероятности получения спама в целом (по сути, это доля спама в выборке);

* произведения вероятностей, что в письме есть некоторое слово , если письмо является спамом, для всех слов выборки.

Давайте разберёмся с этим подробнее. Для каждого слова в сообщении мы рассчитываем вероятность того, что это слово окажется в спаме. В рамках нашей задачи рассматриваем следующие значения:

* $P(not \ spam)$ — вероятность, что случайно взятое письмо будет спамом (также это доля спам-сообщений в нашем наборе данных);

* $P(w_i \mid spam)$ — вероятность того, что в сообщении будет определённое слово, если это письмо является спамом.

По той же логике можем определить:

* $P(not \ spam)$ — доля сообщений, которые не являются спамом;

* $P(w_i \mid not \ spam)$ — вероятность того, что в сообщении будет определённое слово, если это письмо не является спамом.

Теперь необходимо понять, как рассчитать вероятности каждого слова. Для этого в алгоритме используется следующая формула:

$P\left(w_{i} \mid S p a m\right)=\frac{N_{w_{i} \mid S p a m}+\alpha}{N_{S p a m}+\alpha \cdot N_{\text {Vocabulary }}}$

В этой формуле:

* $N_{Vocabulary}$ — количество уникальных слов во всём наборе данных;

* $N_{Spam}$  — общее количество слов в спам-сообщениях;

* $N_{w_i \mid Spam}$  — количество повторов слова во всех спам-сообщениях;

* $\alpha$  — коэффициент для случаев, когда слово в сообщении отсутствует в нашем наборе данных.

Кратко это можно объяснить так: вероятность того, что это слово встретится в спам сообщении, — это частота этого слова в «спамовой части» нашего набора данных (но с добавлением «сглаживания», чтобы учитывать ситуации, когда попадаются слова, которых не было в обучающей выборке).

Также эта же формула (но с другими значениями) верна для вероятности того, что слово принадлежит не спам-сообщениям.

## Файл "НаивныйБайес.ipynb"

### Плюсы:

* Алгоритм не только прост для понимания и реализации, но также даёт достаточно точные оценки и быстро работает.
* Наивный Байес имеет низкую вычислительную сложность.
* Он может эффективно работать с большим набором данных.
* Его можно использовать с задачами прогнозирования нескольких классов, то есть в задачах мультиклассовой классификации.
* Если выполнено предположение о независимости признаков, то НБК даёт более высокое качество, чем логистическая регрессия и многие другие модели.

### Минусы

* Предположение о независимых признаках не выполняется на практике практически никогда.
* Если нет обучающего набора данных для какого-то из классов, это приводит к нулевой апостериорной вероятности и модель не может сделать прогноза.

Разумеется, при решении реальных задач мы не будем каждый раз самостоятельно прописывать алгоритм  — можно использовать готовые методы. В библиотеке sklearn есть несколько байесовских классификаторов:

* [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html) — самый простой вариант, работает с непрерывными признаками;
* [MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html)  — работает с категориальными признаками, текстами и несбалансированными выборками;
* [ComplementNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.ComplementNB.html) — улучшенная версия MultinomialNB, стабильно показывает более высокое качество в задачах классификации текстов;
* [BernoulliNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html) — версия для работы с бинарными признаками;
* [CategoricalNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html#sklearn.naive_bayes.CategoricalNB) — работает с категориальными признаками, предполагает кодировку данных через OrdinalEncoder.

# 7. Случайная величина и её характеристики <a class="anchor" id=7></a>

[к содержанию](#0)

# 8. Дискретные распределения <a class="anchor" id=8></a>

[к содержанию](#0)

# 9. Неприрывные распределения <a class="anchor" id=9></a>

[к содержанию](#0)

# 10. Итоги <a class="anchor" id=10></a>

[к содержанию](#0)