# <center>Основные понятия теории вероятностей</center>

**Детерминированность** — это ситуация, в которой одно и то же действие всегда приводит к одному и тому же результату.

**Теория вероятностей** — наука, которая позволяет сделать предположения о более простых вероятностях (об очках на одном кубике) и на их основе математически вывести гораздо более сложные (об очках на нескольких кубиках).

Под **случайным экспериментом** понимается такой эксперимент, результат которого не детерминирован изначально.

Понятие **элементарного исхода** — любого возможного исхода случайного эксперимента. Всё множество таких исходов носит называется **пространством элементарных исходов** и обычно обозначается буквой $\Omega$ (омега).

**Вероятностью** случайного события $A$ называется отношение числа $n$ равновероятных элементарных исходов, составляющих событие $A$, к числу всех возможных элементарных исходов $N$:

$$\operatorname{P}(A)=\frac{n}{N}$$

Элементарные исходы, составляющие событие $A$, также очень часто называют **исходами, благоприятными или благоприятствующими для события $A$**.

Чем больше полученное значение, тем более вероятно, что событие произойдёт. Вероятность 0 означает, что событие никогда не случится. Такое событие называют **невозможным**:

$$P(A)=P(\oslash)=\frac{n}{N}=\frac{0}{N}=0$$

Вероятность 1 означает, что событие произойдёт в любом случае — такое событие называют **достоверным**:

$$P(A)=P(\Omega)=\frac{n}{N}=\frac{N}{N}=1$$

Все остальные значения от 0 до 1 представляют различные уровни вероятности.

Дополнение события $A$ — это подмножество таких исходов во всём пространстве исходов, что они не благоприятствуют событию $A$. Дополнение события $A$ само по себе тоже является событием и обозначается как $\overline{A}$.

Важно понимать, что **у события и дополнения к нему нет общих исходов**, то есть они взаимоисключающие или, как это обычно называют в теории вероятностей, несовместные. Также событие и дополнение к нему содержат в сумме абсолютно все исходы из пространства исходов. Из этого следует, что сумма их вероятностей равняется одному:

$$P(A)+P\left(\overline{A}\right)=1$$

## <center>Правило суммы</center>

Вероятностное **правило суммы** используется в ситуациях, когда необходимо найти вероятность наступления объединения событий. Это правило используется для несовместных событий, то есть событий, которые не могут произойти одновременно.

$$P(A \cup B)=P(A)+P(B)$$

## <center>Правило умножения (произведения)</center>

Правило произведения используется для нахождения вероятности пересечения событий:

$$P (A \cap B) = P(A) \times P(B)$$

## <center>Обобщённое правило суммы</center>

Что, если события всё же могут быть совместными, то есть происходить одновременно?

Приведём обобщенное правило суммы, которое можно применять и в таких ситуациях:

$$P(A \cup B)=P(A)+P(B)-P(A \cap B)$$

# <center>Условная вероятность</center>

**Условная вероятность** — это вероятность события при некоторых уже известных условиях.

Условная вероятность события $B$ при условии $A$ определяется как вероятность того, что событие $B$ произойдёт после того, как событие $A$ уже произошло, и обозначается следующим образом:

$$P(B \mid A)$$

## <center>Условная вероятность и матрица ошибок</center>

$$Precision = P(X \ предсказан \ как \ класс \ 1 \ и \ действительно \ им \ является \mid X \ предсказан \ как \ класс \ 1)$$

$$Recall = P(X \ предсказан \ как \ класс \ 1 \ и \ действительно \ им \ является \mid X \ действительно \ принадлежит \ к \ классу \ 1)$$

$$Specificity = P(X \ предсказан \ как \ класс \ 0 \ и \ действительно \ им \ является \mid X \ действительно \ принадлежит \ к \ классу \ 0)$$

## <center>Независимость событий</center>

События $A$ и $B$ называются **независимыми**, если вероятность их пересечения равна произведению вероятностей

$$P(A \cap B)=P(A) \cdot P(B)$$

Основная суть независимых событий заключается в том, что вероятность $A$ не зависит от наличия условия, связанного с $B$, то есть при наступлении события $B$ событие $A$ происходит так же часто, как и без него.

# <center> Полная вероятность </center>

**Разбиение вероятностного пространства** — это взаимоисключающие и совместно исчерпывающие события. Проще говоря, это события, которые не пересекаются (т. е. не имеют общих исходов), но в объединении дают все возможные исходы.

$$P(B)=\sum_{i=1}^{n} P\left(B \mid A_{i}\right) P\left(A_{i}\right)$$

В данной формуле:

* $P(B)$ — вероятность наступления события $B$;
* $P(A_i)$ — вероятность наступления события $A_i$, которое является условием для события $B$;
* $P(B \mid A_i)$ — условная вероятность наступления события $B$, если известно, что произошло событие $A_i$.

# <center>Теорема Байеса</center>

**Идея теоремы Байеса** заключается в том, что если у нас есть одна условная вероятность (например, $B$ при условии $A$), а мы хотим найти другую ($A$ при условии $B$), то мы можем получить из одной вероятности другую по определённому правилу. 

$$P(B \mid A) = \frac{P(A \cap B)}{P(A)}$$ 
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$

Cама теорема:

$$P(A \mid B)=\frac{P(B \mid A) \cdot P(A)}{P(B)}$$

Под **априорными вероятностями** понимаются безусловные вероятности, то есть они фиксированы и не зависят от вероятностей наступления других событий.

**Апостериорные вероятности**, напротив, обусловлены вероятностями наступления каких-то ещё случайных событий.

## <center>Байесовская статистика</center>

Теорема Байеса помогает «пересчитывать» априорные вероятности с учётом каких-то дополнительных обстоятельств.

> Байесовская статистика предоставляет математические инструменты для обновления представлений о случайных событиях в свете появления новых данных или свидетельств об этих событиях.

# <center>Наивный байесовский классификатор</center>

**Наивный байесовский классификатор (НБК, англ. Naive Bayes Classifier, NBC)** решает задачу классификации объектов по типам. Большим преимуществом этого алгоритма является его простота, как идейная, так и алгоритмическая.

> Наивная байесовская классификация — это достаточно простой вероятностный алгоритм, основанный на том, что все признаки модели независимы.

*P.S. Смотри блокнот pratice*

**<u>Плюсы:</u>**

* Алгоритм не только прост для понимания и реализации, но также даёт достаточно точные оценки и быстро работает.

* Наивный Байес имеет низкую вычислительную сложность.

* Он может эффективно работать с большим набором данных.

* Его можно использовать с задачами прогнозирования нескольких классов, то есть в задачах мультиклассовой классификации.

* Если выполнено предположение о независимости признаков, то НБК даёт более высокое качество, чем логистическая регрессия и многие другие модели.

**<u>Минусы:</u>**

* Предположение о независимых признаках не выполняется на практике практически никогда.

* Если нет обучающего набора данных для какого-то из классов, это приводит к нулевой апостериорной вероятности и модель не может сделать прогноза.

В библиотеке *sklearn* есть несколько байесовских классификаторов:

* **GaussianNB** — самый простой вариант, работает с непрерывными признаками;

* **MultinomialNB**  — работает с категориальными признаками, текстами и несбалансированными выборками;

* **ComplementNB** — улучшенная версия *MultinomialNB*, стабильно показывает более высокое качество в задачах классификации текстов;

* **BernoulliNB** — версия для работы с бинарными признаками;

* **CategoricalNB** — работает с категориальными признаками, предполагает кодировку данных через *OrdinalEncoder*.