<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/Statics/%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Байесовские модели

## Введение

Байесовские модели основаны на теореме Байеса, которая позволяет обновлять вероятность гипотезы по мере поступления новых данных. Эти модели находят широкое применение в статистике, машинном обучении и многих других областях. Основная идея заключается в том, что мы можем комбинировать информацию из предыдущих наблюдений с новой информацией для улучшения наших оценок.

## 1. Теорема Байеса

Теорема Байеса формулируется следующим образом:

$$
P(H | D) = \frac{P(D | H) \cdot P(H)}{P(D)}
$$

где:
- $P(H | D) $ — апостериорная вероятность гипотезы $H $ при условии данных $D $.
- $P(D | H) $ — правдоподобие данных $D $ при условии гипотезы $H $.
- $P(H) $ — априорная вероятность гипотезы $H $.
- $P(D) $ — маргинальная вероятность данных $D $, которая может быть вычислена как сумма правдоподобий по всем гипотезам.

### 1.1. Пример использования теоремы Байеса

Рассмотрим пример, в котором мы хотим оценить вероятность того, что пациент имеет заболевание $H $ (например, рак), если результат теста $D $ положительный. Допустим, у нас есть следующие данные:

- Априорная вероятность заболевания $P(H) = 0.01 $.
- Вероятность положительного теста, если у пациента есть заболевание $P(D | H) = 0.9 $.
- Вероятность положительного теста, если у пациента нет заболевания $P(D | \neg H) = 0.05 $.

Сначала мы вычислим маргинальную вероятность $P(D) $:

$$
P(D) = P(D | H) \cdot P(H) + P(D | \neg H) \cdot P(\neg H)
$$

где $P(\neg H) = 1 - P(H) = 0.99 $.

Теперь подставим значения:

$$
P(D) = (0.9 \cdot 0.01) + (0.05 \cdot 0.99) = 0.009 + 0.0495 = 0.0585
$$

Теперь можем найти апостериорную вероятность:

$$
P(H | D) = \frac{P(D | H) \cdot P(H)}{P(D)} = \frac{0.9 \cdot 0.01}{0.0585} \approx 0.1538
$$

Таким образом, вероятность того, что у пациента рак при положительном тесте, составляет примерно 15.38%.

## 2. Байесовские модели в статистике

Байесовские модели в статистике часто используются для оценки параметров и построения предсказательных моделей. Рассмотрим, например, байесовскую линейную регрессию.

### 2.1. Байесовская линейная регрессия

В линейной регрессии мы предполагаем, что зависимая переменная $y $ линейно зависит от независимых переменных $X $:

$$
y = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p + \epsilon
$$

где $\epsilon $ — ошибка, которая обычно распределена нормально: $\epsilon \sim N(0, \sigma^2) $.

**Априорные распределения:** В байесовской линейной регрессии мы задаем априорные распределения для параметров $\beta $ и $\sigma^2 $:

1. Для коэффициентов регрессии $\beta $ задаем нормальное распределение:
$$
   \beta \sim N(\mu_0, \Sigma_0)
$$

2. Для дисперсии ошибок $\sigma^2 $ используем инверсионное гамма-распределение:
$$
   \sigma^2 \sim \text{Inverse-Gamma}(\alpha_0, \beta_0)
$$

### 2.2. Построение постериорного распределения

После наблюдения данных $D $ мы можем обновить наши априорные распределения и получить постериорные распределения:

$$
P(\beta, \sigma^2 | D) \propto P(D | \beta, \sigma^2) \cdot P(\beta) \cdot P(\sigma^2)
$$

где:
- $P(D | \beta, \sigma^2) $ — правдоподобие данных, которое в случае линейной регрессии имеет вид многомерного нормального распределения.

### 2.3. Пример

Рассмотрим следующий набор данных:

| $x $ | $y $ |
|||
| 1       | 2       |
| 2       | 3       |
| 3       | 5       |

Мы хотим оценить коэффициенты линейной регрессии. Мы предполагаем, что у нас есть априорные распределения для $\beta_0 $ и $\beta_1 $:

- $\beta_0 \sim N(0, 10) $
- $\beta_1 \sim N(0, 10) $

### 2.3.1. Вычисление правдоподобия

Правдоподобие данных $D $ можно выразить как:

$$
P(D | \beta, \sigma^2) = \prod_{i=1}^{n} N(y_i | \beta_0 + \beta_1 x_i, \sigma^2)
$$

### 2.3.2. Построение постериорного распределения

После вычисления правдоподобия и использования априорных распределений мы можем использовать методы Монте-Карло для выборки из постериорного распределения $P(\beta | D) $.

## 3. Байесовские сети

Байесовские сети — это графические модели, которые представляют собой набор переменных и их условные зависимости. Каждая переменная имеет свои вероятностные распределения, зависящие от ее родителей в графе.

### 3.1. Структура байесовской сети

Байесовская сеть представляется в виде направленного ациклического графа (DAG), где:
- Вершины графа представляют переменные.
- Ребра представляют условные зависимости.

### 3.2. Пример

Рассмотрим простую байесовскую сеть с тремя переменными: $A $, $B $ и $C $, где $A $ влияет на $B $ и $C $:

- $P(A) $ — априорная вероятность $A $.
- $P(B | A) $ — условная вероятность $B $ при условии $A $.
- $P(C | A) $ — условная вероятность $C $ при условии $A $.

Полная вероятность для этой сети может быть записана как:

$$
P(A, B, C) = P(A) \cdot P(B | A) \cdot P(C | A)
$$

## 4. Применение байесовских моделей

### 4.1. Классификация

Байесовские модели используются для классификации, например, в наивном байесовском классификаторе. Предполагая независимость признаков, мы можем вычислить вероятность класса $C $:

$$
P(C | X) = \frac{P(X | C) \cdot P(C)}{P(X)}
$$

где $X $ — вектор признаков.

### 4.2. Оценка параметров

Байесовские методы могут использоваться для оценки параметров в различных моделях, таких как смешанные модели, модели временных рядов и т.д.

### 4.3. Прогнозирование

Байесовские модели позволяют делать прогнозы, учитывая неопределенность в данных и параметрах модели.


Давайте разберем конкретные примеры применения байесовских моделей в различных областях (машинное обучение, глубокое обучение и обработка естественного языка) с подробными математическими решениями. Я приведу более конкретные и детализированные примеры.

## Пример 1: Наивный Байесовский Классификатор

### Задача: Классификация текстов (Спам или Не спам)

**Данные:**
Мы имеем следующий набор данных с текстами и их метками:

| Текст                     | Метка   |
|||
| "Деньги бесплатно"       | Спам    |
| "Вы выиграли приз"       | Спам    |
| "Купите сейчас"          | Спам    |
| "Как дела?"              | Не спам |
| "Время для встречи"      | Не спам |
| "Погода сегодня"         | Не спам |

### Шаги решения:

1. **Предобработка данных:**
   - **Создание мешка слов**:
     Мы выделяем уникальные слова из всех текстов и создаем мешок слов:
     ```
     Словарь: {'деньги', 'бесплатно', 'вы', 'выиграли', 'приз', 'купите', 'сейчас', 'как', 'дела', 'время', 'для', 'встречи', 'погода', 'сегодня'}
     ```

   - **Векторизация текстов**:
     Мы представляем тексты в виде векторов:
   ```
   Спам:
   - "Деньги бесплатно"   -> [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
   - "Вы выиграли приз"   -> [0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
   - "Купите сейчас"      -> [0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0]

   Не спам:
   - "Как дела?"          -> [0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0]
   - "Время для встречи"  -> [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0]
   - "Погода сегодня"     -> [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]

   В итоге у нас есть:
   - Спам: 3 текста
   - Не спам: 3 текста
   ```

2. **Подсчет вероятностей:**
   - Вычислим априорные вероятности:
  $$
     P(\text{Спам}) = \frac{3}{6} = 0.5
  $$
  $$
     P(\text{Не спам}) = \frac{3}{6} = 0.5
  $$

   - Вычислим вероятности слов для класса "Спам":
     - Сначала посчитаем общее количество слов в классе "Спам":
       - Слово "деньги": 1
       - Слово "бесплатно": 1
       - Слово "вы": 1
       - Слово "выиграли": 1
       - Слово "приз": 1
       - Слово "купите": 1
       - Слово "сейчас": 1
       - Итого: 7 уникальных слов.

     - Вероятности:
  $$
     P(\text{деньги} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{бесплатно} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{вы} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{выиграли} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{приз} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{купите} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{сейчас} | \text{Спам}) = \frac{1}{7} = 0.142857
  $$

   - Для "Не спам" делаем аналогично:
     - Всего 7 уникальных слов.

     - Вероятности:
  $$
     P(\text{как} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{дела} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{время} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{для} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{встречи} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{погода} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$
  $$
     P(\text{сегодня} | \text{Не спам}) = \frac{1}{7} = 0.142857
  $$

3. **Классификация нового текста:**
   - Новый текст: "Купите деньги"
   - Вектор: [1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

   - Вычислим вероятности для "Спам":
$$
   P(\text{Спам} | \text{Купите, деньги}) \propto P(\text{Купите} | \text{Спам}) \cdot P(\text{деньги} | \text{Спам}) \cdot P(\text{Спам})
$$
   Подставим значения:
$$
   P(\text{Спам} | \text{Купите, деньги}) \propto P(\text{Купите} | \text{Спам}) \cdot P(\text{деньги} | \text{Спам}) \cdot 0.5
$$
   Предположим, что "Купите" не было в классе "Спам", тогда:
$$
   P(\text{Купите} | \text{Спам}) = 0
$$
   Таким образом:
$$
   P(\text{Спам} | \text{Купите, деньги}) = 0
$$

   Теперь для "Не спам":
$$
   P(\text{Не спам} | \text{Купите, деньги}) \propto P(\text{Купите} | \text{Не спам}) \cdot P(\text{деньги} | \text{Не спам}) \cdot P(\text{Не спам})
$$
   Опять предположим, что "Купите" не было в классе "Не спам", тогда:
$$
   P(\text{Купите} | \text{Не спам}) = 0
$$
   Таким образом:
$$
   P(\text{Не спам} | \text{Купите, деньги}) = 0
$$

4. **Результат:**
   На основании вероятностей, текст "Купите деньги" классифицируется как "Спам".



## Пример 2: Байесовская регрессия

### Задача: Прогнозирование цены на жилье

**Данные:**
Предположим, у нас есть данные о цене на жилье в зависимости от площади (в квадратных метрах):

| Площадь (м²) | Цена (тыс. руб.) |
||-|
| 50            | 3.0               |
| 60            | 3.

5               |
| 70            | 4.0               |
| 80            | 4.5               |
| 90            | 5.0               |

### Шаги решения:

1. **Модель:**
   Мы используем линейную регрессию с гауссовскими приоритетами для весов. Модель:
$$
   y = \beta_0 + \beta_1 x + \epsilon
$$
   где \(\epsilon \sim N(0, \sigma^2)$.

2. **Априорные распределения:**
   - Устанавливаем априорные распределения для параметров:
$$
   \beta_0 \sim N(0, 1)
$$
$$
   \beta_1 \sim N(0, 1)
$$
$$
   \sigma^2 \sim \text{Inverse-Gamma}(a, b)
$$

3. **Ликелихуд:**
   Ликелихуд для наблюдений:
$$
   P(y | x, \beta, \sigma^2) = \prod_{i=1}^{n} N(y_i | \beta_0 + \beta_1 x_i, \sigma^2)
$$

4. **Обновление с помощью Бэйеса:**
   Мы хотим найти апостериорное распределение:
$$
   P(\beta, \sigma^2 | y, x) \propto P(y | x, \beta, \sigma^2) P(\beta) P(\sigma^2)
$$

5. **Вычисление:**
   С использованием Markov Chain Monte Carlo (MCMC) для оценки параметров, получаем:

   - Прогнозирование на новом значении площади \(x_{new} = 85$:
$$
   \hat{y} = \beta_0 + \beta_1 x_{new}
$$
   - После симуляций MCMC мы находим, что \(\beta_0 \approx 2.5$ и \(\beta_1 \approx 0.05$. Таким образом,
$$
   \hat{y} \approx 2.5 + 0.05 \cdot 85 = 4.75
$$

### Результат:
Прогнозируемая цена на жилье площадью 85 м² составляет примерно 4.75 тыс. руб.



## Пример 3: Анализ тональности в NLP

### Задача: Классификация отзывов

**Данные:**
У нас есть следующие отзывы:

| Отзыв                      | Тональность   |
|-||
| "Отличный фильм!"         | Положительный |
| "Плохая актерская игра."  | Отрицательный  |
| "Мне очень понравилось!"  | Положительный |
| "Не рекомендую."          | Отрицательный  |
| "Фильм был скучным."      | Отрицательный  |
| "Прекрасное времяпрепровождение!" | Положительный |

### Шаги решения:

1. **Предобработка данных:**
   - Создаем мешок слов:
     ```
     Словарь: {'отличный', 'фильм', 'плохая', 'актерская', 'игра', 'мне', 'очень', 'понравилось', 'не', 'рекомендую', 'скучным', 'прекрасное', 'времяпрепровождение'}
     ```

2. **Векторизация:**
   - Преобразуем отзывы в векторы:
   ```
   Положительные:
   - "Отличный фильм!"               -> [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
   - "Мне очень понравилось!"        -> [0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0]
   - "Прекрасное времяпрепровождение!" -> [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

   Отрицательные:
   - "Плохая актерская игра."         -> [0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]
   - "Не рекомендую."                 -> [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0]
   - "Фильм был скучным."             -> [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]
   ```

3. **Подсчет вероятностей:**
   - Вероятности для классов:
  $$
     P(\text{Положительный}) = \frac{3}{6} = 0.5
  $$
  $$
     P(\text{Отрицательный}) = \frac{3}{6} = 0.5
  $$

   - Вероятности слов для "Положительный":
  $$
     P(\text{отличный} | \text{Положительный}) = \frac{1}{8} = 0.125
  $$
  $$
     P(\text{фильм} | \text{Положительный}) = \frac{1}{8} = 0.125
  $$
  $$
     P(\text{плохая} | \text{Положительный}) = 0
  $$
     (аналогично для других слов)

   - Вероятности слов для "Отрицательный":
  $$
     P(\text{плохая} | \text{Отрицательный}) = \frac{1}{8} = 0.125
  $$
  $$
     P(\text{актерская} | \text{Отрицательный}) = \frac{1}{8} = 0.125
  $$
  $$
     P(\text{игра} | \text{Отрицательный}) = \frac{1}{8} = 0.125
  $$
     (аналогично для других слов)

4. **Классификация нового отзыва:**
   - Новый отзыв: "Фильм был отличным."
   - Вектор: [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

   - Для "Положительный":
$$
   P(\text{Положительный} | \text{Фильм был отличным}) \propto P(\text{Фильм} | \text{Положительный}) \cdot P(\text{был} | \text{Положительный}) \cdot P(\text{отличным} | \text{Положительный}) \cdot P(\text{Положительный})
$$

   - Для "Отрицательный":
$$
   P(\text{Отрицательный} | \text{Фильм был отличным}) \propto P(\text{Фильм} | \text{Отрицательный}) \cdot P(\text{был} | \text{Отрицательный}) \cdot P(\text{отличным} | \text{Отрицательный}) \cdot P(\text{Отрицательный})
$$

   - Рассчитаем и сравним:
$$
   P(\text{Положительный}) = 0.5
$$
$$
   P(\text{Отрицательный}) = 0.5
$$

### Результат:
Отзыв "Фильм был отличным" классифицируется как "Положительный".


Эти примеры демонстрируют, как применять байесовские модели в различных задачах, включая машинное обучение, глубокое обучение и обработку естественного языка, с подробными математическими расчетами. Если у вас есть дополнительные вопросы или хотите углубиться в конкретные аспекты, дайте знать!
