<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/%D0%9C%D0%B0%D1%80%D0%BA%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B5_%D1%86%D0%B5%D0%BF%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Марковские цепи

#### Введение в марковские цепи

Марковская цепь — это математическая модель, которая описывает систему, переходящую из одного состояния в другое. Основная идея марковских цепей заключается в том, что вероятность перехода из одного состояния в другое зависит только от текущего состояния, а не от предшествующих событий. Это свойство называется **свойством Маркова**, или **без памяти**.

Формально марковская цепь — это последовательность случайных величин $X_0, X_1, X_2, \ldots$, где $X_n$ обозначает состояние системы в момент времени $n$. Состояния могут быть дискретными или непрерывными, однако в данной лекции мы будем рассматривать дискретные марковские цепи.

#### Основные определения

1. **Пространство состояний** $S$ — это множество всех возможных состояний системы. Например, если система может находиться в трёх состояниях, то $S = \{s_1, s_2, s_3\}$.

2. **Матрица переходных вероятностей** $P$ — это квадратная матрица, в которой каждый элемент $p_{ij}$ представляет собой вероятность перехода из состояния $s_i$ в состояние $s_j$. То есть:
   $$
   p_{ij} = P(X_{n+1} = s_j \mid X_n = s_i).
   $$
   Причём для каждой строки матрицы выполняется условие нормировки:
   $$
   \sum_{j} p_{ij} = 1, \quad \forall i.
   $$

3. **Начальное распределение** $\pi$ — это вектор, который описывает вероятности нахождения системы в каждом из состояний в начальный момент времени. Пусть $\pi_i = P(X_0 = s_i)$, тогда начальное распределение имеет вид:
   $$
   \pi = (\pi_1, \pi_2, \ldots, \pi_n),
   $$
   где $\sum_i \pi_i = 1$.

#### Основные свойства марковских цепей

1. **Однородность**: Марковская цепь называется однородной, если вероятности перехода не зависят от времени, то есть $P(X_{n+1} = s_j \mid X_n = s_i)$ одинаково для всех $n$.

2. **Поглощающие состояния**: Состояние $s_i$ называется поглощающим, если из него невозможно выйти, то есть $p_{ii} = 1$ и $p_{ij} = 0$ для всех $j \neq i$.

3. **Классы эквивалентности и коммуникация**: Состояние $s_i$ сообщается с состоянием $s_j$, если существует вероятность попасть из $s_i$ в $s_j$ и наоборот.

#### Пример построения марковской цепи

Рассмотрим простую задачу: система может находиться в одном из трёх состояний $A$, $B$ или $C$. Пусть матрица переходных вероятностей задана как:

$$
P = \begin{bmatrix}
0.5 & 0.3 & 0.2 \\
0.2 & 0.7 & 0.1 \\
0.4 & 0.4 & 0.2 \\
\end{bmatrix}.
$$

Здесь вероятность перехода из состояния $A$ в состояние $A$ равна 0.5, из состояния $A$ в состояние $B$ — 0.3, а из состояния $A$ в состояние $C$ — 0.2. Аналогично читаются остальные элементы матрицы.

#### Расчёт распределения вероятностей через $n$ шагов

Для того чтобы найти вероятность того, что система будет находиться в определённом состоянии через $n$ шагов, нужно умножить начальное распределение на матрицу переходных вероятностей, возведённую в степень $n$:

$$
\pi^{(n)} = \pi P^n,
$$

где $\pi^{(n)}$ — вектор вероятностей нахождения в каждом состоянии через $n$ шагов.

#### Стационарное распределение

Рассмотрим стационарное распределение, при котором система остаётся в одном и том же распределении вероятностей после каждого шага. Это означает, что:

$$
\pi = \pi P.
$$

Для нахождения стационарного распределения необходимо решить систему линейных уравнений:

$$
\pi_i = \sum_j \pi_j p_{ji}, \quad \sum_i \pi_i = 1.
$$

#### Примеры решения задач

**Пример 1. Система обслуживания**

Рассмотрим систему, в которой клиент находится в одном из трёх состояний: "ожидание" (состояние 1), "обслуживание" (состояние 2) и "завершение" (состояние 3). Матрица переходов:

$$
P = \begin{bmatrix}
0.6 & 0.3 & 0.1 \\
0.4 & 0.5 & 0.1 \\
0.0 & 0.0 & 1.0 \\
\end{bmatrix}.
$$

Здесь состояние 3 является поглощающим, так как $p_{33} = 1$.

**Пример 2. Модель погодных условий**

Предположим, что погода может быть "солнечной" (S), "облачной" (C) или "дождливой" (R). Матрица переходных вероятностей:

$$
P = \begin{bmatrix}
0.8 & 0.1 & 0.1 \\
0.2 & 0.6 & 0.2 \\
0.3 & 0.3 & 0.4 \\
\end{bmatrix}.
$$

Если сегодня погода солнечная, вероятность того, что завтра также будет солнечно, равна 0.8, а вероятность облачной или дождливой погоды — 0.1.

#### Критерии сходимости марковских цепей

Марковская цепь сходится к стационарному распределению, если она является **апериодической** и **неприводимой**.

- **Апериодичность** означает, что состояние можно посетить через различные промежутки времени.
- **Неприводимость** означает, что любое состояние можно достигнуть из любого другого состояния.

#### Применение марковских цепей

1. **Обслуживающие системы** (модели очередей, системы с отказами).
2. **Финансовые модели** (модели изменения цен, кредитные риски).
3. **Теория игр** (стратегии и оптимальные решения).
4. **Генетика** (модели мутаций и наследования признаков).


Рассмотрим конкретный пример применения марковских цепей на практике. Пусть у нас есть магазин, который работает в трёх режимах:

1. **Низкий спрос** (Low) — состояние $S_1$.
2. **Средний спрос** (Medium) — состояние $S_2$.
3. **Высокий спрос** (High) — состояние $S_3$.

Менеджер магазина хочет спрогнозировать, в каком состоянии будет находиться магазин через несколько дней, если известно, что в каждый день вероятность перехода из одного состояния в другое описывается следующей матрицей переходных вероятностей:

$$
P = \begin{bmatrix}
0.6 & 0.3 & 0.1 \\
0.2 & 0.5 & 0.3 \\
0.1 & 0.4 & 0.5 \\
\end{bmatrix}.
$$

Где $p_{ij}$ — вероятность перехода из состояния $S_i$ в состояние $S_j$. Например, вероятность того, что магазин останется в состоянии "Низкий спрос" на следующий день, равна 0.6, а вероятность перехода в состояние "Средний спрос" — 0.3.

Допустим, что на текущий день спрос низкий, т.е. начальное распределение можно задать как $\pi = [1, 0, 0]$, что означает, что вероятность нахождения магазина в состоянии $S_1$ равна 1.

Теперь рассчитаем, как изменится распределение вероятностей через один и два дня.

### Шаг 1: Расчёт распределения вероятностей через один день

Чтобы найти распределение вероятностей через один шаг, нужно умножить вектор начального распределения $\pi$ на матрицу переходных вероятностей $P$:

$$
\pi^{(1)} = \pi P = [1, 0, 0] \begin{bmatrix}
0.6 & 0.3 & 0.1 \\
0.2 & 0.5 & 0.3 \\
0.1 & 0.4 & 0.5 \\
\end{bmatrix} = [0.6, 0.3, 0.1].
$$

Таким образом, через один день вероятность того, что спрос будет низким, равна 0.6, средним — 0.3, а высоким — 0.1.





### Шаг 2: Расчёт распределения вероятностей через два дня

Для нахождения распределения вероятностей через два дня, нужно умножить полученное распределение $\pi^{(1)}$ на матрицу переходных вероятностей $P$ ещё раз:

$$
\pi^{(2)} = \pi^{(1)} P = [0.6, 0.3, 0.1] \begin{bmatrix}
0.6 & 0.3 & 0.1 \\
0.2 & 0.5 & 0.3 \\
0.1 & 0.4 & 0.5 \\
\end{bmatrix}.
$$

Теперь произведём вычисления для каждого элемента вектора $\pi^{(2)}$:

1. Вероятность нахождения в состоянии $S_1$ (низкий спрос):
   $$
   \pi^{(2)}_1 = 0.6 \cdot 0.6 + 0.3 \cdot 0.2 + 0.1 \cdot 0.1 = 0.36 + 0.06 + 0.01 = 0.43.
   $$

2. Вероятность нахождения в состоянии $S_2$ (средний спрос):
   $$
   \pi^{(2)}_2 = 0.6 \cdot 0.3 + 0.3 \cdot 0.5 + 0.1 \cdot 0.4 = 0.18 + 0.15 + 0.04 = 0.37.
   $$

3. Вероятность нахождения в состоянии $S_3$ (высокий спрос):
   $$
   \pi^{(2)}_3 = 0.6 \cdot 0.1 + 0.3 \cdot 0.3 + 0.1 \cdot 0.5 = 0.06 + 0.09 + 0.05 = 0.20.
   $$

Таким образом, через два дня распределение вероятностей будет следующим:
$$
\pi^{(2)} = [0.43, 0.37, 0.20].
$$

Это означает, что через два дня вероятность того, что спрос будет низким, равна 0.43, средним — 0.37, а высоким — 0.20.

### Шаг 3: Проверка стационарного распределения

Теперь попробуем найти стационарное распределение, при котором система уже не меняет своё распределение вероятностей при последующих умножениях на матрицу $P$. Обозначим стационарное распределение как $\pi = [\pi_1, \pi_2, \pi_3]$, и это распределение должно удовлетворять уравнению:

$$
\pi P = \pi,
$$

что эквивалентно системе линейных уравнений:
$$
\begin{cases}
0.6\pi_1 + 0.2\pi_2 + 0.1\pi_3 = \pi_1, \\
0.3\pi_1 + 0.5\pi_2 + 0.4\pi_3 = \pi_2, \\
0.1\pi_1 + 0.3\pi_2 + 0.5\pi_3 = \pi_3.
\end{cases}
$$

Кроме того, выполняется условие нормировки:
$$
\pi_1 + \pi_2 + \pi_3 = 1.
$$

Решая эту систему уравнений, можно найти значения $\pi_1$, $\pi_2$ и $\pi_3$, которые будут представлять стационарное распределение вероятностей. Решение этой системы даёт нам следующее стационарное распределение:

$$
\pi = [0.4, 0.4, 0.2].
$$

Это означает, что в долгосрочной перспективе вероятность того, что спрос будет низким, равна 0.4, средним — 0.4, а высоким — 0.2.

### Выводы

В данном примере мы рассмотрели шаги расчёта распределения вероятностей для марковской цепи с тремя состояниями. Сначала мы рассчитали вероятности через один и два дня, затем нашли стационарное распределение, показывающее, как система ведёт себя в долгосрочной перспективе. Этот подход может быть применён к различным задачам моделирования, включая экономические прогнозы, анализ производственных процессов и многие другие области.








Марковские цепи находят широкое применение в машинном обучении (ML) и глубоком обучении (DL). Они используются в различных задачах, таких как генерация последовательностей, моделирование временных рядов, построение вероятностных моделей и обучение с подкреплением. Давайте рассмотрим несколько конкретных примеров использования марковских цепей в ML и DL.

### Пример 1: Генерация текстов с помощью цепей Маркова

В машинном обучении для генерации текста можно использовать марковские цепи. Представим, что мы хотим сгенерировать текст на основе существующих данных, учитывая только текущие и предыдущие слова. Здесь каждое слово представляет собой состояние, а переходные вероятности зависят от частоты, с которой одно слово следует за другим.

#### Шаги:

1. **Сбор данных**: Собираем корпус текстов, который будем использовать для построения модели.
2. **Построение марковской цепи**:
   - Вычисляем частоты пар последовательных слов в тексте.
   - Создаем матрицу переходных вероятностей, где вероятность перехода от одного слова к другому зависит от частоты их совместного появления.
3. **Генерация текста**:
   - Начинаем с начального слова и выбираем следующее слово на основе распределения вероятностей переходов.
   - Повторяем процесс, пока не будет достигнута заданная длина текста.

#### Пример:

Пусть есть следующий текст: "кошка сидит на окне. кошка смотрит на улицу. кошка спит на окне."

Построим простую марковскую цепь для генерации новых предложений. Из текста можно выделить переходы:

- "кошка" → "сидит", "смотрит", "спит".
- "сидит" → "на".
- "на" → "окне", "улицу".
- и так далее.

Используя эти переходы, можно сгенерировать текст вроде "кошка сидит на окне" или "кошка спит на улице".

### Пример 2: Моделирование временных рядов с помощью скрытых марковских моделей (Hidden Markov Models, HMM)

Скрытые марковские модели применяются для моделирования временных рядов, таких как финансовые данные, данные о погоде, речевые сигналы и биологические данные. HMM включают в себя "скрытые" состояния, которые недоступны напрямую, но могут быть оценены через наблюдаемые данные.

#### Шаги:

1. **Постановка задачи**: Допустим, мы хотим предсказать, будет ли рынок "бычьим" (растущим) или "медвежьим" (падающим), основываясь на исторических данных о ценах акций.
2. **Определение состояний**: Состояния могут быть "бычий рынок" и "медвежий рынок", и они являются скрытыми, потому что их невозможно напрямую наблюдать.
3. **Определение наблюдаемых данных**: Наблюдаемыми данными могут быть изменения цен акций за день.
4. **Построение модели HMM**: Определяются вероятности перехода между состояниями и вероятности наблюдения данных в каждом состоянии.
5. **Предсказание**: Используя алгоритмы Viterbi или Forward-Backward, можно определить вероятности нахождения системы в определённых состояниях в будущем.

### Пример 3: Обучение с подкреплением (Reinforcement Learning) и марковские процессы принятия решений (Markov Decision Processes, MDP)

Марковские процессы принятия решений (MDP) являются ключевыми элементами в обучении с подкреплением, где агент взаимодействует со средой и учится принимать оптимальные решения.

#### Шаги:

1. **Описание среды**: Среда определяется набором состояний, возможных действий и функцией вознаграждения, которая даёт агенту оценку полезности каждого действия.
2. **Переходные вероятности**: В MDP задаются вероятности перехода от одного состояния к другому в зависимости от выбранного действия.
3. **Функция вознаграждения**: Определяет, какое вознаграждение агент получает за выполнение действия.
4. **Поиск оптимальной политики**: Алгоритмы обучения с подкреплением, такие как Q-обучение или SARSA, используют марковские цепи для вычисления оптимальной политики, то есть стратегии выбора действий, которая максимизирует суммарное вознаграждение.

#### Пример:

Рассмотрим задачу обучения робота навигации в лабиринте. Состояния соответствуют позициям робота в лабиринте, действия — это "вверх", "вниз", "влево" и "вправо", а функция вознаграждения даёт положительное значение, если робот находит выход, и отрицательное, если сталкивается с препятствием. Марковские цепи позволяют оценивать вероятность нахождения в определённых состояниях в зависимости от последовательности действий.

### Пример 4: Прогнозирование последовательностей в глубоком обучении (RNN и LSTM)

Хотя рекуррентные нейронные сети (RNN) и их расширенные версии, такие как LSTM (Long Short-Term Memory), не являются марковскими моделями в строгом смысле, они часто используют концепции, схожие с марковскими процессами. RNN и LSTM способны моделировать последовательные данные, такие как текст, временные ряды или данные о пользователях.

#### Как это связано с марковскими цепями?

- В RNN входы обрабатываются последовательно, и на каждом шаге текущее состояние сети зависит от предыдущего состояния. Это аналогично идее марковских цепей, где вероятность следующего состояния зависит только от текущего состояния.
- В отличие от марковских цепей, RNN и LSTM могут "помнить" более длинные зависимости благодаря своим внутренним состояниям и параметрам сети.

#### Пример:

Предсказание следующего слова в предложении может быть реализовано с помощью LSTM. Модель получает последовательность слов и на основе их переходов предсказывает вероятности появления следующего слова. Это схоже с марковскими цепями, но с более сложным подходом к учёту предыдущих состояний.


Давайте рассмотрим каждый из приведённых примеров с конкретными числовыми данными и решением шаг за шагом.

### Пример 1: Генерация текста с помощью цепей Маркова

Предположим, у нас есть текст: "кошка сидит на окне. кошка смотрит на окно. кошка спит на окне." Мы хотим построить марковскую модель для генерации нового текста.

#### Шаг 1: Построение матрицы переходных вероятностей

1. Разобьём текст на пары последовательных слов:
   - "кошка сидит", "сидит на", "на окне"
   - "кошка смотрит", "смотрит на", "на окно"
   - "кошка спит", "спит на", "на окне"

2. Построим частотную таблицу переходов:
   - "кошка" → "сидит" (1 раз), "смотрит" (1 раз), "спит" (1 раз)
   - "сидит" → "на" (1 раз)
   - "смотрит" → "на" (1 раз)
   - "спит" → "на" (1 раз)
   - "на" → "окне" (2 раза), "окно" (1 раз)

3. Преобразуем эту таблицу в матрицу переходных вероятностей:
   $$
   P =
   \begin{bmatrix}
   0 & 1/3 & 1/3 & 1/3 & 0 & 0 \\
   0 & 0 & 0 & 0 & 1 & 0 \\
   0 & 0 & 0 & 0 & 1 & 0 \\
   0 & 0 & 0 & 0 & 1 & 0 \\
   0 & 0 & 0 & 0 & 0 & 2/3 \\
   0 & 0 & 0 & 0 & 0 & 1/3 \\
   \end{bmatrix}
   $$
   Здесь строки и столбцы соответствуют словам "кошка", "сидит", "смотрит", "спит", "на", "окне/окно".

#### Шаг 2: Генерация нового текста

1. Начинаем с "кошка". С вероятностью \(1/3\) выбираем одно из слов: "сидит", "смотрит" или "спит".
2. Пусть выпало "сидит". Следующее слово — "на".
3. "на" с вероятностью \(2/3\) переходит в "окне", с вероятностью \(1/3\) — в "окно".

Таким образом, один из возможных сгенерированных текстов может быть: "кошка сидит на окне".

### Пример 2: Моделирование временных рядов с помощью скрытой марковской модели (HMM)

Рассмотрим задачу предсказания погоды с двумя скрытыми состояниями: "солнечно" и "дождливо", и наблюдаемыми состояниями: "хорошее настроение" и "плохое настроение".

#### Данные модели:

- Начальное распределение: $\pi = [0.8, 0.2]$, то есть вероятность, что начнётся с солнечного дня, равна 0.8, а с дождливого — 0.2.
- Матрица переходов:
  $$
  A =
  \begin{bmatrix}
  0.7 & 0.3 \\
  0.4 & 0.6 \\
  \end{bmatrix}
  $$
  Где $A_{ij}$ — вероятность перехода от состояния $i$ к состоянию $j$.

- Матрица наблюдений:
  $$
  B =
  \begin{bmatrix}
  0.9 & 0.1 \\
  0.2 & 0.8 \\
  \end{bmatrix}
  $$
  Где $B_{ij}$ — вероятность наблюдения $j$-го настроения при условии $i$-го состояния (солнечно или дождливо).

#### Задача: Определить наиболее вероятную последовательность скрытых состояний для наблюдаемой последовательности "хорошее настроение, плохое настроение".

1. **Инициализация (Алгоритм Витерби)**:
   $$
   \delta_1(солнечно) = \pi(солнечно) \cdot B(солнечно, хорошее) = 0.8 \cdot 0.9 = 0.72
   $$
   $$
   \delta_1(дождливо) = \pi(дождливо) \cdot B(дождливо, хорошее) = 0.2 \cdot 0.2 = 0.04
   $$

2. **Рекурсия для второго наблюдения**:
   $$
   \delta_2(солнечно) = \max(0.72 \cdot 0.7, 0.04 \cdot 0.4) \cdot 0.1 = 0.0504
   $$
   $$
   \delta_2(дождливо) = \max(0.72 \cdot 0.3, 0.04 \cdot 0.6) \cdot 0.8 = 0.1728
   $$

3. **Назад по цепи**:
   Наиболее вероятная последовательность состояний: "солнечно", "дождливо".

### Пример 3: Обучение с подкреплением и марковский процесс принятия решений (MDP)

Задача: Робот перемещается по сетке 3x3. Цель — попасть в клетку с наградой +10, избегая клетки с наказанием -5.

#### Данные:

- Состояния: клетки (1,1), (1,2), ..., (3,3).
- Действия: вверх, вниз, влево, вправо.
- Функция вознаграждения: +10 в клетке (3,3), -5 в клетке (2,3).
- Вероятности переходов — робот иногда "скользит" и попадает не туда (80% правильное направление, 10% отклонение).

#### Поиск оптимальной стратегии:

1. **Инициализация Q-функции**: Зададим начальные значения $Q(s, a) = 0$.
2. **Алгоритм Q-обучения**:
   $$
   Q(s, a) = Q(s, a) + \alpha (r + \gamma \max_{a'} Q(s', a') - Q(s, a))
   $$
   Где $\alpha$ — коэффициент обучения, $\gamma$ — коэффициент дисконтирования, $r$ — вознаграждение.
3. **Обновление значений Q** для каждого перехода, пока значения не стабилизируются.

После завершения Q-обучения робот будет следовать стратегии, которая максимизирует ожидаемое суммарное вознаграждение.

### Пример 4: Прогнозирование последовательностей в RNN и LSTM

Задача: Предсказать следующую температуру на основе данных за последние три дня.

#### Шаги:

1. **Данные**: Температуры за последние 5 дней: 22°C, 24°C, 23°C, 25°C, 24°C.
2. **Обучение LSTM**:
   - Вход: последовательность [22, 24, 23], [24, 23, 25], ...
   - Выход: предсказание следующей температуры.
3. **Обучение с использованием градиентного спуска**, минимизируя среднеквадратичную ошибку.
4. **Предсказание**: Используем обученную модель для предсказания температуры на следующий день, скажем, она составляет 24.5°C.

Таким образом, использование марковских цепей и их обобщений (например, HMM, MDP) помогает моделировать реальные задачи и находить оптимальные решения для различных проблем в ML и DL.
