
# Марковские цепи

Алексей Артемов

## $e^0$. Что такое марковская цепь?

Пусть $E$ - некоторое дискретное (конечное или счётное) множество, 
которое называют _пространством состояний_. 

**Примеры:** 
 * $E_1 = \{\text{солнечно}, \text{пасмурно}, \text{дождь}, \text{снег}\}$ - пространство погодных условий
 * $E_2 = \{\text{а}, \text{б}, \ldots, \text{я}\}$ - пространство кириллических букв 
 * $E_3 = \mathbb{N} = \{0, 1, \ldots, \}$ - пространство целых чисел (число студентов в классе)

Если система находится в 
состоянии $i \in E$ в момент времени $n$, то в момент времени $n + 1$ она 
может перейти в состояние $j \in E$ с _переходной вероятностью_
$p_{ij}$. 

**Примеры:**
 * Для кириллицы $p_{\text{п},\text{р}} = 0.278, \quad p_{\text{п},\text{ы}} = 0.009$
 * Число студентов в классе может изменяться лишь на один: 
 $p_{k,k + 1} = p, \quad p_{k,k + 1} = q, \quad p_{k,k} = 1 - p - q$

Свойства переходной вероятности:

$$
	\forall i, j \in E \quad p_{ij} \geq 0 \quad\text{ и } 
    \quad\forall i \in E \quad \sum_{j \in 
	E} p_{ij} = 1.
$$

Переходные вероятности образуют _матрицу переходных вероятностей_ 
$P = (p_{ij})_{i, j \in E}$.


**Марковская цепь** с пространством состояний $E$ и матрицей 
переходных вероятностей $P$ - это случайный процесс с дискретным 
временем $X = (X_{n})_{n \in \mathbb{N}}$, $X_{n} \in E$, для которого

 * известны начальные распределения $\alpha_{i} \equiv \Pr({X_{0} = i})$,
 * верно _марковское свойство_: для любого натурального $n$ и 
    любых $i_{0}, i_{1}, \ldots, i_{n - 1}, i, j$
    
    $$
    \Pr({X_{n + 1} = j | X_{n} = i}) = \\
    \Pr({X_{n + 1} = j | X_{0} = i_{0}, \ldots, X_{n - 1} = i_{n - 1}, X_{n} = i}) = p_{ij},
    $$
    
    если условные вероятности хорошо определены, то есть $\Pr({X_{0} = 
    i_{0}, \dots, X_{n} = i}) > 0$.

Неформально говоря, марковское свойство означает, что то, как система будет 
развиваться в текущий момент, не зависит от того, что было в прошлом и зависит 
только от настоящего.

## $\log_4 16$. Оценка матрицы переходных вероятностей

Дана последовательность наблюдений

$$
X_1, X_2, \ldots, X_N, \qquad X_i \in E.
$$

Как подсчитать матрицу переходных вероятностей $p_{ij} = \Pr({X_{n + 1} = j | X_{n} = i})$?

**Закон больших чисел:** частота некоторого события в серии независимых испытаний приближается (и остается близкой) к его вероятности:

$$
\nu_n(A) \to \Pr(A) (n \to \infty), \quad \nu_n(A) = \frac {n_A} {n}
$$

$$
p_{ij} = \Pr({X_{n + 1} = j | X_{n} = i}) \approx \frac 1 N \sum\limits_{n = 1} I(X_{n + 1} = j | X_{n} = i)
$$

**Пример:** оценка марковской цепи, управляющей буквами русского алфавита

In [18]:
with open('data/book1.txt') as book:
    data = book.read()
data = data.decode('utf-8')
import re
from itertools import izip
text = ''.join(re.findall(U'[А-Яа-яё]+', data)).lower()

In [19]:
RUSSIAN = u'абвгдеёжзийклмнопрстуфхцчшщьыъэюя'

# Создадим массив размера n x n, где n = 33 - число символов русского алфавита
mc = dict.fromkeys(RUSSIAN, None)
for c in RUSSIAN:
    mc[c] = dict.fromkeys(RUSSIAN, 0)

# Подсчитаем число вхождений каждого символа после каждого
for cp, cn in zip(text[:-1], text[1:]):
    mc[cp][cn] += 1

# Отнормируем на единицу
for cp, count_by_cn in mc.iteritems():
    norm = sum(count_by_cn.values())
    mc[cp] = {cn: float(count) / max(1, float(norm))
              for cn, count in count_by_cn.iteritems()}

**Практика:** оценивание вероятностей с помощью марковской цепи.

## $\frac {27} {9}$. Траектории марковской цепи

Теперь вопрос: допустим, что у нас есть какая-то траектория (последовательность 
состояний). Какова её вероятность? Ответ на этот вопрос даст одна простая 
теорема.

**Теорема о состояниях марковской цепи**

Для любого натурального $n$ и любых $i_{0}, i_{1}, \dots, i_{n - 1}, i, j$

$$
    \Pr({X_{0} = i_{0}, X_{1} = i_{1}, \dots, X_{n} = i_{n}}) = 
    \alpha_{i_{0}} p_{i_{0}i_{1}} \ldots p_{i_{n - 1}i_{n}}.
$$

**Пример:** Пусть вероятность начального состояния цепи для русских букв равна $\frac {1} {33}$.

Чему равна вероятность наблюдать строку "мама"? А "константинопольский"? А "мамамамамамамамамама"?

In [7]:
s = u'константинопольский'
proba = 1. / 3.
for cp, cn in zip(s[:-1], s[1:]):
    proba *= mc[cp][cn]
print proba

1.22856902902e-07


**Следствие.** Для любого натурального $n$ и любого $i_{n} \in E$

$$
    \Pr({X_{n} = i_{n}}) = \sum_{i_{0}, \ldots, i_{n - 1} \in E} 
    \alpha_{i_{0}} p_{i_{0}i_{1}} \ldots p_{i_{n - 1}i_{n}}.
$$

**Вопрос:** как подсчитать вероятность встретить в 10-буквенном слове букву "й"?

Но обычно нас не интересует полный путь, а лишь начало и конец. Поэтому вводят 
вероятность перейти из состояния $i$ в состояние $j$ за $n$ шагов:

$$
	p_{ij}^{(n)} = \Pr({X_{n} = j | X_{0} = i})
$$

Чему равна эта вероятность?

Воспользуемся теоремой о состояниях:

$$
	\Pr({X_{n} = j | X_{0} = i})
    = \frac{\Pr({X_{n} = j, X_{0} = i})}
        {\Pr({X_{0} = i})} 
    = \sum_{i_{1}, \ldots, i_{n - 1} \in E} 
        \frac{\Pr({X_{0} = i, X_{1} = i_{1}, \dots, X_{n - 1} = i_{n - 1}, X_{n} - j})}
            {\Pr({X_{0} = i})}
    = \sum_{i_{1}, \ldots, i_{n - 1} \in E} p_{ii_{1}} \ldots p_{i_{n - 1}j}.
$$

Если мы посмотрим на случай $n = 2$, то полученное выражение очень похоже на 
скалярное произведение строк матрицы переходной вероятности. Оказывается, что 
это не так уж и далеко от истины.

**Теорема.** Пусть $P^{(n)} = (p_{ij}^{(n)})_{i,j \in E}$. 
    Тогда $P^{(n)} = P \cdot P \cdot \ldots \cdot P = P^{n}$.

**Вопрос:** как подсчитать вероятность, что слово из трех букв начинается на букву "х" и заканчивается на букву "й"?

In [20]:
start = u'х'
end = u'й'
prior = 1. / len(RUSSIAN)
for c in RUSSIAN:
    proba = prior * mc[start][c] * mc[c][end]
    if proba > 0:
        print ''.join([start, c, end]), proba

хай 4.38012629344e-05
хвй 3.23286414874e-08
хей 1.32206754118e-05
хзй 1.39947943493e-08
хий 3.92959699592e-05
хйй 2.40654985476e-10
хкй 2.20844273506e-08
хлй 3.10674088228e-08
хмй 2.17792583355e-08
хой 0.000395888720768
хрй 1.45905654848e-08
хсй 2.74295252423e-08
хтй 1.48074842563e-08
хуй 2.94834300926e-06
ххй 6.76195608092e-09
хэй 5.89171184121e-07
хяй 1.58134181297e-07


Это работает не всегда. Почему же? Потому что никто не обещал, что переходная вероятность не зависит от шага. Если она действительно не зависит, то говорят, что марковская цепь _однородна_.

## $2^2$. Генерирование выборок из марковской цепи

Как создать реализацию длины $N$ из марковской цепи?

 1. Сгенерировать начальное состояние согласно распределению $\alpha_{i} \equiv \Pr({X_{0} = i})$, положить $n \leftarrow 0$.
 2. Пока $n < N$, повторять:
   * Имея контекст $X_{n}$, сгенерировать состояние $X_{n+1}$ из распределения $\Pr({X_{n+1} | X_{n}})$
   * Положить $n \leftarrow n + 1$

In [21]:
import numpy as np

mc_matrix = np.zeros((33, 33))
for cp in RUSSIAN:
    for cn in RUSSIAN:
        mc_matrix[RUSSIAN.index(cp)][RUSSIAN.index(cn)] = mc[cp][cn]

s = []
start = np.random.choice(list(RUSSIAN))
s.append(start)
length = 10
for i in xrange(length):
    index = RUSSIAN.index(s[i])
    next_char = np.random.choice(list(RUSSIAN), p=mc_matrix[index])
    s.append(next_char)

print ''.join(s)

шехашиожико


**Практика:** генерирование реализаций марковской цепи.