# Теория информации

## Терминология

Множество возможных исходов события $\quad I = \{ e_1, ... e_m \}$.

**Событие** (в смысле случайная величина)  $\quad E: \Omega \to I$.

Вероятности происхождения событий: $\quad p_j = \mathbb{P}(E = e_j)$.

**Алфавит кодера** $\quad J = \{0, ..., q-1\}$.

**Кодовое слово** события $e_j$ -- строка $x_1...x_{s_j} = f(i_j)$,  

где  $ f: I \to \cup_{n \geq 1}   J^n$ называют **кодом**.

**Длина случайного кодового слова** -- это случайная величина $len(f(E))$.

**Средняя длина кодового слова** -- это $\mathbb{E}[S] = \sum \limits_{j=1}^m p_j s_j$.

**Энтропия** распределения $\quad H_q(p_1, ... p_m) = \sum \limits_{j=1}^m p_j ( -\log_q p_j)$ (в непрерывном случае -- интеграл).

**Кросс-энтропия** из $p'$ в $p$ -- это  $\quad CE(p|p') = \sum \limits_{j=1}^m p_j ( -\log_q p'_j)$ (в непрерывном случае -- интеграл).

**KL-дивергенция** из $p'$ в $p$ -- это $\quad D_{KL} (p|p') = CE(p|p') - H(p)$ (в непрерывном случае -- c интегралами).

## Пример

In [None]:
from IPython.display import Image

In [None]:
img_url = 'https://cdn.shopify.com/s/files/1/1014/5789/files/Standard-ASCII-Table_large.jpg?10669400161723642407'
Image(url=img_url, width=400, height=300)

$I = \{e_1, ... e_m \} = \{ \text{NULL}, ..., \sim, \text{DEL} \}$ - множество символов клавиатуры

$E$ - случайный символ клавиатуры

$p_j = \mathbb{P}(E = e_j)$ - частота использования символа $e_j$

$J = \{0,1,2,...9, \text{A,B,C,D,F} \}$ - алфавит кодера

$f: e_j \in I \to x_1 ... x_{s_j} \in \cup_{n \geq 1}   J^n$ - кодирование символа $i_j$ клавиатуры бинарным кодом $x_1 ... x_{s_j}$

$f(+) = 2\text{B}$



## Мотивация



$l(\theta) = \ln p_{\theta}(\hat{X})$ - правдободобие для фиксированно выборки $\hat{X} = \{ \hat{X}_1, ... \hat{X}_n \}$

Выборка $\hat{X} = \{ \hat{X}_1, ... \hat{X}_n \}$ - это реализация случайной величины $X = \{X_1, ..., X_n \} \sim p_{\theta_0}(x_1, ..., x_n)$

$\tilde{l}(\theta, X) = \ln p_{\theta}(X)$ - правдободобие для случайной выборки $X = \{X_1, ..., X_n \}$

$\mathbb{E}_{X \sim p_{\theta_0}} \tilde{l}(\theta, X) = \int p_{\theta_0}(x) \ln p_{\theta}(x) dx = - CE(p_{\theta_0} | p_{\theta})$

Таким образом, в контексте метода максимального правдоподобия возникает понятие кросс-энтропии

## Задача 1 (минимальная средняя длина)

$I = \{A, B, C, D\}$

$p = \{ \frac12,\frac14, \frac18, \frac18 \}$

$J = \{0,1\}$

**Найти среднюю длину оптимального кода**

Т.е., найти наименьшие $s_1, ... s_n$, такие, для которых существует $f: I \to \cup_{n \geq 1}   J^n$ со следующем условием: символ $i_j$ кодируется строкой длины $s_j$.

$q = 2$



$\min \limits_{s1, ..., s_m} \mathbb{E}[S] = \min \limits_{s1, ..., s_m} \sum \limits_{j=1}^m p_j s_j \quad \text{s.t.} \quad \sum \limits_{j=1}^m  q^{-s_j} \leq 1$


## Энтропия

Энтропия дискретного распределения $\quad H_q(p_1, ... p_m) = \sum \limits_{j=1}^m p_j ( -\log_q p_j) = \sum \limits_{j=1}^m p_j \tilde{s}_j^{\ast} = \mathbb{E} \tilde{S}^{\ast}$

Энтропия непрерывного распределения  $\quad H(p) = \int p(x) \ln p(x) dx$

## Теорема Шеннона

$H_q(p) \leq \min \limits_{s_j} \mathbb{E}[S] \leq H_q(p) + 1$

Эквивалентно,

$\sum \limits_{j=1}^m p_j ( -\log_q p_j) \leq \sum \limits_{j=1}^m p_j s_j^* \leq \sum \limits_{j=1}^m p_j ( -\log_q p_j) + 1$

Или более сильное утверждение,

$ -\log_q p_j \leq  s_j^* \leq -\log_q p_j + 1$

**Доказательство**

Релаксируем задачу $\min \limits_{s1, ..., s_m} \mathbb{E}[S] \, \text{s.t.} \sum \limits_{j=1}^m  q^{-s_j} \leq 1$ на непрерывные переменные $\tilde{s}_1, ... \tilde{s}_m$.

Решение методом Лагранжа дает $\tilde{s}_j^* = - \log_q p_j$.

Взяв ближашие целые решения, получим $ -\log_q p_j \leq  s_j^* \leq -\log_q p_j + 1$.




**Интерпретация энтропии**

Энтропия - это оценка средней длины оптимального кода


## Кросс-энтропия

Код $f : I \to \cup_{n \geq 1}   J^n$ является оптимальным для распределения $p$ на $I$.

Код $f' : I \to \cup_{n \geq 1}   J^n$ является оптимальным для распределения $p'$ на $I$.

Пусть $p$ - истинное распределение событий $I$, а $p'$ - ошибочное.

Тогда энтропия $H_q(p) = \sum \limits_{j=1}^m p_j ( -\log_q p_j)$ оценивает длину оптимального кода $f$, построенного по истинному распределению, а кросс-энтропия
$CE(p|p') = \sum \limits_{j=1}^m p_j ( -\log_q p'_j)$ оценивает длину какого-то кода $f'$.

$CE(p|p') \leq \min \limits_{s'_j} \mathbb{E}[S'] \leq CE(p|p')  + 1$, где $S'$ - длина случайного кодового слова в кодировке $f'$, при этом вероятность случайного слова соответствует истинному распределению $p$

**Доказательство**

$  -\log_q p'_j \leq  s_j^{' \ast} \leq  -\log_q p'_j + 1$.

$\sum \limits_{j=1}^m p_j ( -\log_q p'_j) \leq \sum \limits_{j=1}^m p_j s_j^{' \ast} \leq  \sum \limits_{j=1}^m p_j ( -\log_q p'_j) + 1$

## Задача 2 (свойства кросс-энтропии)


Доказать

1. $CE(p|p) = H_q(p)$

2. $CE(p|p') \geq H_q(p)$  (неравенство Гибса, $D_{KL} \geq 0$).

## Задача 3 (энтропия равномерного распределения)


$p = U\{1,2,...,m \}$ - равномерное распределение на дискретном множестве

Найти $H_q(p)$

## Задача 4 (энтропия нормального распределения)

Доказать, что распределение $\mathcal{N}(\mu, \sigma^2)$ обладает максимальной энтропией в классе непрерывных распределений с матожиданием $\mu$ и дисперсией $\sigma^2$.

## Задача 5. (KL между нормальными распределениями)

$$p =  \mathcal{N}(\mu_1, \sigma_1^2)$$

$$q =  \mathcal{N}(\mu_2, \sigma_2^2)$$

Найдите $D_{KL}(p \vert q)$ (из $q$ в $p$).

## Задача 6* (код Хаффмана)

1. Построить оптимальный код (код Хаффмана) для $I = \{A, B, C, D\}$ и следующих вероятностей на $I$ : $p = \{ \frac12,\frac14, \frac18, \frac18 \}$, $p'$ равномерная.

2. Посчитать соответствующие средние длины кодовых слов для $p$ и $p'$.

3. Посчитать энтропиии для $p$ и $p'$.

4. Посчитать кросс-энтропию $CE(p' | p)$ и $CE(p | p')$.