# **Словари (`dict`)**

In [None]:
cube = {x: x ** 3 for x in range(10)}
print(cube)
print(list(cube.keys()))
print(list(cube.values()))

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64, 5: 125, 6: 216, 7: 343, 8: 512, 9: 729}
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 8, 27, 64, 125, 216, 343, 512, 729]


# **Алфавитное кодирование**
Пусть заданы алфавиты $\mathfrak{A}={a_1,...,a_r}$ и $\mathfrak{B} = {b_1,...,b_q}$, состоящие из конечного числа букв.

Рассмотрим соответствие между буквами алфавита $\mathfrak{A}$ и некоторыми словами в алфавите $\mathfrak{B}$:
$a_1 - B_1,
a_2 - B_2,
...,
a_r - B_r.$

Эта схема определяет алфавитное кодирование следующим образом: каждому слову $A = a_{i_1}...a_{i_n}$ ставится в соответствие слово $B = B_{i_1}...B_{i_n}$, называемое кодом слова $A$. Слова $B_1,..., B_r$ называются *элементарными кодами*.

# **Задача 1.**

(0.5 балла)

Сгенерировать схему алфавитного кодирования в виде словаря (`dict`). В качестве алфавита $\mathfrak{A}$ использовать алфавит естественного языка (кириллицу или латиницу).  $\mathfrak{B} = \{0,1\}$. Элементарные коды для различных букв алфавита $\mathfrak{A}$ не должны совпадать.


Пусть слово $B$ имеет вид $B=B'B''$. Тогда слово $B'$ называется *началом* или *префиксом* слова $B$, а $B''$ - *концом* слова $B$. При этом пустое слово и само слово $B$ считаются началами и концами слова $B$. Все начала и концы слова $B$, отличные от него самого, называются *собственными*.

**Определение:** Схема кодирования обладает свойством префикса, если для любых $i$ и $j$ ($1 \leq i,j \leq r$, $i \neq j$) слово $B_i$ не является префиксом слова $B_j$.

**Теорема:** Если схема кодирования обладает свойством префикса, то алфавитное кодирование будет взаимно однозначным.

**Примечание:** Префиксность - достаточное, но не необходимое условие однозначности декодирования. Пусть $\mathfrak{A}=\{a_1, a_2\}$, $\mathfrak{B}=\{b_1, b_2\}$, а схема кодирования имеет следующий вид: $a_1 - b_1$, $a_2 - b_1b_2$. Схема не обладает свойством префикса, но кодирование всё равно однозначное.

# **Задача 2.**
(1 балл)

Написать функцию, проверяющую, обладает ли схема алфавитного кодирования свойством префикса. Схему кодирования необходимо задать с помощью словаря (`dict`). В качестве алфавита $\mathfrak{A}$ использовать алфавит естественного языка (кириллицу или латиницу).  $\mathfrak{B} = \{0,1\}$. В случае, если схема не обладает свойством префикса, вывести $B_i$, $B_j$, $a_i$ и $a_j$, для которых был обнаружено нарушение свойства префикса.

# **Самокорректирующиеся коды. Код Хэмминга.**
Допустим, что есть источник помех, который в словах длины $m$ может вызывать ошибки не более чем в $p$ символах. Возможно ли осуществить кодирование так, чтобы после передачи кода можно было однозначно восстановить исходное сообщение? Обладающие таким свойством коды называются *самокорректирующимися* относительно рассматриваемого источника помех.

Тривиальное решение - код с повторением, однако из-за увеличения длины кода в несколько раз мы получаем сообщение, в котором источник помех мог вызвать большее число ошибок, чем $p$.

Хэммингом было предложено корректное построение самокорректирующихся кодов для $p=1$.

Сообщения $\alpha_1...\alpha_m$ кодируются наборами $\beta_1...\beta_l$, где $l$ - длина кода и $l = m + k$. Из-за влияния источника помех на выходе могут быть получены следующие коды: 

$\beta_1...\beta_l$, 

$\overline{\beta_1}...\beta_l$,

..., 

$\beta_1...\overline{\beta_l}$.

Число вариантов равно $l+1$. Для того,чтобы дополнительных разрядов в коде $\beta_1...\beta_l$ хватало для кодировки этих вариантов, необходимо выполнение следующего условия: $2^k\geq l+1$.

В силу этого неравенства $l$ выбирается как наименьшее целое число, удовлетворяющее неравенству $2^m \leq \frac{2^l}{l+1}$.


Как строится код Хэмминга?

В наборе $\beta_1...\beta_l$ присутствуют *контрольные* (их индексы являются степенями 2) и *информационные* члены. Количество контрольных равно $k$, количество информационных: $l-k=m$. 

Информационные члены определяются следующим образом: $\beta_3 = \alpha_1$, $\beta_5 = \alpha_2$ и т.д. (то есть символы из исходного сообщения записываются на позиции с номерами, не являющимися степенями 2).

Контрольные члены вычисляются как суммы (по модулю 2) определённых последовательностей информационных членов. Так, 

$\beta_1 = \beta_3 + \beta_5 + \beta_7 + ...(mod 2)$,

$\beta_2 = \beta_3 + \beta_6 + \beta_7 + ...(mod 2)$,

$\beta_4 = \beta_5 + \beta_6 + \beta_7 + ...(mod 2)$,

...

Как именно определяются эти последовательности? В первом равенстве используются $\beta_i$ с индексами $i$, в которых в двоичной записи на первой позиции справа стоит 1 (1, 11, 101, 111, ...). Во втором равенстве используются $\beta_i$ с индексами $i$, в которых в двоичной записи на второй позиции справа стоит 1 (10, 11, 110, 111, ...) и т.д.

Декодировать данный код просто: нужно просто взять все информационные члены последовательности $\beta_1...\beta_l$.

Допустим, что при передаче кода возникла ошибка в $S$-ой позиции (и только там). Тогда на выходе было получено слово $\beta'_1...\beta'_l = \beta_1...\overline{\beta_S}...\beta_l$.
Пусть $S = S_k...S_1$ - двоичная запись числа $S$.
Рассмотрим число $S'=S'_k...S'_1$, где:

$S'_1 = \beta_1 + \beta_3 + \beta_5 + \beta_7 + ...(mod 2)$,

$S'_2 = \beta_2 + \beta_3 + \beta_6 + \beta_7 + ...(mod 2)$,

$S'_4 = \beta_4 + \beta_5 + \beta_6 + \beta_7 + ...(mod 2)$,

...

(обратите внимание на то, что теперь справа в равенствах стоят и информационные члены).

$S = S'$ (проверить это можно поразрядно). 

Таким образом, найдя число $S'$, можно определить, в каком разряде следует исправить ошибку.

# **Задача 3.**
(0,5 балла)

Декодируйте следующий код Хэмминга: 0110011.

# **Задача 4.**
(1,5 балла)

Написать функцию, реализующую построение кода Хэмминга. Построить код Хэмминга для следующей последовательности: 1011.