## 1. Форматирование кода

Приведите примеры кода, которые соответствуют нарушениям PEP 8. Для проверки используйте библиотеку [pycodestyle](https://github.com/PyCQA/pycodestyle) или ЦАП.

In [None]:
!pip install pycodestyle

Collecting pycodestyle
  Downloading pycodestyle-2.12.1-py2.py3-none-any.whl.metadata (4.5 kB)
Downloading pycodestyle-2.12.1-py2.py3-none-any.whl (31 kB)
Installing collected packages: pycodestyle
Successfully installed pycodestyle-2.12.1


1.1. (уровень сложности: простейший)

E211 whitespace before '('

In [None]:
%%file example.py
def example_function ():  # Нарушение E211: пробел перед '('
    print("Hello, World!")

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:21: E211 whitespace before '('


**1.2.** (уровень сложности: простейший)

E225 missing whitespace around operator

In [None]:
%%file example.py
x=5  # Нарушение E225: отсутствие пробелов вокруг оператора =

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:2: E225 missing whitespace around operator


**1.3.** (уровень сложности: простейший)

E231 missing whitespace after ','

In [None]:
%%file example.py
print("Hello","World!")

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:14: E231 missing whitespace after ','


**1.4.** (уровень сложности: простейший)

E251 unexpected spaces around keyword / parameter equals

In [None]:
%%file example.py
def example_function(param1 = 5):  # Нарушение E251
    print(param1)

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:28: E251 unexpected spaces around keyword / parameter equals
example.py:1:30: E251 unexpected spaces around keyword / parameter equals


**1.5.** (уровень сложности: простейший)

E302 expected 2 blank lines, found 1

In [None]:
%%file example.py
def function_one():
    print("Function One")

def function_two():  # Нарушение E302: только одна пустая строка перед функцией
    print("Function Two")

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:4:1: E302 expected 2 blank lines, found 1


**1.6.** (уровень сложности: простейший)

E701 multiple statements on one line (colon)

In [None]:
%%file example.py
if x > 0: print("Positive")  # Нарушение E701: несколько операторов на строке

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:9: E701 multiple statements on one line (colon)


**1.7.** (уровень сложности: простейший)

E702 multiple statements on one line (semicolon)

In [None]:
%%file example.py
x = 5; y = 10  # Нарушение E702: несколько операторов на одной строке

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:6: E702 multiple statements on one line (semicolon)


**1.8.** (уровень сложности: простейший)

E711 comparison to None should be 'if cond is None:'

In [None]:
%%file example.py
if x == None:  # Нарушение E711: сравнение с None через ==
    print("x is None")

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:6: E711 comparison to None should be 'if cond is None:'


**1.9.** (уровень сложности: простейший)

E712 comparison to True should be 'if cond is True:' or 'if cond:'

In [None]:
%%file example.py
if x == True:  # Нарушение E712: сравнение с True через ==
    print("x is True")

Overwriting example.py


In [None]:
!pycodestyle example.py

example.py:1:6: E712 comparison to True should be 'if cond is True:' or 'if cond:'


## 2. Некоторые особенности языка

**2.1.** (уровень сложности: низкий)

Объясните, что это за код. Это Питон?

```[0xfor _ in 'abc']```

In [None]:
'''
0x используется для обозначения шестнадцатеричных (hex) чисел
Код пытается создать список, где каждый элемент — это результат выражения 0x0f or _ для каждого символа в строке 'abc'.
Поскольку 0x0f (15) — это истинное значение, оператор or всегда возвращает 0x0f, независимо от значения _.
'''
x = [0xfor _ in 'abc']
print(x)

[15]


  x = [0xfor _ in 'abc']


**2.2.** (уровень сложности: низкий)

Реализуйте функцию, которая принимает только именованные аргументы. При передаче позиционного аргумента Питон должен выдать ошибку. В тело функции для этого никаких проверок добавлять нельзя.

In [None]:
def named_args_only(*, arg1, arg2):
    print(f"arg1: {arg1}, arg2: {arg2}")

# Пример использования:
named_args_only(arg1=10, arg2=20)  # Работает
named_args_only(10, 20)            # Ошибка

arg1: 10, arg2: 20


TypeError: named_args_only() takes 0 positional arguments but 2 were given

**2.3.** (уровень сложности: низкий)

Странные результаты приведены ниже. Как такое возможно?

In [None]:
a = 1
b = 1
c = 300000 # проверено в Python 3.11
d = 300000
print(a is b, c is d)
'''
Python кэширует небольшие целые числа (обычно в диапазоне от -5 до 256).
Это означает, что все переменные, которые ссылаются на одно и то же маленькое
число, будут указывать на один и тот же объект в памяти.

Для больших чисел (например, 300000) Python не использует кэширование.
Каждое присваивание создаёт новый объект в памяти.
'''

True False


In [None]:
a, b = 'py', 'py'
c = ''.join(['p', 'y'])
print(a is b, a == c, a is c)
'''
Python кэширует короткие строки (обычно строки, которые состоят только из
буквенно-цифровых символов и имеют длину 1 или 2 символа). Это называется interning.

Оператор == сравнивает значения объектов, а не их идентичность. Строки 'py'
и ''.join(['p', 'y']) имеют одинаковое значение, поэтому a == c возвращает True.

Метод ''.join(['p', 'y']) создаёт новую строку в памяти, даже если её значение
совпадает с 'py'. Поэтому a и c — это разные объекты, и a is c возвращает False.
'''

True True False


**2.4.** (уровень сложности: средний)

В следующем фрагменте по индексу i выбирается одна из трех строк. Сократите код во второй строке до 19 символов без использования функций и методов.

In [None]:
i = 0
['much','code','wow'][i] # 24 символа

'much'

In [None]:
i = 2
print('mcwuoocdwhe'[i::3])

wow


**2.5.** (уровень сложности: средний)

Объясните поведение приведенного ниже кода.

```Python
lst = ['a', 'b', 'c']
lst += 'd'
print(lst)

lst = lst + 'd' # Ошибка?!
print(lst)

lst += 42
print(lst) # Ошибка?!
```

In [None]:
lst = ['a', 'b', 'c']
lst += 'd'
print(lst)

lst = lst + 'd' # Ошибка?! Оператор + для списков ожидает, что оба операнда будут списками
print(lst)

lst += 42
print(lst) # Ошибка?! Оператор += для списков ожидает итерируемый объект справа.

['a', 'b', 'c', 'd']


TypeError: can only concatenate list (not "str") to list

## 3. Однострочники

Напишите программы-однострочники для следующих задач. Начните с наивных решений и постепенно двигайтесь в сторону решений кратких и изящных. Старайтесь попутно создавать автоматические тесты на случайных входных данных.

Определитесь, в каких случаях решение-однострочник является предпочтительным, а в каких – нет.

**3.1.** (уровень сложности: низкий)

Преобразовать элементы списка s из строковой в числовую форму.

In [None]:
list(map(int, ['1', '2', '3', '4']))

[1, 2, 3, 4]

**3.2.** (уровень сложности: низкий)

Подсчитать количество различных элементов в последовательности s.

In [None]:
len(set(input().split()))

 1 2 3 3 2 1


3

**3.3.** (уровень сложности: простейший)

Обратить последовательность s без использования функций.

In [None]:
list(map(int, input().split()))[::-1]

 1 2 3 4 5


[5, 4, 3, 2, 1]

**3.4.** (уровень сложности: низкий)

Выдать список индексов, на которых найден элемент x в последовательности s.

In [None]:
n = int(input("Элемент который нужно найти: "))
[i for i, s in enumerate(input().split()) if int(s) == n]

Элемент который нужно найти:  1
 1 2 3 4 1 2 5 7 1


[0, 4, 8]

**3.5.** (уровень сложности: низкий)

Сложить элементы списка s с четными индексами.

In [None]:
sum(list(map(int, input().split()))[::2])

 1 2 3 4 5


9

**3.6.** (уровень сложности: низкий)

Найти строку максимальной длины в списке строк s.

In [None]:
max(input().split(), key=len)

 hello abc dddd world!


'world!'

**3.7.** (уровень сложности: низкий)

Проверить, относится ли число к числам харшад (делящиеся нацело на сумму своих цифр).

In [None]:
n = int(input())
n % sum([int(i) for i in str(n)]) == 0

 18


True

**3.8.** (уровень сложности: низкий)

Сгенерировать случайную текстовую строку с заданным максимальным размером.

In [None]:
from random import choice
from string import ascii_uppercase
print(''.join(choice(ascii_uppercase) for i in range(int(input("Размер: ")))))

Размер:  12


LLLWGIFSQZGV


**3.9.** (уровень сложности: средний)

Реализовать функцию-однострочник для RLE-сжатия. Пример работы:

```Python
>>> rle_encode('ABBCCCDEF')
[('A', 1), ('B', 2), ('C', 3), ('D', 1), ('E', 1), ('F', 1)]
```

In [None]:
from itertools import groupby
def rle_encode(s):
    return [(i, len(list(j))) for i, j in groupby(s)]
rle_encode('ABBCCCDEF')

[('A', 1), ('B', 2), ('C', 3), ('D', 1), ('E', 1), ('F', 1)]

## 4. Ассорти из небольших задач

**4.1.** (уровень сложности: низкий)

Напишите функцию generate_groups(), которая компактно генерирует (а не просто выдает готовый) список всех названий групп в том виде, который используется на сайте ЦАП.

```Python
['ИВБО-01-21', 'ИВБО-02-21', 'ИВБО-03-21', 'ИВБО-04-21', 'ИВБО-05-21', 'ИВБО-06-21', 'ИВБО-07-21', 'ИВБО-08-21', 'ИКБО-01-21', 'ИКБО-02-21', ...]
```

In [None]:
def generate_groups():
    groups = {
        "ИВБО": range(10, 14),
        "ИКБО": list(range(10, 16)) + list(range(20, 23)) + [24, 34] + list(range(40, 44)) +
                list(range(50, 53)) + list(range(60, 72)) + list(range(72, 77)),
        "ИМБО": range(10, 12),
        "ИНБО": list(range(10, 14)) + list(range(20, 24)) + list(range(30, 34))
    }

    year_suffix = "-23"

    for prefix, numbers in groups.items():
        yield prefix
        yield " ".join(f"{prefix}-{num}{year_suffix}" for num in numbers)
        yield ""

for line in generate_groups():
    print(line)

ИВБО
ИВБО-10-23 ИВБО-11-23 ИВБО-12-23 ИВБО-13-23

ИКБО
ИКБО-10-23 ИКБО-11-23 ИКБО-12-23 ИКБО-13-23 ИКБО-14-23 ИКБО-15-23 ИКБО-20-23 ИКБО-21-23 ИКБО-22-23 ИКБО-24-23 ИКБО-34-23 ИКБО-40-23 ИКБО-41-23 ИКБО-42-23 ИКБО-43-23 ИКБО-50-23 ИКБО-51-23 ИКБО-52-23 ИКБО-60-23 ИКБО-61-23 ИКБО-62-23 ИКБО-63-23 ИКБО-64-23 ИКБО-65-23 ИКБО-66-23 ИКБО-67-23 ИКБО-68-23 ИКБО-69-23 ИКБО-70-23 ИКБО-71-23 ИКБО-72-23 ИКБО-73-23 ИКБО-74-23 ИКБО-75-23 ИКБО-76-23

ИМБО
ИМБО-10-23 ИМБО-11-23

ИНБО
ИНБО-10-23 ИНБО-11-23 ИНБО-12-23 ИНБО-13-23 ИНБО-20-23 ИНБО-21-23 ИНБО-22-23 ИНБО-23-23 ИНБО-30-23 ИНБО-31-23 ИНБО-32-23 ИНБО-33-23



**4.2.** (уровень сложности: низкий)

Реализуйте свою версию print(). Постарайтесь использовать максимум возможностей настоящей print(). Для вывода используйте функцию sys.stdout.write().

In [None]:
import sys
def myPrint(*args, sep=' ', end='\n'):
    output = sep.join(map(str, args)) + end

    sys.stdout.write(output)

myPrint("hello", "world", sep='//', end="&&")

hello world

**4.3.** (уровень сложности: средний)

Вы получили зашифрованное сообщение и теперь предстоит его расшифровать:

```
E3238557 6204A1F8 E6537611 174E5747
5D954DA8 8C2DFE97 2911CB4C 2CB7C66B
E7F185A0 C7E3FA40 42419867 374044DF
2519F07D 5A0C24D4 F4A960C5 31159418
F2768EC7 AEAF14CF 071B2C95 C9F22699
FFB06F41 2AC90051 A53F035D 830601A7
EB475702 183BAA6F 12626744 9B75A72F
8DBFBFEC 73C1A46E FFB06F41 2AC90051
97C5E4E9 B1C26A21 DD4A3463 6B71162F
8C075668 7975D565 6D95A700 7272E637
```

Известно, что для зашифрования использовался алгоритм TEA. Известен также ключ зашифрования/расшифрования:

```
k = [0, 4, 5, 1]
```

Имеется и функция на C/C++ для расшифровки данных (v – слова данных, k – ключ):

```C
void decrypt(uint32_t v[2], const uint32_t k[4]) {
    uint32_t v0 = v[0], v1 = v[1], sum = 0xC6EF3720, i;
    uint32_t delta = 0x9E3779B9;
    uint32_t k0 = k[0], k1 = k[1], k2 = k[2], k3 = k[3];
    for (i = 0; i < 32; i++) {
        v1 -= ((v0 << 4) + k2) ^ (v0 + sum) ^ ((v0 >> 5) + k3);
        v0 -= ((v1 << 4) + k0) ^ (v1 + sum) ^ ((v1 >> 5) + k1);
        sum -= delta;
    }
    v[0] = v0; v[1] = v1;
}
```

Остается перевести функцию decrypt на Питон и узнать, что же содержится в зашифрованном сообщении!

In [None]:
def tea_decrypt(v, k):
    v0, v1 = v[0], v[1]
    sum_value = 0xC6EF3720
    delta = 0x9E3779B9

    k0, k1, k2, k3 = k[0], k[1], k[2], k[3]

    for _ in range(32):
        v1 -= ((v0 << 4) + k2) ^ (v0 + sum_value) ^ ((v0 >> 5) + k3)
        v1 &= 0xFFFFFFFF
        v0 -= ((v1 << 4) + k0) ^ (v1 + sum_value) ^ ((v1 >> 5) + k1)
        v0 &= 0xFFFFFFFF
        sum_value -= delta
        sum_value &= 0xFFFFFFFF

    return [v0, v1]

key = [0, 4, 5, 1]

encrypted_blocks = [
    [0xE3238557, 0x6204A1F8], [0xE6537611, 0x174E5747],
    [0x5D954DA8, 0x8C2DFE97], [0x2911CB4C, 0x2CB7C66B],
    [0xE7F185A0, 0xC7E3FA40], [0x42419867, 0x374044DF],
    [0x2519F07D, 0x5A0C24D4], [0xF4A960C5, 0x31159418],
    [0xF2768EC7, 0xAEAF14CF], [0x071B2C95, 0xC9F22699],
    [0xFFB06F41, 0x2AC90051], [0xA53F035D, 0x830601A7],
    [0xEB475702, 0x183BAA6F], [0x12626744, 0x9B75A72F],
    [0x8DBFBFEC, 0x73C1A46E], [0xFFB06F41, 0x2AC90051],
    [0x97C5E4E9, 0xB1C26A21], [0xDD4A3463, 0x6B71162F],
    [0x8C075668, 0x7975D565], [0x6D95A700, 0x7272E637]
]

decrypted_blocks = []
for block in encrypted_blocks:
    decrypted_block = tea_decrypt(block, key)
    decrypted_blocks.append(decrypted_block)

decrypted_bytes = bytearray()
for block in decrypted_blocks:
    for word in block:
        decrypted_bytes.extend(word.to_bytes(4, 'little'))

decrypted_text = decrypted_bytes.decode('utf-16')
print("Расшифрованное сообщение:")
print(decrypted_text)

Расшифрованное сообщение:
П о з д р а в л я ю !   В ы   н а ш л и   с е к р е т н о е   с о о б щ е н и е 


## 5. Редакционное расстояние

**5.1.** (уровень сложности: низкий)

Редакционное расстояние Хэмминга определяет минимальное число позиций, в которых нужно произвести замену символов, чтобы получить из одной последовательности длины n другую последовательность той же длины.

Реализуйте функцию вычисления расстояния Хэмминга для двух чисел, на уровне замен бит.

Реализуйте сначала наивную версию, а затем придумайте, как изящно написать функцию в виде однострочника с использованием средств современного Питона.

Примеры работы функции:

```Python
>>> ham_dist(0b10, 0b11)
1
>>> ham_dist(0b1100, 0b0011)
4
```

In [None]:
def ham_dist(b1, b2):
    b1_bin = bin(b1)[2:]
    b2_bin = bin(b2)[2:]

    max_len = max(len(b1_bin), len(b2_bin))
    b1_bin = b1_bin.zfill(max_len)
    b2_bin = b2_bin.zfill(max_len)

    dist_counter = 0
    for i in range(max_len):
        if b1_bin[i] != b2_bin[i]:
            dist_counter += 1

    return dist_counter

print(ham_dist(0b1100, 0b0011))

4


In [None]:
def ham_dist(b1, b2):
    return sum(c1 != c2 for c1, c2 in zip(f'{b1:b}'.zfill(32), f'{b2:b}'.zfill(32)))
print(ham_dist(0b10, 0b11))

1


**5.2.** (уровень сложности: средний)

Простейшим вариантом кода с коррекцией ошибок является код с повторением. В рассматриваемом далее случае каждый передаваемый бит со значением 1/0 представляется тройкой бит 111/000.

Примеры:

```Python
>>> bin(encode_val(4, 3, 0b1011))
'0b111000111111'
>>> bin(decode_val(4, 3, 0b111_000_111_111))
'0b1011'
```

Если два исходных значения отличаются лишь в одном бите, то их закодированные варианты имеют расстояние Хэмминга равное 3:

```Python
>>> ham_dist(encode_val(4, 3, 0b1001), encode_val(4, 3, 0b1000))
3
```

Это позволяет автоматически исправлять внесенные помехи в данные в зависимости от того значения, которое является преобладающим в тройке бит.
ф
```Python
bin(decode_val(4, 3, 0b110_010_011_101))
'0b1011'
```

Задача состоит в том, чтобы корректно декодировать и откорректировать следующее текстовое сообщение. Известно, что каждое значение в исходной последовательности является 8-битным.

```Python
[815608, 2064837, 2093080, 2063879, 196608, 2067983, 10457031, 1830912, 2067455, 2093116, 1044928, 2064407, 6262776, 2027968, 4423680, 2068231, 2068474, 1999352, 1019903, 2093113, 2068439, 2064455, 1831360, 1936903, 2067967, 2068456]
```

In [None]:
def encode_val(n_bits, rep, value):
    result = 0
    for i in reversed(range(n_bits)):
        bit = (value >> i) & 1
        for _ in range(rep):
            result = (result << 1) | bit
    return result

def decode_val(n_bits, rep, value):
    result = 0
    total_bits = n_bits * rep
    for i in range(n_bits):
        triple = (value >> (total_bits - (i + 1) * rep)) & ((1 << rep) - 1)
        ones = bin(triple).count('1')
        result = (result << 1) | (1 if ones >= (rep // 2 + 1) else 0)
    return result

def ham_dist(a, b):
    return bin(a ^ b).count('1')

encoded_data = [
    815608, 2064837, 2093080, 2063879, 196608, 2067983, 10457031,
    1830912, 2067455, 2093116, 1044928, 2064407, 6262776, 2027968,
    4423680, 2068231, 2068474, 1999352, 1019903, 2093113, 2068439,
    2064455, 1831360, 1936903, 2067967, 2068456
]

n_bits = 8
rep = 3

decoded_bytes = [decode_val(n_bits, rep, val) for val in encoded_data]

decoded_message = ''.join(chr(b) for b in decoded_bytes)
print(decoded_message)


Very important information


**5.3.** (уровень сложности: низкий)

Советский и российский математик Владимир Иосифович Левенштейн в 1965 г. [предложил](https://www.mathnet.ru/links/5544b02ca719f9e5e3bf19cbd811dae2/dan31411.pdf) свой вариант редакционного расстояния. В расстоянии Левенштейна учитываются не только замены символов, но также операции вставки и удаления. То есть, в отличие от расстояния Хэмминга, с помощью расстояния Левенштейна можно сравнивать последовательности с разными длинами.

Расстояние Левенштейна можно определить с помощью рекуррентной формулы (за формулировку спасибо Горчакову А.В.):

$$
f\left(\mathbf{a}, \mathbf{b}, i, j\right)=\left\{
    {\begin{array}
        {llcl}
        \max\left(i, j\right),&&&i=0\ или\ j=0\\
        f(\mathbf{a}, \mathbf{b}, i-1, j-1),&&&a_{i-1}=b_{j-1}\\
        1 + \min\left(
            f\left(\mathbf{a}, \mathbf{b}, i, j-1\right),
            f\left(\mathbf{a}, \mathbf{b}, i-1,j\right),
            f\left(\mathbf{a}, \mathbf{b}, i-1,j-1\right)
        \right),&&&иначе
    \end{array}
}\right.
$$

где $\mathbf{a}$ и $\mathbf{b}$ — сравниваемые последовательности символов, например, строки;  
$i$ и $j$ — индексы последовательностей;  
$a_{i-1}$ — $(i-1)$-й символ в строке $\mathbf{a}$;  
$b_{j-1}$ — $(j-1)$-й символ в строке $\mathbf{b}$.

Реализуйте функцию вычисления расстояния Левенштейна.

Пример работы:

```Python
>>> lev_dist('столб', 'слон')
3
```

Для ускорения работы реализованной функции используйте «волшебный» декоратор «cache»:

```Python
from functools import cache

@cache
def lev_dist(...):
    ...
```


In [None]:
from functools import lru_cache

@lru_cache
def lev_dist(a: str, b: str, i: int = None, j: int = None) -> int:
    if i is None: i = len(a)
    if j is None: j = len(b)

    if i == 0 or j == 0:
        return max(i, j)

    if a[i - 1] == b[j - 1]:
        return lev_dist(a, b, i - 1, j - 1)

    return 1 + min(
        lev_dist(a, b, i, j - 1),
        lev_dist(a, b, i - 1, j),
        lev_dist(a, b, i - 1, j - 1)
    )

print(lev_dist('столб', 'слон'))

3


**5.4.** (уровень сложности: средний)

Реализованная функция вычисления расстояния Левенштейна дает только миниальное число операций. Было бы полезно узнать, какие именно операции произведены над исходной строкой.

Например:

```Python
>>> lev_dist_ops('столб', 'слон')
['замена', 'удаление', 'замена']
```

Реализуйте функцию lev_dist_ops.


In [None]:
from functools import lru_cache

def lev_dist_ops(a: str, b: str) -> list:
    @lru_cache(maxsize=None)
    def helper(i: int, j: int):
        if i == 0 and j == 0:
            return (0, [])
        if i == 0:
            return (j, ['вставка'] * j)
        if j == 0:
            return (i, ['удаление'] * i)

        if a[i - 1] == b[j - 1]:
            dist, ops = helper(i - 1, j - 1)
            return (dist, ops.copy())

        dist_ins, ops_ins = helper(i, j - 1)
        dist_del, ops_del = helper(i - 1, j)
        dist_sub, ops_sub = helper(i - 1, j - 1)

        min_dist = min(dist_ins, dist_del, dist_sub)

        if min_dist == dist_ins:
            ops = ops_ins.copy()
            ops.append('вставка')
            return (dist_ins + 1, ops)
        elif min_dist == dist_del:
            ops = ops_del.copy()
            ops.append('удаление')
            return (dist_del + 1, ops)
        else:
            ops = ops_sub.copy()
            ops.append('замена')
            return (dist_sub + 1, ops)

    distance, operations = helper(len(a), len(b))
    return operations

lev_dist_ops('столб', 'слон')

['замена', 'замена', 'удаление']

**5.5.** (уровень сложности: средний)

С использованием функции расстояния Левенштейна можно получить последовательность команд редактирования, которые превращают исходную последовательность в результат. Это может помочь компактно хранить данные – для измененной версии файла мы храним только команды, которые производят эти изменения. В этой задаче необходимо сгенерировать код на Питоне, который из исходного списка создает список-результат с помощью минимального числа операций вставки, замены и удаления.

Например:

```Python
>>> print('\n'.join(lev_dist_gen('достаток', 'остаточный')))
x[7] = y[9]
x.insert(7, y[8])
x.insert(7, y[7])
x.insert(7, y[6])
del x[0]
```

Обязательно добавьте тестирование на случайных данных для функции lev_dist_gen.

In [None]:
from functools import lru_cache

import random
import string


def lev_dist_gen(x: str, y: str) -> list:
    @lru_cache(maxsize=None)
    def helper(i: int, j: int):
        if i == 0 and j == 0:
            return (0, [])
        if i == 0:
            return (j, [f"x.insert(0, y[{k}])" for k in range(j-1, -1, -1)])
        if j == 0:
            return (i, [f"del x[0]" for _ in range(i)])

        if x[i - 1] == y[j - 1]:
            dist, ops = helper(i - 1, j - 1)
            return (dist, ops.copy())

        dist_ins, ops_ins = helper(i, j - 1)
        dist_del, ops_del = helper(i - 1, j)
        dist_sub, ops_sub = helper(i - 1, j - 1)

        min_dist = min(dist_ins, dist_del, dist_sub)

        if min_dist == dist_ins:
            ops = ops_ins.copy()
            ops.append(f"x.insert({i}, y[{j-1}])")
            return (dist_ins + 1, ops)
        elif min_dist == dist_del:
            ops = ops_del.copy()
            ops.append(f"del x[{i-1}]")
            return (dist_del + 1, ops)
        else:
            ops = ops_sub.copy()
            ops.append(f"x[{i-1}] = y[{j-1}]")
            return (dist_sub + 1, ops)

    _, operations = helper(len(x), len(y))
    return operations

def random_string(length):
    return ''.join(random.choice(string.ascii_letters) for _ in range(length))

def test_lev_dist_gen():
    for _ in range(5):
        x = random_string(random.randint(3, 10))
        y = random_string(random.randint(3, 10))
        print(f"x: {x}, y: {y}")
        commands = lev_dist_gen(x, y)
        print("Commands:")
        print('\n'.join(commands))
        print()

test_lev_dist_gen()

x: ViqTIA, y: QKyNeifxhA
Commands:
x[0] = y[0]
x.insert(1, y[1])
x.insert(1, y[2])
x.insert(1, y[3])
x.insert(1, y[4])
x[2] = y[6]
x[3] = y[7]
x[4] = y[8]

x: XIU, y: kCVGg
Commands:
x[0] = y[0]
x[1] = y[1]
x[2] = y[2]
x.insert(3, y[3])
x.insert(3, y[4])

x: VdsjRkPY, y: JJjaoxk
Commands:
x[0] = y[0]
x[1] = y[1]
del x[2]
x[4] = y[3]
x[5] = y[4]
x[6] = y[5]
x[7] = y[6]

x: TaBcyvw, y: sOYvM
Commands:
x[0] = y[0]
x[1] = y[1]
x[2] = y[2]
del x[3]
del x[4]
x[6] = y[4]

x: YalN, y: sSJePbhI
Commands:
x[0] = y[0]
x[1] = y[1]
x[2] = y[2]
x[3] = y[3]
x.insert(4, y[4])
x.insert(4, y[5])
x.insert(4, y[6])
x.insert(4, y[7])



**5.6.** (уровень сложности: средний)

Реализуйте простую систему проверки орфографии с помощью функции вычисления расстояния Левенштейна. Для работы потребуется [словарь русских слов с указанием частот встречаемости](data/words.txt).

Воспользуйтесь следующим методом:

1. Если слово найдено в словаре, то возвращаем его.
1. Если слово найдено среди словарных слов с расстоянием Левенштейна **равным 1**, то возвращаем самое популярное среди найденных слов.
1. Если слово найдено среди словарных слов с расстоянием Левенштейна **равным 2**, то возвращаем самое популярное среди найденных слов.
1. Если слово не найдено в словаре, то возвращаем его.

Пример работы:

```Python
>>> spell('помоему я напесал усё правильна')
по-моему я написал всё правильно
```

In [None]:
from functools import lru_cache

def load_dictionary(file_path):
    dictionary = {}
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            word, freq = line.strip().split()
            dictionary[word] = int(freq)
    return dictionary

dictionary = load_dictionary('data/words.txt')

@lru_cache(maxsize=None)
def levenshtein_distance(s1, s2):
    if len(s1) < len(s2):
        return levenshtein_distance(s2, s1)
    if len(s2) == 0:
        return len(s1)

    previous_row = range(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1
            deletions = current_row[j] + 1
            substitutions = previous_row[j] + (c1 != c2)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row
    return previous_row[-1]

def find_closest_words(word, max_distance=2):
    closest_words = []
    for dict_word in dictionary:
        distance = levenshtein_distance(word, dict_word)
        if distance <= max_distance:
            closest_words.append((dict_word, dictionary[dict_word], distance))

    if not closest_words:
        return None

    closest_words.sort(key=lambda x: (x[2], -x[1]))
    return closest_words[0][0]

def spell_check_word(word):
    if word in dictionary:
        return word

    closest_word = find_closest_words(word, 1)
    if closest_word:
        return closest_word

    closest_word = find_closest_words(word, 2)
    if closest_word:
        return closest_word

    return word

def spell(sentence):
    words = sentence.split()
    corrected_words = []
    for word in words:
        corrected_word = spell_check_word(word.lower())
        corrected_words.append(corrected_word)
    return ' '.join(corrected_words)

print(spell('помоему я напесал усё правильна'))

помоему я напесал усё правильна


**5.7.** (уровень сложности: высокий)

Доработайте систему проверки орфографии с помощью модифицированной функции расстояния Левенштейна, в которой учитываются:

* Замены сходных по написанию английских букв на русские.
* Перестановки пар соседних символов.

In [None]:
from functools import lru_cache

def load_dictionary(file_path):
    dictionary = {}
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            word, freq = line.strip().split()
            dictionary[word] = int(freq)
    return dictionary

dictionary = load_dictionary('data/words.txt')

SIMILAR_LETTERS = {
    'a': 'а', 'c': 'с', 'e': 'е', 'o': 'о',
    'p': 'р', 'x': 'х', 'y': 'у', 'k': 'к',
    'A': 'А', 'C': 'С', 'E': 'Е', 'O': 'О',
    'P': 'Р', 'X': 'Х', 'Y': 'У', 'K': 'К',
}

@lru_cache(maxsize=None)
def modified_levenshtein(s1, s2):
    len1, len2 = len(s1), len(s2)
    if len1 == 0:
        return len2
    if len2 == 0:
        return len1

    cost = 0
    if s1[0] != s2[0]:
        if (s1[0] in SIMILAR_LETTERS and SIMILAR_LETTERS[s1[0]] == s2[0]) or \
           (s2[0] in SIMILAR_LETTERS and SIMILAR_LETTERS[s2[0]] == s1[0]):
            cost = 0
        else:
            cost = 1

    distance = min(
        modified_levenshtein(s1[1:], s2) + 1,
        modified_levenshtein(s1, s2[1:]) + 1,
        modified_levenshtein(s1[1:], s2[1:]) + cost
    )

    if len1 > 1 and len2 > 1 and s1[0] == s2[1] and s1[1] == s2[0]:
        distance = min(distance, modified_levenshtein(s1[2:], s2[2:]) + 1)

    return distance

def find_closest_words(word, max_distance=2):
    closest_words = []
    for dict_word in dictionary:
        distance = modified_levenshtein(word, dict_word)
        if distance <= max_distance:
            closest_words.append((dict_word, dictionary[dict_word], distance))

    if not closest_words:
        return None

    closest_words.sort(key=lambda x: (x[2], -x[1]))
    return closest_words[0][0]

def spell_check_word(word):
    if word in dictionary:
        return word

    closest_word = find_closest_words(word, 1)
    if closest_word:
        return closest_word

    closest_word = find_closest_words(word, 2)
    if closest_word:
        return closest_word

    return word

def spell(sentence):
    words = sentence.split()
    corrected_words = []
    for word in words:
        corrected_word = spell_check_word(word.lower())
        corrected_words.append(corrected_word)
    return ' '.join(corrected_words)

print(spell("kак длеа"))
print(spell("otличnо"))

как дела
отлично


## 6. Генераторы текстов

**6.1.** (уровень сложности: низкий)

Реализуйте генератор докладов по цифровой экономике. Данные для генерации извлекаются из таблицы:

<table>
<tr>
<th>1</th>
<th>2</th>
<th>3</th>
<th>4</th>
<th>5</th>
</tr>
<tr>
<td>Коллеги,</td>
<td>парадигма цифровой экономики</td>
<td>открывает новые возможности для</td>
<td>дальнейшего углубления</td>
<td>знаний и компетенций.</td>
</tr>
<tr>
<td>В то же время,</td>
<td>контекст цифровой трансформации</td>
<td>выдвигает новые требования</td>
<td>бюджетного финансирования</td>
<td>непроверенных гипотез.</td>
</tr>
<tr>
<td>Однако,</td>
<td>диджитализация бизнес-процессов</td>
<td>несёт в себе риски</td>
<td>синергетического эффекта</td>
<td>волатильных активов.</td>
</tr>
<tr>
<td>Тем не менее,</td>
<td>прагматичный подход к цифровым платформам</td>
<td>расширяет горизонты</td>
<td>компрометации конфиденциальных</td>
<td>опасных экспериментов.</td>
</tr>
<tr>
<td>Следовательно,</td>
<td>совокупность сквозных технологий</td>
<td>заставляет искать варианты</td>
<td>универсальной коммодитизации</td>
<td>государственно-частных партнёрств.</td>
</tr>
<tr>
<td>Соответственно,</td>
<td>программа прорывных исследований</td>
<td>не оставляет шанса для</td>
<td>несанкционированной кастомизации</td>
<td>цифровых следов граждан.</td>
</tr>
<tr>
<td>Вместе с тем,</td>
<td>ускорение блокчейн-транзакций</td>
<td>повышает вероятность</td>
<td>нормативного регулирования</td>
<td>нежелательных последствий.</td>
</tr>
<tr>
<td>С другой стороны,</td>
<td>экспоненциальный рост Big Data</td>
<td>обостряет проблему</td>
<td>практического применения</td>
<td>внезапных открытий.</td>
</tr>
</table>

Придумайте способ автоматизировать извлечение данных таблицы из этого документа.

Доклад должен иметь корректное начало и несколько абзацев текста.

Пример доклада показан ниже:

```
Коллеги, совокупность сквозных технологий повышает вероятность нормативного регулирования опасных экспериментов. С другой стороны, совокупность сквозных технологий несёт в себе риски нормативного регулирования внезапных открытий. Тем не менее, совокупность сквозных технологий открывает новые возможности несанкционированной кастомизации опасных экспериментов.

Тем не менее, парадигма цифровой экономики открывает новые возможности практического применения цифровых следов граждан. Соответственно, совокупность сквозных технологий открывает новые возможности универсальной коммодитизации волатильных активов. Следовательно, программа прорывных исследований несёт в себе риски практического применения государственно-частных партнёрств.

Следовательно, ускорение блокчейн-транзакций расширяет горизонты универсальной коммодитизации знаний и компетенций. Вместе с тем, прагматичный подход к цифровым платформам не оставляет шанса для нормативного регулирования непроверенных гипотез. Следовательно, прагматичный подход к цифровым платформам повышает вероятность бюджетного финансирования волатильных активов.
```

In [None]:
table = '''
<table>
<tr>
<th>1</th>
<th>2</th>
<th>3</th>
<th>4</th>
<th>5</th>
</tr>
<tr>
<td>Коллеги,</td>
<td>парадигма цифровой экономики</td>
<td>открывает новые возможности для</td>
<td>дальнейшего углубления</td>
<td>знаний и компетенций.</td>
</tr>
<tr>
<td>В то же время,</td>
<td>контекст цифровой трансформации</td>
<td>выдвигает новые требования</td>
<td>бюджетного финансирования</td>
<td>непроверенных гипотез.</td>
</tr>
<tr>
<td>Однако,</td>
<td>диджитализация бизнес-процессов</td>
<td>несёт в себе риски</td>
<td>синергетического эффекта</td>
<td>волатильных активов.</td>
</tr>
<tr>
<td>Тем не менее,</td>
<td>прагматичный подход к цифровым платформам</td>
<td>расширяет горизонты</td>
<td>компрометации конфиденциальных</td>
<td>опасных экспериментов.</td>
</tr>
<tr>
<td>Следовательно,</td>
<td>совокупность сквозных технологий</td>
<td>заставляет искать варианты</td>
<td>универсальной коммодитизации</td>
<td>государственно-частных партнёрств.</td>
</tr>
<tr>
<td>Соответственно,</td>
<td>программа прорывных исследований</td>
<td>не оставляет шанса для</td>
<td>несанкционированной кастомизации</td>
<td>цифровых следов граждан.</td>
</tr>
<tr>
<td>Вместе с тем,</td>
<td>ускорение блокчейн-транзакций</td>
<td>повышает вероятность</td>
<td>нормативного регулирования</td>
<td>нежелательных последствий.</td>
</tr>
<tr>
<td>С другой стороны,</td>
<td>экспоненциальный рост Big Data</td>
<td>обостряет проблему</td>
<td>практического применения</td>
<td>внезапных открытий.</td>
</tr>
</table> '''

In [None]:
def extract_table_from_html(html_text):
    data = {1: [], 2: [], 3: [], 4: [], 5: []}

    rows = []
    start = 0
    while True:
        tr_start = html_text.find('<tr>', start)
        if tr_start == -1:
            break
        tr_end = html_text.find('</tr>', tr_start)
        rows.append(html_text[tr_start+4:tr_end])
        start = tr_end + 5

    for row in rows[1:]:
        cells = []
        cell_start = 0
        while True:
            td_start = row.find('<td>', cell_start)
            if td_start == -1:
                break
            td_end = row.find('</td>', td_start)
            cell_content = row[td_start+4:td_end]

            cells.append(cell_content.strip())
            cell_start = td_end + 5

        if len(cells) == 5:
            for i in range(5):
                data[i+1].append(cells[i])

    return data

class ReportGenerator:
    def __init__(self, table_data):
        self.table_data = table_data
        self.used_combinations = set()

    def generate_sentence(self):
        while True:
            combo = tuple(random.randrange(len(col)) for col in self.table_data.values())
            if combo not in self.used_combinations:
                self.used_combinations.add(combo)
                parts = [
                    self.table_data[1][combo[0]],
                    self.table_data[2][combo[1]],
                    self.table_data[3][combo[2]],
                    self.table_data[4][combo[3]],
                    self.table_data[5][combo[4]]
                ]
                return ' '.join(parts)

    def generate_report(self, paragraphs=3, sentences=3):
        report = []
        for _ in range(paragraphs):
            paragraph = []
            for _ in range(sentences):
                paragraph.append(self.generate_sentence())
            report.append(' '.join(paragraph))
        return '\n\n'.join(report)

In [None]:
import random

In [None]:
data = extract_table_from_html(table)
generator = ReportGenerator(data)
report = generator.generate_report()
print(report)

Тем не менее, диджитализация бизнес-процессов не оставляет шанса для нормативного регулирования нежелательных последствий. Тем не менее, диджитализация бизнес-процессов обостряет проблему дальнейшего углубления государственно-частных партнёрств. В то же время, прагматичный подход к цифровым платформам не оставляет шанса для компрометации конфиденциальных государственно-частных партнёрств.

С другой стороны, диджитализация бизнес-процессов несёт в себе риски несанкционированной кастомизации волатильных активов. Вместе с тем, экспоненциальный рост Big Data обостряет проблему несанкционированной кастомизации цифровых следов граждан. Вместе с тем, парадигма цифровой экономики обостряет проблему компрометации конфиденциальных опасных экспериментов.

Вместе с тем, ускорение блокчейн-транзакций несёт в себе риски бюджетного финансирования нежелательных последствий. Следовательно, экспоненциальный рост Big Data несёт в себе риски синергетического эффекта нежелательных последствий. В то же врем

**6.2.** (уровень сложности: ученый)

Придумайте и реализуйте алгоритм автоматического построения подобных таблиц на основе произвольного входного текста.

**6.3.** (уровень сложности: низкий)

Реализуйте генератор случайных данных ФИО. Список распространенных имен можно скачать из интернета. Фамилии необходимо генерировать самостоятельно – так, чтобы результат оказался не менее реалистичным, чем в примере ниже. Впрочем, можете попробовать генерировать и имена.

Примеры работы генератора:

```
Данил А. Фуций
Роман Д. Фецачли
Лев Ц. Шолодяк
Ильдар Ц. Тачасяк
Николай Р. Мугодич
Данила И. Табян
Семен Л. Черев
Самир Д. Тифомский
Тамерлан О. Гузянц
Святослав И. Набян
Герман З. Семидяк
Тамерлан К. Башко
Назар Ш. Кунарий
Степан Е. Гидский
Леонид Н. Сабин
```

In [None]:
import random

surname_endings = ['ов', 'ев', 'ин', 'ский', 'цкий', 'евский', 'ович', 'енко', 'чев', 'ын']

names = []
with open('data/names_rus.txt', 'r', encoding='utf-8') as names_file:
    names = [line.strip() for line in names_file]

def generate_surname():
    first_name = random.choice(names)
    surname_base = first_name[:-1]
    surname_ending = random.choice(surname_endings)
    return surname_base + surname_ending

def generate_full_name():
    first_name = random.choice(names)
    surname = generate_surname()
    patronymic = random.choice(names)
    middle_initial = patronymic[0]
    return f'{first_name} {middle_initial}. {surname}'

random_names = [generate_full_name() for _ in range(15)]
for name in random_names:
    print(name)

Кузьма Д. Виктоский
Юлий С. Христофоенко
Константин К. Никитович
Арам Р. Имрачев
Таврион В. Аристарын
Хокон Л. Криспичев
Эллиот Н. Октавиаенко
Фёдор А. Шамсуддиевский
Дино Д. Тиграский
Брячислав Т. Евриин
Михей С. Алеский
Донат П. Евтихиин
Якун Ф. Левев
Георгий А. Фульевский
Кратипп Ф. Рушаин


**6.4.** (уровень сложности: средний)

Реализуйте простую языковую модель. Обучение модели производится на входном тексте с указанием длины префикса – глубины «памяти» модели. Для каждого префикса, извлеченного из текста, определяется частота встречаемости следуемого за префиксом символа. Более строго говоря, языковая модель основана на применении марковских цепей заданного порядка.

Например, если текстом является «На дворе трава, на траве дрова», а префикс выбран длины 2:

```Python
{' д': {'в': 1, 'р': 1},
 ' н': {'а': 1},
 ' т': {'р': 2},
 ', ': {'н': 1},
 'На': {' ': 1},
 'а ': {'д': 1, 'т': 1},
 'а,': {' ': 1},
 'ав': {'а': 1, 'е': 1},
 'ва': {',': 1},
 'ве': {' ': 1},
 'во': {'р': 1},
 'дв': {'о': 1},
 'др': {'о': 1},
 'е ': {'д': 1, 'т': 1},
 'на': {' ': 1},
 'ов': {'а': 1},
 'ор': {'е': 1},
 'ра': {'в': 2},
 'ре': {' ': 1},
 'ро': {'в': 1},
 'тр': {'а': 2}}
```

Если же для того же текста выбрать префикс длины 4, то модель выглядит следующим образом:

```Python
{' дво': {'р': 1},
 ' дро': {'в': 1},
 ' на ': {'т': 1},
 ' тра': {'в': 2},
 ', на': {' ': 1},
 'На д': {'в': 1},
 'а дв': {'о': 1},
 'а тр': {'а': 1},
 'а, н': {'а': 1},
 'ава,': {' ': 1},
 'аве ': {'д': 1},
 'ва, ': {'н': 1},
 'ве д': {'р': 1},
 'воре': {' ': 1},
 'двор': {'е': 1},
 'дров': {'а': 1},
 'е др': {'о': 1},
 'е тр': {'а': 1},
 'на т': {'р': 1},
 'оре ': {'т': 1},
 'рава': {',': 1},
 'раве': {' ': 1},
 'ре т': {'р': 1},
 'трав': {'а': 1, 'е': 1}}
```

Далее по модели необходимо генерировать текст заданной длины:

1. Очередной символ генерируется с использованием существующего префикса. По префиксу случайно выбирается следующий за ним символ с учетом частот встречаемости. Этот символ и добавляется к результату. Случайный выбор должен быть взвешенным, см. на этот счет функцию в стандартной библиотеке Питона.
1. Далее из префикса удаляется самый старый символ, а в конец префикса добавляется только что случайно выбранный символ.

Для тестирования генератора можно использовать тексты [стихотворных произведений Пушкина](data/pushkin.txt).

Пример использования генератора для префикса длины 2:

```
ней то бов, чесно мит
Душоктям.
Безовамирать я продна людоходволишь иход,
Алединесвятвосиютсятномн в днасть
И подин
При негиных был на.
А сласы поэтоних и скому безда: оне вой обого стяк, зан.
О бесни це мнезорошладом: «Ость,
Добоже счальцаризна
Кого страв туп; опустой пииныхая, обколегкорывет.
Придалоник?..
Мы вый в столоных
Со своночью взордце.
Болье.
Препа
Сразарных шветхаяснебашипя не прет онье
Походит винуждеж ной несь –
От лее, суг мой онью я ней,
И друговольковел ждуша вны:
```

Пример использования генератора для префикса длины 5:

```
Вздыхала, как нежный?
Мария!
Опомнишь: в страданью крымских годованья
Стоная мгла недели Петрова,
И тихий солнце кровью
Спасти не пила,
Чтоб с неволе сводом туманен лунный стар и хлад;
Вставался.
Глядит на солнце подымался он удалился.
Все флаги в горько волен,
Когда молю: не ела,
Когда на месте вдруг,
Турецкой ранки,
А мы поедем;
Принесла таинственный набег опять узы стране робко сядем.
Удивлена,
Ужасный
В младой меркнет бездна!
Дон Гуан вам
Шутишь?
Лепорелло
Ай, ай!..
```

Пример использования генератора для префикса длины 10:

```
С тех пор, как умерла княжна,
Свершилось и ее страданье,
Где крепко с Вольностью святой
Законов мощных сочетанье;
Где всем простерт их твердый щит,
Где сжатый верными руками
Граждан над равными главами
Их меч без выбора скользит
И преступленью не причастна;
Я знаю: не твоя вина…
Итак, послушай: я прекрасна;
Во всем гареме ты одна
Могла б еще мне быть умней!
Но узнаю по всем приметам
Болезнь любви в душе моей угасла не совсем;
Но пусть она вас больше не тревожит;
Я не хочу печалить вас
```

In [None]:
import random

def build_markov_model(text, prefix_length):
    model = {}

    for i in range(len(text) - prefix_length):
        prefix = text[i:i+prefix_length]
        next_char = text[i+prefix_length]

        if prefix not in model:
            model[prefix] = {}

        if next_char not in model[prefix]:
            model[prefix][next_char] = 0

        model[prefix][next_char] += 1

    return model

def generate_text(model, prefix_length, length):
    words = text.split()
    start_word = random.choice(words)
    start_index = text.find(start_word)
    current_prefix = text[start_index:start_index + prefix_length]

    result = current_prefix

    for _ in range(length - prefix_length):
        if current_prefix not in model:
            break

        next_chars = model[current_prefix]
        total = sum(next_chars.values())

        next_char = random.choices(
            list(next_chars.keys()),
            weights=next_chars.values(),
            k=1
        )[0]

        result += next_char

        current_prefix = current_prefix[1:] + next_char

    return result

file_path = 'data/pushkin.txt'
with open(file_path, 'r', encoding='windows-1251') as f:
    text = f.read()

prefix_length = 5
generated_length = 500

model = build_markov_model(text, prefix_length)

generated_text = generate_text(model, prefix_length, generated_length)
print(generated_text)

воле, ни рассвета дом – и вот
Она горе той, чудно угадали; точно: силой!
Твой девочкой жадными ручьями;
Простить.
Герцог
Альбер
Что с вами,
Проснувшие дни,
Как они городный говорит: Послушливые звук,
И песню!
В дни надгробницу Эву:
Чтоб угости смешит,
Ночная мечтался,
В смятен. Езжали;
Нависли хладною душой;
Он сам король старого отец,
Давай улетай,
Не смел
Его я теперь готовилась, но по как-то взор,
Молву не дохнуть.
XXVII
Свои сомкнуты нет право всё. Татьяну в уголок,
Принесенный,
В надежно кр


**6.5.** (уровень сложности: средний)

Реализуйте алгоритм BPE (Byte Pair Encoding) для предварительной обработки текстов. Сравните результаты генерации цепью Маркова с помощью BPE и без него.

In [None]:
import re
from collections import defaultdict, Counter
from random import choices

def get_stats(vocab):
    pairs = defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pair = (symbols[i], symbols[i+1])
            pairs[pair] += freq
    return pairs

def merge_vocab(pair, vocab_in):
    vocab_out = {}
    a, b = pair
    merged = a + b
    pattern = re.compile(r'(?<!\S)' + re.escape(f'{a} {b}') + r'(?!\S)')

    for word, freq in vocab_in.items():
        new_word = pattern.sub(merged, word)
        vocab_out[new_word] = freq
    return vocab_out

def apply_bpe(text, num_merges):
    words = text.split()
    vocab = Counter(words)

    vocab = {' '.join(list(word)): freq for word, freq in vocab.items()}

    for _ in range(num_merges):
        pairs = get_stats(vocab)
        if not pairs:
            break
        best_pair = max(pairs, key=pairs.get)
        vocab = merge_vocab(best_pair, vocab)

    bpe_words = []
    for word in text.split():
        tokenized = ' '.join(list(word))
        for merged in vocab.keys():
            if tokenized in merged:
                tokenized = merged
                break
        bpe_words.append(tokenized.replace(' ', ''))

    return ' '.join(bpe_words)

def build_markov_model(text, prefix_length):
    model = defaultdict(Counter)
    text = text.split() if isinstance(text, str) else text

    for i in range(len(text)-prefix_length):
        prefix = tuple(text[i:i+prefix_length])
        next_word = text[i+prefix_length]
        model[prefix][next_word] += 1

    return model

def generate_text(model, prefix_length, length):
    if not model:
        return ""

    prefix = choices(list(model.keys()))[0]
    output = list(prefix)

    for _ in range(length):
        possible_next = model.get(prefix, {})
        if not possible_next:
            break

        next_word = choices(
            list(possible_next.keys()),
            weights=list(possible_next.values())
        )[0]

        output.append(next_word)
        prefix = tuple(output[-prefix_length:])

    return ' '.join(output)

In [None]:
bpe_text = apply_bpe(text, num_merges=100)

bpe_model = build_markov_model(bpe_text, prefix_length)

bpe_generated_text = generate_text(bpe_model, prefix_length, generated_length)

print("Сгенерировано по обычному тексту")
print(generated_text)
print("\nСгенерировано по тексту после BPE")
print(bpe_generated_text)

Сгенерировано по обычному тексту
воле, ни рассвета дом – и вот
Она горе той, чудно угадали; точно: силой!
Твой девочкой жадными ручьями;
Простить.
Герцог
Альбер
Что с вами,
Проснувшие дни,
Как они городный говорит: Послушливые звук,
И песню!
В дни надгробницу Эву:
Чтоб угости смешит,
Ночная мечтался,
В смятен. Езжали;
Нависли хладною душой;
Он сам король старого отец,
Давай улетай,
Не смел
Его я теперь готовилась, но по как-то взор,
Молву не дохнуть.
XXVII
Свои сомкнуты нет право всё. Татьяну в уголок,
Принесенный,
В надежно кр

Сгенерировано по тексту после BPE
стон; Ни прежних чувств, предрассуждений разговоров Сожженое мною не находит Закон. Ты преступленью не причастна; Я знаю: не твоя вина… Итак, послушай: сокройся прекрасна; Вольность всем гареме стыд одна Могла слабая еще мне быть опасна; Но сокройся для страсти рождена, Но стыд любить, как Крушится, не можешь; Зачем изнеженную хладной красотой Ты сердце слабое тревожишь? Оставь Гирея мне: тронах мой; На мне горят его лобзанья, 

## 7. Движок для текстовых игр

**7.1.** (уровень сложности: средний)

Мир простейших текстовых игр (книг-игр, Choose Your Own Adventure) состоит из множества комнат.

Каждая комната содержит:

* название,
* метку для перехода в эту комнату,
* описание комнаты,
* список действий со стороны игрока, приводящих к выводу сообщения и переходу в другую комнату по ее метке.

В рассматриваемом движке для описания игрового мира используется подмножество формата Markdown.

[Вот простейшая игра](data/game.md), реализованная таким образом.

Задача состоит в реализации разбора указанного формата, а также в реализации игрового процесса в режиме терминала. Разбор необходимо осуществлять построчно, с помощью регулярных выражений.

Ниже показан пример сеанса игры:

```
Начало лабиринта

Вы в начале лабиринта. Сможете ли из него выбраться?

1. Проход на запад.

> 1

...

Комната №2

Вы находитесь в комнате №2.

1. Проход на запад.
2. Проход на восток.

> 1

...

Комната №3

Вы находитесь в комнате №3.

1. Проход на север.
2. Проход на восток.

>
```

**7.2.** (уровень сложности: средний)

Вот еще один вариант игры [game.txt](data/game.txt), с более детальным описанием мира и другим форматом разметки. Реализуйте интерпретатор и для этого варианта игры.

**7.3.** (уровень сложности: средний)

Изобразите граф игрового мира с помощью генерации кода на языке Dot – представления инструмента Graphviz.

Пример вывода графа для [game.md](data/game.md):

![](data/game_md.png)

**7.4.** (уровень сложности: высокий)

Переработайте игровой движок таким образом, чтобы поддерживалась генерация html-проекта для игры в Web. Поддержите также вывод графики в формате игрового мира.

**7.5.** (уровень сложности: высокий)

Реализуйте инструмент для автоматической проверки игрового мира на наличие тупиков – мест, из которых нельзя добраться до завершения игры.

## 8. Утилиты командной строки

**8.1.** (уровень сложности: низкий)

Реализуйте аналог команды ls с помощью стандартной библиотеки Питона. Реализованная команда должна работать и в Windows, и в Linux. Поддержите как можно больше ключей ls. Для разбора аргументов командной строки используйте модуль [argparse](https://docs.python.org/3/library/argparse.html).

**8.2.** (уровень сложности: низкий)

Реализуйте утилиту командной строки, формирующую дерево каталогов и файлов с учетом произвольной вложенности и начиная с заданного пути. Результат должен быть выдан в виде текста в формате Graphviz.

**8.3.** (уровень сложности: средний)

Реализуйте утилиту командной строки, которая преобразует в Markdown-файле обычные кавычки в кавычки-елочки с учетом их парности. Внутри блоков кода кавычки необходимо оставлять без изменений. Если утилита была запущена без аргументов, то необходимо обрабатывать стандартный ввод.