**1. Сообщения составляются из алфавита a, b, c, d. Вероятность появления букв в текстах равна соответственно: pa = 0,2; pb = 0,3; pc = 0,4; pd = 0,1.
Найти избыточность сообщений, составленных из данного алфавита**

$$R = \log_2(n) - H(X)$$

где:
- $R$ - избыточность
- $\log_2(n)$ - максимальная энтропия (максимальное количество информации на символ), где $n$ - количество символов в алфавите
- $H(X)$ - средняя энтропия алфавита, определяемая как \( H(X) = - $\sum p_i \log_2(p_i)$

Для данного алфавита n=4 (a, b, c, d). По условию вероятности равны:
$p_a = 0,2, p_b = 0,3, p_c = 0,4, p_d = 0,1$

In [None]:
import math

def calcRedundancy(pa, pb, pc, pd):
    # Cредняя энтропия
    H = - (pa * math.log2(pa) + pb * math.log2(pb) + pc * math.log2(pc) + pd * math.log2(pd))

    # Максимальная энтропия
    logN = math.log2(4)

    return round(logN - H, 2)

redundancy = calcRedundancy(0.2, 0.3, 0.4, 0.1)
print(f"Избыточность сообщений: {redundancy}")


Избыточность сообщений: 0.15


**2. Чему равна минимальная длина кодовых слов для передачи 16,
128, 57, 10, 432 сообщений в восьмиричном и в двоичном кодах.**

Для определения минимальной длины кодовых слов для передачи сообщений, нам нужно рассмотреть количество возможных сообщений и кодировочную систему. Минимальная длина кодового слова $L$ определяется по формуле:

$$L = \lceil \log_b(n) \rceil$$

где:
- $n$ — количество сообщений.
- $b$ — основание системы счисления (2 для двоичной, 8 для восьмеричной).
- $\lceil x \rceil$ — округление до ближайшего целого числа вверх.

In [None]:
def minWordlen(n, base):
    return math.ceil(math.log(n, base))

messages = [16, 128, 57, 10, 432]

binLen = [minWordlen(msg, 2) for msg in messages]

octalLen = [minWordlen(msg, 8) for msg in messages]

print(f"Для двоичной системы: {binLen}")
print(f"Для восьмеричной системы: {octalLen}")

Для двоичной системы: [4, 7, 6, 4, 9]
Для восьмеричной системы: [2, 3, 2, 2, 3]


**3. Пусть алфавит источника содержит шесть элементов {А, Б, В, Г,
Д, Е}, появляющихся с вероятностями Р(А)=0,15, Р(В)=0,1, Р(Б)=0,25, Р(Г)=0,13,
Р(Д)=0,25, Р(Е)=0,12. Найти энтропию такого источника, среднее число символов
на одну букву при кодировании методом Ш-Ф**

Энтропия $H$ дискретного источника информации определяется как:

$$H(X) = - \sum p_i \log_2(p_i)$$

где $p_i$ — вероятность появления i-го символа алфавита.



Теперь, метод Шеннона-Фано (Ш-Ф) стремится минимизировать среднее количество символов на одну букву. Однако метод Шеннона-Фано не всегда гарантирует оптимальное кодирование, поскольку средняя длина кодового слова $L$ будет удовлетворять условию:

$$H(X) \leq L < H(X) + 1$$

Таким образом, среднее количество символов на одну букву при кодировании методом Шеннона-Фано будет лежать между $H(X)$ и $H(X) + 1$.


In [None]:
probabilities = {
    "А": 0.15,
    "Б": 0.25,
    "В": 0.1,
    "Г": 0.13,
    "Д": 0.25,
    "Е": 0.12
}

entropy = -sum(p * math.log2(p) for p in probabilities.values())

shannonFanoMin = entropy
shannonFanoMax = entropy + 1

print(f"Энтропия источника: {entropy:.2f}")
print(f"Среднее количество символов на одну букву при кодировании методом Ш-Ф: от {shannonFanoMin:.2f} до {shannonFanoMax:.2f}")


Энтропия источника: 2.49
Среднее количество символов на одну букву при кодировании методом Ш-Ф: от 2.49 до 3.49


**4. Закодировать методом Шеннона-Фано блоки «мы все учились понемногу чему-нибудь и как-нибудь». Каково среднее число символов на знак?**
\begin{array}{|c|c|c|c|c|c|c|c|c|c|}
\hline
\text{блок} & \text{мы} & \text{все} & \text{учились} & \text{понемногу} & \text{чему} & \text{нибудь} & \text{и} & \text{как} & \text{-} \\
\hline
\text{вероятность} & 0.37 & 0.13 & 0.125 & 0.08 & 0.06 & 0.052 & 0.023 & 0.11 & 0.05 \\
\hline
\end{array}


In [None]:
def shannonFanoCoding(probabilities: dict) -> dict:

    def splitProbabilities(probList):
        total = sum(prob for _, prob in probList)
        half = total / 2
        currentSum = 0
        index = 0

        for i, (_, prob) in enumerate(probList):
            currentSum += prob
            if currentSum >= half:
                index = i
                break

        return probList[:index + 1], probList[index + 1:]

    def recursiveCoding(probList, code=""):
        if len(probList) == 1:
            return {probList[0][0]: code}

        group1, group2 = splitProbabilities(probList)
        codes = {}

        codes.update(recursiveCoding(group1, code + "0"))
        codes.update(recursiveCoding(group2, code + "1"))

        return codes

    sortedProbabilities = sorted(probabilities.items(), key=lambda x: x[1], reverse=True)
    return recursiveCoding(sortedProbabilities)

probabilities = {
    "мы": 0.37,
    "все": 0.13,
    "учились": 0.125,
    "понемногу": 0.08,
    "чему": 0.06,
    "нибудь": 0.052,
    "и": 0.023,
    "как": 0.11,
    "-": 0.05
}

codes = shannonFanoCoding(probabilities)
averageLen = sum(len(code) * probabilities[block] for block, code in codes.items())

print("Коды для каждого блока:")
for block, code in codes.items():
    print(f"{block}: {code}")

print(f"\nСреднее количество символов на знак: {averageLen:.4f}")


Коды для каждого блока:
мы: 00
все: 01
учились: 1000
как: 1001
понемногу: 101
чему: 1100
нибудь: 1101
-: 1110
и: 1111

Среднее количество символов на знак: 2.9200


**5. Сообщение состоит из последовательности букв А, B и С, вероятности которых не зависят от предыдущего сочетания букв и равны Р(А)=0,7,
Р(В)=0,2, Р(С)=0,1. Провести кодирование по алгоритму Шеннона-Фано отдель-
45
ных букв и двухбуквенных сочетаний. Сравнить коды по их эффективности и избыточности**

In [None]:
def shannonFanoCoding(probabilities):
    sortedProbs = sorted(probabilities.items(), key=lambda x: x[1], reverse=True)
    codes = {}

    total = sum(prob for _, prob in sortedProbs)
    mid = total / 2
    currSum = 0
    i = 0

    while currSum < mid and i < len(sortedProbs):
        currSum += sortedProbs[i][1]
        i += 1

    for j in range(i):
        codes[sortedProbs[j][0]] = '0'

    for j in range(i, len(sortedProbs)):
        codes[sortedProbs[j][0]] = '1'

    return codes

singleProbs = {'A': 0.7, 'B': 0.2, 'C': 0.1}
codesSingle = shannonFanoCoding(singleProbs)
print(f"Коды для отдельных букв: codesSingle")


def shannon_fano_coding_extended(probabilities):
    sortedProbs = sorted(probabilities.items(), key=lambda x: x[1], reverse=True)
    codes = {}
    n = len(sortedProbs)

    for idx, (sym, _) in enumerate(sortedProbs):
        code = bin(idx)[2:]
        code = '0' * (len(bin(n-1)[2:]) - len(code)) + code
        codes[sym] = code

    return codes

doubleProbs = {a+b: singleProbs[a] * singleProbs[b] for a in singleProbs for b in singleProbs}
codesDouble = shannon_fano_coding_extended(doubleProbs)
print("Коды для двухбуквенных сочетаний:", codesDouble)
print()
print()


def entropy(probabilities):
    """Вычисляет энтропию источника."""
    return -sum(p * math.log2(p) for p in probabilities.values())

def averageCodeLen(codes, probabilities):
    """Вычисляет среднюю длину кода."""
    return sum(len(codes[symbol]) * probabilities[symbol] for symbol in codes)

def efficiency(codes, probabilities):
    """Вычисляет эффективность кодирования."""
    H = entropy(probabilities)
    avg_length = averageCodeLen(codes, probabilities)
    return avg_length / H

def redundancy(codes, probabilities):
    """Вычисляет избыточность кодирования."""
    return 1 - efficiency(codes, probabilities)



print("Для одиночных символов:")
print("Эффективность:", efficiency(codesSingle, singleProbs))
print("Избыточность:", redundancy(codesSingle, singleProbs))

print("\nДля двухбуквенных сочетаний:")
print("Эффективность:", efficiency(codesDouble, doubleProbs))
print("Избыточность:", redundancy(codesDouble, doubleProbs))


Коды для отдельных букв: {'A': '0', 'B': '1', 'C': '1'}
Коды для двухбуквенных сочетаний: {'AA': '0000', 'AB': '0001', 'BA': '0010', 'AC': '0011', 'CA': '0100', 'BB': '0101', 'BC': '0110', 'CB': '0111', 'CC': '1000'}


Для одиночных символов:
Эффективность: 0.8644688731151322
Избыточность: 0.1355311268848678

Для двухбуквенных сочетаний:
Эффективность: 1.7289377462302644
Избыточность: -0.7289377462302644


**6. Закодировать сообщение методом Шеннона-Фано «Теория информацииКодированияМодуляции».**

In [None]:
def shannonFanoAlgorithm(symbols, probabilities):
    if len(symbols) == 1:
        return {symbols[0]: '0'}

    total = sum(probabilities)
    half = total / 2

    currSum = 0
    index = 0

    while index < len(probabilities) and currSum < half:
        currSum += probabilities[index]
        index += 1

    leftSymbols = symbols[:index]
    rightSymbols = symbols[index:]

    leftProbs = probabilities[:index]
    rightProbs = probabilities[index:]

    leftCodes = shannonFanoAlgorithm(leftSymbols, leftProbs)
    rightCodes = shannonFanoAlgorithm(rightSymbols, rightProbs)

    for symbol in leftSymbols:
        leftCodes[symbol] = '0' + leftCodes[symbol]

    for symbol in rightSymbols:
        rightCodes[symbol] = '1' + rightCodes[symbol]

    leftCodes.update(rightCodes)
    return leftCodes

def shannonFanoCoding(message):
    # 1. Определение частоты каждого символа
    frequencies = {}
    for char in message:
        frequencies[char] = frequencies.get(char, 0) + 1

    # Нормализация частот для получения вероятностей
    total = len(message)
    probabilities = {char: freq/total for char, freq in frequencies.items()}

    # 2. Сортировка символов по их вероятностям в убывающем порядке
    sortedProbs = sorted(probabilities.items(), key=lambda x: x[1], reverse=True)

    symbols = [item[0] for item in sortedProbs]
    probs = [item[1] for item in sortedProbs]

    codes = shannonFanoAlgorithm(symbols, probs)

    return codes

message = "Теория информацииКодированияМодуляции"
codes = shannonFanoCoding(message)
encodedMessage = ''.join([codes[char] for char in message])

def splitList(probabilities):
    # Разделяет список вероятностей на две части с приближенно равной суммой
    total = sum(probabilities)
    leftSum = 0
    splitIndex = 0

    for i, prob in enumerate(probabilities):
        if leftSum + prob <= total / 2:
            leftSum += prob
            splitIndex = i
        else:
            break

    return splitIndex

def shannonFanoCoding(symbols, probabilities):
    # Рекурсивная функция для кодирования по методу Шеннона-Фано.
    if len(symbols) == 1:
        return {symbols[0]: ''}

    splitIndex = splitList(probabilities)

    leftSymbols = symbols[:splitIndex+1]
    rightSymbols = symbols[splitIndex+1:]
    leftProbs = probabilities[:splitIndex+1]
    rightProbs = probabilities[splitIndex+1:]

    leftCodes = shannonFanoCoding(leftSymbols, leftProbs)
    rightCodes = shannonFanoCoding(rightSymbols, rightProbs)

    for symbol in leftSymbols:
        leftCodes[symbol] = '0' + leftCodes[symbol]
        
    for symbol in rightSymbols:
        rightCodes[symbol] = '1' + rightCodes[symbol]

    leftCodes.update(rightCodes)
    return leftCodes

def shannonFanoDecoding(sequence, codes):
    # Декодирование последовательности по методу Шеннона-Фано.
    decodedSequence = ''
    currentCode = ''

    for bit in sequence:
        currentCode += bit
        for symbol, code in codes.items():
            if currentCode == code:
                decodedSequence += symbol
                currentCode = ''
                break

    return decodedSequence

symbols = ['A', 'B', 'C', 'D', 'E', 'F', 'G']
probabilities = [0.1, 0.2, 0.05, 0.3, 0.05, 0.15, 0.15]

sortedIndices = sorted(range(len(probabilities)), key=lambda k: probabilities[k], reverse=True)
sortedSymbols = [symbols[i] for i in sortedIndices]
sortedProbabilities = [probabilities[i] for i in sortedIndices]

codes = shannonFanoCoding(sortedSymbols, sortedProbabilities)
print("Коды Шеннона-Фано:", codes)

sequence = "10011101001000111101110101111000"
decoded_sequence = shannonFanoDecoding(sequence, codes)
print("Декодированная последовательность:", decoded_sequence)

print("Коды символов:", codes)
print("Закодированное сообщение:", encodedMessage)


Коды символов: {'и': '0000', 'о': '0010', 'р': '0100', 'я': '0110', 'н': '100000', 'а': '100010', 'ц': '10010', 'д': '10100', 'Т': '10110', 'е': '1100000', ' ': '1100010', 'ф': '110010', 'м': '110100', 'К': '110110', 'в': '111000', 'М': '111010', 'у': '111100', 'л': '111110'}
Закодированное сообщение: 1011011000000010010000000110110001000001000001100100010010011010010001010010000000001101100010101000000010000101110001000101000000000011011101000101010011110011111001101001000000000


**7. Построить код Шеннона-Фано для системы из семи букв: A, B, C,
D, E, F, G, вероятности появления которых соответственно 0,1; 0,2; 0,05; 0,3;
0,05; 0,15; 0,15. Определить среднее количество разрядов на одну букву. Декодировать этим кодом последовательность:
10011101001000111101110101111000.**

In [None]:
def splitProbabilities(probs):
    # Function to split the probabilities into two parts with nearly equal sums.
    total = sum(probs)
    halfTotal = total / 2
    currentSum = 0
    splitIndex = -1

    for i, prob in enumerate(probs):
        currentSum += prob
        if currentSum >= halfTotal:
            splitIndex = i
            break

    if splitIndex == len(probs) - 1:
        splitIndex -= 1

    return probs[:splitIndex + 1], probs[splitIndex + 1:]

def shannonFanoEncoding(chars, probs):
    # Function to generate Shannon-Fano encoding for the given characters and probabilities.
    if len(chars) == 1:
        return {chars[0]: ''}


    firstPartProbs, secondPartProbs = splitProbabilities(probs)

    splitIndex = len(firstPartProbs)
    firstPartChars, secondPartChars = chars[:splitIndex], chars[splitIndex:]

    firstPartEncoding = shannonFanoEncoding(firstPartChars, firstPartProbs)
    secondPartEncoding = shannonFanoEncoding(secondPartChars, secondPartProbs)

    for char in firstPartEncoding:
        firstPartEncoding[char] = '0' + firstPartEncoding[char]
    for char in secondPartEncoding:
        secondPartEncoding[char] = '1' + secondPartEncoding[char]

    return {**firstPartEncoding, **secondPartEncoding}

def shannonFanoDecode(encodedString, codes):
    """Function to decode a string using Shannon-Fano codes."""
    decodedString = ""
    
    while encodedString:
        for char, code in codes.items():
            if encodedString.startswith(code):
                decodedString += char
                encodedString = encodedString[len(code):]
                break
            
    return decodedString

characters = ['A', 'B', 'C', 'D', 'E', 'F', 'G']
probabilities = [0.1, 0.2, 0.05, 0.3, 0.05, 0.15, 0.15]

sortedIndices = sorted(range(len(probabilities)), key=lambda k: probabilities[k], reverse=True)
sortedCharacters = [characters[i] for i in sortedIndices]
sortedProbabilities = [probabilities[i] for i in sortedIndices]

shannonFanoCodes = shannonFanoEncoding(sortedCharacters, sortedProbabilities)


averageLen = round(sum(sortedProbabilities[i] * len(shannonFanoCodes[sortedCharacters[i]]) for i in range(len(sortedCharacters))), 2)

sequence = "10011101001000111101110101111000"
decodedSequence = shannonFanoDecode(sequence, shannonFanoCodes)

print(shannonFanoCodes)
print(f"Среднее количество разрядов на одну букву {averageLen}")
decodedSequence


{'D': '00', 'B': '01', 'F': '100', 'G': '101', 'A': '110', 'C': '1110', 'E': '1111'}
Среднее количество разрядов на одну букву 2.6


'FCFFBCCGCD'

**Контрольные вопросы**
1. Под кодированием сообщения понимают процесс преобразования информации из одной формы в другую, чтобы она могла быть передана или сохранена более эффективно. Примеры простейших кодовых сообщений включают шифрование буквами, цифрами или символами (например, A=1, B=2, C=3), а также использование морзянки для передачи текста через сигналы длины и промежутков.

2. Равномерные коды - это коды, в которых все символы имеют одинаковую длину кодовой комбинации. Например, кодирование букв английского алфавита в бинарные символы, где каждая буква кодируется одинаковым количеством битов (например, ASCII-кодировка).

3. Метод Шеннона-Фано - это метод кодирования, в котором символы сортируются по вероятности и затем делятся на две группы с приблизительно равной вероятностью. Затем каждая группа разделяется на подгруппы с более равными вероятностями, и этот процесс повторяется до получения кодов для каждого символа. Например, при кодировании символов "A", "B", "C" и "D" с вероятностями 0.4, 0.3, 0.2 и 0.1 соответственно, мы можем получить коды A=0, B=10, C=110 и D=111.

4. Процесс декодирования сообщения - это обратная операция, при которой кодовая комбинация преобразуется обратно в исходное сообщение. Например, если у нас есть кодовая комбинация 1011010, и мы знаем, что это кодирование по методу Шеннона-Фано, то мы можем декодировать это в исходное сообщение "BAC".

5. Избыточность кода означает, что для кодирования символа используется больше битов, чем минимально необходимо. Виды избыточности включают систематическую (где код включает исходное значение и дополнительные биты для обнаружения и исправления ошибок) и несистематическую (где код не содержит исходное значение). Избыточность помогает обнаруживать и исправлять ошибки при передаче данных.

6. Для вычисления длины кодовой комбинации можно использовать формулу:
   Длина = -log2(Вероятность)
   Например, если символ "A" имеет вероятность 0.4, то его длина будет -log2(0.4) ≈ 1.32 бита.

7. Сжатие информации при применении эффективного кодирования обеспечивается за счет того, что символы с более высокой вероятностью имеют более короткие кодовые комбинации, а символы с более низкой вероятностью имеют более длинные коды. Это позволяет передавать информацию более компактно.

8. Минимальная длина кодовой комбинации при применении эффективного кодирования определяется вероятностями символов. Символы с более высокой вероятностью имеют более короткие коды, а символы с более низкой вероятностью - более длинные.

9. Оптимальный код - это кодирование, при котором средняя длина кодовой комбинации минимальна и равна энтропии источника информации. Оптимальность кода определяется энтропией источника. Примером оптимального кода может служить код Хаффмана.

10. Избыточность кода полезна, когда необходимо обеспечить надежность передачи данных и возможность обнаружения и исправления ошибок. Например, в компьютерных сетях и при передаче данных через некачественные каналы связи используются избыточные коды для защиты информации от искажений и потерь данных.