<a href="https://colab.research.google.com/github/ElizaLo/Encoding/blob/master/Huffman%20Coding/Huffman_coding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Huffman Coding

## First simple solution

In [0]:
def huffman_encode(s):
  return {ch: ch for ch in s} # кодирует сам в себя (отображает каждый символ в соответствующий ему код)

In [34]:
def main():
  s = input()
  code = huffman_encode(s)
  # закодированная версия строки s 
  # отображает каждый симвом в соответствующий ему код
  encoded = "".join(code[ch] for ch in s)
  # len(code) - количество различных символов в строке s, словарь
  # len(encoded) - длина закодированной строки
  print("\nDictionary =", len(code), "\nLength of string =", len(encoded))
  # описываем как мы кодируем каждый символ
  print("\n")
  for ch in sorted(code):
    print("{}: {}".format(ch, code[ch]))
  print(encoded) # закодированная строка
  
  
if __name__ == "__main__":
  main()

abcdabcd

Dictionary = 4 
Length of string = 8


a: a
b: b
c: c
d: d
abcdabcd


## **Second Solution**

In [0]:
import heapq
from collections import Counter, namedtuple

In [0]:
class Node(namedtuple("Node", ["left", "right"])):
  def walk(self, code, acc): # code - префикс кода, который мы накопили спускаясь от корня к узлу/литу
      self.left.walk(code, acc + "0")
      self.right.walk(code, acc + "1")

In [0]:
class Leaf(namedtuple("Leaf", ["char"])):
  def walk(self, code, acc):
      code[self.char] = acc or "0"

In [0]:
def huffman_encode(s):
  h = []
  for ch, freq in Counter(s).items():
      h.append((freq, len(h), Leaf(ch)))
  
  # h = [(freq, Leaf(ch)) for ch, freq in Counter(s).items()]
  heapq.heapify(h)
  
  count = len(h)
  while len(h) > 1: # пока в очереди есть элем
    freq1, _count1, left = heapq.heappop(h) # достаём элем с минимальной частотой
    freq2, _count2, right = heapq.heappop(h)
    heapq.heappush(h, (freq1 + freq2, count, Node(left, right)))
    count += 1
    
  code = {}  
  if h:  
    [(_freq, _count, root)] = h # корень дерева
    root.walk(code,"")
  
  return code

In [16]:
def main():
  s = input()
  code = huffman_encode(s)
  # закодированная версия строки s 
  # отображает каждый симвом в соответствующий ему код
  encoded = "".join(code[ch] for ch in s)
  # len(code) - количество различных символов в строке s, словарь
  # len(encoded) - длина закодированной строки
  print("\nDictionary =", len(code), "\nLength of string =", len(encoded))
  # описываем как мы кодируем каждый символ
  print("\n")
  for ch in sorted(code):
    print("{}: {}".format(ch, code[ch]))
  print(encoded) # закодированная строка
  
  
if __name__ == "__main__":
  main()

abcabcd

Dictionary = 4 
Length of string = 14


a: 01
b: 10
c: 11
d: 00
01101101101100
