# Huffman Encoding

Examples for the Huffman encoding.

In [1]:
import logging
logging.basicConfig(level=logging.WARN,format='%(levelname)s - %(message)s')
logging.getLogger("huffman").setLevel(logging.DEBUG)
logging.getLogger("jupyter").setLevel(logging.DEBUG)
logger = logging.getLogger("jupyter")

In [2]:
%matplotlib inline
import huffman.huffman

Encode / Decode using the Huffmann encoding.

In [3]:
string = "AABABCABCD"
encoded_str, heap_node = huffman.huffman.huffman_encode(string)
decoded_str = huffman.huffman.huffman_decode(encoded_str, heap_node)

print(f"Original string : {string}")
print(f"Encoded string  : {encoded_str}")
print(f"Decoded string  : {decoded_str}")

DEBUG - Char occurrence: [('D', 1), ('C', 2), ('B', 3), ('A', 4)]
DEBUG - relativeFreqDict: {'A': 0.4, 'B': 0.3, 'C': 0.2, 'D': 0.1}
DEBUG - heap: [D: 0.10, C: 0.20, B: 0.30, A: 0.40]
DEBUG -   merging nodes: D: 0.10, C: 0.20 -> DC: 0.30
DEBUG -   merging nodes: B: 0.30, DC: 0.30 -> BDC: 0.60
DEBUG -   merging nodes: A: 0.40, BDC: 0.60 -> ABDC: 1.00
DEBUG - merged_heapnode: ABDC: 1.00
DEBUG - graph {
	ABDC [label="ABDC: 1.00" color="#00998A" fillcolor="#BFE5E2" style=filled]
	A [label="A: 0.40" color="#00998A" fillcolor="#BFE5E2" style=filled]
	ABDC -- A [label=1]
	BDC [label="BDC: 0.60" color="#00998A" fillcolor="#BFE5E2" style=filled]
	B [label="B: 0.30" color="#00998A" fillcolor="#BFE5E2" style=filled]
	BDC -- B [label=1]
	DC [label="DC: 0.30" color="#00998A" fillcolor="#BFE5E2" style=filled]
	D [label="D: 0.10" color="#00998A" fillcolor="#BFE5E2" style=filled]
	DC -- D [label=1]
	C [label="C: 0.20" color="#00998A" fillcolor="#BFE5E2" style=filled]
	DC -- C [label=0]
	BDC -- DC [lab

Original string : AABABCABCD
Encoded string  : 1 1 01 1 01 000 1 01 000 001 
Decoded string  : AABABCABCD


Let's use a more complicated example: Friedrich Schiller, Das Lied von der Glocke (1799).

In [4]:
import re

text = """
Fest gemauert in der Erden
Steht die Form, aus Lehm gebrannt.
Heute muss die Glocke werden
Frisch Gesellen, seid zur Hand.
Von der Stirne heiß
Rinnen muss der Schweiß,
Soll das Werk den Meister loben,
Doch der Segen kommt von oben.

Zum Werke, das wir ernst bereiten,
Geziemt sich wohl ein ernstes Wort;
Wenn gute Reden sie begleiten,
Dann fließt die Arbeit munter fort.
So lasst uns jetzt mit Fleiß betrachten,
Was durch die schwache Kraft entspringt,
Den schlechten Mann muss man verachten,
Der nie bedacht, was er vollbringt.
Das ist's ja, was den Menschen zieret,
Und dazu ward ihm der Verstand,
Dass er im innern Herzen spüret,
Was er erschafft mit seiner Hand.
""".replace("\n", " ")
text = re.sub('[^A-Za-z äüöÄÜÖß]', '', text)

encoded_str, heap_node = huffman.huffman.huffman_encode(text)
decoded_str = huffman.huffman.huffman_decode(encoded_str, heap_node)

print(f"Original string : ({len(text)} bytes) {text}")
print(f"Encoded string  : ({len( encoded_str.replace(' ', '') )//8 + 1} bytes) {encoded_str}")
print(f"Decoded string  : {decoded_str}")

DEBUG - Char occurrence: [('E', 1), ('L', 1), ('Z', 1), ('A', 1), ('K', 1), ('U', 1), ('ü', 1), ('V', 2), ('R', 2), ('j', 2), ('p', 2), ('G', 3), ('M', 3), ('v', 3), ('F', 4), ('H', 4), ('k', 4), ('ß', 4), ('f', 5), ('S', 6), ('z', 6), ('W', 6), ('D', 6), ('g', 7), ('w', 8), ('b', 9), ('u', 13), ('o', 14), ('l', 14), ('c', 15), ('m', 16), ('h', 19), ('d', 25), ('a', 27), ('i', 33), ('s', 39), ('t', 39), ('r', 42), ('n', 51), ('e', 89), (' ', 116)]
DEBUG - relativeFreqDict: {' ': 0.17984496124031008, 'F': 0.006201550387596899, 'e': 0.13798449612403102, 's': 0.06046511627906977, 't': 0.06046511627906977, 'g': 0.010852713178294573, 'm': 0.024806201550387597, 'a': 0.04186046511627907, 'u': 0.020155038759689922, 'r': 0.06511627906976744, 'i': 0.05116279069767442, 'n': 0.07906976744186046, 'd': 0.03875968992248062, 'E': 0.0015503875968992248, 'S': 0.009302325581395349, 'h': 0.02945736434108527, 'o': 0.021705426356589147, 'L': 0.0015503875968992248, 'b': 0.013953488372093023, 'H': 0.006201550

Original string : (645 bytes)  Fest gemauert in der Erden Steht die Form aus Lehm gebrannt Heute muss die Glocke werden Frisch Gesellen seid zur Hand Von der Stirne heiß Rinnen muss der Schweiß Soll das Werk den Meister loben Doch der Segen kommt von oben  Zum Werke das wir ernst bereiten Geziemt sich wohl ein ernstes Wort Wenn gute Reden sie begleiten Dann fließt die Arbeit munter fort So lasst uns jetzt mit Fleiß betrachten Was durch die schwache Kraft entspringt Den schlechten Mann muss man verachten Der nie bedacht was er vollbringt Das ists ja was den Menschen zieret Und dazu ward ihm der Verstand Dass er im innern Herzen spüret Was er erschafft mit seiner Hand 
Encoded string  : (348 bytes) 11 1010010 010 1001 1000 11 0000101 010 000000 00010 000111 010 0110 1000 11 1011 0010 11 00110 010 0110 11 0000100101 0110 00110 010 0010 11 0111000 1000 010 01111 1000 11 00110 1011 010 11 1010010 000011 0110 000000 11 00010 000111 1001 11 0000100100 010 01111 000000 11 0000101 010 011101 01

Example from script:

In [5]:
string = "mamabanamaramarambakarambalama"
encoded_str = huffman.huffman.huffman_encode(string, absoluteValues=True)
decoded_str = huffman.huffman.huffman_decode(encoded_str)

print(f"Original string : {string}")
print(f"Encoded string  : {encoded_str}")
print(f"Decoded string  : {decoded_str}")

DEBUG - Char occurrence: [('n', 1), ('k', 1), ('l', 1), ('b', 3), ('r', 3), ('m', 7), ('a', 14)]
DEBUG - relativeFreqDict: {'m': 7, 'a': 14, 'b': 3, 'n': 1, 'r': 3, 'k': 1, 'l': 1}
DEBUG - heap: [n: 1.00, b: 3.00, k: 1.00, a: 14.00, r: 3.00, m: 7.00, l: 1.00]
DEBUG -   merging nodes: n: 1.00, k: 1.00 -> nk: 2.00
DEBUG -   merging nodes: l: 1.00, nk: 2.00 -> lnk: 3.00
DEBUG -   merging nodes: b: 3.00, r: 3.00 -> br: 6.00
DEBUG -   merging nodes: lnk: 3.00, br: 6.00 -> lnkbr: 9.00
DEBUG -   merging nodes: m: 7.00, lnkbr: 9.00 -> mlnkbr: 16.00
DEBUG -   merging nodes: a: 14.00, mlnkbr: 16.00 -> amlnkbr: 30.00
DEBUG - merged_heapnode: amlnkbr: 30.00
DEBUG - graph {
	amlnkbr [label="amlnkbr: 30.00" color="#00998A" fillcolor="#BFE5E2" style=filled]
	a [label="a: 14.00" color="#00998A" fillcolor="#BFE5E2" style=filled]
	amlnkbr -- a [label=1]
	mlnkbr [label="mlnkbr: 16.00" color="#00998A" fillcolor="#BFE5E2" style=filled]
	m [label="m: 7.00" color="#00998A" fillcolor="#BFE5E2" style=filled]
	

TypeError: huffman_decode() missing 1 required positional argument: 'heap_node'