In [41]:
import math
from collections import Counter, namedtuple

def huffmanTree(s):
    stack = Counter(s).most_common()
    while len(stack) > 2:
        a, b, c = sorted([stack.pop(), stack.pop(), stack.pop()], key=lambda x: x[1])
        stack.append(c)
        d = ((a,b), a[1] + b[1])
        stack.append(d)
    return ((stack[0], stack[1]), stack[0][1] + stack[1][1])

def huffCodes(s):
    tree = huffmanTree(s)
    stack = [(huffmanTree(s), '')]
    result = {}
    while len(stack):
        node, code = stack.pop()
        children, weight = node
        if isinstance(children, tuple):
            stack.append((children[0], code + '0'))
            stack.append((children[1], code + '1'))
        else:
            result[children] = code
        
    return result

EfficiencyScore = namedtuple('EfficiencyScore', ['huffEncodedBitSize', 'normalCharacterBitSize', 'normalBitSize', 'difference'])
def huffEfficiency(A):
    codes = huffCodes(A)
    huffEncoded = "".join([codes[c] for c in A])
    si = int(math.sqrt(len(set(A))))
    hebs, nbs = len(huffEncoded), (si * len(A))
    return EfficiencyScore(hebs, si, nbs, nbs - hebs)
    
text = 'there once was a doll that lived in the street.'
huffEfficiency(text)

EfficiencyScore(huffEncodedBitSize=187, normalCharacterBitSize=4, normalBitSize=188, difference=1)

In [42]:
A = '''
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nullam pretium laoreet hendrerit. Aenean id diam neque. Donec vestibulum velit ut dolor pulvinar, ut posuere neque dapibus. Morbi pretium quis lectus non vestibulum. Nunc consectetur auctor placerat. Donec non diam porttitor, euismod lacus quis, bibendum tortor. Vivamus venenatis dui magna, tristique scelerisque purus luctus sit amet.

Integer egestas faucibus massa, tincidunt dictum diam porttitor sit amet. Aenean eu varius neque. Donec congue orci sit amet faucibus lobortis. Donec posuere enim a enim maximus, quis rhoncus lorem ullamcorper. Morbi scelerisque, mauris non aliquam cursus, quam odio venenatis ligula, vel suscipit neque ante interdum est. In auctor ullamcorper gravida. Phasellus porttitor rutrum risus, eget sollicitudin nisl semper at. Sed vitae varius velit. In maximus ornare nisl in venenatis. In hac habitasse platea dictumst.

In a risus at lectus dignissim porta sit amet sed magna. Cras pharetra est in posuere pretium. Nulla blandit purus eu euismod porta. Donec tempor mattis efficitur. Vivamus maximus enim vel elementum rutrum. Duis odio nulla, bibendum eget eleifend id, suscipit eget justo. Maecenas pellentesque commodo tortor id maximus. Fusce non euismod dui. Donec ornare cursus eros et gravida. Mauris convallis libero eget sagittis maximus. Mauris pretium elit mi, id pellentesque dolor rhoncus cursus. Quisque vitae eros id felis volutpat sollicitudin.

Aliquam a vehicula mauris, eget facilisis elit. Mauris ac aliquet nisl, sagittis tincidunt urna. Sed quis dictum massa. Praesent ornare neque tortor, in vehicula augue sodales ut. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Cras pharetra, nisl non volutpat gravida, mi lacus eleifend sem, ac porttitor lectus risus non turpis. Nulla eget sollicitudin nisi. Sed vitae interdum arcu. Sed orci quam, pharetra eget aliquam id, gravida a risus. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elementum semper libero, vel tempus erat rutrum at. Morbi malesuada neque non eros porttitor, at sagittis neque rhoncus. In lobortis consectetur quam nec pellentesque. Phasellus sit amet lorem ut sem mattis fermentum eget tempus justo. Curabitur accumsan ipsum enim. Morbi urna nisi, blandit ac pulvinar vel, tempus eu nibh.
'''

huffEfficiency(A)

EfficiencyScore(huffEncodedBitSize=11880, normalCharacterBitSize=6, normalBitSize=13986, difference=2106)