# 赫夫曼编码

我们平时在见到的汉字、英文、符号甚至表情等，都是用“utf-8”编码储存的。"utf-8"是8位2进制的变长码（也就是256进制），里面包含了ascii码。
比如python中的string，print出来是可读的字符串，但在内部存储的时候，是按照“utf-8”存储的。

In [3]:
# This is string object. 
text = "习近平新时代中国特色社会主义思想学习纲要"
print(text)
print(type(text))

习近平新时代中国特色社会主义思想学习纲要
<class 'str'>


我们可以将他编码成“utf-8”的byte序列，看下真实存储的样子。

In [4]:
# It can be encoded as utf-8 which is a common encoding for all the characters.
text_utf8 = bytes(text, encoding="utf-8")
print(text_utf8)
print(type(text_utf8))

b'\xe4\xb9\xa0\xe8\xbf\x91\xe5\xb9\xb3\xe6\x96\xb0\xe6\x97\xb6\xe4\xbb\xa3\xe4\xb8\xad\xe5\x9b\xbd\xe7\x89\xb9\xe8\x89\xb2\xe7\xa4\xbe\xe4\xbc\x9a\xe4\xb8\xbb\xe4\xb9\x89\xe6\x80\x9d\xe6\x83\xb3\xe5\xad\xa6\xe4\xb9\xa0\xe7\xba\xb2\xe8\xa6\x81'
<class 'bytes'>


这里序列开头的'b'代表是byte序列，'\x'代表是16进制表示，1 byte是8位2进制，代表从0到255的任意一个数，也可以表示成2位16进制。
这里'\x00'就表示0，'\xff'是255，16进制是用0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f来表示从0到15的。

In [5]:
# The character 'b' in front represents it is a byte array
# '\x' represents in 16bit representation, a byte is between 0 and 255.
# '\x00' is 0, '\xff' is 255. '\xf' is 15, '\xff' is '15-15' in 16bits, thus it is 255.
# For example
example_byte = b'\x00'
print(example_byte)
print(int.from_bytes(example_byte, "big"))

b'\x00'
0


In [6]:
example_byte = b'\xff'
print(example_byte)
print(int.from_bytes(example_byte, "big"))

b'\xff'
255


我们可以把编码后的序列'text_utf8'解码回原字符串。

In [7]:
# The encoded text can be decoded back to string
text_decode = text_utf8.decode("utf-8")
print(text_decode)
print(type(text_decode))

习近平新时代中国特色社会主义思想学习纲要
<class 'str'>


In [9]:
def read_txt(filename):
    with open(filename, 'r', encoding="utf-8") as f:
        read_data = f.read()
        return read_data
    return -1

file_content = read_txt('习近平新时代中国特色社会主义思想学习纲要节选.txt')
print(file_content)

习近平新时代中国特⾊社会主义思想学习纲要
习近平新时代中国特⾊社会主义思想是党和国家必须⻓期坚持的指导思想
2019年07⽉22⽇07:36 来源：⼈⺠⽹－⼈⺠⽇报
（1）中国共产党第⼗九次全国代表⼤会，把习近平新时代中国特⾊社会主义思想确⽴为党必须⻓期坚持的指导思想并庄严地写⼊党章，实现了党的指导思想的与时俱进。这是⼀个历史性决策和历史性贡献，体现了党在政治上理
论上的⾼度成熟、⾼度⾃信。第⼗三届全国⼈⺠代表⼤会第⼀次会议通过的宪法修正案，郑重地把习近平新时代中国特⾊社会主义思想载⼊宪法，实现了国家指导思想的与时俱进，反映了全国各族⼈⺠共同意志和全社会共同意
愿。习近平新时代中国特⾊社会主义思想，是新时代中国共产党的思想旗帜，是国家政治⽣活和社会⽣活的根本指针，是当代中国⻢克思主义、⼆⼗⼀世纪⻢克思主义。
（2）时代是思想之⺟，实践是理论之源。当代中国正经历着我国历史上最为⼴泛⽽深刻的社会变⾰，也正在进⾏着⼈类历史上最为宏⼤⽽独特的实践创新。中国特⾊社会主义进⼊新时代，这是⼀个需要理论⽽且⼀定能够产⽣理
论的时代，是⼀个需要思想⽽且⼀定能够产⽣思想的时代。
当今世界正在经历百年未有之⼤变局。世界多极化、经济全球化、社会信息化、⽂化多样化深⼊发展，全球治理体系和国际秩序变⾰加速推进，新兴市场国家和发展中国家快速崛起，国际⼒量对⽐更趋均衡，世界各国⼈⺠的命
运从未像今天这样紧紧相连。同时，世界⾯临的不稳定性不确定性突出，世界经济增⻓乏⼒，贸易保护主义、孤⽴主义、⺠粹主义等思潮不断抬头，贫富分化⽇益严重，地区热点问题此起彼伏，恐怖主义、⽹络安全、重⼤传染
性疾病、⽓候变化等⾮传统安全威胁持续蔓延。世界怎么了？应该怎么办？在这样⼤发展⼤变⾰⼤调整的背景下，以习近平同志为核⼼的党中央，为解决世界经济、国际安全、全球治理等⼀系列重⼤问题提供了新的⽅向、新的
⽅案、新的选择。中国发展理念、发展道路、发展模式的影响⼒、吸引⼒显著增强，中国⽇益发挥着世界和平建设者、全球发展贡献者、国际秩序维护者的重要作⽤，前所未有地⾛近世界舞台中央。习近平新时代中国特⾊社会
主义思想，正是在把握世界发展⼤势、应对全球共同挑战、维护⼈类共同利益的过程中创⽴并不断丰富发展的。
当代中国正处于近代以来最好的发展时期。在新中国成⽴以来特别是改⾰开放以来取得的重⼤成就基础上，我国发展站到了新的历史起点上。社

## 练习
本次上机需要编写256进制的Huffman码，对'习近平新时代中国特色社会主义思想学习纲要节选.txt'中的内容进行编码压缩。编码后的形式应为byte序列，即b''。编码后的编码字典形如
```
{'不': b'\xe3', '答': b'\xfd\xd0', '植': b'\xc5\xde', '，': b'\xfe'}
```
可能会用到整数转byte的函数`int.to_bytes(1, "big")`, 请自行查找其使用方法。

In [10]:
import numpy as np
from queue import PriorityQueue

# You can modify the code as what you want

class huffman_coding_in_byte:
    def __init__(self, text, bits=256):
        self.text = text
        self.bits = bits
        
        # you can store your encode and decode dict here
        words, probs = self.get_prob()
        q = PriorityQueue()
        for word, prob in zip(words, probs):
            q.put((prob, word))
        # n * (bits - 1) + 1
        if (q.qsize() - 1) % (self.bits - 1) != 0:
            for i in range(self.bits - (q.qsize() - 1) % (self.bits - 1) - 1):
                q.put((0, f'__{i}'))

        huffman_tree = self.search_huffman_tree(q)
        self.encode_dict = dict()
        self.decode_dict = dict()
        self.search_encode_decode_dict(huffman_tree)


    def make_code_by_cnt(self, cnt):
        if cnt < self.bits:
            return [cnt]
        last_bit = cnt % self.bits
        return self.make_code_by_cnt((cnt - last_bit) // self.bits) + [last_bit]

    def search_huffman_tree(self, q):
        now_node = []
        for i in range(self.bits):
            now_node.append(q.get())
            if q.qsize() == 0:
                return (1., now_node)
        now_prob = sum(i[0] for i in now_node)
        q.put((now_prob, now_node))
        return self.search_huffman_tree(q)
        
    def search_encode_decode_dict(self, huffman_tree, now_encode=[]):
        for cnt, node in enumerate(huffman_tree[1]):
            now_encode.append(cnt)
            if isinstance(node[1], str):
                self.encode_dict[node[1]] = bytes(np.uint8(now_encode))
                self.decode_dict[bytes(np.uint8(now_encode))] = node[1]
            else:
                self.search_encode_decode_dict(node, now_encode)
            now_encode.pop()
    
    # you can use this to find all the unique source with sorted prob.
    def get_prob(self):
        unique = np.array(list(set(self.text)))
        prob = np.array([self.text.count(u)/len(self.text) for u in unique])
        sort_idx = np.argsort(prob)[::-1]
        return list(unique[sort_idx]), list(prob[sort_idx])
    
    def encode(self):
        # encode the text with huffman coding
        encoded_text = b''.join([self.encode_dict[word] for word in self.text])
        return encoded_text
    
    def decode(self, encoded_text):
        # decode the encoded text
        now = 0
        now_decode = b''
        decoded_text = ''
        while now < len(encoded_text):
            now_decode += encoded_text[now].to_bytes(1, 'big')
            try:
                decoded_text += self.decode_dict[now_decode]
                now_decode = b''
            except Exception as e:
                pass
            now += 1
        return decoded_text
    
    

In [11]:
## test 1
# decoded text should be the same as the original text
my_huffman_coding = huffman_coding_in_byte(file_content)
encoded_text = my_huffman_coding.encode()
print(my_huffman_coding.encode_dict)
print(my_huffman_coding.decode(encoded_text))

{'执': b'\x00', '条': b'\x01', '然': b'\x02', '神': b'\x03', '紧': b'\x04', '续': b'\x05', '胜': b'\x06', '认': b'\x07', '记': b'\x08', '越': b'\t', '间': b'\n', '⼴': b'\x0b', '两': b'\x0c', '利': b'\r', '加': b'\x0e', '后': b'\x0f', '安': b'\x10', '康': b'\x11', '得': b'\x12', '未': b'\x13', '核': b'\x14', '牢': b'\x15', '献': b'\x16', '相': b'\x17', '程': b'\x18', '精': b'\x19', '纪': b'\x1a', '美': b'\x1b', '能': b'\x1c', '贡': b'\x1d', '过': b'\x1e', '造': b'\x1f', '验': b' ', '；': b'!', '军': b'"', '取': b'#', '央': b'$', '并': b'%', '济': b'&', '础': b"'", '等': b'(', '识': b')', '贯': b'*', '0': b'+', '⼋': b',', '⾏': b'-', '⾛': b'.', '严': b'/', '丰': b'0', '信': b'1', '年': b'2', '度': b'3', '握': b'4', '放': b'5', '段': b'6', '表': b'7', '质': b'8', '阶': b'9', ' ': b':', '1': b';', '2': b'<', '⼩': b'=', '与': b'>', '业': b'?', '使': b'@', '充': b'A', '列': b'B', '向': b'C', '步': b'D', '略': b'E', '路': b'F', '运': b'G', '须': b'H', '⽬': b'I', '也': b'J', '到': b'K', '制': b'L', '地': b'M', '增': b'N', '复': b'O', '多': b'P', '显': b'Q', '期': b'

In [12]:
## Test 2
utf_encoded_text = file_content.encode("utf-8")
print(len(utf_encoded_text), "my result is 28206")

28274 my result is 28206


In [13]:
print(len(encoded_text), "my result is 10816")

10884 my result is 10816
