In [10]:
import pandas as pd

# NodeTree(): 이진 트리 객체 생성
class NodeTree(object):
    def __init__(self, left=None, right=None):
        self.left = left
        self.right = right
    def children(self):
        return (self.left, self.right)
    def nodes(self):
        return (self.left, self.right)
    def __str__(self):
        return '%s_%s' % (self.left, self.right)


# huffman_code_tree(): 허프만 코드 생성 함수
def huffman_code_tree(node, left=True, binString=''):
    if type(node) is str:
        return {node: binString}
    (l, r) = node.children()
    d = dict()
    # 왼쪽 자식노드로 향하면 '1' 저장
    # 오른쪽 자식노드로 향하면 '0' 저장
    d.update(huffman_code_tree(l, True, binString + '1'))
    d.update(huffman_code_tree(r, False, binString + '0'))
    return d

# 메인 함수
if __name__=="__main__":
    
    # '음절통계' 텍스트파일을 pandas dataframe으로 읽어와 빈도수 상위 100개 데이터만 선별
    data = pd.read_csv('음절통계.txt', sep = '\t', encoding = 'cp949')
    data_top100 = data.sort_values(by='순위', ascending=True)[:100]
    
    # freq: 음절에 대한 빈도수를 저장하는 딕셔너리
    freq = {}

    for i in range(100):
        char = data_top100.iloc[i][2]
        num = data_top100.iloc[i][1]
        freq[char] = num

    # 빈도수를 기준으로 정렬
    freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)
    
    # 변수 nodes: 상위 100개 데이터 딕셔너리 저장
    nodes = freq
    
    while len(nodes) > 1:
        (key1, c1) = nodes[-1]
        (key2, c2) = nodes[-2]
        nodes = nodes[:-2]
        node = NodeTree(key1, key2)
        nodes.append((node, c1 + c2))
        nodes = sorted(nodes, key=lambda x: x[1], reverse=True)

    huffmanCode = huffman_code_tree(nodes[0][0])
    
    # 허프만 코드 출력
    print(' Char  | Huffman code ')
    print('----------------------')
    for (char, frequency) in freq:
        print(' %-4r |%12s' % (char, huffmanCode[char]))

 Char  | Huffman code 
----------------------
 '이'  |        1011
 '다'  |       00000
 '는'  |       00100
 '의'  |       10000
 '에'  |       10010
 '을'  |       10100
 '고'  |       11010
 '가'  |       11011
 '하'  |       11101
 '지'  |       11111
 '로'  |      001100
 '한'  |      001101
 '그'  |      001111
 '은'  |      010000
 '서'  |      010010
 '기'  |      010011
 '어'  |      010101
 '도'  |      011011
 '나'  |      100010
 '를'  |      100110
 '사'  |      100111
 '아'  |      101010
 '리'  |      110001
 '있'  |      110010
 '자'  |      110011
 '들'  |      111100
 '대'  |      111101
 '으'  |     0000101
 '인'  |     0000110
 '시'  |     0001000
 '해'  |     0001011
 '라'  |     0001101
 '것'  |     0001110
 '수'  |     0010100
 '니'  |     0010110
 '게'  |     0010111
 '정'  |     0011101
 '보'  |     0101101
 '일'  |     0110001
 '적'  |     0110011
 '만'  |     0110101
 '부'  |     0111011
 '주'  |     0111100
 '과'  |     0111101
 '제'  |     0111110
 '면'  |     1000111
 '었'  |     1010110
 '전'  |     10