# 2바이트 한글 번역기


In [17]:
ba = None
with open('test.txt', 'rb') as f:
    ba = f.read()     
print(ba[:50])
print(len(ba))


b'123 abc\r\n\x88a\x90a\x94a\x9ca\xa0a\xa4a\xaca\xb4a\xb8a\xc0a\xc4a\xc8a\xcca\xd0a\r\n\x88a\x88\xa1\x88\xe1\x89a\x89\xa1\x8a'
249


## 2바이트 조합형 한글 읽기

In [18]:
def divideJaso(b1, b2):
    """
    한글 음절을 초성, 중성, 종성으로 분리

    :param b1: 한글 음절의 첫번째 바이트
    :param b2: 한글 음절의 두번째 바이트
    """
    if b1 & 0x80 == 0:
        raise Exception("b1, b2 is not Korean")
    
    b51 = (b1 >> 2) & 0x1F  # 처음 5비트
    b52 = (b1 & 0x03) << 3 | b2 >> 5 # 중간 5비트 (2 + 3비트)
    b53 = b2 & 0x1F # 마지막 5비트    
    return (b51, b52, b53)

## 초성중성조합 합치기

참고자료: 유니코드 테이블 확인 https://ko.wikipedia.org/wiki/%ED%95%9C%EA%B8%80_%EC%9D%8C%EC%A0%88


In [38]:
CHOREF = "ㄱㄲㄴㄷㄸㄻㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ"
CHOSUNG = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]
JUREF = "아애야얘어에여오와왜외우워위유으의이"
JUNGSUNG = [0, 1, 2, 3, 4, 5, 6, 5, 6, 7, 8, 9, 10, 11, 11, 11, 12, 13, 14, 15, 16, 17, 17, 17, 18, 19, 20, 22]
JOREF = "ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ"
JONGSUNG = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 17, 18, 20, 20, 21, 22, 24, 25, 26, 27, 28]

In [26]:
def composeHangul(b51, b52, b53):
        i1 = CHOSUNG[b51- 2]
        i2 = JUNGSUNG[b52 - 3]
        i3 = JONGSUNG[b53 - 1]        
        unicode = 0xAC00 + (i1 * 21 + i2) * 28 + i3
        print(b51, b52, b53, i1, i2, i3, chr(unicode))    
        return chr(unicode)

In [29]:

def readHan(ba):
    res = []
    i = 0
    while i < len(ba):
        # 첫 비트가 1이면 2바이트를 읽어 한글로 변환
        if ba[i] & 0x80:
            cho, jung, jong = divideJaso(ba[i], ba[i+1])
            han = composeHangul(cho, jung, jong) 
            res.append(han)
            i += 2
        else:
            res.append(chr(ba[i]))
            i += 1
    return "".join(res)

In [39]:
print(readHan(ba))

2 3 1 0 0 0 가
4 3 1 2 0 0 나
5 3 1 3 0 0 다
7 3 1 5 0 0 라
8 3 1 6 0 0 마
9 3 1 7 0 0 바
11 3 1 9 0 0 사
13 3 1 11 0 0 아
14 3 1 12 0 0 자
16 3 1 14 0 0 차
17 3 1 15 0 0 카
18 3 1 16 0 0 타
19 3 1 17 0 0 파
20 3 1 18 0 0 하
2 3 1 0 0 0 가
2 5 1 0 2 0 갸
2 7 1 0 4 0 거
2 11 1 0 6 0 겨
2 13 1 0 8 0 고
2 19 1 0 12 0 교
2 20 1 0 13 0 구
2 26 1 0 18 0 그
2 27 1 0 19 0 긔
2 29 1 0 21 0 까
2 3 2 0 0 1 각
2 3 5 0 0 4 간
2 3 8 0 0 7 갇
2 3 9 0 0 8 갈
2 3 17 0 0 16 감
2 3 19 0 0 17 갑
2 3 21 0 0 20 갔
2 3 23 0 0 21 강
2 3 24 0 0 22 갖
2 3 25 0 0 24 갘
2 3 26 0 0 25 같
2 3 27 0 0 26 갚
2 3 28 0 0 27 갛
2 3 29 0 0 28 개
2 3 1 0 0 0 가
3 3 1 1 0 0 까
4 3 1 2 0 0 나
5 3 1 3 0 0 다
6 3 1 4 0 0 따
7 3 1 5 0 0 라
8 3 1 6 0 0 마
9 3 1 7 0 0 바
10 3 1 8 0 0 빠
11 3 1 9 0 0 사
12 3 1 10 0 0 싸
13 3 1 11 0 0 아
14 3 1 12 0 0 자
15 3 1 13 0 0 짜
16 3 1 14 0 0 차
17 3 1 15 0 0 카
18 3 1 16 0 0 타
19 3 1 17 0 0 파
20 3 1 18 0 0 하
13 3 1 11 0 0 아
13 4 1 11 1 0 애
13 5 1 11 2 0 야
13 6 1 11 3 0 얘
13 7 1 11 4 0 어
13 10 1 11 5 0 에
13 11 1 11 6 0 여
13 12 1 11 7 0 예
13 1