# 파이썬에서 한글 처리(2) 
---
- 한글 자모를 결합하여 음절 완성
- 한글 음절에서 자모 분리
---
All rights reserved, 2021-2023 By **Youn-Sik Hong**. 수업 목적으로만 활용 가능.

- 파이썬에서는 utf-8 코드 체계를 사용    
    - utf-8 : unicode를 완벽하게 지원하는 코드 체계.
    - Unicode 문자코드 차트 : http://www.unicode.org/charts/
        - 한글은 East Asian Scripts의 Hangul Jamo에서 찾으면 됨.
- 파일을 읽어오거나 처리 결과를 파일로 저장할 때 문자열의 인코딩 방식에 맞는 변환이 필요.
    - decode : latin-2, utf-8 등으로 인코딩한 파일
        - 파이썬 내부로 가져올 때 unicode로 변환하는 과정.
    - encode : 파이썬 내부에서 처리한 unicode 문자열
        - utf-8, cp949 등으로 인코딩해서 파일로 저장하는 과정.

## 1. 한글 자모를 결합하여  음절 완성

In [None]:
# 초성: 19자
uni_choSung = ['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 
               'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']
# 중성: 21자
uni_joongSung = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 
                 'ㅘ', 'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ']
# 종성: 28자(맨 앞의 공백 문자는 받침 없음)
uni_jongSung = [' ', 'ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ', 'ㄹ', 
                 'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 'ㅁ', 'ㅂ', 
                 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

In [None]:
# 아래처럼 간단히 작성할 수 있음.
# uni_choSung = "ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ"
# uni_joongSung ="ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ"
# uni_jongSung = " ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ"

In [None]:
def get_index(ch_set, ch):
    lim = len(ch_set)
    for i in range(lim):
        if ch == ch_set[i]:
            return i
    return -1 #not found

In [None]:
def cal_uniCode10 (cho, joong, jong):
    i = j = k = 0
    i = get_index(uni_choSung, cho) #'초성'(cho)이 choSung 테이블에서 몇 번째 위치에 해당하는가?
    j = get_index(uni_joongSung, joong) 
    k = get_index(uni_jongSung, jong) 
    return i*21*28 + j*28 + k + 44032

In [None]:
full_name = []

#이름 첫 글자를 초,중,종성으로 분리 후 유니코드를 구함 
#예: 홍 -> "ㅎ','ㅗ','ㅇ'
n_first =  cal_uniCode10('ㅎ', 'ㅗ', 'ㅇ')
full_name.append(chr(n_first))

#이름 중간 글자를 초,중,종성으로 분리 후 유니코드를 구함
n_middle = cal_uniCode10('ㅇ', 'ㅠ', 'ㄴ')
full_name.append(chr(n_middle))

#이름 끝 글자를 초,중,종성으로 분리 후 유니코드를 구함  
n_last = cal_uniCode10('ㅅ', 'ㅣ', 'ㄱ')
full_name.append(chr(n_last))

print(full_name)

## 2. 한글 음절에서 자모 분리

In [None]:
def separateJamo (name):
    result = []
    
    for syllable in name:
        code = ord(syllable)
        if code >= 44032 and code <= 55203:          
        #if syllable >= '가' and syllable <= '힣':        
        #if re.match('[ㄱ-ㅎㅏ-ㅣ가-힣]', syllable) is not None:
            #code = ord(syllable) - 44032
            code -= 44032            
            jong = int(code % 28)
            
            code = int(code / 28)
            joong = int(code % 21)
            
            cho = int(code / 21)
            result.append(uni_choSung[cho])
            result.append(uni_joongSung[joong]) 
            result.append(uni_jongSung[jong])            
        else:
            result.append(syllable)
    print(result)

In [None]:
separateJamo('홍길동') #여러분 이름을 사용하세요