<a href="https://colab.research.google.com/github/SpellOnYou/100_Days_of_ML_Code/blob/master/code/decompose_hanguel_segment.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
import re
LEADING = 'ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ'
VOWEL = 'ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ'
TRAILING = 'ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ'
SEP_TRAILING = ["ㄱ", "ㄲ", "ㄱㅅ", "ㄴ", "ㄴㅈ", "ㄴㅎ", "ㄷ", "ㄹ", "ㄹㄱ", "ㄹㅁ", "ㄹㅂ", "ㄹㅅ", "ㄹㅌ", "ㄹㅍ", "ㄹㅎ", "ㅁ", "ㅂ", "ㅂㅅ", "ㅅ", "ㅆ", "ㅇ", "ㅈ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ"]
TCount = len(TRAILING) + 1
VTCount = len(VOWEL) * TCount

def decompose(text, s_null_coda_replacer = "", b_remove_non_hangeul=True,
 b_remove_onset_ieung=False, s_ieung_replacer = "", b_sep_trailing = True, b_return_tuple=False):
	# Try to return only if the type of the argument is a string
	if type(text) == str:
		try:
			if ord('가') <= ord(text) <= ord('힣'):
				# 한글 한 음절인 경우
				ind = ord(text) - ord('가')
				L = LEADING[ind // VTCount] # 초성
				if b_remove_onset_ieung and L == "ㅇ":
					L = s_ieung_replacer
				V = VOWEL[ind % VTCount // TCount] # 중성
				if b_sep_trailing:
					T = SEP_TRAILING[ind % TCount - 1] if ind % TCount else s_null_coda_replacer
				else:
					T = TRAILING[ind % TCount - 1] if ind % TCount else s_null_coda_replacer
				if b_return_tuple:
					return (L,V,T)
				else:
					return ''.join((L,V,T))
			else:
				# 한글 음절이 아닌 문자열인 경우
				return '' if b_remove_non_hangeul else text
		except:
			# 길이 2 이상의 문자열인 경우 ord()에서 TypeError 발생
			return ''.join(
				decompose(char, s_null_coda_replacer, b_remove_non_hangeul, b_remove_onset_ieung, s_ieung_replacer, b_sep_trailing)
					for char in text)
	else:
		return


def find_choseong(text):
	try:
		if ord('가') <= ord(text) <= ord('힣'):
			# 한글 한 음절인 경우
			ind = ord(text) - ord('가')
			L = LEADING[ind // VTCount] # 초성
			return L
	except:
		pass # 한글 한 음절이 아닌 경우
			
def find_jongseong(text):
	try:
		if ord('가') <= ord(text) <= ord('힣'):
			# 한글 한 음절인 경우
			ind = ord(text) - ord('가')
			if ind % TCount == 0:
				T = '' # 종성이 없을 경우
			else:
				T = TRAILING[ind % TCount - 1] # 종성
			return T
	except:
		pass # 한글 한 음절이 아닌 경우

In [0]:
sentences = ["있잖아, 여기서 일 년 전 이때쯤에 우린 세계 일주에 대해 말했고 캣파워를 듣고 있었지",
            "지금은 그때도 우리도 남지 않고 거리를 지나는 수많은 발자국만이 세차게 울리고 있어",
            "이제야 깨달았지 세상에게 난 견뎌내거나 파멸하거나 할 수밖에",
            "불확실한 나에게 이미 정해진 것은 방황 하나뿐이라는 걸"]


In [9]:
decompose(" ".join(sentences))

'ㅇㅣㅆㅈㅏㄴㅎㅇㅏㅇㅕㄱㅣㅅㅓㅇㅣㄹㄴㅕㄴㅈㅓㄴㅇㅣㄸㅐㅉㅡㅁㅇㅔㅇㅜㄹㅣㄴㅅㅔㄱㅖㅇㅣㄹㅈㅜㅇㅔㄷㅐㅎㅐㅁㅏㄹㅎㅐㅆㄱㅗㅋㅐㅅㅍㅏㅇㅝㄹㅡㄹㄷㅡㄷㄱㅗㅇㅣㅆㅇㅓㅆㅈㅣㅈㅣㄱㅡㅁㅇㅡㄴㄱㅡㄸㅐㄷㅗㅇㅜㄹㅣㄷㅗㄴㅏㅁㅈㅣㅇㅏㄴㅎㄱㅗㄱㅓㄹㅣㄹㅡㄹㅈㅣㄴㅏㄴㅡㄴㅅㅜㅁㅏㄴㅎㅇㅡㄴㅂㅏㄹㅈㅏㄱㅜㄱㅁㅏㄴㅇㅣㅅㅔㅊㅏㄱㅔㅇㅜㄹㄹㅣㄱㅗㅇㅣㅆㅇㅓㅇㅣㅈㅔㅇㅑㄲㅐㄷㅏㄹㅇㅏㅆㅈㅣㅅㅔㅅㅏㅇㅇㅔㄱㅔㄴㅏㄴㄱㅕㄴㄷㅕㄴㅐㄱㅓㄴㅏㅍㅏㅁㅕㄹㅎㅏㄱㅓㄴㅏㅎㅏㄹㅅㅜㅂㅏㄲㅇㅔㅂㅜㄹㅎㅘㄱㅅㅣㄹㅎㅏㄴㄴㅏㅇㅔㄱㅔㅇㅣㅁㅣㅈㅓㅇㅎㅐㅈㅣㄴㄱㅓㅅㅇㅡㄴㅂㅏㅇㅎㅘㅇㅎㅏㄴㅏㅃㅜㄴㅇㅣㄹㅏㄴㅡㄴㄱㅓㄹ'

In [10]:
decompose(" ".join(sentences),
          b_remove_non_hangeul=False)

'ㅇㅣㅆㅈㅏㄴㅎㅇㅏ, ㅇㅕㄱㅣㅅㅓ ㅇㅣㄹ ㄴㅕㄴ ㅈㅓㄴ ㅇㅣㄸㅐㅉㅡㅁㅇㅔ ㅇㅜㄹㅣㄴ ㅅㅔㄱㅖ ㅇㅣㄹㅈㅜㅇㅔ ㄷㅐㅎㅐ ㅁㅏㄹㅎㅐㅆㄱㅗ ㅋㅐㅅㅍㅏㅇㅝㄹㅡㄹ ㄷㅡㄷㄱㅗ ㅇㅣㅆㅇㅓㅆㅈㅣ ㅈㅣㄱㅡㅁㅇㅡㄴ ㄱㅡㄸㅐㄷㅗ ㅇㅜㄹㅣㄷㅗ ㄴㅏㅁㅈㅣ ㅇㅏㄴㅎㄱㅗ ㄱㅓㄹㅣㄹㅡㄹ ㅈㅣㄴㅏㄴㅡㄴ ㅅㅜㅁㅏㄴㅎㅇㅡㄴ ㅂㅏㄹㅈㅏㄱㅜㄱㅁㅏㄴㅇㅣ ㅅㅔㅊㅏㄱㅔ ㅇㅜㄹㄹㅣㄱㅗ ㅇㅣㅆㅇㅓ ㅇㅣㅈㅔㅇㅑ ㄲㅐㄷㅏㄹㅇㅏㅆㅈㅣ ㅅㅔㅅㅏㅇㅇㅔㄱㅔ ㄴㅏㄴ ㄱㅕㄴㄷㅕㄴㅐㄱㅓㄴㅏ ㅍㅏㅁㅕㄹㅎㅏㄱㅓㄴㅏ ㅎㅏㄹ ㅅㅜㅂㅏㄲㅇㅔ ㅂㅜㄹㅎㅘㄱㅅㅣㄹㅎㅏㄴ ㄴㅏㅇㅔㄱㅔ ㅇㅣㅁㅣ ㅈㅓㅇㅎㅐㅈㅣㄴ ㄱㅓㅅㅇㅡㄴ ㅂㅏㅇㅎㅘㅇ ㅎㅏㄴㅏㅃㅜㄴㅇㅣㄹㅏㄴㅡㄴ ㄱㅓㄹ'

In [11]:
decompose(" ".join(sentences),
          b_remove_non_hangeul=False,
          b_sep_trailing = False
         )

'ㅇㅣㅆㅈㅏㄶㅇㅏ, ㅇㅕㄱㅣㅅㅓ ㅇㅣㄹ ㄴㅕㄴ ㅈㅓㄴ ㅇㅣㄸㅐㅉㅡㅁㅇㅔ ㅇㅜㄹㅣㄴ ㅅㅔㄱㅖ ㅇㅣㄹㅈㅜㅇㅔ ㄷㅐㅎㅐ ㅁㅏㄹㅎㅐㅆㄱㅗ ㅋㅐㅅㅍㅏㅇㅝㄹㅡㄹ ㄷㅡㄷㄱㅗ ㅇㅣㅆㅇㅓㅆㅈㅣ ㅈㅣㄱㅡㅁㅇㅡㄴ ㄱㅡㄸㅐㄷㅗ ㅇㅜㄹㅣㄷㅗ ㄴㅏㅁㅈㅣ ㅇㅏㄶㄱㅗ ㄱㅓㄹㅣㄹㅡㄹ ㅈㅣㄴㅏㄴㅡㄴ ㅅㅜㅁㅏㄶㅇㅡㄴ ㅂㅏㄹㅈㅏㄱㅜㄱㅁㅏㄴㅇㅣ ㅅㅔㅊㅏㄱㅔ ㅇㅜㄹㄹㅣㄱㅗ ㅇㅣㅆㅇㅓ ㅇㅣㅈㅔㅇㅑ ㄲㅐㄷㅏㄹㅇㅏㅆㅈㅣ ㅅㅔㅅㅏㅇㅇㅔㄱㅔ ㄴㅏㄴ ㄱㅕㄴㄷㅕㄴㅐㄱㅓㄴㅏ ㅍㅏㅁㅕㄹㅎㅏㄱㅓㄴㅏ ㅎㅏㄹ ㅅㅜㅂㅏㄲㅇㅔ ㅂㅜㄹㅎㅘㄱㅅㅣㄹㅎㅏㄴ ㄴㅏㅇㅔㄱㅔ ㅇㅣㅁㅣ ㅈㅓㅇㅎㅐㅈㅣㄴ ㄱㅓㅅㅇㅡㄴ ㅂㅏㅇㅎㅘㅇ ㅎㅏㄴㅏㅃㅜㄴㅇㅣㄹㅏㄴㅡㄴ ㄱㅓㄹ'