In [28]:
import re

# 숫자 단어와 실제 숫자의 매핑
number_map = {
    'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4',
    'five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9',
    'ten': '10', 'eleven': '11', 'twelve': '12', 'thirteen': '13', 'fourteen': '14',
    'fifteen': '15', 'sixteen': '16', 'seventeen': '17', 'eighteen': '18', 'nineteen': '19',
    'twenty': '20', 'thirty': '30','forty': '40', 'fifty': '50', 'sixty': '60', 
    'seventy': '70', 'eighty': '80', 'ninety': '90',
    
}

# 숫자 단어를 숫자로 변환하는 함수
def convert_word_to_number(word):
    return int(number_map[word])


# thousand, hundred 가 모두 있는 경우만 처리
def replace_thousands_and_hundreds(text):
    # 정규식 패턴 정의
    pattern = re.compile(r'(\b(?:zero|one|two|three|four|five|six|seven|eight|nine)\sthousand\s(?:zero|one|two|three|four|five|six|seven|eight|nine)\shundred\b)')

    # 숫자 단어를 숫자로 변환하는 함수
    def convert_match(match):
        words = match.group(0).split()
        thousands = convert_word_to_number(words[0])
        hundreds = convert_word_to_number(words[2])
        return str(thousands * 1000 + hundreds * 100)

    return pattern.sub(convert_match, text)


# thousand 만 있는 경우 처리
def replace_thousands(text):
    # 정규식 패턴 정의
    pattern = re.compile(r'(\b(?:zero|one|two|three|four|five|six|seven|eight|nine)\sthousand\b)')

    # 숫자 단어를 숫자로 변환하는 함수
    def convert_match(match):
        words = match.group(0).split()
        thousands = convert_word_to_number(words[0])
        
        return str(thousands * 1000)

    return pattern.sub(convert_match, text)


# hundred 만 있는 경우 처리
def replace_hundreds(text):
    # 정규식 패턴 정의
    pattern = re.compile(r'(\b(?:zero|one|two|three|four|five|six|seven|eight|nine)\shundred\b)')

    # 숫자 단어를 숫자로 변환하는 함수
    def convert_match(match):
        words = match.group(0).split()
        hundreds = convert_word_to_number(words[0])
        
        return str(hundreds * 100)

    return pattern.sub(convert_match, text)


reverse_number_map = {
    '1': 'one', '2': 'two', '3': 'three', '4': 'four', '5': 'five',
    '6': 'six', '7': 'seven', '8': 'eight', '9': 'nine'
}
# forty five 등의 경우 four five 로 변환
def convert_big_numbers(text):
    # 숫자 단어들을 찾아 매핑을 통해 변환
    def replace_numbers(match):
        words = match.group(0).split()
        reverse_key = str(int(int(number_map[words[0]]) / 10))
        words[0] = reverse_number_map[reverse_key]
        return ' '.join(word for word in words)

    # 정규식을 사용하여 숫자 단어들의 패턴을 찾음
    pattern = re.compile(r'(?:ten|twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety)\s+(?:one|two|three|four|five|six|seven|eight|nine)')
    return pattern.sub(replace_numbers, text)


# 숫자 단어를 숫자로 변환하는 함수
def convert_words_to_numbers(text):
    # 숫자 단어들을 찾아 매핑을 통해 변환
    def replace_numbers(match):
        words = match.group(0).split()
        # 'decimal'을 포함한 경우 소수점으로 변환
        if 'decimal' in words:
            decimal_index = words.index('decimal')
            integer_part = ''.join(number_map[word] for word in words[:decimal_index])
            decimal_part = ''.join(number_map[word] for word in words[decimal_index+1:])
            return f"{integer_part}.{decimal_part}"
        else:
            return ''.join(number_map[word] for word in words)

    # 정규식을 사용하여 숫자 단어들의 패턴을 찾음
    pattern = re.compile(r'\b(?:zero|one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen|eighteen|nineteen|twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety|decimal)(?: (?:zero|one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen|eighteen|nineteen|twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety|decimal))*\b')
    return pattern.sub(replace_numbers, text)


# 떨어져 있는 숫자 붙이기
def attatch_numbers(text):
    result = re.sub(r'(\d)\s+(\d)', r'\1\2', text)
    return result

def convert(text):
    text = replace_thousands_and_hundreds(text)
    text = replace_thousands(text)
    text = replace_hundreds(text)
    text = convert_big_numbers(text)
    text = convert_words_to_numbers(text)
    text = attatch_numbers(text)
    return text

In [29]:
text = 'klm four seven one speed thirty four,test eight twenty five level three thousand two hundred, contact fifty three decimal seventy one. heading two thousand. nine hundred, three one four thousand'
convert(text)


'klm 471 speed 34,test 825 level 3200, contact 53.71. heading 2000. 900, 314000'