<a href="https://colab.research.google.com/github/sangsin/Introduction-to-Deep-Learning-with-Tensorflow-2.0-and-Keras/blob/main/num2word.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# num2words - Convert numbers to words in multiple languages

  - Install
      - Method 1
        > !pip install num2words
      - Method 2 (Git Clone)
        >
        > !git clone https://github.com/savoirfairelinux/num2words.git
        >
        > % cd /content/num2words
        >
        > !python setup.py install

In [None]:
# Install num2words package

!pip install num2words



In [None]:
from num2words import num2words
import re

In [None]:
num2words(25.867, lang='ko')

'이십오 점 팔 육 칠'

In [None]:
num2words(3456789023002, lang='ko')

'삼조 사천오백육십칠억 팔천구백이만 삼천이'

In [None]:
num2words(100, lang='ko')

'백'

In [None]:
num2words(127, lang='ko', ordinal=True)

'백 스물일곱 번째'

In [None]:
num2words(99, lang='ko', ordinal=True)

'아흔아홉 번째'

In [None]:
text = "Text with several ordinals such as 42nd, 31st, and 5th as well as plain numbers such as 1, 2, 3."
numbers = re.findall('(\d+)[st|nd|rd|th]', text)

for n in numbers:
     ordinalAsString = num2words(n, ordinal=True)
     print( ordinalAsString ) 

forty-second
thirty-first
fifth


In [None]:
def replace_ordinal_numbers(text):
    re_results = re.findall('(\d+(st|nd|rd|th))', text)
    for enitre_result, suffix in re_results:
        num = int(enitre_result[:-len(suffix)])
        text = text.replace(enitre_result, num2words(num, ordinal=True))
    return text


def replace_numbers(text):
    re_results = re.findall('\d+', text)
    for term in re_results:
        num = int(term)
        text = text.replace(term, num2words(num))
    return text


def convert_numbers(text):
    text = replace_ordinal_numbers(text)
    text = replace_numbers(text)
    return text

text = "Text with several ordinals such as 42nd, 31st, and 5th as well as plain numbers such as 1, 2, 3."
text = replace_ordinal_numbers(text)
text

'Text with several ordinals such as forty-second, thirty-first, and fifth as well as plain numbers such as 1, 2, 3.'

### 한국어 서수 관련 코드

  - 아래 단위 혹은 접사 앞의 숫자는 서수로 읽어야 한다.
    - 명|마디|마리|군데|차례|가지|번째|시간|발|대|개|곳|장|냥|푼|돈|말|되|채|척|톨|통|필|벌|통|대|알|살|판


In [None]:
ordinal_ko_pattern=  '(\d+(명|마디|마리|군데|차례|가지|번째|시간|발|대|개|곳|장|냥|푼|돈|말|되|채|척|톨|통|필|벌|통|대|알|살|판))'
ordinal_en_pattern= '(\d+)[st|nd|rd|th]'
int_pattern = re.compile(r'[0-9]+')
float_pattern = re.compile(r'[0-9]+[,\.][0-9]+')
ordinal_ko_pattern_compile = re.compile(ordinal_ko_pattern)

def replace_ko_ordinal_numbers(text):
    re_results = re.findall(ordinal_ko_pattern_compile, text)
    m = len(re_results)
    print(re_results)
    print(len(re_results))

    for i in range(m):
        matched, suffix = re_results[i]
        num = int(matched[:-len(suffix)])
        print('서수: ',num)
        print('서수 접사: ',suffix)
        print('서수파트: ',matched)
        
        new_num = num2words(num, ordinal=True, lang='ko') # .replace('번째','',1)

        # 숫자가 20 일때 처리: '스물' -> '스무'
        if(num==20):  # if n=20, '스물' -> '스무'
          new_num='스무'      

        # 숫자가 1일때 처리: 경우에 따라 '첫' 또는 '한'으로 변환
        if num==1:
          if suffix == '번째': 
            new_num='첫'
          else:
            new_num='한'
          
        print('New 서수 파트: ',new_num)

        print(text)
        text = text.replace(matched,new_num.replace('번째','')+suffix,1)

        print(text)
    return text


def replace_ko_numbers(text):
    # 소수 변환
    re_results = re.findall(float_pattern, text)
    for term in re_results:
        num = term
        print('기수: ',num)
        text = text.replace(term, num2words(num, lang='ko').replace('점',"쩜"),1)
    # 정수 변환
    re_results = re.findall(int_pattern, text)
    for term in re_results:
        num = term
        print('기수: ',num)
        text = text.replace(term, num2words(num, lang='ko'),1)

    return text


def convert_ko_numbers(text):
    text = replace_ko_ordinal_numbers(text)
    text = replace_ko_numbers(text)
    return text


In [None]:
text = "친구 72명을 초대했다. "
text = convert_ko_numbers(text)
print(text)

[('72명', '명')]
1
서수:  72
서수 접사:  명
서수파트:  72명
New 서수 파트:  일흔두 번째
친구 72명을 초대했다. 
친구 일흔두 명을 초대했다. 
친구 일흔두 명을 초대했다. 


In [None]:
text = '친구들이 생일 선물로 금 2돈을 주었다.'
print(convert_ko_numbers(text))

[('2돈', '돈')]
1
서수:  2
서수 접사:  돈
서수파트:  2돈
New 서수 파트:  두 번째
친구들이 생일 선물로 금 2돈을 주었다.
친구들이 생일 선물로 금 두 돈을 주었다.
친구들이 생일 선물로 금 두 돈을 주었다.


In [None]:
text = '오늘은 나의 25번째 생일날이다.'
print(convert_ko_numbers(text))

[('25번째', '번째')]
1
서수:  25
서수 접사:  번째
서수파트:  25번째
New 서수 파트:  스물다섯 번째
오늘은 나의 25번째 생일날이다.
오늘은 나의 스물다섯 번째 생일날이다.
오늘은 나의 스물다섯 번째 생일날이다.


In [None]:
text = '오늘은 나의 20번째 생일날이다.'
print(convert_ko_numbers(text))

[('20번째', '번째')]
1
서수:  20
서수 접사:  번째
서수파트:  20번째
New 서수 파트:  스무
오늘은 나의 20번째 생일날이다.
오늘은 나의 스무번째 생일날이다.
오늘은 나의 스무번째 생일날이다.


In [None]:
text = '오늘은 나의 81번째 생일날이다.'
print(convert_ko_numbers(text))

[('81번째', '번째')]
1
서수:  81
서수 접사:  번째
서수파트:  81번째
New 서수 파트:  여든한 번째
오늘은 나의 81번째 생일날이다.
오늘은 나의 여든한 번째 생일날이다.
오늘은 나의 여든한 번째 생일날이다.


In [None]:
text = '오늘은 나의 25번째 생일날이다. 친구 72명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 2돈을 주었다.'
print(convert_ko_numbers(text))

[('25번째', '번째'), ('72명', '명'), ('2돈', '돈')]
3
서수:  25
서수 접사:  번째
서수파트:  25번째
New 서수 파트:  스물다섯 번째
오늘은 나의 25번째 생일날이다. 친구 72명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 2돈을 주었다.
오늘은 나의 스물다섯 번째 생일날이다. 친구 72명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 2돈을 주었다.
서수:  72
서수 접사:  명
서수파트:  72명
New 서수 파트:  일흔두 번째
오늘은 나의 스물다섯 번째 생일날이다. 친구 72명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 2돈을 주었다.
오늘은 나의 스물다섯 번째 생일날이다. 친구 일흔두 명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 2돈을 주었다.
서수:  2
서수 접사:  돈
서수파트:  2돈
New 서수 파트:  두 번째
오늘은 나의 스물다섯 번째 생일날이다. 친구 일흔두 명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 2돈을 주었다.
오늘은 나의 스물다섯 번째 생일날이다. 친구 일흔두 명을 초대했다.친구들이 생일 선물로 현금 10만원과 금 두 돈을 주었다.
기수:  10
오늘은 나의 스물다섯 번째 생일날이다. 친구 일흔두 명을 초대했다.친구들이 생일 선물로 현금 십만원과 금 두 돈을 주었다.


In [None]:
text = '5만원권 10장이면 50만원이다.'
print(convert_ko_numbers(text))

[('10장', '장')]
1
서수:  10
서수 접사:  장
서수파트:  10장
New 서수 파트:  열 번째
5만원권 10장이면 50만원이다.
5만원권 열 장이면 50만원이다.
기수:  5
기수:  50
오만원권 열 장이면 오십만원이다.


In [None]:
text = '사격 시험은 10발을 쏘도록 되어 있고 명중 1발에 10점으로 10발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.'
print(convert_ko_numbers(text))

[('10발', '발'), ('1발', '발'), ('10발', '발'), ('1번째', '번째')]
4
서수:  10
서수 접사:  발
서수파트:  10발
New 서수 파트:  열 번째
사격 시험은 10발을 쏘도록 되어 있고 명중 1발에 10점으로 10발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
사격 시험은 열 발을 쏘도록 되어 있고 명중 1발에 10점으로 10발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
서수:  1
서수 접사:  발
서수파트:  1발
New 서수 파트:  한
사격 시험은 열 발을 쏘도록 되어 있고 명중 1발에 10점으로 10발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
사격 시험은 열 발을 쏘도록 되어 있고 명중 한발에 10점으로 10발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
서수:  10
서수 접사:  발
서수파트:  10발
New 서수 파트:  열 번째
사격 시험은 열 발을 쏘도록 되어 있고 명중 한발에 10점으로 10발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
사격 시험은 열 발을 쏘도록 되어 있고 명중 한발에 10점으로 열 발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
서수:  1
서수 접사:  번째
서수파트:  1번째
New 서수 파트:  첫
사격 시험은 열 발을 쏘도록 되어 있고 명중 한발에 10점으로 열 발을 모두 맞추면 100점이다. 나는 1번째로 쏘도록 배정이 되었다.
사격 시험은 열 발을 쏘도록 되어 있고 명중 한발에 10점으로 열 발을 모두 맞추면 100점이다. 나는 첫번째로 쏘도록 배정이 되었다.
기수:  10
기수:  100
사격 시험은 열 발을 쏘도록 되어 있고 명중 한발에 십점으로 열 발을 모두 맞추면 백점이다. 나는 첫번째로 쏘도록 배정이 되었다.


In [None]:
text = '100점이 만점이다.'
print(convert_ko_numbers(text))

[]
0
기수:  100
백점이 만점이다.


In [None]:
text=' 2016년 4.2%, 2017년 5.7%, 2018년 9.5%로 계속 높아지자 2019년 세수 추계 모형을 개선하고 오차율을 -0.5%까지 줄였다.'
print(convert_ko_numbers(text))

[]
0
기수:  4.2
기수:  5.7
기수:  9.5
기수:  0.5
기수:  2016
기수:  2017
기수:  2018
기수:  2019
 이천십육년 사 쩜 이%, 이천십칠년 오 쩜 칠%, 이천십팔년 구 쩜 오%로 계속 높아지자 이천십구년 세수 추계 모형을 개선하고 오차율을 -영 쩜 오%까지 줄였다.
