In [1]:
import re
from num2fawords import words, HUNDREDS, ordinal_words
from persian_tools import digits
import random

In [2]:
number_replaces = {
    "۰": ['0', '٠', '𝟢', '𝟬'],
    "۱": ['1', '١', '𝟣', '𝟭', '⑴', '⒈', '⓵', '①', '❶', '𝟙', '𝟷', 'ı', '¹'],
    "۲": ['2', '٢', '𝟤', '𝟮', '⑵', '⒉', '⓶', '②', '❷', '²', '𝟐', '𝟸', '𝟚', 'ᒿ', 'շ'],
    "۳": ['3', '٣', '𝟥', '𝟯', '⑶', '⒊', '⓷', '③', '❸', '³', 'ვ'],
    "۴": ['4', '٤', '𝟦', '𝟰', '⑷', '⒋', '⓸', '④', '❹', '⁴'],
    "۵": ['5', '٥', '𝟧', '𝟱', '⑸', '⒌', '⓹', '⑤', '❺', '⁵'],
    "۶": ['6', '٦', '𝟨', '𝟲', '⑹', '⒍', '⓺', '⑥', '❻', '⁶'],
    "۷": ['7', '٧', '𝟩', '𝟳', '⑺', '⒎', '⓻', '⑦', '❼', '⁷'],
    "۸": ['8', '٨', '𝟪', '𝟴', '⑻', '⒏', '⓼', '⑧', '❽', '⁸'],
    "۹": ['9', '٩', '𝟫', '𝟵', '⑼', '⒐', '⓽', '⑨', '❾', '⁹'],
    "۱۰": ['⑽', '⒑', '⓾', '⑩'],
    "۱۱": ['⑾', '⒒', '⑪'],
    "۱۲": ['⑿', '⒓', '⑫'],
    "۱۳": ['⒀', '⒔', '⑬'],
    "۱۴": ['⒁', '⒕', '⑭'],
    "۱۵": ['⒂', '⒖', '⑮'],
    "۱۶": ['⒃', '⒗', '⑯'],
    "۱۷": ['⒄', '⒘', '⑰'],
    "۱۸": ['⒅', '⒙', '⑱'],
    "۱۹": ['⒆', '⒚', '⑲'],
    "۲۰": ['⒇', '⒛', '⑳'],
}

In [3]:
shamsi_month = {
    "1":"فروردین",
    "2":"اردیبهشت",
    "3":"خرداد",
    "4":"تیر",
    "5":"مرداد",
    "6":"شهریور",
    "7":"مهر",
    "8":"آبان",
    "9":"آذر",
    "10":"دی",
    "11":"بهمن",
    "12":"اسفند",
}
miladi_month = {
    "1":"ژانویه",
    "2":"فوریه",
    "3":"مارس",
    "4":"آوریل",
    "5":"می",
    "6":"ژوئن",
    "7":"جولای",
    "8":"اوت",
    "9":"سپتامبر",
    "10":"اکتبر",
    "11":"نوامبر",
    "12":"دسامبر",
}
ghamari_month = {
    "1":"محرم",
    "2":"صفر",
    "3":"ربیع الاول",
    "4":"ربیع الثانی",
    "5":"جمادی الاول",
    "6":"جمادی الثانی",
    "7":"رجب",
    "8":"شعبان",
    "9":"رمضان",
    "10":"شوال",
    "11":"ذیقعده",
    "12":"ذیحجه",
}

In [4]:
def number_correction(word):
    for correct_form, wrong_forms in number_replaces.items():
        for wrong_character in wrong_forms:
            word = word.replace(wrong_character, correct_form)
    return word


In [5]:
def define_date_type(year):
    if len(year)==2:
        return "Shamsi"
    elif int(year) > 1400 and int(year)< 1500:
        return "Ghamari"
    elif int(year) > 1500:
        return "Miladi"
    else:
        return "Shamsi"

def select_templates(month_name, year, month, day):
    template_no = random.randint(0,9)
    switcher = {
        0: f"{ordinal_words(day)} {month_name[month]} سال {ConvertNumberToLetter(year)}",
        1: f"{ordinal_words(day)} {ConvertNumberToLetter(month)} سال {ConvertNumberToLetter(year)}",
        2: f"{ConvertNumberToLetter(day)} {month_name[month]} سال {ConvertNumberToLetter(year)}",
        3: f"{ConvertNumberToLetter(day)} {month_name[month]} ماه سال {ConvertNumberToLetter(year)}",
        4: f"{ordinal_words(day)}  {month_name[month]} ماه {ConvertNumberToLetter(year)}",
        5: f"{ConvertNumberToLetter(day)}  {month_name[month]} ماه {ConvertNumberToLetter(year)}",
        6: f"{ordinal_words(day)} {month_name[month]} {ConvertNumberToLetter(year)}",
        7: f"{ordinal_words(day)} {ConvertNumberToLetter(month)} {ConvertNumberToLetter(year)}",
        8: f"{ConvertNumberToLetter(day)} {month_name[month]} {ConvertNumberToLetter(year)}",
        9: f"{ConvertNumberToLetter(day)} {ConvertNumberToLetter(month)} {ConvertNumberToLetter(year)}",
    }
    return switcher.get(template_no)
    
    
def date_to_text(date_type, year, month, day):
    if date_type == "Shamsi":
        return select_templates(shamsi_month, year, month, day)
    elif date_type == "Ghamari":
        return select_templates(ghamari_month, year, month, day)
    elif date_type == "Miladi":
        return select_templates(miladi_month, year, month, day)
    
    

In [6]:
English_digits = '0123456789'
Persian_digits = '۰۱۲۳۴۵۶۷۸۹'
def ConvertNumberToLetter(line):
        newline = ''
        number = ''
        counter = 0
        for char in line:
            if (char in English_digits) or (char in Persian_digits):
                number += char
                if counter == len(line) - 1:
                    if len(number) == 4:
                        newline += words(number).replace('یک هزار', 'هزار')
                    else:
                        newline += words(number)
            else:
                if number:
                    if len(number) == 4:
                        newline += words(number).replace('یک هزار', 'هزار')
                    else:
                        newline += words(number)
                    number = ''
                newline += char
                if char == '\n':
                    break
            counter += 1
        return newline


In [7]:
def convert_date_to_text(sentence):
    match = None
    sentence = digits.convert_to_en(sentence)
    match1 = re.search(r'(\d+\s/\s\d+\s/\s\d+)', sentence)
    match1_1 = re.search(r'(\d+\s/\d+/\d+)', sentence)
    match1_2 = re.search(r'(\d+/\d+/\s\d+)', sentence)
    match1_3 = re.search(r'(\d+/\s\d+/\s\d+)', sentence)
    match2 = re.search(r'(\d+-\d+-\d+)', sentence)
    match3 = re.search(r'(\d+.\d+.\d+)', sentence)
    if match1:
        match = match1.group()
    elif match2:
        sentence = sentence.replace(match2.group(), match2.group().replace("-", "/"))
        match = match2.group().replace("-", "/")
    elif match3:
        sentence = sentence.replace(match3.group(), match3.group().replace(".", "/"))
        match = match3.group().replace(".", "/")
    elif match1_1:
        match = match1_1.group()
    elif match1_2:
        match = match1_2.group()
    elif match1_3:
        match = match1_3.group()
    if match:
        splited_date = match.split("/")
        splited_date_len = [len(part) for part in splited_date]
        if 4 == splited_date_len[0] and int(splited_date[1]) <= 12:
            # year4d/month/day
            year = splited_date[0]
            month = str(int(splited_date[1]))
            day = splited_date[2]
            date_type = define_date_type(year)
            sentence = sentence.replace(match, date_to_text(date_type, year, month, day))
        elif 4 == splited_date_len[2] and int(splited_date[1]) <= 12:
            # day/month/year4d
            year = splited_date[2]
            month = str(int(splited_date[1]))
            day = splited_date[0]
            date_type = define_date_type(year)
            sentence = sentence.replace(match, date_to_text(date_type, year, month, day))
        elif int(splited_date[1]) >= 7 and int(splited_date[1]) <= 12 and int(splited_date[0]) > 31:
            # year2d/month/day
            year = splited_date[0]
            month = str(int(splited_date[1]))
            day = splited_date[2]
            date_type = define_date_type(year)
            sentence = sentence.replace(match, date_to_text(date_type, year, month, day))
        elif int(splited_date[1]) <= 6 and int(splited_date[1]) <= 12 and int(splited_date[0]) >= 31:
            # year2d/month/day
            year = splited_date[0]
            month = str(int(splited_date[1]))
            day = str(int(splited_date[2]))
            date_type = define_date_type(year)
            sentence = sentence.replace(match, date_to_text(date_type, year, month, day))
        elif int(splited_date[1]) >= 7 and int(splited_date[1]) <= 12 and int(splited_date[2]) > 31:
            # day/month/year2d
            year = splited_date[2]
            month = str(int(splited_date[1]))
            day = str(int(splited_date[0]))
            date_type = define_date_type(year)
            sentence = sentence.replace(match, date_to_text(date_type, year, month, day))
        elif int(splited_date[1]) <= 6 and int(splited_date[1]) <= 12 and int(splited_date[2]) > 31:
             # day/month/year2d
            year = splited_date[2]
            month = str(int(splited_date[1]))
            day = str(int(splited_date[0]))
            date_type = define_date_type(year)
            sentence = sentence.replace(match, date_to_text(date_type, year, month, day))
    return number_correction(sentence)

In [8]:
sentences = [
    "1393/12/05 سلام",
    "۱۸/۱۲/۹۵",
    "۹۵/۸/۱۱",
    "۹۵/۸/۱۸",
    "۹۵/۰۳/۱۷",
    "۹۵/۱۲/۳۰",
    "۵/۳۰/۱۲",
    "89/12/7",
    "۱۰/۱۲/۸۹",
    "29/11/86",
    "۱۹/۵/۹۳",
    "۳۱/۴/۹۳",
    "۲۲/۵/۹۳",
    "۳/۱۱/۱۳۸۸",
    "۱۳۹۷/۳/۲۵",
    "۱/۱/۱۳۸۱",
    "۱۳۹۳/۰۱/۰۱",
    "۱۳۹۱/۱۱/۱",
    "۱۳۹۱/۱۱/۱۸",
    "۳۰/۹/۹۸",
    "۱/۱/۱۳۸۶",
    "۱/۷/۱۳۹۲",
    "۹/۴/۹۵",
    "۱۳۹۷/۰۲/۲۰",
    "۱/۱/۱۳۱۰",
    " ۲۹/۱۲/۱۳۲۸",
    "۱/۵/۱۳۹۵",
    "۱۳۹۶/۱۱/۳۰",
    "23/1/1949",
    "05/06/94",
    "08/06/94",
    "97/10/22",
    "۲۴/۰۷/۱۳۹۵",
    "۱۳۹۶/۰۴/۲۶",
    "97/06/25",
    "97/11/09",
    "٢ / ١١ / ١٣٩٧",
    " تاریخ ثبت فایل:۱۳۹۸/۰۳/۱۱…",
    "20/6/1387",
    "1396/8/21",
    "91/9/20",
    "25/10/1353",
    "19/2/1379",
    "23/12/1378",
    "10/6/1397",
    "97/6/10",
    "01/07/1396",
    "27 / 10 / 93",
    "1380.11.27",
    "1384.08.15",
    "01/03/96",
    "96/03/01",
    "14/09/1396",
    "21/2/88",
    "21/2/88",
    "08/08/ 1394",
    "04/ 10/ 1394",
    " از تاریخ 1398/01/04 در حال انجام میباشد",
    "8/3/1397",
    " شماره 3454/93/4/ش",
    " به تصویب مصوبه ای به شماره 6232/92/4/ش",
    "طبق پرونده شماره ۱۶/۲۰/۱۸۶۲",
    "1399 /5/2",
     "٢ / ١١ / ١٣٩٧",
    "2 / 11 / 1397",
    "۱۳۹۹ /۵/۲",
    "1399 /5/2",
    "08/08/ 1394",
    "08/08/ 1394",
    "04/ 10/ 1394",
]

In [9]:
for sentence in sentences:
    print(convert_date_to_text(sentence))

پنجم دوازده هزار و سیصد و نود و سه سلام
هجدهم اسفند نود و پنج
یازده آبان سال نود و پنج
هجده هشت نود و پنج
هفدهم سه سال نود و پنج
سیم  اسفند ماه نود و پنج
۵/۳۰/۱۲
هفتم اسفند سال هشتاد و نه
دهم دوازده هشتاد و نه
بیست و نهم  بهمن ماه هشتاد و شش
نوزده پنج نود و سه
نود و سه تیر سی و یک
بیست و دو مرداد سال نود و سه
سه بهمن هزار و سیصد و هشتاد و هشت
بیست و پنج سه هزار و سیصد و نود و هفت
یکم  فروردین ماه هزار و سیصد و هشتاد و یک
یک فروردین هزار و سیصد و نود و سه
یکم یازده سال هزار و سیصد و نود و یک
هجده یازده هزار و سیصد و نود و یک
سیم آذر نود و هشت
یکم  فروردین ماه هزار و سیصد و هشتاد و شش
یکم  مهر ماه هزار و سیصد و نود و دو
نه چهار نود و پنج
بیست  اردیبهشت ماه هزار و سیصد و نود و هفت
یکم فروردین هزار و سیصد و ده
 بیست و نه اسفند سال هزار و سیصد و بیست و هشت
یک  مرداد ماه هزار و سیصد و نود و پنج
سیم بهمن هزار و سیصد و نود و شش
بیست و سوم ژانویه هزار و نهصد و چهل و نه
پنجم شهریور سال نود و چهار
هشتم شش سال نود و چهار
بیست و دو دی سال نود و هفت
بیست و چهار مهر هزار و سیصد و نود و پنج
بیست و شش 