In [1]:
import glob
from collections import Counter
import pandas as pd
import matplotlib.pyplot as plt
import unicodedata
import re

In [19]:
accent_letters = 'À Á Ả Ã Ạ Â Ầ Ấ Ẩ Ẫ Ậ Ă Ằ Ắ Ẳ Ẵ Ặ à á ả ã ạ â ầ ấ ẩ ẫ ậ ă ằ ắ ẳ ẵ ặ\
            È É Ẻ Ẽ Ẹ Ê Ề Ế Ể Ễ Ệ è é ẻ ẽ ẹ ê ề ế ể ễ ệ\
            đ\
            Ì Í Ỉ Ĩ Ị ì í ỉ ĩ ị\
            Ò Ó Ỏ Õ Ọ Ô Ồ Ố Ổ Ỗ Ộ Ơ Ờ Ớ Ở Ỡ Ợ ò ó ỏ õ ọ ô ồ ố ổ ỗ ộ ơ ờ ớ ở ỡ ợ\
            Ù Ú Ủ Ũ Ụ Ư Ừ Ứ Ử Ữ Ự ù ú ủ ũ ụ ư ừ ứ ử ữ ự\
            Ỳ Ý Ỷ Ỹ Ỵ ỳ ý ỷ ỹ ỵ'

for letter in accent_letters.split():
    print(letter, unicodedata.decomposition(letter))

À 0041 0300
Á 0041 0301
Ả 0041 0309
Ã 0041 0303
Ạ 0041 0323
Â 0041 0302
Ầ 00C2 0300
Ấ 00C2 0301
Ẩ 00C2 0309
Ẫ 00C2 0303
Ậ 1EA0 0302
Ă 0041 0306
Ằ 0102 0300
Ắ 0102 0301
Ẳ 0102 0309
Ẵ 0102 0303
Ặ 1EA0 0306
à 0061 0300
á 0061 0301
ả 0061 0309
ã 0061 0303
ạ 0061 0323
â 0061 0302
ầ 00E2 0300
ấ 00E2 0301
ẩ 00E2 0309
ẫ 00E2 0303
ậ 1EA1 0302
ă 0061 0306
ằ 0103 0300
ắ 0103 0301
ẳ 0103 0309
ẵ 0103 0303
ặ 1EA1 0306
È 0045 0300
É 0045 0301
Ẻ 0045 0309
Ẽ 0045 0303
Ẹ 0045 0323
Ê 0045 0302
Ề 00CA 0300
Ế 00CA 0301
Ể 00CA 0309
Ễ 00CA 0303
Ệ 1EB8 0302
è 0065 0300
é 0065 0301
ẻ 0065 0309
ẽ 0065 0303
ẹ 0065 0323
ê 0065 0302
ề 00EA 0300
ế 00EA 0301
ể 00EA 0309
ễ 00EA 0303
ệ 1EB9 0302
đ 
Ì 0049 0300
Í 0049 0301
Ỉ 0049 0309
Ĩ 0049 0303
Ị 0049 0323
ì 0069 0300
í 0069 0301
ỉ 0069 0309
ĩ 0069 0303
ị 0069 0323
Ò 004F 0300
Ó 004F 0301
Ỏ 004F 0309
Õ 004F 0303
Ọ 004F 0323
Ô 004F 0302
Ồ 00D4 0300
Ố 00D4 0301
Ổ 00D4 0309
Ỗ 00D4 0303
Ộ 1ECC 0302
Ơ 004F 031B
Ờ 01A0 0300
Ớ 01A0 0301
Ở 01A0 0309
Ỡ 01A0 0303
Ợ 01A0 0323
ò

In [30]:
unicodedata.normalize('NFC', 'đ')

'đ'

In [60]:
class Flattening():
    '''
    f_type: flatening type
        + type_1: ă, â, ê, ...
        + type_2: type_1 + {đ, ơ, ư}
    '''
    def __init__(self, f_type='type_1'):
        self.f_type = f_type
        self.accent2unicode = {'<6>': '\u0302', '<7>': '\u031B', '<8>': '\u0306', '<F>': '\u0300', \
                               '<S>': '\u0301', '<R>': '\u0309', '<X>': '\u0303', '<J>': '\u0323'}
        self.circumflex_unicodes = ['00C2', '00E2', '00CA', '00EA', '00D4', '00F4'] # â, Â, Ê, ...
        self.breve_unicodes = ['0102', '0103'] # ă, Ă
        self.underdot_unicodes = ['1EA0', '1EA1', '1EB8', '1EB9', '1ECC', '1ECD']
        self._7_unicodes = ['01A0', '01A1', '01AF', '01B0']
        self.accent_letters = 'À Á Ả Ã Ạ Â Ầ Ấ Ẩ Ẫ Ậ Ă Ằ Ắ Ẳ Ẵ Ặ à á ả ã ạ â ầ ấ ẩ ẫ ậ ă ằ ắ ẳ ẵ ặ\
        È É Ẻ Ẽ Ẹ Ê Ề Ế Ể Ễ Ệ è é ẻ ẽ ẹ ê ề ế ể ễ ệ\
        Ì Í Ỉ Ĩ Ị ì í ỉ ĩ ị\
        Ò Ó Ỏ Õ Ọ Ô Ồ Ố Ổ Ỗ Ộ Ơ Ờ Ớ Ở Ỡ Ợ ò ó ỏ õ ọ ô ồ ố ổ ỗ ộ ơ ờ ớ ở ỡ ợ\
        Ù Ú Ủ Ũ Ụ Ư Ừ Ứ Ử Ữ Ự ù ú ủ ũ ụ ư ừ ứ ử ữ ự\
        Ỳ Ý Ỷ Ỹ Ỵ ỳ ý ỷ ỹ ỵ'
        if self.f_type=='type_2':
            self.accent_letters += ' đ Đ'
        self.accent_letters = self.accent_letters.split()
    
    def get_unaccent(self, letter):
        letter = letter.encode('utf-8').decode('utf-8')
        if self.f_type == 'type_1':
            letter = re.sub(u'[àáảãạâầấẩẫậăằắẳẵặ]', 'a', letter)
            letter = re.sub(u'[ÀÁẢÃẠÂẦẤẨẪẬĂẰẮẲẴẶ]', 'A', letter)
            letter = re.sub(u'[èéẹẻẽêềếệểễ]', 'e', letter)
            letter = re.sub(u'[ÈÉẸẺẼÊỀẾỆỂỄ]', 'E', letter)
            letter = re.sub(u'[òóọỏõôồốộổỗ]', 'o', letter)
            letter = re.sub(u'[ÒÓỌỎÕÔỒỐỘỔỖ]', 'O', letter)
            letter = re.sub(u'[ơờớợởỡ]', 'ơ', letter)
            letter = re.sub(u'[ƠỜỚỢỞỠ]', 'Ơ', letter)
            letter = re.sub(u'[ìíịỉĩ]', 'i', letter)
            letter = re.sub(u'[ÌÍỊỈĨ]', 'I', letter)
            letter = re.sub(u'[ùúụủũ]', 'u', letter)
            letter = re.sub(u'[ÙÚỤỦŨ]', 'U', letter)
            letter = re.sub(u'[ưừứựửữ]', 'ư', letter)
            letter = re.sub(u'[ƯỪỨỰỬỮ]', 'Ư', letter)
            letter = re.sub(u'[ỳýỵỷỹ]', 'y', letter)
            letter = re.sub(u'[ỲÝỴỶỸ]', 'Y', letter)
            return letter
        elif self.f_type == 'type_2':
            letter = re.sub(u'đ', 'd', letter)
            letter = re.sub(u'Đ', 'D', letter)
            return ''.join(c for c in unicodedata.normalize('NFD', letter)\
                           if unicodedata.category(c) != 'Mn')
        else:
            raise ValueError('Should be: type_1 or type_2')

    def get_accents(self, letter):
        mark_accent, vowel_accent = None, None
        bi_unicode = unicodedata.decomposition(letter).split()

        if letter=='đ' or letter=='Đ':
            mark_accent = '<9>'
        elif bi_unicode[1]=='0302' or (bi_unicode[0] in self.circumflex_unicodes) or letter=='ậ' or letter=='Ậ':
            mark_accent = '<6>' # VNI '<CIRCUMFLEX>'
        elif bi_unicode[1]=='0306' or (bi_unicode[0] in self.breve_unicodes) or letter=='ặ' or letter=='Ặ':
            mark_accent = '<8>' # '<BREVE>'
        elif bi_unicode[1]=='031B' or (bi_unicode[0] in self._7_unicodes):
            mark_accent = '<7>'
            
        if letter=='đ' or letter=='Đ':
            vowel_accent = None
        elif bi_unicode[1]=='0300':
            vowel_accent = '<F>'
        elif bi_unicode[1]=='0301':
            vowel_accent = '<S>'
        elif bi_unicode[1]=='0303':
            vowel_accent = '<X>'
        elif bi_unicode[1]=='0309':
            vowel_accent = '<R>'
        elif bi_unicode[1]=='0323' or (bi_unicode[0] in self.underdot_unicodes):
            vowel_accent = '<J>'

        return mark_accent, vowel_accent

    def flatten_letter(self, letter):
        if letter not in self.accent_letters:
            return letter, None, None
        unaccent_letter = self.get_unaccent(letter)
        mark_accent, vowel_accent = self.get_accents(letter)
        return unaccent_letter, mark_accent, vowel_accent
    
    def flatten_word(self, word):
        flattened_word = ''
        for letter in word:
            unaccent_letter, mark_accent, vowel_accent = self.flatten_letter(letter)
            flattened_word = flattened_word + unaccent_letter + (mark_accent if mark_accent!= None else '')\
            + (vowel_accent if vowel_accent!= None else '')
        return flattened_word
    
    def invert(self, flattened_word):
        accent_word = ''
        letters = re.findall(r'[\w]|<.*?>', flattened_word)
        for letter in letters:
            if len(letter) == 1:
                accent_word = accent_word + letter
            else: # accent
                if letter == '<9>':
                    accent_word = accent_word[:-1] + ('đ' if accent_word=='d' else 'Đ')
                else:
                    accent_word = accent_word + self.accent2unicode[letter]
                accent_word = unicodedata.normalize('NFC', accent_word)
        return accent_word

In [61]:
flattening = Flattening(f_type='type_2')

# string1 = 'Chống dịch như chống giặc - Cả nước cùng chung tay'
string1 = 'quý hóa hoàn khoáng gì gìn đoán đứng lặng HĐND'
string2 = []
for word in string1.split():
    word = re.findall(r'\w+', word)[0]
    flattened_word = flattening.flatten_word(word)
    accent_word = flattening.invert(flattened_word)
    print(word, '-', flattened_word, '-', accent_word)
    string2.append(accent_word)
string2 = ' '.join(string2)

print('\n')
print(string1)
print(string2)
string1==string2 # punctuation->false

quý - quy<S> - quý
hóa - ho<S>a - hóa
hoàn - hoa<F>n - hoàn
khoáng - khoa<S>ng - khoáng
gì - gi<F> - gì
gìn - gi<F>n - gìn
đoán - d<9>oa<S>n - đoán
đứng - d<9>u<7><S>ng - đứng
lặng - la<8><J>ng - lặng
HĐND - HD<9>ND - HĐND


quý hóa hoàn khoáng gì gìn đoán đứng lặng HĐND
quý hóa hoàn khoáng gì gìn đoán đứng lặng HĐND


True

In [62]:
df = pd.read_csv('../data/VNOnDB/all_word.csv', sep='\t')
ground_truth = df.loc[:, 'label'].astype(str)
accent_words = []
for word in ground_truth:
    flattened_word = flattening.flatten_word(word)
    accent_word = flattening.invert(flattened_word)
    accent_words.append(accent_word)
    if word!=accent_word:
        print(word, '-', accent_word)
sum(ground_truth==accent_words)==len(ground_truth)

True