In [2]:
import os
import random
import pandas as pd
from sklearn.model_selection import train_test_split

In [3]:
#error functions
def introduce_typo(word):
    if len(word) > 1:
        pos = random.randint(0, len(word) - 1)
        return word[:pos] + random.choice('abcdefghijklmnopqrstuvwxyz') + word[pos + 1:]
    return word

def replace_accent(word):
    accents = {'a': 'áàảãạâấầẩẫậăắằẳẵặ', 'e': 'éèẻẽẹêếềểễệ', 'i': 'íìỉĩị', 
               'o': 'óòỏõọôốồổỗộơớờởỡợ', 'u': 'úùủũụưứừửữự', 'y': 'ýỳỷỹỵ'}
    for char in word:
        if char in accents:
            word = word.replace(char, random.choice(accents[char]))
    return word

def typo_phonetic(word):
    phonetic_dict = {'ch': 'tr', 'tr': 'ch', 's': 'x', 'x': 's', 'r': 'd', 'd': 'r'}
    for k, v in phonetic_dict.items():
        if k in word:
            return word.replace(k, v)
    return word

def split_word(word):
    if len(word) > 3:
        pos = random.randint(1, len(word) - 2)
        return word[:pos] + ' ' + word[pos:]
    return word

def merge_words(words):
    if len(words) > 1:
        pos = random.randint(0, len(words) - 2)
        return words[:pos] + [words[pos] + words[pos + 1]] + words[pos + 2:]
    return words

In [7]:
#Getting text from data collection
def get_texts(texts_folder):
    alltext_lines=[]
    texts = []

    files = os.listdir(texts_folder)

    for file in files:
        if os.path.isfile(os.path.join(texts_folder, file)):
            # Read files
            with open(os.path.join(texts_folder,file), 'r', encoding='utf-8') as file:
                lines = file.readlines()

        for line in lines:
            alltext_lines.append(line)

    # Remove '#' if exists
    texts = [line.strip() for line in alltext_lines if not line.startswith('#') and line.strip() != '']

    return texts

#Create error func
def create_error_sentence(sentence):
    words = sentence.split()
    error_sentence = []
    for word in words:
        prob = random.random()
        if prob < 0.2:  # 20% of the sentence will be BING BONG!!!
            error_word = random.choice([introduce_typo, replace_accent, typo_phonetic, split_word])(word)
            error_sentence.append(error_word)
        else:
            error_sentence.append(word)
    
    # Merge words
    if random.random() < 0.1:
        error_sentence = merge_words(error_sentence)
        
    return ' '.join(error_sentence)

In [8]:
def get_df(texts_folder):
    # generate both normal texts and errored texts
    texts = get_texts(texts_folder)
    error_texts = [create_error_sentence(text) for text in texts]
    
    texts_train, texts_test, error_texts_train, error_texts_test = train_test_split(texts, error_texts, test_size=0.2,random_state=42)

    # save train df to train.csv
    train_data = {'original': texts_train, 'error': error_texts_train}
    df = pd.DataFrame(train_data)
    df.to_csv('train.csv', index=False)

    #save test df to test.csv
    test_data = {'original': texts_test, 'error': error_texts_test}
    df = pd.DataFrame(test_data)
    df.to_csv('test.csv', index=False)

    return df


In [9]:
print(get_df('data_collection'))

                                               original  \
0     Đó là Nguyễn Cường, Trương Ngọc Ninh, Bảo Chấn...   
1     Tuy nhiên, các dấu vết thu được trên quần áo c...   
2     Điều quan trọng hơn là ngành GD-ĐT cần chấn ch...   
3     Giờ đây, chính nhưng căn phòng ấy trong bệnh v...   
4     Cá nhân tôi cho rằng game online vẫn còn là hì...   
...                                                 ...   
4020  Một nhóm những người chuyển giới ở Ấn Độ đang ...   
4021  Nhờ vai diễn này, Kim Jung Eun đoạt giải thưởn...   
4022  Các hộ thanh niên vào làng tham gia lập nghiệp...   
4023  Quang Huy lồng hình khối của tháp Chàm vào nét...   
4024  Điều đó chỉ khiến bé tò mò tự hỏi phải chăng v...   

                                                  error  
0     Đó là Nguyễn Cường, Trương Ngọc Ninh, Bảo Chấn...  
1     Tuy nhiên, các dấu vết thử được trên quần áo c...  
2     Điều quan trọng hơn là ngành GD-ĐT cần chấn ch...  
3     Giờ đây, chính n hưng căn phòng ấy trong bệnh ...  
4