In [1]:
import hazm
from collections import Counter
import re

Clean the text by normalizing and removing punctuations. 

In [2]:
normalizer = hazm.Normalizer()
tokenizer = hazm.WordTokenizer()

def clean_text(text, output='word'):
    """
    Cleans and tokenizes the input text using the Hazm library.
    
    Args:
        text (str): The input text as a string.
        output (str): Optional string parameter, either 'word' (default) or 'sentence'.
    
    Returns:
        A list of words or a sentence, depending on the value of 'output'.
    """
    normalized_text = normalizer.normalize(text)
    punc_removed = re.sub(r'[^\w\s]', '', normalized_text)
    cleaned_text = tokenizer.tokenize(punc_removed)
    if output == 'word':
        return cleaned_text
    else:
        return ' '.join(cleaned_text)

In [3]:
DATA_FILE_PATH = "C:/Users/Mostafa/Desktop/Persian-OCR/Persian-WikiText-1.txt"

In [4]:
def load_data(file_path):
    with open(file_path, encoding='utf-8') as file:
        return file.read()

Extract all the words in Wikipeda corpus.

In [5]:
wikipedia = load_data(DATA_FILE_PATH)
wikipedia_words = clean_text(wikipedia)

In [38]:
wikipedia_words.append('قوچان')

Modified version of Norvig spell checker that uses word frequency for generating candidates.

In [6]:
class NorvigSpellChecker:
    def __init__(self, words):
        self.WORDS = Counter(words)
        self.N = sum(self.WORDS.values())
        self.letters = 'آابپتثجچحخدذرزژسشصضطظعغفقکگلمنوهی'

    def P(self, word):
        "Probability of word."
        return self.WORDS[word] / self.N

    def correction(self, word):
        "Most probable spelling correction for word."
        return max(self.word_pool(word), key=self.P)

    def word_pool(self, word):
        "Generate a pool of possible words."
        return (self.known([word]) or self.known(self.edits1(word)) or self.known(self.edits2(word)) or [word])
    
    def candidates(self, word):
        "Generate possible spelling corrections for word."
        if self.WORDS[word] < 30 or len(word) == 1 and word not in hazm.stopwords_list():
            candidates_list = list(self.known(self.edits1(word)))
            candidates_list.sort(key=self.P, reverse=True)
            return candidates_list
        else:
            return word

    def known(self, words):
        "The subset of words that appear in the dictionary of WORDS."
        return set(w for w in words if w in self.WORDS)

    def edits1(self, word):
        "All edits that are one edit away from word."
        splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
        deletes = [L + R[1:] for L, R in splits if R]
        transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R) > 1]
        replaces = [L + c + R[1:] for L, R in splits if R for c in self.letters]
        inserts = [L + c + R for L, R in splits for c in self.letters]
        return set(deletes + transposes + replaces + inserts)

    def edits2(self, word):
        "All edits that are two edits away from word."
        return (e2 for e1 in self.edits1(word) for e2 in self.edits1(e1))


Initialize NorvigSpellChecker using Wikipedia vocab.

In [7]:
spl = NorvigSpellChecker(wikipedia_words)

Use ParsBERT model to fill the masked tokens in a given sentence.

In [8]:
import torch
from transformers import BertTokenizer, BertModel, BertForMaskedLM

class MaskedSentencePredictor:
    def __init__(self):
        self.tokenizer = BertTokenizer.from_pretrained('HooshvareLab/bert-fa-base-uncased')
        self.model = BertForMaskedLM.from_pretrained('HooshvareLab/bert-fa-base-uncased')
        self.model.eval()
        # self.model.to('cuda')

    def predict_masked_sent(self, text, top_k=5):
        """
        Predicts the top-k most likely tokens to fill in a masked token in the input text using the pre-trained
        BERT-based model.

        Args:
            text (str): A string representing the input text with a [MASK] token to be filled in.
            top_k (int): An integer representing the number of top predictions to return.

        Returns:
            A list of the top-k most likely tokens to fill in the [MASK] token in the input text.
        """
        # Tokenize the input text
        text = "[CLS] %s [SEP]" % text
        tokenized_text = self.tokenizer.tokenize(text)
        masked_index = tokenized_text.index("[MASK]")
        indexed_tokens = self.tokenizer.convert_tokens_to_ids(tokenized_text)
        tokens_tensor = torch.tensor([indexed_tokens])
        # tokens_tensor = tokens_tensor.to('cuda') 

        # Make predictions
        with torch.no_grad():
            outputs = self.model(tokens_tensor)
            predictions = outputs[0]

        # Get the top-k most likely tokens and their associated weights
        probs = torch.nn.functional.softmax(predictions[0, masked_index], dim=-1)
        top_k_weights, top_k_indices = torch.topk(probs, top_k, sorted=True)

        # Convert the predicted token indices to actual tokens and return them
        mighty_tokens = []
        for i, pred_idx in enumerate(top_k_indices):
            predicted_token = self.tokenizer.convert_ids_to_tokens([pred_idx])[0]
            token_weight = top_k_weights[i]
            mighty_tokens.append(predicted_token)
        return mighty_tokens

In [9]:
bert_predictor = MaskedSentencePredictor()

Some weights of the model checkpoint at HooshvareLab/bert-fa-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


The main function that combines NorvigSpellChecker and ParsBERT to generate the correct sentence.
We first check for OOV (Out Of Vocabulary) words and mask them, then predict the mask using bert.
We do the same to homophones, if our sentence includes a homophone word, we mask it to check if the word is correct.

In [10]:
def correct_spelling(sentence):
    """
    Corrects the spelling of a given sentence.

    Args:
        sentence (str): A string representing the input sentence to correct.

    Returns:
        A string representing the corrected sentence.
    """
    
    # Split the sentence into words and clean it
    words = clean_text(sentence)

    # Check each word for spelling errors
    for i, word in enumerate(words):
        # If the word is spelled correctly, keep it
        if word == spl.candidates(word):
            continue
        # Otherwise, replace it with a mask and predict the correct spelling
        else:
            words[i] = "[MASK]"
            masked_sentence = ' '.join(words)
            preds = bert_predictor.predict_masked_sent(masked_sentence, top_k=500)
            norvig_cands = spl.candidates(word)
            first_match = next((element for element in preds if element in norvig_cands), None)

            # If a correct spelling is found, replace the mask with the correct spelling
            if first_match:
                words[i] = first_match
            else:
                words[i] = spl.correction(word)
                
    corrected_sentence = ' '.join(words)
    
    return corrected_sentence

### Evaluation

In [11]:
correct_spelling('سارا در حیات خانه مشقول بازی است')

'سارا در حیات خانه مشغول بازی است'

In [12]:
correct_spelling('ﻗوﭼان')

'دوران'

In [40]:
correct_spelling('رﯾﯾس داﻧﺷﮔاه ﺣﻧﻗم ﻗوﭼان ﺑا ﺑﯾان اﯾﻧﮐﻪ اﯾن ﻓﯾﻟم ﮐوﺗاه ﺑراوی ﺣﻓهر در ﭼﻬارﺑﯾنی روﯾداد ﺑﯾناﻟﻣﻟدی ﻓﯾﻟم ﮐوﺗاه دﻧﺻوﯾر دﻫمه آﻣادهﺷده اﺑت')

'روس داﻧﺷﮔاه ﺣﻧﻗم دوران یا زبان اﯾﻧﮐﻪ ان ﻓﯾﻟم کوتاه راوی شهر در ﭼﻬارﺑﯾنی رویداد ﺑﯾناﻟﻣﻟدی ﻓﯾﻟم کوتاه دﻧﺻوﯾر دکمه آﻣادهﺷده است'

In [29]:
correct_spelling('این')

'این'

In [30]:
correct_spelling('رییس داﻧﺷﮔاه ﺣﻧﻗم ﻗوﭼان ﺑا ﺑیان ایﻧﮐﻪ این ﻓیﻟم ﮐوﺗاه ﺑراوی ﺣﻓهر در ﭼﻬارﺑینی رویداد ﺑیناﻟﻣﻟدی ﻓیﻟم ﮐوﺗاه دﻧﺻویر دﻫمه آﻣادهﺷده اﺑت')

'رییس داﻧﺷﮔاه ﺣﻧﻗم دوران یا میان ایﻧﮐﻪ این فیلم کوتاه راوی شهر در ﭼﻬارﺑینی رویداد ﺑیناﻟﻣﻟدی فیلم کوتاه دلاویر دکمه آﻣادهﺷده است'

In [13]:
correct_spelling('رییس دانشگاه حنقم قوچان با بیان اینکه این فیلم کوتاه براوی حفهر در چهاربینی رویداد بینالملدی فیلم کوتاه دنصویر دهمه آمادهشده ابت')

'رییس دانشگاه ننقم قوچان با بیان اینکه این فیلم کوتاه برای حفر در چهاربیتی رویداد بینالمللی فیلم کوتاه تصویر همه آزادشده است'

In [32]:
correct_spelling('سهضم هر هصدی هستم')

'سهم هر هندی هستم'

In [15]:
correct_spelling('اهماس خمئیه یه با لنرصت شثبانه خوب یا تطیالن کوناه از ین یرها در واقع یه جر حساس نمظم تتدن ا ببابر یار زید و یا اسنرسرهای چی در معل یار متونه بسه و شما رو به نفطهای یمونه که فو هپید دیئه یتوند دامه بدید ر ه شفی گای یارددان همه زمان خدشون ر مغط کار ب هف یارلرن نمکنا اما فریونث ثفی از ین فرار سش جن فبد احسطس خمف جمح یم و کهش حساس موفیت دارد سبمان بهداشت چهی فشوی را یک درم شی اعفﻻم کردم طغ مطقعاتث فقط در آمریکا فمسودای ششی ساﻻنه بعب از میلیاد دﻻر ضرر یتد پش ت یک سوم لارمدا در آمربلا فبوی شفی ب ثجبه وکدل تقبیبا یح چهارم قدب یا همیبه چیین بحسی دارند')

'الماس خمریه یه با لنرت شبانه خوب یا تیان کوتاه از ین رها در واقع یه جا حساس نظم تمدن و برابر یار زید و یا استرسهای چی در عمل یار متون بره و شما رو به نقطهای نمونه که فو سپید دیگه گتوند داره باید مر ل شی ای یاردیان همه زمان بدون ر مغز کار و هم یاران نمکها اما فریون فی از ین فرار مش جن بد احساس خم جمح کم و که حساس موفقیت دارد سامان بهداشت دهی شوی را یک در شی اعلام کردم طی مقطعات فقط در آمریکا فرسودگی شری سازنه بعد از میلاد در ضرر یاد ش ک یک سوم لامرد در آمبرلا بوی فی و جبه وکیل تقریبا یک چهارم قطب یا همیشه چنین حسی دارند'