<a href="https://colab.research.google.com/github/Habeeb556/Spelling_Detection_and_Correction/blob/main/spell_checker_probabilistic_autocorrection_model.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import re #regular expression modules
import string
from collections import Counter
import numpy as np

In [2]:
#tokenization
def read_corpus(filename):
  with open(filename, "r") as file:
    lines = file.readlines()
    words = [] 
    for line in lines:
      words += re.findall(r'\w+', line.lower()) # "w+" This expression matches the alphanumeric character in the string

  return words

In [3]:
words = read_corpus("./t8.shakespeare.txt") #read file
print(len(words)) #total words in the corpus

929396


In [4]:
vocabs = set(words)
print(len(vocabs)) #unique words in the vocabulary

23902


In [5]:
word_counts = Counter(words) #word_counts became integer
print(word_counts) #classification count words



In [6]:
print(word_counts["boy"]) #sample "boy" total words count

438


In [7]:
print(type(word_counts))
print(type(words))

<class 'collections.Counter'>
<class 'list'>


In [8]:
total_word_count = float(sum(word_counts.values())) #convert to float for probabilities
print(total_word_count)

929396.0


In [9]:
word_probas = {word: word_counts[word] / total_word_count for word in word_counts.keys()} #Using Dictionary Comprehension
print(word_probas["boy"])

0.0004712738165432173


In [10]:
def split(word):
  return [(word[:i], word[i:]) for i in range(len(word) + 1)]

In [11]:
print(split("trash"))

[('', 'trash'), ('t', 'rash'), ('tr', 'ash'), ('tra', 'sh'), ('tras', 'h'), ('trash', '')]


In [12]:
#DELETE (remove a letter)
def delete(word):
  return [l + r[1:] for l,r in split(word) if r] 

# "l" display ['', 't', 'tr', 'tra', 'tras']
# "r[1:]" display ['rash', 'ash', 'sh', 'h', '']

In [13]:
print(delete("trash"))

['rash', 'tash', 'trsh', 'trah', 'tras']


In [14]:
#SWAP (swap 2 adjacent letters)
def swap(word):
  return [l + r[1] + r[0] + r[2:] for l, r in split(word) if len(r)>1]

In [15]:
print(swap("trash"))

['rtash', 'tarsh', 'trsah', 'trahs']


In [16]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [17]:
#REPLACE (change one letter to another)
def replace(word):
  letters = string.ascii_lowercase
  return [l + c + r[1:] for l, r in split(word) if r for c in letters]

# "l" display ['', 't', 'tr', 'tra'] over all ascii_lowercase
# "c" display all ascii_lowercase ordered
# "r[1:]" display the rest of the letter

In [18]:
print(replace("trash"))

['arash', 'brash', 'crash', 'drash', 'erash', 'frash', 'grash', 'hrash', 'irash', 'jrash', 'krash', 'lrash', 'mrash', 'nrash', 'orash', 'prash', 'qrash', 'rrash', 'srash', 'trash', 'urash', 'vrash', 'wrash', 'xrash', 'yrash', 'zrash', 'taash', 'tbash', 'tcash', 'tdash', 'teash', 'tfash', 'tgash', 'thash', 'tiash', 'tjash', 'tkash', 'tlash', 'tmash', 'tnash', 'toash', 'tpash', 'tqash', 'trash', 'tsash', 'ttash', 'tuash', 'tvash', 'twash', 'txash', 'tyash', 'tzash', 'trash', 'trbsh', 'trcsh', 'trdsh', 'tresh', 'trfsh', 'trgsh', 'trhsh', 'trish', 'trjsh', 'trksh', 'trlsh', 'trmsh', 'trnsh', 'trosh', 'trpsh', 'trqsh', 'trrsh', 'trssh', 'trtsh', 'trush', 'trvsh', 'trwsh', 'trxsh', 'trysh', 'trzsh', 'traah', 'trabh', 'trach', 'tradh', 'traeh', 'trafh', 'tragh', 'trahh', 'traih', 'trajh', 'trakh', 'tralh', 'tramh', 'tranh', 'traoh', 'traph', 'traqh', 'trarh', 'trash', 'trath', 'trauh', 'travh', 'trawh', 'traxh', 'trayh', 'trazh', 'trasa', 'trasb', 'trasc', 'trasd', 'trase', 'trasf', 'trasg', 

In [19]:
#INSERT (add a letter)
def insert(word):
  letters = string.ascii_lowercase
  return [l + c + r for l, r in split(word) for c in letters]

In [20]:
print(insert("trash"))

['atrash', 'btrash', 'ctrash', 'dtrash', 'etrash', 'ftrash', 'gtrash', 'htrash', 'itrash', 'jtrash', 'ktrash', 'ltrash', 'mtrash', 'ntrash', 'otrash', 'ptrash', 'qtrash', 'rtrash', 'strash', 'ttrash', 'utrash', 'vtrash', 'wtrash', 'xtrash', 'ytrash', 'ztrash', 'tarash', 'tbrash', 'tcrash', 'tdrash', 'terash', 'tfrash', 'tgrash', 'thrash', 'tirash', 'tjrash', 'tkrash', 'tlrash', 'tmrash', 'tnrash', 'torash', 'tprash', 'tqrash', 'trrash', 'tsrash', 'ttrash', 'turash', 'tvrash', 'twrash', 'txrash', 'tyrash', 'tzrash', 'traash', 'trbash', 'trcash', 'trdash', 'treash', 'trfash', 'trgash', 'trhash', 'triash', 'trjash', 'trkash', 'trlash', 'trmash', 'trnash', 'troash', 'trpash', 'trqash', 'trrash', 'trsash', 'trtash', 'truash', 'trvash', 'trwash', 'trxash', 'tryash', 'trzash', 'traash', 'trabsh', 'tracsh', 'tradsh', 'traesh', 'trafsh', 'tragsh', 'trahsh', 'traish', 'trajsh', 'traksh', 'tralsh', 'tramsh', 'transh', 'traosh', 'trapsh', 'traqsh', 'trarsh', 'trassh', 'tratsh', 'traush', 'travsh',

In [21]:
def edit1(word):
  return set(delete(word) + swap(word) + replace(word) + insert(word))

In [22]:
print(edit1("trash"))

{'erash', 'trlsh', 'trasf', 'traso', 'otrash', 'trbash', 'trasbh', 'arash', 'trashb', 'traqsh', 'tvash', 'toash', 'trahh', 'traash', 'transh', 'mtrash', 'trapsh', 'tragsh', 'traxsh', 'htrash', 'trdsh', 'trasy', 'treash', 'trtsh', 'vrash', 'hrash', 'jrash', 'tnrash', 'trayh', 'tbrash', 'travsh', 'terash', 'trwsh', 'trysh', 'trashy', 'trakh', 'ltrash', 'qtrash', 'trach', 'tramh', 'trawh', 'tratsh', 'ntrash', 'trfash', 'prash', 'trarsh', 'atrash', 'trashj', 'tras', 'trzsh', 'tuash', 'drash', 'tgash', 'tyash', 'trasha', 'trvsh', 'trlash', 'dtrash', 'trgsh', 'trafh', 'tvrash', 'tralh', 'tragh', 'trsash', 'crash', 'trjsh', 'trxash', 'trjash', 'trasb', 'trpsh', 'tcrash', 'trtash', 'trassh', 'tranh', 'tzrash', 'grash', 'trasnh', 'trasa', 'tirash', 'trasq', 'trafsh', 'trqsh', 'tnash', 'tdrash', 'tjrash', 'ktrash', 'trish', 'trcash', 'trashi', 'tsash', 'trashk', 'tramsh', 'trasdh', 'btrash', 'traszh', 'trsah', 'itrash', 'wtrash', 'traxh', 'trasah', 'trashq', 'trashw', 'trashx', 'turash', 'trasd'

In [23]:
#Performaing level_1 editing twice
def edit2(word):
  return set(e2 for e1 in edit1(word) for e2 in edit1(e1))

In [24]:
print(edit2("trash"))

{'ktrasy', 'fyash', 'traqv', 'trjfash', 'tgrksh', 'treshj', 'trahhf', 'tyaxsh', 'trasyx', 'vrashw', 'rtasc', 'traehk', 'qrass', 'trxysh', 'jtrasyh', 'tepsh', 'tsanh', 'mtrashe', 'tcrxash', 'traiswh', 'tvhsh', 'vtrawh', 'batrash', 'craesh', 'trpgash', 'zrasw', 'ftrashc', 'vtrasi', 'tryshu', 'trathf', 'trfso', 'vtraeh', 'gtwrash', 'barash', 'kqrash', 'trhxh', 'trayi', 'irasg', 'itrasm', 'sterash', 'trgmh', 'trbih', 'zrfash', 'tratjh', 'trrafh', 'pfrash', 'xtrashr', 'trcsl', 'tvish', 'dash', 'otraysh', 'rtaoh', 'trwsdh', 'twajsh', 'nrjsh', 'travshz', 'trasmha', 'trasvdh', 'trashmr', 'trisqh', 'trjacsh', 'trasxhk', 'traqsjh', 'trasqho', 'yreash', 'twrasnh', 'ntrqash', 'gtbash', 'urarh', 'trafhv', 'uraxh', 'htwrash', 'kdtrash', 'tracxsh', 'utrach', 'jjrash', 'tbrasa', 'tixash', 'trqahs', 'trastx', 'trasov', 'tdrysh', 'trbsjh', 'wurash', 'trashhy', 'htrashe', 'trqzash', 'trajv', 'utrass', 'traosch', 'gtrashn', 'trus', 'orgash', 'txasq', 'tkasht', 'transhr', 'tpramsh', 'atzrash', 'vraah', 'tr

In [25]:
def correct_spelling(word, vocabulary, word_probabilities):
  if word in vocabulary:
    print(f"{word} is already correctly spelt")
    return 

  suggestions = edit1(word) or edit2(word) or [word]
  best_guesses = [w for w in suggestions if w in vocabulary]
  return [(w, word_probabilities[w]) for w in best_guesses]

In [26]:
word = "femily"
corrections = correct_spelling(word, vocabs, word_probas)

if corrections:
  print(corrections)
  probs = np.array([c[1] for c in corrections])
  best_ix = np.argmax(probs)
  correct = corrections[best_ix][0]
  print(f"{correct} is suggested for {word}")

[('family', 8.607740941428627e-06)]
family is suggested for femily
