In [1]:
import re, collections

In [2]:
def tokens(text):
    
    return re.findall('[a-z]+', text.lower())

In [4]:
words=tokens(open('big.txt').read())

In [5]:
word_counts=collections.Counter(words)

In [6]:
word_counts.most_common(10)

[('the', 80030),
 ('of', 40025),
 ('and', 38313),
 ('to', 28766),
 ('in', 22050),
 ('a', 21155),
 ('that', 12512),
 ('he', 12401),
 ('was', 11410),
 ('it', 10681)]

In [8]:
def edits0(word):
    return {word}

In [41]:
def edits1(word):
    alphabet='abcdefghijklmnopqrstuvwxyz'
    def split(word):
        return[(word[:i], word[i:]) for i in range (len(word)+1)]
    pairs=split(word)
    deletes=[a+b[1:] for (a,b) in pairs if b]
    transposes=[a+b[1]+b[0]+b[2:] for (a,b) in pairs if len(b)>1]
    replaces=[a+c+b[1:] for (a,b) in pairs for c in alphabet if b]
    inserts=[a+c+b for (a,b) in pairs for c in alphabet]
    return set(deletes+transposes+replaces+inserts)

In [42]:
def edits2(word):
    return{e2 for e1 in edits1(word) for e2 in edits1(e1)}

In [43]:
def known(words):
    return{w for w in words if w in word_counts}

In [54]:
word='fianlly'

In [55]:
edits0(word)

{'fianlly'}

In [56]:
known(edits0(word))

set()

In [57]:
edits1(word)

{'afianlly',
 'aianlly',
 'bfianlly',
 'bianlly',
 'cfianlly',
 'cianlly',
 'dfianlly',
 'dianlly',
 'efianlly',
 'eianlly',
 'faanlly',
 'faianlly',
 'fainlly',
 'fanlly',
 'fbanlly',
 'fbianlly',
 'fcanlly',
 'fcianlly',
 'fdanlly',
 'fdianlly',
 'feanlly',
 'feianlly',
 'ffanlly',
 'ffianlly',
 'fganlly',
 'fgianlly',
 'fhanlly',
 'fhianlly',
 'fiaally',
 'fiaanlly',
 'fiablly',
 'fiabnlly',
 'fiaclly',
 'fiacnlly',
 'fiadlly',
 'fiadnlly',
 'fiaelly',
 'fiaenlly',
 'fiaflly',
 'fiafnlly',
 'fiaglly',
 'fiagnlly',
 'fiahlly',
 'fiahnlly',
 'fiailly',
 'fiainlly',
 'fiajlly',
 'fiajnlly',
 'fiaklly',
 'fiaknlly',
 'fiallly',
 'fially',
 'fialnlly',
 'fialnly',
 'fiamlly',
 'fiamnlly',
 'fianally',
 'fianaly',
 'fianblly',
 'fianbly',
 'fianclly',
 'fiancly',
 'fiandlly',
 'fiandly',
 'fianelly',
 'fianely',
 'fianflly',
 'fianfly',
 'fianglly',
 'fiangly',
 'fianhlly',
 'fianhly',
 'fianilly',
 'fianily',
 'fianjlly',
 'fianjly',
 'fianklly',
 'fiankly',
 'fianlaly',
 'fianlay',
 'fi

In [58]:
known(edits1(word))

{'finally'}

In [59]:
edits2(word)

{'fbianlwly',
 'fiawgly',
 'fianxyy',
 'fianjlliy',
 'fiazllxy',
 'bfimanlly',
 'finnllyx',
 'fidnllzy',
 'foimanlly',
 'fihnlley',
 'fianqllfy',
 'fixnily',
 'wianllgy',
 'fiangcy',
 'fioinlly',
 'fianlhlk',
 'fifaklly',
 'gianlty',
 'fqiajlly',
 'fiatlbly',
 'fidalnlly',
 'afiganlly',
 'faiaplly',
 'jrfianlly',
 'pfiqnlly',
 'auianlly',
 'fiatnllfy',
 'fwizanlly',
 'fqianlxy',
 'qianlby',
 'sianlly',
 'fianzlll',
 'fniancly',
 'fyavnlly',
 'fnianllyj',
 'fghianlly',
 'fitnloly',
 'fianlia',
 'fitnljly',
 'fioazlly',
 'fiatoly',
 'fiahnllt',
 'bfdianlly',
 'fiaolzly',
 'qfianllw',
 'wianllk',
 'fihanllyo',
 'fhanoly',
 'fieantlly',
 'rfianllyj',
 'fianslb',
 'fianqln',
 'fiajnfly',
 'yfiadnlly',
 'riansly',
 'iianllx',
 'fipanllk',
 'fjianply',
 'fiafnlvly',
 'tfibanlly',
 'niallly',
 'jfianldy',
 'fionrly',
 'fbanjly',
 'fiacjly',
 'fianleyi',
 'fianlcfly',
 'foijanlly',
 'fiapnxlly',
 'fqaxlly',
 'fihanlyly',
 'fiamllys',
 'fqanlxly',
 'fiadllcy',
 'fiaalqly',
 'fshianlly',
 'fitnll

In [60]:
known(edits2(word))

{'faintly', 'finally', 'finely', 'frankly'}

In [61]:
candidates=(known(edits0(word)) or known(edits1(word)) or known(edits2(word)) or [word])

In [63]:
candidates

{'finally'}

In [64]:
def correct(word):
    candidates=(known(edits0(word)) or known(edits1(word)) or known(edits2(word)) or [word])
    return max(candidates, key=word_counts.get)

In [66]:
correct('fianlly')

'finally'

In [67]:
correct('FIANLLY')

'FIANLLY'

In [88]:
def correct_match(match):
    word=match.group()
    def case_of(text):
        return(str.upper if text.isupper() else str.lower if text.islower() else str.title if text.istitle() else str)
    return case_of(word)(correct(word.lower()))

In [89]:
def correct_text_generic(text):
    return(re.sub('[a-zA-Z]+', correct_match, text))

In [93]:
correct_text_generic('fiannlly')

'finally'

In [94]:
correct_text_generic('pleyful')

'playful'

In [98]:
from textblob import Word

In [103]:
w=Word('fianlly')

In [104]:
w.correct()

'finally'

In [106]:
w.spellcheck()

[('finally', 1.0)]

In [109]:
w=Word('flaot')

In [110]:
w.spellcheck()

[('flat', 0.85), ('float', 0.15)]