# Spell Checking: Norvig

Vamos a implementar el spell checker sugerido por Norvig http://norvig.com/spell-correct.html

In [1]:
import re
from collections import Counter
from nltk import word_tokenize
import glob


files = glob.glob("data/spanishText_*")

"""
Abro todos los archivos del dataset
"""
WORDS = Counter()
for path in files:
    print("Procesando {}...".format(path))
    with open(path) as f:
        text = f.read().decode("latin-1")
        WORDS += Counter(word_tokenize(text))

def words(text): return re.findall(r'\w+', text.lower())

def P(word, N=None): 
    "Probability of `word`."
    if not N:
        N = sum(WORDS.values())
    return WORDS[word] / N

def correction(word): 
    "Most probable spelling correction for word."
    return max(candidates(word), key=P)

def candidates(word): 
    "Generate possible spelling corrections for word."
    return (known([word]) or known(edits1(word)).union(known(edits2(word))) or [word])

def known(words): 
    "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)

def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = u'abcdefghijklmnñopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def edits2(word): 
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))

Procesando data/spanishText_15000_20000...
Procesando data/spanishText_350000_355000...
Procesando data/spanishText_370000_375000...
Procesando data/spanishText_415000_420000...
Procesando data/spanishText_480000_485000...
Procesando data/spanishText_185000_190000...
Procesando data/spanishText_430000_435000...
Procesando data/spanishText_205000_210000...
Procesando data/spanishText_45000_50000...
Procesando data/spanishText_410000_415000...
Procesando data/spanishText_70000_75000...
Procesando data/spanishText_330000_335000...
Procesando data/spanishText_400000_405000...
Procesando data/spanishText_260000_265000...
Procesando data/spanishText_450000_455000...
Procesando data/spanishText_455000_460000...
Procesando data/spanishText_345000_350000...
Procesando data/spanishText_320000_325000...
Procesando data/spanishText_420000_425000...
Procesando data/spanishText_475000_480000...
Procesando data/spanishText_20000_25000...
Procesando data/spanishText_435000_440000...
Procesando data/sp

In [2]:
"""
Candidatos
"""

candidates("culiaw") 

{u'caliad',
 u'celia',
 u'celiae',
 u'cilia',
 u'ciliar',
 u'cilias',
 'claw',
 'cuia',
 'cula',
 u'cular',
 u'culea',
 u'culear',
 u'culie',
 u'culies',
 u'culik',
 u'culina',
 u'culis',
 u'culito',
 u'culla',
 u'cullar',
 u'culpa',
 u'culpan',
 u'culpar',
 u'culpas',
 u'culta',
 u'cultae',
 u'cultar',
 u'cultas',
 u'curia',
 u'curiae',
 u'curial',
 u'curias',
 u'cusia',
 u'cutia',
 u'fulia',
 u'julia',
 u'juliae',
 u'julian',
 u'julias',
 u'mulia',
 'ulia',
 u'zulia',
 u'zuliae'}

In [3]:
candidates("culiado")

{u'acuciado',
 u'aculado',
 u'aculeado',
 u'acuniado',
 u'aliado',
 u'alliado',
 u'bullado',
 u'cabliado',
 u'calado',
 u'calcado',
 u'calfado',
 u'caliad',
 u'calido',
 u'callado',
 u'calmado',
 u'calvado',
 u'calzado',
 u'cediado',
 u'celiaco',
 u'celiano',
 u'ciliada',
 u'ciliado',
 u'ciliados',
 'clado',
 u'clipado',
 u'clivado',
 u'colado',
 u'colcado',
 u'colgado',
 u'coligado',
 u'colimado',
 u'colinado',
 u'collado',
 u'colmado',
 u'copiado',
 u'criado',
 u'cruciado',
 'cuado',
 u'cuajado',
 'cualdo',
 u'cuidado',
 'cuidao',
 'cuido',
 u'cuitado',
 u'culiaron',
 u'culipardo',
 u'culito',
 u'culivada',
 u'culminado',
 u'culpada',
 u'culpado',
 u'culpados',
 u'culpando',
 u'cultivado',
 u'cunado',
 u'cupido',
 u'curado',
 u'curiada',
 u'curiador',
 u'cursado',
 u'curvado',
 u'cutivado',
 u'cu\xf1ado',
 u'exliado',
 u'filiado',
 u'foliado',
 u'guiado',
 u'jubliado',
 u'juliano',
 'liado',
 u'luliano',
 u'multado',
 u'nulitado',
 u'obliado',
 u'oculado',
 u'ocultado',
 u'paliado',


In [4]:
candidates("culeado")

{u'aculado',
 u'aculeado',
 u'aculeados',
 u'aleado',
 u'baleado',
 u'boleado',
 u'buleador',
 u'bullado',
 u'cableado',
 u'cajeado',
 u'calado',
 u'calcado',
 u'caldeado',
 u'calfado',
 u'callado',
 u'calmado',
 u'calvado',
 u'calzado',
 u'capeado',
 u'careado',
 u'cateado',
 u'celebado',
 u'ciliado',
 'clado',
 u'codeado',
 u'colado',
 u'colcado',
 u'coleados',
 u'coleando',
 u'colegado',
 u'colgado',
 u'collado',
 u'colmado',
 u'coreado',
 u'creado',
 'cuado',
 u'cuajado',
 'cualdo',
 u'cueando',
 u'cuendo',
 u'cuerdo',
 u'cuidado',
 u'cuitado',
 'culea',
 u'culear',
 u'culebro',
 u'culpada',
 u'culpado',
 u'culpados',
 u'culpando',
 u'cunado',
 u'cuneada',
 u'cuneados',
 u'cuneato',
 u'curado',
 u'cursado',
 u'curvado',
 u'cu\xf1ado',
 u'goleado',
 u'lleado',
 u'maleado',
 u'multado',
 u'nucleado',
 u'nukeado',
 u'oculado',
 u'ocultado',
 u'oleado',
 u'peleado',
 u'pileado',
 u'pulpeado',
 u'pulsado',
 u'queado',
 u'ruteado',
 u'soleado',
 u'tuneado',
 u'tuteado',
 u'uleano'}

In [5]:
candidates(u"angá")

{u'aang',
 u'abg',
 u'abr\xe1',
 u'acg',
 u'ac\xe1',
 u'adj\xe1',
 u'aeg',
 u'aega',
 u'ag',
 u'aga',
 u'age',
 u'agg',
 u'agh',
 u'agni',
 u'agno',
 u'ago',
 u'agr',
 u'agt',
 u'agu',
 u'ag\xe1p',
 u'ag\xe1r',
 u'aig',
 u'aigo',
 u'aigu',
 u'aji\xe1',
 u'aj\xe1',
 u'alg',
 u'alga',
 u'algo',
 u'ali\xe1',
 u'all\xe1',
 u'alm\xe1',
 u'alq\xe1',
 u'alt\xe1',
 u'al\xe1',
 u'am\xe1',
 u'an',
 u'ana',
 u'anac',
 u'anag',
 u'anago',
 u'anai',
 u'anaj\xe1',
 u'anak',
 u'anal',
 u'anam',
 u'anan\xe1',
 u'anao',
 u'anar',
 u'anas',
 u'anat',
 u'anax',
 u'anay',
 u'anaz',
 u'anbn',
 u'anbo',
 u'anca',
 u'anch',
 u'anci',
 u'anco',
 u'ancu',
 u'ancy',
 u'and',
 u'anda',
 u'ande',
 u'andi',
 u'ando',
 u'andy',
 u'and\xe1',
 u'and\xe1s',
 u'ane',
 u'anea',
 u'aneb',
 u'anega',
 u'anek',
 u'anel',
 u'anem',
 u'aner',
 u'anes',
 u'aneu',
 u'anew',
 u'anfo',
 u'ang',
 u'anga',
 u'angad',
 u'angas',
 u'angau',
 u'ange',
 u'angel',
 u'angeo',
 u'anger',
 u'anges',
 u'angga',
 u'angh',
 u'angis',
 u'angl

# Correcciones


In [8]:
palabras = [u"angá", u"culiado", u"pendejo", "birra", "ahh", "demas", "laburar", u"ñoquis"]

for palabra in palabras:
    print(u"Corrección de {} -------> {}".format(palabra, correction(palabra)))
    

Corrección de angá -------> nagu
Corrección de culiado -------> aliado
Corrección de pendejo -------> pendejo
Corrección de birra -------> birra
Corrección de ahh -------> ahh
Corrección de demas -------> demas
Corrección de laburar -------> abusar
Corrección de ñoquis -------> ñoquis


In [13]:
import cPickle

with open("word_count.pkl", "wb") as f:
    cPickle.dump(WORDS, f)