In [1]:
import re
from collections import Counter

In [2]:
def words(text):
    return re.findall(r'\w+', text.lower())

In [3]:
files = !ls CORPUS/*

In [4]:
data_files = [open(filename, 'rb').read().decode(encoding='utf-8') for filename in files]

In [5]:
big_data_text = ''

In [6]:
for text in data_files:
    big_data_text += text

In [7]:
WORDS = Counter(words(big_data_text))

In [8]:
def P(word, N=sum(WORDS.values())):
    "Probability of `word`."
    return WORDS[word] / N

In [9]:
def known(words):
    "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)

In [10]:
def edits1(word):
    "All edits that are one edit away from `word`"
    letters = 'abcdefghijklmnñopqrstuvwxyzáéíóú'
    
    splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
    
    deletes = [L + R[1:] for L, R in splits if R]
    
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    
    replaces = [L +  C + R[1:] for L, R in splits if R for C in letters]
    
    inserts = [L + C + R for L, R in splits for C in letters]
    
    return set(deletes + transposes + replaces + inserts)

In [11]:
def edits2(word):
    "All edits that are two edits away from `word`"
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))

In [12]:
def edits3(word):
    return (e3 for e1 in edits1(word) for e2 in edits1(e1) for e3 in edits1(e2))

In [13]:
a = edits2('cuba')

In [14]:
def candidates(word):
    "Generate possible spelling corrections for word"
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

In [15]:
candidates('cua')

{'ca',
 'cia',
 'cla',
 'cta',
 'cu',
 'cual',
 'cub',
 'cuba',
 'cula',
 'cuna',
 'cup',
 'cut',
 'cuya',
 'lua',
 'ua'}

In [16]:
def correction(word):
    return max(candidates(word), key=P)

In [17]:
correction('cua')

'cual'

In [18]:
candidates('phidel')

{'fidel', 'pdel', 'pide', 'piden', 'piel'}

In [19]:
len(WORDS)

21375

In [20]:
max(WORDS, key=P)

'de'

In [21]:
P('de')

0.06790904818955773

In [22]:
P('cuba')

0.0009567635989551803

In [23]:
correction('colletor')

'folletos'

In [24]:
for i in candidates('collctor'):
    print(i)

colectora
conector


In [25]:
correction('lingaje')

'linaje'

In [26]:
candidates('corpuz')

{'corpus'}

In [27]:
candidates('cozer')

{'cober', 'cocer', 'coder', 'comer', 'coser'}

In [28]:
ttt = 'El cubano Leinier Domínguez, la reutión sacual, tales no puso las vectipaciones en-las conjuntas rondavillas facilidades de una de los mnsicástrofes absorados por el uspos en La Habana contra estes aviones e incampetentes, apaga la alignación con 36 fotografía del lugar, como integral que se convargar a tradoquino lluituvo cuando una explocación en la misma se fusta mañanas internacionales. . Cómica, sin que la caso, juzgo en consumo en verano ambanciendo desde la guerra llano. El tomaran redistraciones de Kanisia informativo hasta así como ofrecer el cronso esquierabilidad a comenzar a contra del mesa Jolinceptores el escrito presente subraya información en nuestra socialista social Campeña, descandal y el Moncada pardioca incurso.'

In [29]:
tt2 = ''

for word in ttt.split():
    tt2 += correction(word) + ' '
    
print(''.join(tt2))

el cubano leinier domínguez la reunión sacual, tales no puso las vectipaciones ellas conjuntos rondavillas facilidades de una de los mnsicástrofes abogados por el usos en la habana contra este aviones e incampetentes, apaga la asignación con 36 fotografía del lugar como integral que se convargar a tradoquino lluituvo cuando una exploración en la misma se justa mañanas internacionales y Cómica, sin que la caso juego en consumo en verano ambanciendo desde la guerra plano el tomaran redistraciones de banisi informativo hasta así como ofrecer el alonso esquierabilidad a comenzar a contra del mesa Jolinceptores el escrito presente subraya información en nuestra socialista social Campeña, descansan y el moncada pardioca incurso. 


In [30]:
ttt = 'Este martes. . No vero, los modolestantencia: Cubadebate. Tema: Educación. Periodista:. Tema:. Periodista:. Fecha de publicación: 2. Fechadez Difínere sentó en EEUFrantes, explica sentar un pron de Santa Suy. Sos torrestres visitales en viviendas y de más de mejaran; en la equipo al servicio electricidad sobre todo impuesto el apoyo apoyo a los mio vado que están igaración la unidad es Cobel de la UNEA. . . . URL:. Título:. Agencia:. Tema: Educación Sierra Maestraamericana. . En sería resolver la escupes como Pietro. . Prama de gobiernos del volcción mayor de la Universidad de Delawores Saídricos Hemón, grazo, una compañía de. . Sobo etora, aunque el director entre la exho será, autemente por la misma notición se desechó lanzada el Medio Ambiente y Nicaragua, Nadura, resulta labor: Naranjo de que los demase el traslaje de Madrid juz, usted de emergencia sinuctivuy, del conquistó 2838 9 905 y unos natuacos matrigudes muy a por los verano sancional. . Crealistó Aruentes, sino que sin 59, que había '

In [31]:
tt2 = ''

for word in ttt.split():
    tt2 += correction(word) + ' '
    
print(''.join(tt2))

este martes y no verbo los modolestantencia: cubadebate tema educación Periodista:. Tema:. Periodista:. fecha de publicación 2 Fechadez Difínere sentó en EEUFrantes, explica sentar un pron de santa muy los terrestres digitales en viviendas y de más de mejoran en la equipo al servicio electricidad sobre todo impuesto el apoyo apoyo a los mil dado que están iteración la unidad es nobel de la UNEA. y y y URL:. Título:. Agencia:. tema educación tierra Maestraamericana. y en sería resolver la escupió como pietro y rama de gobiernos del colección mayor de la universidad de Delawores hídricos remón grado una compañía de y robo etora, aunque el director entre la echo será altamente por la misma notación se desecha lanzada el medio ambiente y nicaragua Nadura, resulta labor naranjo de que los debate el trasladó de madrid juan usted de emergencia sinuctivuy, del conquistó 288 9 95 y unos atracos matrigudes muy a por los verano sancionado y Crealistó Aruentes, sino que sin 59 que había 
