# Instrucciones

Considera el artículo de Peter Norvig https://norvig.com/spell-correct.html.  En una libreta de Jupyter, replica el artículo considerando lo siguiente:
Adapta la función edits1, edits2 para sin considerar la opción de "transpose"
Programa una tercera función edits3
Justifica porqué las funciones edits1, edits2 nos regresan efectivamente las palabras a "distancia" 1 y 2 respectivamente de una palabra dada 
* Adapta todas las funciones edits para el caso del alfabeto en español
* Prueba tu corrector con tu propio big.txt (no olvides poner la referencia)
* Describe con tus palabras el significado de P(w|c) y P(c|w) ¿porqué es razonable considerar a P(w|c) como el error del modelo
* A qué se refiere Norvig en el punto 4 por "data on spelling errors" ¿qué tiene qué ver eso con el error del modelo?
* Explica el procedimiento de Norvig para evaluar el modelo
* Escribe cuidadosamente tus conclusiones
Al igual que antes, el líder del equipo tiene que entregar la libreta corrida y la exportación a html.  

# Código de Norvig
Este código define un algoritmo de corrección de ortografía que utiliza la información estadística almacenada en el archivo "big.txt" para corregir palabras. Se basa en la idea de que las palabras que se usan con más frecuencia son más probablemente la ortografía correcta de una palabra.

### Explicación:
Este código define un algoritmo de corrección de ortografía que utiliza la información estadística almacenada en el archivo "big.txt" para corregir palabras. Se basa en la idea de que las palabras que se usan con más frecuencia son más probablemente la ortografía correcta de una palabra.

La función "words" utiliza expresiones regulares para encontrar todas las secuencias de caracteres de palabras (letras, dígitos y subrayados) en un texto dado y convertirlos a minúsculas. "WORDS" es un objeto de contador que almacena la frecuencia de cada palabra en el archivo big.txt.

La función "P" calcula la probabilidad de una palabra dada. Utiliza la frecuencia de la palabra en el archivo big.txt, normalizada por el número total de palabras en el archivo.

La función "correction" devuelve la corrección más probable para una palabra dada. Lo hace generando un conjunto de palabras candidatas utilizando la función "candidates" y seleccionando la de mayor probabilidad, calculada por "P".

La función "candidates" genera un conjunto de palabras candidatas para una palabra dada llamando a "known", "edits1" y "edits2". "Known" devuelve el subconjunto de palabras de una lista dada que aparecen en el diccionario de palabras almacenado en "WORDS". "Edits1" genera un conjunto de palabras que están a una edición de distancia de la palabra original, y "edits2" genera un conjunto de palabras que están a dos ediciones de distancia. Las ediciones incluyen la eliminación, la transposición, la sustitución y la inserción de caracteres.

### Importaciones

In [None]:
import re
from collections import Counter

### def words(text)
This is a function definition in the Python programming language. It takes in a single argument text and returns a list of words contained in the argument.

The function uses a regular expression re.findall(r'\w+', text.lower()) to find all the words in the input text after converting it to lowercase. The regular expression \w+ matches one or more word characters (letters, digits, or underscores), effectively matching all the words in the input text.

The re module is the Python module for working with regular expressions. The re.findall function is used to find all non-overlapping occurrences of the regular expression pattern in the input string and return them as a list.

In [None]:
def words(text): return re.findall(r'\w+', text.lower())

### WORDS (contador)
"WORDS" es un objeto de contador que almacena la frecuencia de cada palabra en el archivo big.txt.

In [None]:
WORDS = Counter(words(open('big.txt').read()))

### P (probabilidad)
La función "P" calcula la probabilidad de una palabra dada. Utiliza la frecuencia de la palabra en el archivo big.txt, normalizada por el número total de palabras en el archivo.

In [None]:
def P(word, N=sum(WORDS.values())): 
    "Probability of `word`."
    return WORDS[word] / N

### Correction
Devuelve la corrección más probable para una palabra dada. Lo hace generando un conjunto de palabras candidatas utilizando la función "candidates" y seleccionando la de mayor probabilidad, calculada por "P".

In [None]:
def correction(word): 
    "Most probable spelling correction for word."
    return max(candidates(word), key=P)

### Candidates
Genera un conjunto de palabras candidatas para una palabra dada llamando a "known", "edits1" y "edits2". 

In [None]:
def candidates(word): 
    "Generate possible spelling corrections for word."
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

### Known
"Known" devuelve el subconjunto de palabras de una lista dada que aparecen en el diccionario de palabras almacenado en "WORDS". 

In [None]:
def known(words): 
    "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)

### edits1
"Edits1" genera un conjunto de palabras que están a una edición de distancia de la palabra original


In [1]:
def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

### edits 2
"edits2" genera un conjunto de palabras que están a dos ediciones de distancia. Las ediciones incluyen la eliminación, la transposición, la sustitución y la inserción de caracteres.

In [None]:
def edits2(word): 
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))