# Instrucciones

Considera el artículo de Peter Norvig https://norvig.com/spell-correct.html.  En una libreta de Jupyter, replica el artículo considerando lo siguiente:
Adapta la función edits1, edits2 para sin considerar la opción de "transpose"
Programa una tercera función edits3
Justifica porqué las funciones edits1, edits2 nos regresan efectivamente las palabras a "distancia" 1 y 2 respectivamente de una palabra dada 
* Adapta todas las funciones edits para el caso del alfabeto en español
* Prueba tu corrector con tu propio big.txt (no olvides poner la referencia)
* Describe con tus palabras el significado de P(w|c) y P(c|w) ¿porqué es razonable considerar a P(w|c) como el error del modelo
* A qué se refiere Norvig en el punto 4 por "data on spelling errors" ¿qué tiene qué ver eso con el error del modelo?
* Explica el procedimiento de Norvig para evaluar el modelo
* Escribe cuidadosamente tus conclusiones
Al igual que antes, el líder del equipo tiene que entregar la libreta corrida y la exportación a html.  

# Código de Norvig
Este código define un algoritmo de corrección de ortografía que utiliza la información estadística almacenada en el archivo "big.txt" para corregir palabras. Se basa en la idea de que las palabras que se usan con más frecuencia son más probablemente la ortografía correcta de una palabra.

### Importaciones
El código contiene dos importaciones:

    "re" (de la librería "regex" o "regular expressions"): esta librería proporciona funciones para trabajar con expresiones regulares en Python. En este código se utiliza la función "re.findall" para buscar todas las palabras en un texto.

    "Counter" de la librería "collections": esta librería proporciona una variedad de clases de contenedores para Python, incluido "Counter", que es una clase que se utiliza para contar objetos. En este código, se utiliza "Counter" para crear una lista de todas las palabras en un archivo de texto y contar la cantidad de veces que cada palabra aparece. La lista de palabras y sus conteos se guardan en la variable "WORDS".

In [None]:
import re
from collections import Counter

### def words(text)
La función "words" se utiliza para dividir un texto en una lista de palabras individuales. La función toma una cadena de texto como entrada y utiliza una expresión regular para buscar todas las palabras en el texto.

La función "re.findall" se utiliza para buscar todas las ocurrencias de una expresión regular (patrón que se buscará) en una cadena de texto y devolverá una lista de ellas. Cada elemento de la lista es una cadena de texto que coincide con el patrón de la expresión regular. La función toma dos argumentos: la expresión regular y la cadena de texto donde se buscarán las ocurrencias. La expresión regular utilizada es r'\w+'(abreviatura para "[a-zA-Z0-9_]"), se utiliza para buscar secuencias de uno o más caracteres alfanuméricos (letras y/o números).

Una vez que se han encontrado todas las palabras en el texto, la función convierte todas las letras a minúsculas con el método "lower()" y devuelve una lista de las palabras encontradas. Esta lista de palabras es lo que se utiliza en el resto del programa para generar correcciones de ortografía y determinar la probabilidad de una palabra en particular.




In [None]:
def words(text): return re.findall(r'\w+', text.lower())

### WORDS (contador)
"WORDS" es un objeto de contador que almacena la frecuencia de cada palabra en el archivo big.txt.

El contador "WORDS" es un objeto de la clase "Counter" de la biblioteca "collections" de Python. Es una estructura de datos que permite contar la frecuencia de elementos en una lista. En este caso, se utiliza para contar la frecuencia de palabras en el archivo "big.txt".

Para construir el objeto "WORDS", se llama a la función "words" para obtener una lista de todas las palabras en el archivo "big.txt". Luego, se pasa esta lista a la función "Counter" para construir el objeto "WORDS". Después de esto, el objeto "WORDS" contiene un registro de la frecuencia de cada palabra en el archivo "big.txt".

El objeto "WORDS" se utiliza en la función "P" para calcular la probabilidad de una palabra dada. Además, "WORDS" se utiliza en la función "known" para verificar si una palabra dada se encuentra en el diccionario de palabras almacenado en "WORDS".

In [None]:
WORDS = Counter(words(open('big.txt').read()))

### P (probabilidad)
La función "P" calcula la probabilidad de una palabra dada. Utiliza la frecuencia de la palabra en el archivo big.txt, normalizada por el número total de palabras en el archivo.

La función "P" se utiliza para calcular la probabilidad de una palabra dada en el archivo "big.txt". La probabilidad se calcula como la frecuencia de la palabra en el archivo "big.txt" dividida por el número total de palabras en el archivo.

La función "P" tiene un parámetro obligatorio "word" que es la palabra para la cual se quiere calcular la probabilidad. También tiene un parámetro opcional "N" que representa el número total de palabras en el archivo "big.txt". Si no se proporciona un valor para "N", se utiliza el valor predeterminado que es la suma de las frecuencias de todas las palabras en el archivo "big.txt".

La probabilidad se devuelve como un flotante, que representa la frecuencia de la palabra en el archivo "big.txt" en términos de una fracción. Por ejemplo, si la palabra "hola" aparece 1000 veces en un archivo de 10,000 palabras, la probabilidad de "hola" sería de 0.1 o 10%.

In [None]:
def P(word, N=sum(WORDS.values())): 
    "Probability of `word`."
    return WORDS[word] / N

### Correction
Devuelve la corrección más probable para una palabra dada. Lo hace generando un conjunto de palabras candidatas utilizando la función "candidates" y seleccionando la de mayor probabilidad, calculada por "P".

La función "correction" es una función que se utiliza para corregir la ortografía de una palabra. La función toma una palabra como entrada y devuelve la corrección más probable de la ortografía de la palabra.

La función "correction" hace uso de otras funciones definidas en el código para realizar su tarea. En primer lugar, llama a la función "candidates" para generar una lista de posibles correcciones de la ortografía de la palabra. La lista incluye la palabra original y cualquier otra palabra que pueda ser una corrección posible.

Luego, la función "correction" utiliza la función "P" para calcular la probabilidad de cada palabra en la lista de candidatos. Finalmente, la función "correction" devuelve la palabra con la probabilidad más alta utilizando la función "max" y la función "P" como la clave para comparar las palabras.

En resumen, la función "correction" es una función que utiliza un modelo de lenguaje basado en la frecuencia de palabras para corregir la ortografía de una palabra dada.

In [None]:
def correction(word): 
    "Most probable spelling correction for word."
    return max(candidates(word), key=P)

### Candidates
Genera un conjunto de palabras candidatas para una palabra dada llamando a "known", "edits1" y "edits2". 

La función "candidates" es una función que se utiliza para generar una lista de posibles correcciones de la ortografía de una palabra dada. La función toma una palabra como entrada y devuelve una lista de palabras que pueden ser posibles correcciones de la ortografía.

La función "candidates" hace uso de otras funciones definidas en el código para generar la lista de candidatos. En primer lugar, la función llama a la función "known" con la palabra original como entrada. La función "known" verifica si la palabra original se encuentra en el diccionario de palabras y, si es así, la agrega a la lista de candidatos.

Si la palabra original no se encuentra en el diccionario, la función "candidates" llama a la función "edits1" con la palabra original como entrada. La función "edits1" genera una lista de todas las ediciones que están a una edición de distancia de la palabra original. Luego, la función "known" se llama con esta lista de ediciones y agrega todas las palabras que se encuentran en el diccionario a la lista de candidatos.

Si aún no se han encontrado palabras en el diccionario después de las ediciones de una distancia, la función "candidates" llama a la función "edits2" con la palabra original como entrada. La función "edits2" genera una lista de todas las ediciones que están a dos ediciones de distancia de la palabra original. Luego, la función "known" se llama con esta lista de ediciones y agrega todas las palabras que se encuentran en el diccionario a la lista de candidatos.

Si después de todas estas ediciones aún no se han encontrado palabras en el diccionario, la función "candidates" devuelve la palabra original como única entrada en la lista de candidatos.

En resumen, la función "candidates" es una función que utiliza un modelo de lenguaje basado en la frecuencia de palabras para generar una lista de posibles correcciones de la ortografía de una palabra dada.

In [None]:
def candidates(word): 
    "Generate possible spelling corrections for word."
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

### Known
"Known" devuelve el subconjunto de palabras de una lista dada que aparecen en el diccionario de palabras almacenado en "WORDS". 

La función "known" se utiliza para buscar palabras conocidas en el diccionario de WORDS. Esta función toma una lista de palabras como argumento y devuelve un conjunto con aquellas palabras que aparecen en el diccionario de WORDS. La búsqueda se realiza usando una comprensión de listas, que es una forma concisa y eficiente de generar una nueva lista a partir de una secuencia existente.

En la comprensión de listas, se itera sobre la secuencia y se seleccionan aquellos elementos que cumplen una determinada condición. En este caso, se itera sobre la lista de palabras y se seleccionan aquellas que están presentes en el diccionario de WORDS. Finalmente, se convierte el resultado en un conjunto para eliminar duplicados y se devuelve el resultado.

In [None]:
def known(words): 
    "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)

### edits1
"Edits1" genera un conjunto de palabras que están a una edición de distancia de la palabra original.

La función "edits1" se utiliza para generar todas las correcciones posibles para una palabra que se encuentra a una distancia de edición de una sola operación. Esta función toma una palabra como argumento y devuelve un conjunto con todas las posibles correcciones.

La función primero genera todas las divisiones posibles de la palabra en dos partes, la izquierda (L) y la derecha (R), utilizando una comprensión de listas. Luego, se realizan cuatro operaciones diferentes para generar las correcciones:

    Borrado: Se crean nuevas palabras eliminando la primera letra de R.
    Transposición: Se crean nuevas palabras intercambiando las posiciones de las dos primeras letras de R.
    Reemplazo: Se crean nuevas palabras reemplazando cada letra de R con una letra diferente del alfabeto.
    Inserción: Se crean nuevas palabras insertando una letra diferente del alfabeto en cada posición de R.

Todas las correcciones generadas se agrupan en un conjunto para eliminar duplicados y se devuelve el resultado.



In [1]:
def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

### edits 2
"edits2" genera un conjunto de palabras que están a dos ediciones de distancia. Las ediciones incluyen la eliminación, la transposición, la sustitución y la inserción de caracteres.

La función "edits2" se utiliza para generar todas las correcciones posibles para una palabra que se encuentran a una distancia de edición de dos operaciones. Esta función utiliza la función "edits1" para generar las correcciones a una distancia de edición de una sola operación, y luego aplica la función "edits1" a cada una de estas correcciones.

En otras palabras, la función "edits2" toma cada palabra que se encuentra a una distancia de edición de una sola operación y genera todas las correcciones posibles a una distancia de edición de dos operaciones a partir de esa palabra. Finalmente, se agrupan todas las correcciones en una lista y se devuelve el resultado.

In [None]:
def edits2(word): 
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))