# Instrucciones

Considera el artículo de Peter Norvig https://norvig.com/spell-correct.html.  En una libreta de Jupyter, replica el artículo considerando lo siguiente:
Adapta la función edits1, edits2 para sin considerar la opción de "transpose"
Programa una tercera función edits3
Justifica porqué las funciones edits1, edits2 nos regresan efectivamente las palabras a "distancia" 1 y 2 respectivamente de una palabra dada 
* Adapta todas las funciones edits para el caso del alfabeto en español &check;
* Prueba tu corrector con tu propio big.txt (no olvides poner la referencia) &check;
* Describe con tus palabras el significado de P(w|c) y P(c|w) ¿porqué es razonable considerar a P(w|c) como el error del modelo?
* A qué se refiere Norvig en el punto 4 por "data on spelling errors" ¿qué tiene qué ver eso con el error del modelo?
* Explica el procedimiento de Norvig para evaluar el modelo
* Escribe cuidadosamente tus conclusiones
Al igual que antes, el líder del equipo tiene que entregar la libreta corrida y la exportación a html.  

# Código de Norvig
Este código define un algoritmo de corrección de ortografía que utiliza la información estadística almacenada en el archivo "big.txt" para corregir palabras. Se basa en la idea de que las palabras que se usan con más frecuencia son más probablemente la ortografía correcta de una palabra.

### Importaciones
El código contiene dos importaciones:

    "re" (de la librería "regex" o "regular expressions"): esta librería proporciona funciones para trabajar con expresiones regulares en Python. En este código se utiliza la función "re.findall" para buscar todas las palabras en un texto.

    "Counter" de la librería "collections": esta librería proporciona una variedad de clases de contenedores para Python, incluido "Counter", que es una clase que se utiliza para contar objetos. En este código, se utiliza "Counter" para crear una lista de todas las palabras en un archivo de texto y contar la cantidad de veces que cada palabra aparece. La lista de palabras y sus conteos se guardan en la variable "WORDS".

In [49]:
import re
from collections import Counter

### def words(text)
La función "words" se utiliza para dividir un texto en una lista de palabras individuales. La función toma una cadena de texto como entrada y utiliza una expresión regular para buscar todas las palabras en el texto.

La función "re.findall" se utiliza para buscar todas las ocurrencias de una expresión regular (patrón que se buscará) en una cadena de texto y devolverá una lista de ellas. Cada elemento de la lista es una cadena de texto que coincide con el patrón de la expresión regular. La función toma dos argumentos: la expresión regular y la cadena de texto donde se buscarán las ocurrencias. La expresión regular utilizada es r'\w+'(abreviatura para "[a-zA-Z0-9_]"), se utiliza para buscar secuencias de uno o más caracteres alfanuméricos (letras y/o números).

Una vez que se han encontrado todas las palabras en el texto, la función convierte todas las letras a minúsculas con el método "lower()" y devuelve una lista de las palabras encontradas. Esta lista de palabras es lo que se utiliza en el resto del programa para generar correcciones de ortografía y determinar la probabilidad de una palabra en particular.




In [50]:
def words(text): return re.findall(r'[a-zA-ZñÑáéíóúÁÉÍÓÚüÜ]+', text.lower())

### WORDS (contador)
"WORDS" es un objeto de contador que almacena la frecuencia de cada palabra en el archivo big.txt.

El contador "WORDS" es un objeto de la clase "Counter" de la biblioteca "collections" de Python. Es una estructura de datos que permite contar la frecuencia de elementos en una lista. En este caso, se utiliza para contar la frecuencia de palabras en el archivo "big.txt".

Para construir el objeto "WORDS", se llama a la función "words" para obtener una lista de todas las palabras en el archivo "big.txt". Luego, se pasa esta lista a la función "Counter" para construir el objeto "WORDS". Después de esto, el objeto "WORDS" contiene un registro de la frecuencia de cada palabra en el archivo "big.txt".

El objeto "WORDS" se utiliza en la función "P" para calcular la probabilidad de una palabra dada. Además, "WORDS" se utiliza en la función "known" para verificar si una palabra dada se encuentra en el diccionario de palabras almacenado en "WORDS".

Como corpus volvimos a tomar el don Quijote. Tomando el feedback que usted nos dio en la tarea pasado ahora si solo tomaremos los caracteres alfabeticos, quitando numeros, comas, giones, etc. Esto lo hacemos con la siguiente expresion regular :

[a-zA-ZñÑáéíóúÁÉÍÓÚüÜ]+

In [51]:
WORDS = Counter(words(open('../BPE/donQuijote.txt', encoding="utf8").read()))

# Si quiere usar el corpus donQuijote.txt obtienes este error : 
# 'charmap' codec can't decode byte 0x81 in position 20948: character maps to <undefined>
# Al poner encoding="utf8" se puede proseguir 

### P (probabilidad)
La función "P" calcula la probabilidad de una palabra dada. Utiliza la frecuencia de la palabra en el archivo big.txt, normalizada por el número total de palabras en el archivo.

La función "P" se utiliza para calcular la probabilidad de una palabra dada en el archivo "big.txt". La probabilidad se calcula como la frecuencia de la palabra en el archivo "big.txt" dividida por el número total de palabras en el archivo.

La función "P" tiene un parámetro obligatorio "word" que es la palabra para la cual se quiere calcular la probabilidad. También tiene un parámetro opcional "N" que representa el número total de palabras en el archivo "big.txt". Si no se proporciona un valor para "N", se utiliza el valor predeterminado que es la suma de las frecuencias de todas las palabras en el archivo "big.txt".

La probabilidad se devuelve como un flotante, que representa la frecuencia de la palabra en el archivo "big.txt" en términos de una fracción. Por ejemplo, si la palabra "hola" aparece 1000 veces en un archivo de 10,000 palabras, la probabilidad de "hola" sería de 0.1 o 10%.

In [52]:
def P(word, N=sum(WORDS.values())): 
    "Probability of `word`."
    return WORDS[word] / N

### Correction
Devuelve la corrección más probable para una palabra dada. Lo hace generando un conjunto de palabras candidatas utilizando la función "candidates" y seleccionando la de mayor probabilidad, calculada por "P".

La función "correction" es una función que se utiliza para corregir la ortografía de una palabra. La función toma una palabra como entrada y devuelve la corrección más probable de la ortografía de la palabra.

La función "correction" hace uso de otras funciones definidas en el código para realizar su tarea. En primer lugar, llama a la función "candidates" para generar una lista de posibles correcciones de la ortografía de la palabra. La lista incluye la palabra original y cualquier otra palabra que pueda ser una corrección posible.

Luego, la función "correction" utiliza la función "P" para calcular la probabilidad de cada palabra en la lista de candidatos. Finalmente, la función "correction" devuelve la palabra con la probabilidad más alta utilizando la función "max" y la función "P" como la clave para comparar las palabras.

En resumen, la función "correction" es una función que utiliza un modelo de lenguaje basado en la frecuencia de palabras para corregir la ortografía de una palabra dada.

In [53]:
def correction(word): 
    "Most probable spelling correction for word."
    return max(candidates(word), key=P)

### Candidates
Genera un conjunto de palabras candidatas para una palabra dada llamando a "known", "edits1" y "edits2". 

La función "candidates" es una función que se utiliza para generar una lista de posibles correcciones de la ortografía de una palabra dada. La función toma una palabra como entrada y devuelve una lista de palabras que pueden ser posibles correcciones de la ortografía.

La función "candidates" hace uso de otras funciones definidas en el código para generar la lista de candidatos. En primer lugar, la función llama a la función "known" con la palabra original como entrada. La función "known" verifica si la palabra original se encuentra en el diccionario de palabras y, si es así, la agrega a la lista de candidatos.

Si la palabra original no se encuentra en el diccionario, la función "candidates" llama a la función "edits1" con la palabra original como entrada. La función "edits1" genera una lista de todas las ediciones que están a una edición de distancia de la palabra original. Luego, la función "known" se llama con esta lista de ediciones y agrega todas las palabras que se encuentran en el diccionario a la lista de candidatos.

Si aún no se han encontrado palabras en el diccionario después de las ediciones de una distancia, la función "candidates" llama a la función "edits2" con la palabra original como entrada. La función "edits2" genera una lista de todas las ediciones que están a dos ediciones de distancia de la palabra original. Luego, la función "known" se llama con esta lista de ediciones y agrega todas las palabras que se encuentran en el diccionario a la lista de candidatos.

Si después de todas estas ediciones aún no se han encontrado palabras en el diccionario, la función "candidates" devuelve la palabra original como única entrada en la lista de candidatos.

En resumen, la función "candidates" es una función que utiliza un modelo de lenguaje basado en la frecuencia de palabras para generar una lista de posibles correcciones de la ortografía de una palabra dada.

In [54]:
def candidates(word): 
    "Generate possible spelling corrections for word."
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or known(edits3(word)) or [word])

### Known
"Known" devuelve el subconjunto de palabras de una lista dada que aparecen en el diccionario de palabras almacenado en "WORDS". 

La función "known" se utiliza para buscar palabras conocidas en el diccionario de WORDS. Esta función toma una lista de palabras como argumento y devuelve un conjunto con aquellas palabras que aparecen en el diccionario de WORDS. La búsqueda se realiza usando una comprensión de listas, que es una forma concisa y eficiente de generar una nueva lista a partir de una secuencia existente.

En la comprensión de listas, se itera sobre la secuencia y se seleccionan aquellos elementos que cumplen una determinada condición. En este caso, se itera sobre la lista de palabras y se seleccionan aquellas que están presentes en el diccionario de WORDS. Finalmente, se convierte el resultado en un conjunto para eliminar duplicados y se devuelve el resultado.

In [55]:
def known(words): 
    "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)

### edits1
"Edits1" genera un conjunto de palabras que están a una edición de distancia de la palabra original.

La función "edits1" se utiliza para generar todas las correcciones posibles para una palabra que se encuentra a una distancia de edición de una sola operación. Esta función toma una palabra como argumento y devuelve un conjunto con todas las posibles correcciones.

La función primero genera todas las divisiones posibles de la palabra en dos partes, la izquierda (L) y la derecha (R), utilizando una comprensión de listas. Luego, se realizan cuatro operaciones diferentes para generar las correcciones:

    Borrado: Se crean nuevas palabras eliminando la primera letra de R.
    Transposición: Se crean nuevas palabras intercambiando las posiciones de las dos primeras letras de R.
    Reemplazo: Se crean nuevas palabras reemplazando cada letra de R con una letra diferente del alfabeto.
    Inserción: Se crean nuevas palabras insertando una letra diferente del alfabeto en cada posición de R.

Todas las correcciones generadas se agrupan en un conjunto para eliminar duplicados y se devuelve el resultado.



In [56]:
def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = 'aábcdeéfghiíjklmnñoópqrstuúvwxyz'
    splits     = [(word[:i+1], word[i+1:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + replaces + inserts)

### edits 2
"edits2" genera un conjunto de palabras que están a dos ediciones de distancia. Las ediciones incluyen la eliminación, la transposición, la sustitución y la inserción de caracteres.

La función "edits2" se utiliza para generar todas las correcciones posibles para una palabra que se encuentran a una distancia de edición de dos operaciones. Esta función utiliza la función "edits1" para generar las correcciones a una distancia de edición de una sola operación, y luego aplica la función "edits1" a cada una de estas correcciones.

En otras palabras, la función "edits2" toma cada palabra que se encuentra a una distancia de edición de una sola operación y genera todas las correcciones posibles a una distancia de edición de dos operaciones a partir de esa palabra. Finalmente, se agrupan todas las correcciones en una lista y se devuelve el resultado.

In [57]:
def edits2(word): 
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))

<!-- ## Distancia de edits1 y edits2 -->
En clase se vio el siguiente algoritmo

Regla inicial :

$D[i,0] = i$

$D[0,j] = j$

Regla inductiva :

$D[i,j] = min{D[i-1,j] + 1, D[i,j-1] + 1, D[i-1,j-1] + \lambda}$

$\lambda = 
    \left\lbrace\begin{array}{c} 
        2 \hspace{0.5cm} \text{si} \hspace{0.5cm} \text{source}[i] \neq \text{target}[j]  \\
        0 \hspace{0.5cm} \text{si} \hspace{0.5cm} \text{source}[i] = \text{target}[j]
    \end{array}\right.
$

Donde obtenemos la distancia minima para pasar de una palabra a otra. De aqui en adelante cuando digamos distancia nos referiremos a la distancia segun este algoritmo. En la siguiente celda esta el algoritmo programado


In [58]:
def distance(s, t):
    """
    Calcula la distancia (de Levenshtein) entre dos cadenas de caracteres con el algoritmo visto en clase.
    """
    m, n = len(s), len(t) # Obtenemos la longitud de las palabras
    # Creamos un arreglo de 0's de (m+1)*(n+1), donde se guardaran las subdistancias
    d = [[0] * (n + 1) for i in range(m + 1)] 

    # Aplicamos el metodo de distancias de levenshtein
    for i in range(1, m + 1):
        d[i][0] = i

    for j in range(1, n + 1):
        d[0][j] = j

    for j in range(1, n + 1):

        for i in range(1, m + 1):

            d[i][j] = min(d[i - 1][j] + 1, d[i][j - 1] + 1, d[i - 1][j - 1] + 2*(not s[i - 1] == t[j - 1]))
                
    return d[m][n]

Si comparamos este algoritmo con las funciones edits del articulo, vemos que edits1 no da palabras a 1 de distancia, de igual manera con edits2 no da palabras a 2 de distancia segun nuestro algoritmo. En general edits1 te da palabras a 0,1 y 2 de distancia, edits2 te da palabras a 0,1,2,3 y 4 de distancia.

Podriamos editar edits1 de manera facil para obtener solo palabras a 1 de distancia, eliminando la operacion replaces, como se ve en el siguiente codigo

In [59]:
def edits1dis(word):
    "All edits that are one edit away from `word`."
    letters    = 'aábcdeéfghiíjklmnñoópqrstuúüvwxyz'
    splits     = [(word[:i+1], word[i+1:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + inserts)

Esto lo puedes comprobar con la siguiente celda. Si la ejecutas con el bloque que utiliza edits1, veras como te regresara palabras a 2 y a 0 de distancia, a diferencia del edits1dis del cual no obtendras ningun output porque todos estan a 1 de distancia.

In [60]:
palabra = 'madderaa'
edit1 = list(edits1(palabra))
edit1dis = list(edits1dis(palabra))


for i in range(len(edit1)):
    if (distance(palabra,edit1[i]) == 0):
        print("edits1")
        print(distance(palabra,edit1[i]))
        print(edit1[i])

# for i in range(len(edit1dis)):
#     if (distance(palabra,edit1dis[i]) != 1):
#         print("edits1dis")
#         print(distance(palabra,edit1dis[i]))
#         print(edit1dis[i])

edits1
0
madderaa


Para edits2 no es tan facil como solo llamar edits1dis en lugar de edits1, si hacemos esto \"edits2dis\" nos arrojara palabras a distancia 2 o menores. Por lo tanto debemos hacer un analisis mas a profundidad para encontrar el edits2 adecuado.

### edits 3
"edits3" genera un conjunto de palabras que están a tes ediciones de distancia. Las ediciones incluyen la eliminación, la transposición, la sustitución y la inserción de caracteres.

In [61]:
def edits3(word): 
    "All edits that are two edits away from `word`."
    return (e3 for e1 in edits1(word) for e3 in edits2(e1))

# # Esto es lo mismo    
# def edits3(word):
#     "All edits that are three edits away from `word`."
#     e3 = []
#     for e1 in edits1(word):
#         for e2 in edits2(e1):
#             e3.append(e2)
#     return e3


##  P(w|c) y P(c|w)

Donde c es la palabra candidata como correccion (palabra del diccionario) y w la palabra a corregir (palabra dada por el usuario).

P(c|w) es la probabilidad que tiene una palabra candidata del diccionario "c" a ser la palabra que quizo escribir el usuario, siendo que escribió la palabra "w".

P(w|c) es la probabilidad de que el usuario escriba "w", cuando realmente quiso escribir la palabra del diccionario "c".

Ahora, ¿porque es razonable considerar a P(w|c) como el error del modelo?

Cuando la palabra dada por el usuario es muy parecida a una en el diccionario P(w|c) toma un valor cercano a 1, en contraparte cuando la palabra del usuario no se parece a ninguna del diccionario P(w|c) da un valor cercano a 0, por lo tanto un buen modelo deberia de dar siempre valores de P(w|c) cercanos a 1, de lo contrario significaria que necesitamos actualizar nuestro diccionario, ya que los usuario estan usando palabras que no se contemplan o nuestro algoritmo de edicion de palabras es inefectivo. 

## data on spelling errors

Se refiere a corpus que contienen escritos electronicos que las personas hacen en su vida cotidiana, como e-mail, sms, entradas de blogs, etc. Los cuales a diferencia de los escritos profecionales cuentan con errores \" normales \" que la mayoria de las personas hace al momento de escribir.

Entonces, ¿que tiene que ver eso con el error del modelo?

Al saber esto podemos tener un mejor valor de P(w|c), ya que tendriamos las formas en las que se equivocan las personas (w) al intentar escribir una cierta palabra (c).

# Evaluación

Ahora que tenemos nuestro corrector necesitamos una forma de saber qué tan bien lo está haciendo, para esto, Norving hace un conjunto de prubas unitarias. 

## unit_tests()

Primero crea un función que se encarga de hacer pruebas para cada caso de corrección. Esto es:
* Para una inserción (una letra faltante)
* Para dos reemplazos (corregir dos letras de la palabra)
* Para un solo reemplazo
* Para dos inserciones
* Para un eliminar
* Para un transponer (Cambiar de lugar dos letras)
* Para un transponer y un eliminar
* Para una palabra conocida
* Para una palabra desconocida

Además, hace pruebas de split, conteo de palabras en el corpus y pruebas de probabilidades

In [62]:
def unit_tests():
    # Pruebas unitarias con las operaciones
    assert correction('cabalo') == 'caballo'            # insert
    assert correction('corractd') == 'correcto'         # replace 2
    assert correction('trimpeta') == 'trompeta'         # replace
    assert correction('inconvenien') == 'inconveniente' # insert 2
    assert correction('arreeo') == 'arreo'              # delete
    assert correction('srevir') =='servir'              # transpose
    assert correction('sreviir') =='servir'             # transpose + delete
    assert correction('palabra') == 'palabra'           # known
    assert correction('quíntuple') == 'quíntuple'       # unknown
    
    # Prueba haciendo un split de la palabra
    assert words('Esto es una prueba.') == ['esto', 'es', 'una', 'prueba']
    
    # Prueba con las frecuencias
    assert Counter(words('Esto es una prueba. 123; Una PRUEBA es esto.')) == (
           Counter({'esto': 2, 'es': 2, 'una': 2, 'prueba': 2, '123': 1}))
    
    # Prueba con el tamanño del set de palabras distintas
    assert len(WORDS) == 22942

    # Prueba con el tamaño del ser con palabras distintas
    assert sum(WORDS.values()) == 381226

    # Prueba con las 10 palabras más comunes
    assert WORDS.most_common(10) == [
       ('que', 20628),
       ('de', 18214),
       ('y', 18189),
       ('la', 10363),
       ('a', 9824),
       ('en', 8242),
       ('el', 8210),
       ('no', 6335),
       ('los', 4748),
       ('se', 4691)]

     # Prueba con la frecuencia de una palabra, en este caso "que"
    assert WORDS['que'] == 20628
    assert P('quíntuple') == 0
    assert 0.05 < P('que') < 0.06
    return 'unit_tests pass'

## Spelltest(tests, verbose=False)

La función recibe una lista de pares (right, wrong) e itera sobre cada par. Llama a la función "correction" con la palabra incorrecta y verifica si el resultado coincide con la palabra correcta.

La función realiza un seguimiento del número de palabras correctamente corregidas en la variable "good" y el número de palabras desconocidas en la variable "unknown". Si el argumento "verbose" es Verdadero, la función imprime información sobre las correcciones que fueron incorrectas.

Finalmente, la función calcula el porcentaje de correcciones correctas y el porcentaje de palabras desconocidas, e imprime esta información junto con la velocidad de procesamiento.

In [63]:
def spelltest(tests, verbose=False):
    "Run correction(wrong) on all (right, wrong) pairs; report results."
    import time
    start = time.clock()
    good, unknown = 0, 0
    n = len(tests)
    for right, wrong in tests:
        w = correction(wrong)
        good += (w == right)
        if w != right:
            unknown += (right not in WORDS)
            if verbose:
                print('correction({}) => {} ({}); expected {} ({})'
                      .format(wrong, w, WORDS[w], right, WORDS[right]))
    dt = time.clock() - start
    print('{:.0%} of {} correct ({:.0%} unknown) at {:.0f} words per second '
          .format(good / n, n, unknown / n, n / dt))

## Testset(lines)

La función Testset toma una lista de cadenas llamadas líneas, donde cada cadena tiene el formato "correcto: wrong1 wrong2" (es decir, una respuesta correcta seguida de dos puntos y luego una lista de respuestas incorrectas separadas por espacios).

Luego, la función usa una lista de comprensión para dividir cada cadena en una tupla de (right, wrong) dividiendo en el carácter :. Para cada una de estas tuplas, la función luego divide la cadena de errores (que es una lista de respuestas incorrectas separadas por espacios) en una lista de respuestas incorrectas individuales y crea una nueva tupla de (right, wrong) para cada combinación de correcto e incorrecto.

Finalmente, la función devuelve una lista de estas tuplas (right, wrong).

In [64]:
def Testset(lines):
    "Parse 'right: wrong1 wrong2' lines into [('right', 'wrong1'), ('right', 'wrong2')] pairs."
    return [(right, wrong)
            for (right, wrongs) in (line.split(':') for line in lines)
            for wrong in wrongs.split()]

# Conclusiones

Para cubrir una amplia gama de palabras, es importante contar con un diccionario que tenga un tamaño considerable. Además, es importante actualizarlo con regularidad para incorporar correcciones y nuevos términos. De esta manera, podremos asegurarnos de que nuestro diccionario sea lo más completo y preciso posible.