## Procesamiento de Lenguaje Natural

*MINI-TASK \#2* 

# ***Corrector ortográfico de P. Norvig***

### **Equipo:**

- Burruel Durán Luis Andrés
-
- Villalba Miranda Jesús Abraham

**Fuentes**
* [How to Write a Spelling Corrector (Peter Norvig) ](https://norvig.com/spell-correct.html)
---

## **I. Introducción**

En el mundo en el que siempre estamos redactando información, sease mediante la generación de documentos o por la comunicación por medio de mensajes, una de las caracteristicas más sobresalientes de los editores de texto que utilizamos, es la capacidad de corregir aquellas palabras que escribimos incorrectamente.

[Corrector ortográfico ](https://es.wikipedia.org/wiki/Corrector_ortogr%C3%A1fico#:~:text=Un%20corrector%20ortogr%C3%A1fico%20es%2C%20en,al%20usuario%20en%20su%20escritura.)
 > Un *corrector ortográfico* es una aplicación de software que se utiliza para anlizar textos con el fin de detectar y, de forma automatica o manual, corregir faltas ortograficas ayudando al usuario en su escritura.

### ¿Cómo funciona un corrector ortográfico?
Un corrector ortográfico sigue el siguiente proceso:
 1. **Identifica la palabra incorrecta**
    
    Identificamos que una palabra es incorrecta, es decir, no se encuentra dentro de nuestro vocabulario.

 2. **Se calculan las palabras a 1, 2 o 3 de distancia**
    
    Para esto se utiliza el algoritmo de **distancia mínima de edición**, lo que nos ayuda a tener una noción de similaridad entre dos palabras. 
    
    La **distancia minima de edición** entre dos palabras la podemos definir como el minimo número de operaciones de edición para transformar una cadena de caracteres (*source*) en otra (*target*).

    Las operaciones de edición pueden ser inserción, eliminación y remplazo de un caracter. A estas operaciones se les asigna un peso y basado en este, se obtiene la distancia.

 3. **Se filtran los posibles candidatos**
    
    De las palabras obtenidas en el paso anterior, se filtran los posibles candidatos de manera que se encuentren dentro de nuestro vocabulario.
    
 4. **Se calcula el más probable en funcion del contexto**

    Intentamos encontrar la corrección *c*, de todos los candidatos, de forma que maximize la probabilidad de que *c* es la corrección (palabra) correcta, dada la palabra incorrecta original. Para obtener dicha corrección, nos basamos en nuestro corpus.

Durante el resto del documento, explicaremos como funciona nuestra implementación de un corrector ortografico basada en la libreta realizada por *P. Norvig*. Las secciones las podemos dividir en: II. ¿Cómo funciona?; en donde explicaremos como implementamos el corrector; III. Evaluación y IV. Conclusiones.

## **II. ¿Cómo funciona?**

Al realizar un corrector ortográfico, estamos intentando encontrar la correción $c$, dentro de todos los posibles candidatos, de tal forma que maximize la probabilidad de que $c$ es la corrección correcta, dada la palabra original $w$.

$$argmax_{c \in candidates} P(c|w)$$

Por el teorema de Bayes, esta expresión es equivalente a

$$argmax_{c \in candidates} P(c) \dfrac{P(w|c)}{P(w)}$$

Como $P(w)$ es la misma para cualquier candidato $c$, podemos expresarlo de la siguiente manera:

$$argmax_{c \in candidates} P(c) P(w|c)$$

Esta expresión la podemos separar en cuatro partes:


### `1) Selection Mechanism`

---

Elegimos el candidato con mayor probabilidad combinada ($argmax$), esto lo vemos en la función `correccion`, con la palabra reservada `max` y el argumento `key`. 

La función `max` regresa el elemento más grande de un conjunto de elementos y `key` es una función en la que los elementos son pasados y cuyo valor de regreso es el utilziado para realizar la comparación.

```python
def correction(word):
    return max(candidates(word), key=P)
```

### `2) Candidate Model`

---

Definimos a la edición simple de una cadena de caracteres como la eliminación, sustitución o inserción de algún caracter en la cadena original. La  función edits1  dada una palabra regresa el conjunto de todas las cadenas de caracteres que se pueden obtener al realizar alguna de las tres operaciones previamente mencionadas en la palabra dada.

Por otro lado, la función edits2 obtiene una palabra, y regresa el conjunto de todas las cadenas que se pueden obtener al realizar dos operaciones en dicha palabra.

In [6]:
def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = 'abcdefghijklmñnopqrstuvwxyzáéíóú'
    splits     = [(word[:i], word[i:])    for i in range(len(word)+1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in (set(letters)-set(R[0]))]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes+replaces+inserts)

def edits2(word): return set(e2 for e1 in edits1(word) for e2 in edits1(e1))-edits1(word)-set(word)

Al considerar textos en español, nuestro conjunto de letras ("letters") posee ahora 32 símbolos, esto es, las 26 que comparte con el alfabeto inglés, más las cinco vocales con acento, mas el caracter "ñ". Así, con una cadena de caracteres de longitud n, podemos obtener n cadenas al eliminar un simbolo de la cadena original, 31n al realizar reemplazos y 32(n+1)-n al insertar símbolos, esto es, existen en total 63n+32 cadenas que están a una distancia igual a 1 de la palabra original.

### `3) Language Model`: $P(c)$

---

### `4) Error Model`: $P(w|c)$

---

## **III. Evaluación**

## **IV. Conclusiones**