El objetivo de este trabajo es desarrollar un corrector ortográfico para detección de errores por palabras utilizando métodos estadísticos para ordenar las sugerencias. A continuación expondré los planteamientos que me he realizado durante la creación del corrector y la explicación de la implementación realizada. Además se muestran algunos errores cometidos y como se han solucionado.

**Objetivos:**

- Detección de palabras erroneas (errores Non-Word)
- Generación de sugerencias por transformaciones de caracteres en base a inserciones, eliminaciones, sustituciones y transposición.
- Ordenar las sugerencias maximizando la probabilidad de la oración con el empleo de Modelos del Lenguaje.

### Detección de errores Non-word

#### ¿Qué es un error Non-word?

Los errores ortográficos, llamados Non-word, son detectados cuando una palabra no se localiza en un diccionario. Pueden producirse por equivocaciones al teclear, que sería un error tipográfico, o por problemas de conocimiento de las reglas de redacción y/o formación de palabras, que correspondería a un error cognitivo. A veces sucede que la palabra es correcta, pero no se encuentra en el diccionario con el que se está trabajando. En estos caso la palabra se sigue considerando un error.

Los errores de carácter tipográfico se pueden diferenciar en 4 grupos, de acuerdo al error cometido:

* Errores por sustitución de caracteres.
* Errores por inserción de caracteres.
* Errores por eliminación de caracteres

### Cargando datos (CORPUS)

Un **corpus** para este caso, es un conjunto amplio y estructurado de ejemplos reales del uso de la lengua. Estos ejemplos generalmente son textos, pueden ser noticias, artículos, historias, etc.

Para la construcción de este corrector se cuenta con un CORPUS de 201 noticias de diversos temas, las cuales se garatiza que están escritas correctamente.

Para facilitar la carga de los archivos se han almacenado en la carpeta CORPUS dentro de este directorio y se han nombrado enumerandolos del 1-201 con la extensión .txt.

Ejemplo del contenido de un archivo:

In [1]:
content = open('CORPUS/1.txt').read()

print(content[:800])

﻿URL: https://rpp.pe/columnistas/francoisvallaeys/adios-religion-bienvenida-espiritualidad-noticia-1207163
Periodista:
Agencia:RPP NOTICIAS
Fecha de entrada:10 de Julio del 2019 - 8:39 AM
Título:¡Adiós religión, bienvenida espiritualidad!
Tema:Religión
Contenido:
La moral es un sistema de control para la integración grupal, un decálogo explicativo impuesto para asemejar a los “buenos” y excluir a los “malos”. 
Suele ser muy mala con los individuos que quieren ser diferentes y genuinos, la más mínima desobediencia despierta su ira.
Su definición del “bien” y del “mal” es ad hoc, dependiendo de los rasgos culturales del grupo y de la religión que lo funda.
La ética es una liberación de la moral para interrogar libre y sensatamente qué ha de ser universalmente celebrado en la existencia. 
La 


#### Limpieza de los datos

Para conformar el corpus se procederá a almacenar el contenido de todos los ficheros en una sola variable que contendrá todos los textos pero solamente tomando la parte del contenido, o sea obviando datos como URL, Periodista, Agencia, etc.

Con la siguiente instrucción se muestra como tomar solamente la parte de la noticia relacionada con el contenido.

In [2]:
contenido = open('CORPUS/1.txt').read().split('Contenido:')[-1]

contenido[:250]

'\nLa moral es un sistema de control para la integración grupal, un decálogo explicativo impuesto para asemejar a los “buenos” y excluir a los “malos”. \nSuele ser muy mala con los individuos que quieren ser diferentes y genuinos, la más mínima desobedi'

In [3]:
text = ''

for i in range(1, 202):
    text += (open('CORPUS/{}.txt'.format(i)).read().split('Contenido:')[-1])

In [4]:
print(text[:250])


La moral es un sistema de control para la integración grupal, un decálogo explicativo impuesto para asemejar a los “buenos” y excluir a los “malos”. 
Suele ser muy mala con los individuos que quieren ser diferentes y genuinos, la más mínima desobedi


Ahora procederemos a eliminar los saltos de línea y los espacios que se encuentran luego de un punto final. Además de agregar un símbolo de **.** al inicio del texto y eliminar algunos símbolos detectados en los textos que dificultan el trabajo con los mismos para la construcción de un *diccionario* y un *modelo del lenguaje*.

In [5]:
import re

In [6]:
def clean_text(text):
    text = re.sub(r'\n', '. ', text)
    text = re.sub(r'[{}@_*<>()\\#%+=\[\]ôà|è$–/—‘’«°º»”“&…∑⁄]', '', text)
    text = re.sub('a0', '', text)
    text = re.sub('\'92t', '\'t', text)
    text = re.sub('\'92s', '\'s', text)
    text = re.sub('\'92m', '\'m', text)
    text = re.sub('\'92ll', '\'ll', text)
    text = re.sub('\'91', '', text)
    text = re.sub('\'92', '', text)
    text = re.sub('\'93', '', text)
    text = re.sub('\'94', '', text)
    text = re.sub('\uf0b7', '', text)
    text = re.sub('\uf0e0', '', text)
    text = re.sub('\u200e', '', text)
    text = re.sub('\ufeff', '', text)
    text = re.sub('\u200b', '', text)
    text = re.sub('\t', '', text)
    text = re.sub('\r', '', text)
    text = re.sub('\.', '. ', text)
    text = re.sub('\!', '! ', text)
    text = re.sub('\?', '? ', text)
    text = re.sub(' +', ' ', text)
    
    return text

text = clean_text(text)

In [7]:
print(text[:250])

. La moral es un sistema de control para la integración grupal, un decálogo explicativo impuesto para asemejar a los buenos y excluir a los malos. . Suele ser muy mala con los individuos que quieren ser diferentes y genuinos, la más mínima desobedien


Este preprocesamiento de los datos nos va a permitir ahora remplazar los simbolos de **.** por un caracter especial **_** que nos permitirá conocer cuando una palabra se encuentra al inicio o al final de una oración cuando conformemos nuestro modelo del lenguaje que será explicado posteriormente. Para nuestro caso utilizaremos para modelar el lenguaje un *trigrama de palabra* por lo que cada símbolo de **.** será sustituido por dos símbolos de **_** separados por espacio.

In [8]:
text = text.replace('.', ' _ _ ')

print(text[:500])

 _ _  La moral es un sistema de control para la integración grupal, un decálogo explicativo impuesto para asemejar a los buenos y excluir a los malos _ _   _ _  Suele ser muy mala con los individuos que quieren ser diferentes y genuinos, la más mínima desobediencia despierta su ira _ _   _ _  Su definición del bien y del mal es ad hoc, dependiendo de los rasgos culturales del grupo y de la religión que lo funda _ _   _ _  La ética es una liberación de la moral para interrogar libre y sensatament


### Creación del deccionario y tokenización de las palabras

En el siguiente paso procederemos a extraer del CORPUS todas las palabras, las cuales van a conformar nuestro diccionario y el vocabulario empleado en el modelo que se construirá posteriormente.

In [9]:
import numpy as np

In [10]:
vocab = sorted(set(re.findall('[A-Za-z_áéíóúüñ]+', text)))

In [11]:
print(vocab[:100])

['A', 'AAA', 'ABT', 'ACN', 'ACV', 'AFP', 'AGR', 'AHS', 'AIN', 'ALBA', 'ALTA', 'AQU', 'AS', 'Abbas', 'Abel', 'Abela', 'Abelardo', 'Abierto', 'Abraham', 'Abreu', 'Abril', 'Abu', 'Abuelas', 'Academia', 'Accidente', 'Acción', 'Aceras', 'Acerca', 'Acinox', 'Acno', 'Acompañado', 'Acompañamos', 'Acoplados', 'Acosados', 'Acosta', 'Actualmente', 'Actúan', 'Acuario', 'Acuerdo', 'Adam', 'Adama', 'Adams', 'Adasme', 'Adelantó', 'Además', 'Adentro', 'Adicionalmente', 'Adislen', 'Administración', 'Admitió', 'Adolfo', 'Adquirió', 'Adriana', 'Aduana', 'Afganistán', 'Afortunadamente', 'Afrontamos', 'Age', 'Agencia', 'Agenda', 'Agradezco', 'Agregó', 'Agricultores', 'Agricultura', 'Agropecuario', 'Agropecuarios', 'Agua', 'Aguas', 'Aguilera', 'Aguirre', 'Agustín', 'Ahmed', 'Ahora', 'Ahumada', 'Ahí', 'Ailí', 'Aimée', 'Air', 'Aires', 'Airlines', 'Aissami', 'Ajedrez', 'Al', 'Alberto', 'Alejandro', 'Alejo', 'Alemania', 'Alembert', 'Alemán', 'Alerta', 'Alexander', 'Alexandria', 'Alfonso', 'Alfred', 'Algunos', '

In [12]:
len(vocab)

12115

Como se puede apreciar tenemos una lista **vocab** con todas las palabras que aparecen en nuestro CORPUS ordenadas alfabeticamente. Se puede ver como se reconoce el caractér especial **_** como una palabra ya que este también formará parte del vocabulario que emplearemos para construir nuestro *modelo del lenguaje*.

Con este paso ya podemos hacer la detección de errores Non-word con una simple instrucción.

In [13]:
'Cuba' in vocab

True

In [14]:
'programming' in vocab

False

Sin embargo como se ha dicho queremos además construir un *modelo del lenguaje*. Para facilitar la construcción de dicho modelo procederemos a tokenizar las palabras, para este caso en particular llamaremos tokenizar a asignarle un número a cada palabra según el orden en que aparecen en el diccionario, o sea asignarles un **id**.

In [15]:
word2id = {word:i for i, word in enumerate(vocab) }

In [16]:
id2word = np.array(vocab)

In [17]:
cubaId = word2id['Cuba']
cubaId

686

In [18]:
id2word[cubaId]

'Cuba'

Ahora contamos con un método para detectar si una palabra se encuentra en nuestro vocabulario, un método para convertir una palabra en un entero **id** y además realizar la operación inversa.

Hasta aquí esta primera parte, en el próximo artículo comenzaremos con las construcción del modelo del lenguaje.