# Correccion ortografica

Otro problema al que nos enfrentamos es la ortografía incorrecta o incorrecta que se produce debido a un error humano, o incluso errores automáticos que puede haber visto gracias a funciones como la corrección automática de texto. Hay varias formas de lidiar con las ortografías incorrectas donde el objetivo final es tener tokens de texto con la ortografía correcta. 

Utilizaremos uno de los más famosos algoritmos desarrollados por Peter Norvig, el director de investigación de Google. Puede encontrar la publicación detallada completa que explica su algoritmo y sus hallazgos en http://norvig.com/spell-correct.html. 

Dada una palabra, necesitamos encontrar la palabra más probable que sea la forma correcta de esa palabra. El enfoque que seguiríamos es generar un conjunto de palabras candidatas que estén cerca de nuestra palabra de entrada y seleccionar la palabra más probable de este conjunto como la palabra correcta. 

Usamos un corpus de palabras correctas en un idioma dado e.g inglés  para identificar la palabra correcta en función de su frecuencia en el corpus de nuestro conjunto final de candidatos con la distancia más cercana a nuestra palabra de entrada. Esta distancia, que mide qué tan cerca o lejos está una palabra de nuestra palabra de entrada, también se denomina distancia de edición (**edit distance**).

El corpus de entrada que usamos es un archivo que contiene varios libros del corpus de Gutenberg y también una lista de las palabras más frecuentes del Wiktionary y el British National Corpus. Se llama big.txt esta en http://norvig.com/big.txt y usarlo.

Vamos a usar el siguiente fragmento de código para generar un mapa de palabras frecuentes en el idioma inglés y sus recuentos

In [3]:
import re, collections
def tokens(text): 
    """
    Get all words from the corpus
    """
    return re.findall('[a-z]+', text.lower()) 

WORDS = tokens(open('big_txt.txt').read())
WORD_COUNTS = collections.Counter(WORDS)
# top 10 words in corpus
WORD_COUNTS.most_common(10)

[('the', 80030),
 ('of', 40025),
 ('and', 38313),
 ('to', 28766),
 ('in', 22050),
 ('a', 21155),
 ('that', 12512),
 ('he', 12401),
 ('was', 11410),
 ('it', 10681)]

Una vez que tenemos nuestro vocabulario, definimos tres funciones que calculan conjuntos de palabras que están a cero, uno y dos ediciones de distancia de nuestra palabra de entrada. Estas ediciones se pueden realizar mediante inserciones, eliminaciones, adiciones y transposiciones. El siguiente código define las funciones para hacer esto:

In [4]:
'''
La distancia entre hola y hola es 0
La distancia entre hoa y hola es 1 por ej.
'''
def edits0(word): 
    """
    Devuelve todos los strings que estan a zero distancia
    de la palabra de destino 
    """
    return {word}

def edits1(word):
    """
    Devuelve todos los strings que estan a 1 distancia de la palabra input
    """
    alphabet = 'abcdefghijklmnopqrstuvwxyz'
    def splits(word):
        """
        Devuelve una lista de todas las posibles (primera, resto) de parejas pairs 
        de la que está hecha la palabra de entrada.
        """
        return [(word[:i], word[i:]) 
                for i in range(len(word)+1)]
    pairs      = splits(word)
    deletes    = [a+b[1:]           for (a, b) in pairs if b]
    transposes = [a+b[1]+b[0]+b[2:] for (a, b) in pairs if len(b) > 1]
    replaces   = [a+c+b[1:]         for (a, b) in pairs for c in alphabet if b]
    inserts    = [a+c+b             for (a, b) in pairs for c in alphabet]
    return set(deletes + transposes + replaces + inserts)


def edits2(word):
    """Devuelve todas las cadenas que están a dos ediciones de distancia de la palabra de entrada.
    """
    return {e2 for e1 in edits1(word) for e2 in edits1(e1)}

También definimos una función llamada `known()` que devuelve un subconjunto de palabras de nuestro conjunto de palabras candidatas obtenidas de las funciones de edición, en función de si aparecen en nuestro diccionario de vocabulario WORD_COUNTS . Esto nos da una lista de palabras válidas de nuestro conjunto de palabras candidatas:

In [5]:
def known(words):
    """
    Devuelve el subconjunto de palabras que están realmente en nuestro diccionario WORD_COUNTS.
    """
    return {w for w in words if w in WORD_COUNTS}

Podemos ver estas funciones en acción en nuestra palabra de entrada de prueba en el siguiente fragmento de código, que muestra listas de posibles palabras candidatas en función de las distancias de edición desde la palabra de entrada:

In [6]:
word = 'fianlly'
# distancia cero 
edits0(word)

{'fianlly'}

In [7]:
# devuelve null ya que no es una palabra valida
known(edits0(word))

set()

In [8]:
# distancia de 1 de la palabra de entrada
edits1(word)

{'afianlly',
 'aianlly',
 'bfianlly',
 'bianlly',
 'cfianlly',
 'cianlly',
 'dfianlly',
 'dianlly',
 'efianlly',
 'eianlly',
 'faanlly',
 'faianlly',
 'fainlly',
 'fanlly',
 'fbanlly',
 'fbianlly',
 'fcanlly',
 'fcianlly',
 'fdanlly',
 'fdianlly',
 'feanlly',
 'feianlly',
 'ffanlly',
 'ffianlly',
 'fganlly',
 'fgianlly',
 'fhanlly',
 'fhianlly',
 'fiaally',
 'fiaanlly',
 'fiablly',
 'fiabnlly',
 'fiaclly',
 'fiacnlly',
 'fiadlly',
 'fiadnlly',
 'fiaelly',
 'fiaenlly',
 'fiaflly',
 'fiafnlly',
 'fiaglly',
 'fiagnlly',
 'fiahlly',
 'fiahnlly',
 'fiailly',
 'fiainlly',
 'fiajlly',
 'fiajnlly',
 'fiaklly',
 'fiaknlly',
 'fiallly',
 'fially',
 'fialnlly',
 'fialnly',
 'fiamlly',
 'fiamnlly',
 'fianally',
 'fianaly',
 'fianblly',
 'fianbly',
 'fianclly',
 'fiancly',
 'fiandlly',
 'fiandly',
 'fianelly',
 'fianely',
 'fianflly',
 'fianfly',
 'fianglly',
 'fiangly',
 'fianhlly',
 'fianhly',
 'fianilly',
 'fianily',
 'fianjlly',
 'fianjly',
 'fianklly',
 'fiankly',
 'fianlaly',
 'fianlay',
 'fi

In [9]:
# obtener las palabras correctas del conjunto
known(edits1(word))

{'finally'}

In [10]:
# ahora si uso 2 distancias tengo
edits2(word)

{'ufianlgy',
 'fgianllr',
 'fhanlqy',
 'fianllylw',
 'uianllay',
 'fiaznllx',
 'fganlxy',
 'fixanlqy',
 'fivnlgy',
 'fiavllyh',
 'filjanlly',
 'qfianllzy',
 'fianlhyw',
 'fianlzlwy',
 'fifnllly',
 'fianclys',
 'fianslnly',
 'fjianllyu',
 'kfbianlly',
 'fainllb',
 'xfianhly',
 'fhianolly',
 'fianullw',
 'fibanilly',
 'fidannlly',
 'fionuly',
 'foanllye',
 'ifianvlly',
 'fianllds',
 'fizarlly',
 'fsianllyh',
 'finbnlly',
 'ifanely',
 'fianmlvly',
 'ffianltly',
 'fianmllyl',
 'fbianlfly',
 'fmianaly',
 'cianlxy',
 'fiknlsly',
 'fiarlty',
 'tfianllx',
 'jiahnlly',
 'fiaznllyz',
 'wiailly',
 'foanlpy',
 'finnxlly',
 'fpaglly',
 'jianlmy',
 'fiawllny',
 'uianllyf',
 'fwianlby',
 'fiwtanlly',
 'fivnlmly',
 'faianylly',
 'fianjdlly',
 'vfiagnlly',
 'fialnllyj',
 'fpajnlly',
 'fbianllyn',
 'ofianlny',
 'nfianjlly',
 'fiadyly',
 'qibnlly',
 'fiallnly',
 'fianaally',
 'fianole',
 'yiamnlly',
 'fianlxily',
 'fiqanllhy',
 'fizanvlly',
 'fihaplly',
 'nianljy',
 'wialnly',
 'fiqnclly',
 'fianullyx',


In [11]:
# get correct words from above set
known(edits2(word))

{'faintly', 'finally', 'finely', 'frankly'}

Los resultados anteriores representan un conjunto de palabras candidatas válidas que podrían ser posibles reemplazos de la palabra de entrada incorrecta. Seleccionamos nuestras palabras candidatas de la lista anterior dando mayor prioridad a las palabras con las distancias de edición más pequeñas desde la palabra de entrada.

In [13]:
candidatos = (known(edits0(word)) or known(edits1(word)) or known(edits2(word)) or [word])
candidatos

{'finally'}

En caso de que haya un empate en los candidatos anteriores, lo resolvemos tomando la palabra más alta de nuestro diccionario de vocabulario WORD_COUNTS usando la función `max(candidates,key=WORD_COUNTS.get)`. Por lo tanto, ahora definimos nuestra función para corregir palabras usando la lógica discutida anteriormente:

In [14]:
def correct(word):
    """
    Obtiene la mejor palabra para el input dado
    """
    # Priority is for edit distance 0, then 1, then 2
    # else defaults to the input word itself.
    candidatos = (known(edits0(word)) or known(edits1(word)) or known(edits2(word)) or [word])
    return max(candidatos, key=WORD_COUNTS.get)

In [15]:
correct('fianlly')

'finally'

In [16]:
correct('FIANLLY')

'FIANLLY'

Vemos que esta función distingue entre mayúsculas y minúsculas y no corrige las palabras que no están en minúsculas, por lo tanto, escribimos las siguientes funciones para hacer que esto sea genérico para el caso de las palabras y corregir su ortografía independientemente. La lógica aquí es preservar el caso original de la palabra, convertirlo a minúsculas, corregir su ortografía y finalmente volver a convertirlo a su caso original usando la función case_of:

In [17]:
def correct_match(match):
    """
    Corrige la ortografía de la palabra en la coincidencia y conserva
    las mayúsculas/minúsculas/título correctos.
    """
    word = match.group()
    def case_of(text):
        """
        Devuele el case-function apropiadp
        para el  texto
            """
        return (str.upper if text.isupper() else str.lower if text.islower() else
                str.title if text.istitle() else
                str)
    return case_of(word)(correct(word.lower()))

    
def correct_text_generic(text):
    """
    Correge todas las palabras dentro de un texto, devolviendo el texto corregido.
    """
    return re.sub('[a-zA-Z]+', correct_match, text)

In [18]:
correct_text_generic('fianlly')

'finally'

In [19]:
correct_text_generic('FIANLLY')

'FINALLY'

Por supuesto, este método no siempre es completamente preciso, y puede haber palabras que no se corrijan si no aparecen en nuestro diccionario de vocabulario. Usar más datos ayudaría en este caso, siempre y cuando cubramos diferentes palabras que se escriben correctamente en nuestro vocabulario. 

In [21]:
from textblob import Word

w = Word('fianlly')
w.correct()

'finally'

In [22]:
w.spellcheck()

[('finally', 1.0)]

In [23]:
w = Word('flaot')
w.spellcheck()

[('flat', 0.85), ('float', 0.15)]

# Coreccion con Speller

In [24]:
from autocorrect import Speller
speller = Speller(lang='en')

In [26]:
import pandas as pd
df=pd.DataFrame()
df['MESSAGE']= ['Hi yuo art nuy a goot persom for mu','What are the time to regitur inte tho eventu']
df

Unnamed: 0,MESSAGE
0,Hi yuo art nuy a goot persom for mu
1,What are the time to regitur inte tho eventu


In [27]:
df['MESSAGE_C']= df['MESSAGE'].apply(speller)
df

Unnamed: 0,MESSAGE,MESSAGE_C
0,Hi yuo art nuy a goot persom for mu,Hi you art num a good person for mu
1,What are the time to regitur inte tho eventu,What are the time to register inte tho events


# PySpellChecker

In [29]:
from symspellpy import SymSpell
# Load the dictionary
sym_spell = SymSpell()
corpus_path = 'Dictionaries/dictionary_Norving_english.txt'
sym_spell.load_dictionary(corpus_path, term_index=0, count_index=1, separator='$')

True

In [34]:
df=pd.DataFrame()
df['MESSAGE']= ['Hi yuo art nuy a goot persom for mu','What are the time to regitur inte tho eventu',\
               'What are the conditiuns to recievu the game','I am yout so you are not playing witu o']
df

Unnamed: 0,MESSAGE
0,Hi yuo art nuy a goot persom for mu
1,What are the time to regitur inte tho eventu
2,What are the conditiuns to recievu the game
3,I am yout so you are not playing witu o


In [35]:
# Definir la funcion lambda para la correcion ortografica
correct_spelling = lambda x: str.split(str(sym_spell.lookup_compound(x, max_edit_distance=1)[0]), ',')[0]
# Aplicar la lambda function
df['CORRECCION'] = df['MESSAGE'].apply(correct_spelling)
df

Unnamed: 0,MESSAGE,CORRECCION
0,Hi yuo art nuy a goot persom for mu,hi yuo art nuy a goot person for mu
1,What are the time to regitur inte tho eventu,what are the time to regi tur inte tho eventu
2,What are the conditiuns to recievu the game,what are the conditions to recieve the game
3,I am yout so you are not playing witu o,i am yout so you are not playing with o


En el mundo de la correcion ortografica hay una gran cantidad de posibilidades pero estas que les estoy mostrando suelen ser las mas precisas desde el punto de vista semnatico