# Corretor ortográfico em português

## Lendo base de palavras

In [1]:
with open("artigos.txt", "r", encoding = "utf8") as f:
    artigos = f.read()
    
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


## Preparando funções e bibliotecas para tokenização

In [2]:
import nltk

A função abaixo verifica se o item da lista é uma palavra, verificando se todos os caracteres fazem parte do alfabeto

In [3]:
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [4]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f"O número de palavras é {len(lista_palavras)}")

O número de palavras é 403106


A função abaixo normaliza as palavras, deixando as letras minúsculas

In [5]:
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

lista_normalizada = normalizacao(lista_palavras)

In [6]:
print(lista_normalizada[:5])

['imagem', 'temos', 'a', 'seguinte', 'classe']


In [7]:
len(set(lista_normalizada))

18465

## 1ª Correção - Adicionar letras faltantes

Para corrigir casos em que falta uma letra na palavra, iremos adicionar uma letra (com ou sem acento) de cada vez em cada posição possível, para então determinarmos a palavra correta com base na sua incidência nos artigos importados.

In [8]:
palavra_exemplo = "lgica"

def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in  letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

gerador_palavras(palavra_exemplo)

['algica',
 'blgica',
 'clgica',
 'dlgica',
 'elgica',
 'flgica',
 'glgica',
 'hlgica',
 'ilgica',
 'jlgica',
 'klgica',
 'llgica',
 'mlgica',
 'nlgica',
 'olgica',
 'plgica',
 'qlgica',
 'rlgica',
 'slgica',
 'tlgica',
 'ulgica',
 'vlgica',
 'wlgica',
 'xlgica',
 'ylgica',
 'zlgica',
 'álgica',
 'âlgica',
 'àlgica',
 'ãlgica',
 'élgica',
 'êlgica',
 'èlgica',
 'ẽlgica',
 'ílgica',
 'îlgica',
 'ìlgica',
 'ĩlgica',
 'ólgica',
 'ôlgica',
 'õlgica',
 'òlgica',
 'úlgica',
 'ûlgica',
 'ùlgica',
 'ũlgica',
 'çlgica',
 'lagica',
 'lbgica',
 'lcgica',
 'ldgica',
 'legica',
 'lfgica',
 'lggica',
 'lhgica',
 'ligica',
 'ljgica',
 'lkgica',
 'llgica',
 'lmgica',
 'lngica',
 'logica',
 'lpgica',
 'lqgica',
 'lrgica',
 'lsgica',
 'ltgica',
 'lugica',
 'lvgica',
 'lwgica',
 'lxgica',
 'lygica',
 'lzgica',
 'lágica',
 'lâgica',
 'làgica',
 'lãgica',
 'légica',
 'lêgica',
 'lègica',
 'lẽgica',
 'lígica',
 'lîgica',
 'lìgica',
 'lĩgica',
 'lógica',
 'lôgica',
 'lõgica',
 'lògica',
 'lúgica',
 'lûgica',

In [9]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    return palavra_correta

In [10]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [11]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

In [12]:
probabilidade("lógica")

0.00023815075935361914

## Validando os resultados

In [13]:
corretor(palavra_exemplo)

'lógica'

O resultado acima esta conforme o esperado, porém este não é o único erro possível, abaixo criaremos uma forma de validar a assertividade das correções.

## Testando a eficácia

In [14]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r", encoding="utf8")
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

In [15]:
lista_teste = cria_dados_teste("palavras.txt")

In [16]:
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

In [17]:
def avaliador(testes):
    n_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/n_palavras, 2)
    print(f"{taxa_acerto}% de {n_palavras} palavras")

In [18]:
avaliador(lista_teste)

1.08% de 186 palavras


Até o momento resolvemos um tipo de problema que pode ocorrer ao digitar, porém ainda não é o suficiente, iremos adicionar mais funcionalidades.

## 2ª Correção - Remover letras indesejadas

Para verificar se foi inserida uma letra a mais, dividimos a entrada em dois lados e então retiramos a primeira letra do lado direito e vamos ajustando o tamanho dos lados.

In [19]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

Nossa função para gerar palavras precisa comportar a função que deleta caracteres, adicionamos os resultados da função "deletando_caracteres" ao final da lista criada.

In [20]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas

In [21]:
palavra_exemplo = "lóigica"
palavra_geradas = gerador_palavras(palavra_exemplo)
print(palavra_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'álóigica', 'âlóigica', 'àlóigica', 'ãlóigica', 'élóigica', 'êlóigica', 'èlóigica', 'ẽlóigica', 'ílóigica', 'îlóigica', 'ìlóigica', 'ĩlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'òlóigica', 'úlóigica', 'ûlóigica', 'ùlóigica', 'ũlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'láóigica', 'lâóigica', 'làóigica', 'lãóigica', 'léóigica', 'lêóigica', 'lèóigica', 'lẽóigica', 'líóigica', 'lîóigica', 'lì

Como a palavra desejada foi criada, realizamos novamente o teste com nosso avaliador e conseguimos um resultado muito superior ao da primeira avaliação, porém podemos deixá-lo mais eficiente.

In [22]:
avaliador(lista_teste)

41.4% de 186 palavras


## 3ª Correção - Trocando letras

Um erro bem comum ao digitar é acionar uma tecla ao lado da desejada, por isso o corretor também deve realizar esse processo de troca de letras para poder corrigir mais casos.

In [23]:
def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in  letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

A função acima seria similar a junção da remoção einserção de caracteres, ou seja, ela remove um caracter e adiciona outro.
Feito isso, atualizamos nosso gerador de palavras.

In [24]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    return palavras_geradas

In [25]:
palavra_exemplo = "lígica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavra_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'álóigica', 'âlóigica', 'àlóigica', 'ãlóigica', 'élóigica', 'êlóigica', 'èlóigica', 'ẽlóigica', 'ílóigica', 'îlóigica', 'ìlóigica', 'ĩlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'òlóigica', 'úlóigica', 'ûlóigica', 'ùlóigica', 'ũlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'láóigica', 'lâóigica', 'làóigica', 'lãóigica', 'léóigica', 'lêóigica', 'lèóigica', 'lẽóigica', 'líóigica', 'lîóigica', 'lì

In [26]:
avaliador(lista_teste)

76.34% de 186 palavras


Feito isso, conseguimos corrigir mais erros da nossa lista de teste, porém ainda temos mais um método à acrescentar.

## 4ª Correção - Invertendo letras

Outro erro comum é trocar a ordem das letras ao digitar, a função abaixo inverte a posição das letras gerando combinações que podem conter a palavra correta.

In [27]:
def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

In [28]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_letra(fatias)
    return palavras_geradas

In [29]:
palavra_exemplo = "lógiac"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavra_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'álóigica', 'âlóigica', 'àlóigica', 'ãlóigica', 'élóigica', 'êlóigica', 'èlóigica', 'ẽlóigica', 'ílóigica', 'îlóigica', 'ìlóigica', 'ĩlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'òlóigica', 'úlóigica', 'ûlóigica', 'ùlóigica', 'ũlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'láóigica', 'lâóigica', 'làóigica', 'lãóigica', 'léóigica', 'lêóigica', 'lèóigica', 'lẽóigica', 'líóigica', 'lîóigica', 'lì

In [30]:
avaliador(lista_teste)

76.34% de 186 palavras


# Melhorando o corretor

Não houve diferença nas duas últimas avaliações, isso se deve a dois fatores, o primeiro seria a limitações do próprio algoritmo e o segundo seria os dados usados em treinamento, ou seja, "não conhecemos" a palavra que precisamos corrigir.

In [31]:
def avaliador(testes, vocabulario):
    n_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = round(acertou*100/n_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/n_palavras, 2)
    print(f"{taxa_acerto}% de {n_palavras} palavras, desconhecida é {taxa_desconhecida}%")

In [32]:
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecida é 6.99%


Com a informação acima, vemos que ainda temos oportunidades de melhoria em nosso algoritmo, sendo uma desta a correção de mais de um erro na mesma palavra, para isso iremos gerar mais palavras com base nas primeiros e criar um corretor que trabalhe estes dados e nos traga palavras com até 2 erros.

In [33]:
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

In [34]:
palavra_exemplo = "lóiigica"

palavras_g = gerador_turbinado(gerador_palavras(palavra_exemplo))
"lógica" in palavras_g

True

In [35]:
len(palavras_g)

787396

In [36]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavra_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

In [37]:
novo_corretor(palavra_exemplo)

'lógica'

Para fins de testes, iremos adaptar o nosso avaliador para comparar os dois corretores.

In [38]:
def avaliador(testes, vocabulario):
    n_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(correta + "-" + errada + "-" + corretor(errada) + "-" + palavra_corrigida)
    taxa_acerto = round(acertou*100/n_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/n_palavras, 2)
    print(f"{taxa_acerto}% de {n_palavras} palavras, desconhecida é {taxa_desconhecida}%")

In [39]:
%%time
avaliador(lista_teste, vocabulario)

esse-esje-esse-se
são-sãêo-são-não
dos-dosa-dos-do
ele-eme-em-de
essa-eàssa-essa-esse
das-daõs-das-da
cada-céda-cada-da
nos-noâ-no-o
então-enêão-então-não
tem-tĩem-tem-em
nossa-nossah-nossa-nosso
ter-teb-tem-de
até-atĩ-até-a
bem-âem-em-de
foi-foo-foi-o
será-serr-ser-se
entre-entke-entre-então
vai-van-vai-a
seus-çeus-seus-seu
eu-eû-e-de
tempo-temeo-tempo-temos
sempre-semre-sempre-ser
ela-elaá-ela-ele
só-síó-só-se
site-siàe-site-se
sem-seém-sem-em
pelo-peln-pelo-ele
alura-aléra-alura-agora
dia-tdia-dia-da
tudo-tuúo-tudo-tipo
já-jé-é-de
são-sãô-são-não
dos-odos-dos-do
sua-siua-sua-seu
ele-elpe-ele-esse
temos-teos-temos-os
essa-eũsa-essa-esse
vamos-vjmos-vamos-temos
das-dms-dos-de
cada-cava-java-para
nos-ános-nos-no
caso-èaso-caso-as
tem-túem-tem-em
dados-daáos-dados-dos
nossa-nossk-nosso-nosso
ter-tãer-ter-ser
até-vté-até-é
bem-búm-bem-um
será-sçerá-será-ser
entre-entró-entre-então
vai-uai-vai-a
seus-sâus-seus-seu
eu-ìeu-seu-de
qual-fual-qual-sua
ela-elal-ela-ele
só-skó-só-se
sem-secm-sem

### Resultado da comparação

Nosso corretor "turbinado" teve um desempenho muito inferior, dito isso, podemos assumir que isso ocorre devido a quantidade de erros nas palavras testadas, pois com o novo corretor passamos a validar 2 erros em todas as palavras, ou seja, erramos as correções das palavras com 1 erro.

Com base nos conhecimentos adquiridos durante o curso, podemos fazer alguns ajustes no corretor e avaliador.

# Refinando o projeto

Para melhorar nosso resultado, utilizamos os dois corretores criados anteriormente, porém em conjunto, se o corretor que valida 1 erro encontra a palavra no vocabulario, assumimos que ele acertou, caso contrário, passamos a palavra pelo corretor que valida 2 erros.

In [40]:
def corretor_final(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta_s = max(palavras_geradas, key=probabilidade)
    if palavra_correta_s in vocabulario:
        palavra_correta = palavra_correta_s
    else:
        palavras_turbinado = gerador_turbinado(palavras_geradas)
        todas_palavras = set(palavra_geradas + palavras_turbinado)
        candidatos = [palavra]
        for palavra in todas_palavras:
            if palavra in vocabulario:
                candidatos.append(palavra)
        palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

def avaliador_v3(testes, vocabulario):
    n_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    lista_desc = []
    for correta, errada in testes:
        palavra_corrigida = corretor_final(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(correta + "-" + errada + "-" + corretor(errada) + "-" + palavra_corrigida)
    taxa_acerto = round(acertou*100/n_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/n_palavras, 2)
    print(f"{taxa_acerto}% de {n_palavras} palavras, desconhecida é {taxa_desconhecida}%")
    return lista_desc

In [41]:
corretor_final("lóigcá")

'lógica'

In [42]:
%%time
avaliador_v3(lista_teste, vocabulario)

ele-eme-em-em
nos-noâ-no-no
ter-teb-tem-tem
bem-âem-em-em
será-serr-ser-ser
eu-eû-e-e
já-jé-é-é
das-dms-dos-dos
cada-cava-java-java
nossa-nossk-nosso-nosso
eu-ìeu-seu-seu
ela-qelay-delay-delay
dia-deiìa-deixa-deixa
ela-eúaa-aeúaa-essa
dia-dĩaz-adĩaz-da
empoderamento-ewpoderamento-aewpoderamento-lógica
cavalo-cakvalo-acakvalo-lógica
canela-canelac-acanelac-lógica
tênis-tênisy-atênisy-lógica
ansiosa-anciosa-aanciosa-lógica
ansiosa-ancciosa-aancciosa-lógica
ansiosa-ansioa-aansioa-lógica
empoderamento-empoderamento-aempoderamento-lógica
asterisco-asterístico-aasterístico-lógica
entretido-entertido-aentertido-lógica
idiota-indiota-aindiota-lógica
tomara-tomare-tomar-tomar
prevalecer-provalecer-aprovalecer-lógica
mendigo-mindigo-amindigo-lógica
perturbar-pertubar-apertubar-lógica
83.87% de 186 palavras, desconhecida é 6.99%
Wall time: 8.39 s


[]

## Conclusão

Com o uso deste corretor, aumentamos o número de acertos e diminuímos o tempo de processamento. E os erros remanescentes se devem a dois fatores:

1 - Alguma palavra gerada possui frequência maior do que a palavra correta, por exemplo: <b>ter-teb-tem</b>
    
2- A palavra da lista de teste não esta no vocabulário.