# Corretor ortográfico utilizando Python

Projeto desenvolvido para estudo inicial de NLP, a explicação detalhada está no medium (https://medium.com/@izabellajastrow)

O corretor funciona por fatiamento da string a ser corrigindo, realizando operações de inserir ou deletar caracteres ao realizar a concatenação das fatias. 
Ao final o corretor compara as palavras formadas dessa forma com um banco de dados, retornando a palavra com maior probabilidade de estar no banco de dados

## Importando bibliotecas e arquivos

In [69]:
# importação da biblioteca para gerar os tokens para construção do banco de dados e contagem de frequencia das palavras
import nltk
nltk.download('punkt')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Pichau\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [70]:
#leitura do arquivo externo para construção do banco de dados. O caminho está conforme foi salvo na minha máquina, os arquivos .txt usados estão disponíveis no repositório
with open(r'corretor-master\artigos.txt', 'r', encoding = "utf-8") as f:
    artigos = f.read()

print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


## Criação do banco de dados

In [71]:
#geração dos tokens do arquivo lido anteriormente e criando o banco de dados apenas com os tokens alfabéticos 
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token.lower())
    return lista_palavras

lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_normalizada = separa_palavras(lista_tokens)
print(f'O número de palavras é: {len(lista_normalizada)}')

    

O número de palavras é: 403104


In [72]:
#quantidade de palavras únicas do banco de dados
len(set(lista_normalizada))

18465

## Funções para correção das palavras

In [73]:
#Funções para correção da palavra
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)

    return novas_palavras

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
            novas_palavras.append(E + D[1:])
    return novas_palavras

def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def inverte_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i], palavra[i:]))
    
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_caracteres(fatias)
    return palavras_geradas


## Corrigindo a palavra

In [74]:
# Corretor comparando a lista de palavras geradas com o banco de dados
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
def probabilidade(palavras_geradas):
    return frequencia[palavras_geradas]/total_palavras

def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)

    return palavra_correta

In [75]:
#Exemplos de correção
print(f"A correção da palavra lgica é {corretor('lgica')} ")
print(f"A correção da palavra algorritmo é {corretor('algorritmo')}" )
print(f"A correção da palavra computedor é {corretor('computedor')}" )
print(f"A correção da palavra tecaldo é {corretor('tecaldo')}" )


A correção da palavra lgica é lógica 
A correção da palavra algorritmo é algoritmo
A correção da palavra computedor é computador
A correção da palavra tecaldo é teclado


## Avaliando o corretor

In [76]:
#criando uma lista com tuplas de palavras certas e erradas para avaliar o corretor
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, 'r', encoding = 'utf-8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste('corretor-master/palavras.txt')
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

In [77]:
#Função para avaliar o corretor e verificar quantas palavras testadas não estão no banco de dados
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1 

    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print(f'A taxa de acerto foi de {taxa_acerto}%, de um total de {numero_palavras} palavras')
    print(f'Teve {taxa_desconhecida}% de palavras corrigidas que não estão no vocabulario, um total de {desconhecida} palavras')

In [78]:
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

A taxa de acerto foi de 76.34%, de um total de 186 palavras
Teve 6.99% de palavras corrigidas que não estão no vocabulario, um total de 13 palavras


## Melhorando o corretor

In [79]:
#Função para a lista de palavras geradas passar novamente no gerador, a fim de corrigir erros que precisem de duas operações 
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

In [80]:
#Novo corretor que implementa o gerador_turbinado e diminui a lista para verificar a probabilidade ao pegar apenas as palavras corrigidas que estejam no banco de dados
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)

    palavra_correta = max(candidatos, key=probabilidade)

    return palavra_correta

In [81]:
novo_corretor('lóiigica')

'lógica'

In [82]:
#Atualização do avaliador para utilação do novo corretor
def novo_avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        palavra_turbinada = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)

        if palavra_corrigida == correta or palavra_turbinada == correta:
            acertou += 1 
        

    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print(f'A taxa de acerto foi de {taxa_acerto}%, de um total de {numero_palavras} palavras')
    print(f'Teve {taxa_desconhecida}% de palavras corrigidas que não estão no vocabulario, um total de {desconhecida} palavras')

In [83]:
novo_avaliador(lista_teste, vocabulario)

A taxa de acerto foi de 85.48%, de um total de 186 palavras
Teve 6.99% de palavras corrigidas que não estão no vocabulario, um total de 13 palavras
