# Corretor Ortográfico

Neste `notebook` vamos implementar um corretor ortográfico utilizando `python` e princípios de linguagem natural.

## O que é um corretor ortográfico?

Um corretor ortográfico se baseia na correção de eventuais erros de escrita de determinadas palavras digitadas.

## Como funciona o corretor ortográfico?

O corretor ortográfico irá comparar a palavra em questão com as palavras de uma base de dados - `dicionário` - onde tais palavras tem-se a certeza que estão corretas. Assim, a palavra é aceita se a mesma se encontra presente no dicionário, caso contrário, o corretor irá propor uma palavra com escrita esperada. Assim, tem-se o seguinte exemplo:

    Um usuário digita a palavra: lgica.
    O corretor devolve a palavra: lógica.
    
### Quais são os erros mais comuns?

Sabendo quais são os erros gramaticais mais comuns, podemos traçar estratégias para começar a implementar o corretor ortográfico em questão. Podemos, então, pensar na palavra `lógica`:

- Esquecer de digitar uma letra: `lógic`
- Escrever uma letra a mais: `lógicaa`
- Inverter a posição de uma letra: `lóigca`
- Escrever uma letra errada: `légica`

# Importações

Aqui utilizaremos as seguintes bibliotecas para o projeto:

- [nltk](https://www.nltk.org/) : é uma biblioteca em python utilizada para tratamento de dados em linguagem natural.
- [typing](https://docs.python.org/3/library/typing.html) : é um modulo que provoca melhorias de dicas de tipagem.

In [1]:
# Caso você precise instalar a biblioteca nltk descomente a linha abaixo:

# pip install nltk

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Davi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from typing import Tuple

# Nossa base de dados

Como foi dito, iremos utilizar uma base de dados para representar nosso "dicionário", ou seja, nosso vocabulário.

In [4]:
with open('../datasets/artigos.txt', mode='r', encoding='utf8') as f:
    artigos = f.read()
    
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


## O que se observa

Percebe-se que ao exibir a variável artigos todas as palavras se encontram juntas. Assim, é necessário separa-lás, já que queremos analisar individualmente cada uma, como sendo um único elemento de um `array` (e não uma `string` gigante). Também, queremos obter apenas os caracteres `alpha` (letras entre a-z).

## O processo de Tokenização


A tokenização, também conhecida como segmentação de palavras, irá quebrar a sequência de caracteres em um texto localizando o limite de cada palavra, ou seja, os pontos onde uma palavra termina e outra começa. Assim, sendo necessário realizar a separação das palavras, será utilizado a função `tokenize.word_tokenize` da biblioteca `nltk`. Entretanto, em alguns casos, teremos palavras:

    por que; porque?; onde; onde,;
    
É necessário, portanto, retirar aqueles elementos que possuem caracteres fora do escopo das letras `A-Z`.

In [5]:
def separa_palavras(lista_tokens: list) -> list:
    """
        Recebe uma lista de tokens e retorna uma lista filtrada apenas com tokens sem caracteres de pontuação.
        
        lista_tokens: é a lista de tokens geradas por meio do word_tokezine.
    """
    
    # É a lista de palavras sem caracteres de pontuação
    lista_palavras = []
    
    # Percorro minha lista de tokens
    for token in lista_tokens:
        # Verifico se o token é totalmente alpha (A-Z)
        if token.isalpha():
            # Insiro na lista de palavras
            lista_palavras.append(token)
    
    # Retorno a lista de palavras
    return lista_palavras

# Crio uma lista de tokens com a variável artigos
lista_tokens = nltk.tokenize.word_tokenize(artigos)

# Crio uma lista de palavras, apenas que possuem A-Z, removendo caracteres de pontuação (?,.;!)
lista_palavras = separa_palavras(lista_tokens)

# Exibição
lista_palavras[:10]

['imagem',
 'Temos',
 'a',
 'seguinte',
 'classe',
 'que',
 'representa',
 'um',
 'usuário',
 'no']

## Normalização 

Ainda falta realizarmos alguns tratamentos na nossa base de dados, entre tais, se encontra o processo de normalização. Isso significa criarmos um padrão entre nossos dados, ou seja, como aqui estamos tratando com palavras, uma boa maneira é transforma-lás todas em minúsculas.

In [6]:
def normalizacao(lista_palavras: list) -> list:
    """
        Recebe uma lista de palavras e retorna uma lista padronizada com todas as palavras em minúsculo.
        
        lista_palavras: é a lista de palavras após a retirada de caracteres fora de A-Z.
    """
    # É a lista normalizada
    lista_normalizada = []
    
    # Percorro a lista de palavras
    for palavra in lista_palavras:
        # Insiro o conteúdo em minúsculo
        lista_normalizada.append(palavra.lower())
    
    # Retorno a lista normalizada
    return lista_normalizada

# Crio minha lista normalizada
lista_normalizada = normalizacao(lista_palavras)

# Exibição
lista_normalizada[20:40]

['são',
 'feitas',
 'como',
 'por',
 'exemplo',
 'ver',
 'se',
 'o',
 'nome',
 'só',
 'contém',
 'letras',
 'o',
 'cpf',
 'só',
 'números',
 'e',
 'ver',
 'se',
 'o']

# Desenvolvendo o corretor ortográfico

O primeiro passo para desenvolver o corretor ortográfico é desenvolver as `funções auxiliares`. Como foi abordado, iremos criar uma função para os principais erros encontrados.

## Primeiro erro: a falta de uma letra.

A ideia de corrigir uma palavra que possui uma letra faltante é justamente inserir letras para `completar` o que falta. Assim, podemos pensar na palavra `lóica` e separa-lá em duas metades - `esquerda` e `direita` -. Para nós é nítido que devemos inserir a letra `g` entre as fatias de `ló` e `ica`.
    
    parte esquerda + letra faltante + parte direita

In [7]:
def insere_letras(fatias: list) -> list:
    """
        Recebe uma lista de tuplas '(lado esquerdo, lado direito)' que corresponde aos lados de uma palavra fatiada em dois.
        Retorna possíveis palavras corretas com letras inseridas.
        
        fatias: uma tupla formada com o lado esquerdo e direito de uma palavra dividida.
    """
    # São as possíveis novas palavras
    novas_palavras = []
    
    # Todas as letras do alfabeto
    letras = 'abcedfghijklmnopqrstuvwxyzáâàãéêèíîìóôòõúûùç'
    
    # Percorro a lista de fatias
    for esquerdo, direito in fatias:
        # Percorro todas as letras
        for letra in letras:
            # Insiro uma letra entre os lados esquerdo e direito de uma fatia
            novas_palavras.append(esquerdo + letra + direito)
    
    # Retorno as possíveis palavras após inserir todo alfabeto
    return novas_palavras

# Crio um exemplo
exemplo = insere_letras([('ló', 'ica')])

# Exibição
exemplo[:7]

['lóaica', 'lóbica', 'lócica', 'lóeica', 'lódica', 'lófica', 'lógica']

## Segundo erro: uma letra a mais

A ideia de corrigir uma palavra que possui uma letra a mais é justamente `remover` uma letra da palavra em questão. Podemos pensar na palavra `lógicaa`. É nítido que a letra `a` foi escrita mais de uma vez. Assim a ideia continua em dividir em fatias e lados - esquerdo e direito -. Entretanto, sempre iremos remover a primeira posição da fatia a direita.

In [8]:
def remove_letras(fatias: list) -> list:
    """
        Recebe uma lista de tuplas '(lado esquerdo, lado direito)' que corresponde aos lados de uma palavra fatiada em dois.
        Retorna possíveis palavras corretas com letras removidas.
        
        fatias: uma tupla formada com o lado esquerdo e direito de uma palavra dividida.
    """
    
    # As novas palavras
    novas_palavras = []
    
    # Percorro lista de fatias
    for esquerdo, direito in fatias:
        # Insiro a palavra com o lado direito sem a sua primeira posição
        novas_palavras.append(esquerdo + direito[1:])
    
    # Retorno as possíveis palavras após remover as letras
    return novas_palavras

# Crio um exemplo
exemplo = remove_letras([('lógic', 'aa')])

# Exibição
exemplo

['lógica']

## Terceiro erro: trocando as letras

Esse também é um erro bastante comum e a ideia é justamente `trocar` a letra errada pela letra correta. Um exemplo nítido para se observar tal comportamento é tem-se a palavra `lógeca`, assim, a ideia é obter a troca de `e` por `i`.



In [9]:
def troca_letras(fatias: list) -> list:
    """
        Recebe uma lista de tuplas '(lado esquerdo, lado direito)' que corresponde aos lados de uma palavra fatiada em dois.
        Retorna possíveis palavras corretas com letras trocadas.
        
        fatias: uma tupla formada com o lado esquerdo e direito de uma palavra dividida.
    """
    
    # São as possíveis novas palavras
    novas_palavras = []
    
    # Todas as letras do alfabeto
    letras = 'abcedfghijklmnopqrstuvwxyzáâàãéêèíîìóôòõúûùç'
    
    # Percorro a lista de fatias
    for esquerdo, direito in fatias:
        # Percorro todas as letras
        for letra in letras:
            # Insiro uma possível letra correta no lugar da letra errada
            novas_palavras.append(esquerdo + letra + direito[1:])
    
    # Retorno as possíveis palavras após trocar todo alfabeto
    return novas_palavras

# Crio um exemplo
exemplo = troca_letras([('lóg', 'eca')])

# Exibição
exemplo[:10]
    

['lógaca',
 'lógbca',
 'lógcca',
 'lógeca',
 'lógdca',
 'lógfca',
 'lóggca',
 'lóghca',
 'lógica',
 'lógjca']

## Quarto erro: invertendo uma letra

Esse erro é um exemplo de quando queremos escrever a palavra `lógica` mas escrevemos `lógcia`, ou seja, invertemos a letra `i` pela `c`. Isso pode ser concertado com a mesma ideia de fatias, entretanto, trocamos as posições das letras de `index 0` com `index 1` da fatia direita.

In [10]:
def inverte_letras(fatias: list) -> list:
    """
        Recebe uma lista de tuplas '(lado esquerdo, lado direito)' que corresponde aos lados de uma palavra fatiada em dois.
        Retorna possíveis palavras corretas com letras invertidas.
        
        fatias: uma tupla formada com o lado esquerdo e direito de uma palavra dividida.
    """
    
    # As novas palavras
    novas_palavras = []
    
    # Percorro lista de fatias
    for esquerdo, direito in fatias:
        # Insiro a palavra invertendo as posições do lado direito caso o tamanho seja > 1
        if len(direito) > 1:
            novas_palavras.append(esquerdo + direito[1] + direito[0] + direito[2:])
    
    # Retorno as possíveis palavras após inverter as letras
    return novas_palavras

# Crio um exemplo
exemplo = inverte_letras([('lógi', 'ac')])

# Exibição
exemplo

['lógica']

# O Corretor Ortográfico

A ideia básica do corretor ortográfico é justamente gerar diversas palavras que podem ser uma possível palavra correta. Sendo assim, temos que ter ainda mais funções auxiliares.

## Gerador de Palavras

Vamos criar uma função que irá gerar "palavras separadas" dada uma palavra em questão. Aqui abordaremos as fatias, sendo esta uma lista composta por tuplas (lado esquerdo, lado direito) da palavra.

In [11]:
def gerador_palavras(palavra: str)-> list:
    """
        Recebe uma palavra.
        Retorna possíveis palavras, dentre elas está a palavra correta.
        
        palavra: uma string.
    """
    
    # É a lista de fatias
    fatias = []
    
    # É o tamanho da palavra + 1
    tamanho = len(palavra) + 1

    # Gero as possiveis fatias de uma palavra, sendo esta uma lista de tuplas (esquerdo, direito)
    for i in range(tamanho):
        fatias.append((palavra[:i], palavra[i:]))

    # Crio possiveis palavras de acordo com os possíveis erros abordados
    palavras_geradas = insere_letras(fatias) + remove_letras(fatias) + troca_letras(fatias) + inverte_letras(fatias)
    
    # Retorno as possíveis palavras, dentre elas está a palavra correta
    return palavras_geradas

# Crio um exemplo
exemplo = gerador_palavras('lógicaa')

# Exibição
exemplo[:10]

['alógicaa',
 'blógicaa',
 'clógicaa',
 'elógicaa',
 'dlógicaa',
 'flógicaa',
 'glógicaa',
 'hlógicaa',
 'ilógicaa',
 'jlógicaa']

## Algumas constantes

Aqui iremos definir algumas constantes que serão utilizadas no decorrer do final do procedimento do corretor e sua avaliação

In [12]:
# É necessário obter as frequencias de cada palavra, assim vamos utilizar FreqDist da nltk
frequencia = nltk.FreqDist(lista_normalizada)

# É nececessário obter o total de palavras
total_palavras = len(lista_normalizada)

# Total de palavras diferentes, é o nosso vocabulario sem palavras repetidas
vocabulario = set(lista_normalizada)

## Probabilidade

Como estamos criando diversas palavras devemos escolher um critério para avaliar a probabilidade daquela palavra gerada ser a correta.

In [13]:
def probabilidade(palavra_gerada: str) -> int:
    """
        Recebe uma palavra.
        Retorna a probabilidade daquela palavra estar presente no vocabulario.
        
        palavra_gerada: uma string.
    """
    # Calcula a probabilidade da palavra gerada estar em nosso vocabulário
    probabilidade = frequencia[palavra_gerada]/total_palavras
    
    # Retorna um inteiro representando a probabilidade
    return probabilidade

## Enfim... o corretor

In [14]:
def corretor(palavra: str) -> str:
    """
        Recebe uma palavra.
        Retorna a palavra correta.
        
        palavra: uma string.
    """

    # A partir de uma palavra irei gerar possiveis palavras corretas
    palavras_geradas = gerador_palavras(palavra)

    # Busco a palavra correta a partir da que possui maior probabilidade, utilizo aqui a função max
    palavra_correta = max(palavras_geradas, key=probabilidade)
    
    # Retorno a palavra correta
    return palavra_correta

# Crio um exemplo
exemplo = corretor('automtico')

# Exibição
exemplo

'automático'

# Avaliando o corretor ortográfico

Por fim, iremos avaliar o nosso corretor por meio de uma base de teste. Assim, iremos criar mais algumas funções auxiliares.

In [15]:
def cria_dados_teste(nome_arquivo: str) -> list:
    """
        Recebe o nome do arquivo referente as palavras a serem testadas.
        Retorna uma lista de palavras para o teste em si e sua avaliação.
        
        nome_arquivo: uma string.
    """
    # É a lista de palavras para o teste
    lista_palavras_teste = []

    # Aqui abro o arquivo
    f = open(nome_arquivo, mode='r', encoding='utf8')

    # Em cada linha do arquivo f
    for linha in f:
        # Splito a linha com a palavra correta e a errada
        correta, errada = linha.split()
        # Adiciono como sendo uma tupla na lista
        lista_palavras_teste.append((correta, errada))

    # Fecho o arquivo
    f.close()

    # Retorno a lista de tuplas com as palavras certas e erradas
    return lista_palavras_teste

In [16]:
def avaliador(testes: list, vocabulario: list) -> Tuple[int, int]:
    """
        Recebe uma lista de testes e o vocabulário do problema.
        Retorna a porcentagem de palavras acertadas e a porcentagem de palavras desconhecidas.
        
        palavra: uma string.
    """
    # Número de palavras totais presente no teste
    numero_palavras = len(testes)
    
    # Quantidade de acerto
    acertou = 0
    
    # Quantidade desconhecida
    desconhecida = 0
    
    
    # Percorro os testes
    for correta, errada in testes:
        # Chamo o corretor com a palavra errada a ser corrigida
        palavra_corrigida = corretor(errada)
        # Verifico se a palavra correta existe no vocabulario
        desconhecida += (correta not in vocabulario)

        # Se a palavra corrigida for igual a correta, temos um acerto
        if palavra_corrigida == correta:
            acertou += 1

    # Porcentagem de palavras conhecidas
    taxa_acerto = round(acertou*100/numero_palavras, 2)

    # Porcentagem de palavras desconhecidas
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    
    # Retorno a taxa de acerto do corretor ortográfico e a taxa de palavras deconhecidas
    return taxa_acerto, taxa_desconhecida

In [17]:
# Crio a lista dos testes
lista_teste = cria_dados_teste('../datasets/palavras.txt')

# Exibição
lista_teste[:10]

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm')]

In [18]:
# Chamo a avaliação
taxa_a, taxa_e = avaliador(lista_teste, vocabulario)

# Exibo
print(f'A taxa de acerto é de {taxa_a} % e a taxa de palavras desconhecidas é de {taxa_e} %')

A taxa de acerto é de 76.34 % e a taxa de palavras desconhecidas é de 6.99 %


# Fique a vontade...

Se quiser brincar um pouco com o corretor, rs.

In [19]:
# Digite aqui a sua palavra incorreta
teste = 'anial'

# Mostrando as respostas do corretor
print(f'Entrada =================> {teste}\nResposta do corretor ==> {corretor(teste)}')

Resposta do corretor ==> animal
