# Corretor Ortográfico com Python


## Carregando a base de dados

In [3]:
with open("./data/dataset.txt", "r") as f:
  dataset = f.read()

## Conhecendo e entendendo a base de dados

In [4]:
# Exibindo parte do conteúdo do dataset
print(dataset[:1000])

[[220]]
A Astronomia é uma ciência natural que estuda corpos celestes ( como estrela s , planeta s , cometa s , nebulosas , aglomerados de estrelas , galáxia s ) e fenômenos que se originam fora da atmosfera da Terra ( como a radiação cósmica de fundo em micro - ondas ).
Ela está preocupada com a evolução , a física , a química , e o movimento de objetos celestes , bem como a formação e o desenvolvimento do universo .
A astronomia é uma das mais antigas ciências .
Culturas pré - históricas deixaram registrados vários artefatos astronômicos , como Stonehenge , os montes de Newgrange , os menir es .
As primeiras civilizações , como os babilônios , gregos , chineses , indianos , iranianos e maias realizaram observações metódicas do céu noturno .
No entanto , a invenção do telescópio permitiu o desenvolvimento da astronomia moderna .
Historicamente , a astronomia incluiu disciplinas tão diversas como astrometria , navegação astronômica , astronomia observacional e a elaboração de calendári

In [5]:
# Verificando o tamanho da base dados
# Observação 1: Verificação referente a quantidade de caracteres e não de palavras
len(dataset)

10188634

In [6]:
# Nosso dataset tem palavras corretas e incorretas.
# Portanto, quando a função de correção for implementada, 
# a frequência de ocorrência das palavras será importante, pois
# quanto maior a frequência, maior será a probabilidade de acerto
# Como observamos a seguir, as palavras corretas tem maior frequência que as incorretas
print(f"A palavra 'idéia' aparece {dataset.count('idéia')} vezes em nosso dataset") # palavra incorreta
print(f"A palavra 'ideia' aparece {dataset.count('ideia')} vezes em nosso dataset") # palavra correta
print(f"A palavra 'logica' aparece {dataset.count('logica')} vezes em nosso dataset") # palavra incorreta
print(f"A palavra 'lógica' aparece {dataset.count('lógica')} vezes em nosso dataset") # palavra correta

A palavra 'idéia' aparece 75 vezes em nosso dataset
A palavra 'ideia' aparece 522 vezes em nosso dataset
A palavra 'logica' aparece 96 vezes em nosso dataset
A palavra 'lógica' aparece 798 vezes em nosso dataset


In [7]:
# A base de dados contem caracteres não alfabéticos. 
# A base de dados será posteriormente tratada para não incluir estes caracteres.
print(f"O caracter '!' aparece {dataset.count('!')} vezes em nosso dataset")
print(f"O caracter '#' aparece {dataset.count('#')} vezes em nosso dataset")
print(f"O caracter '-' aparece {dataset.count('-')} vezes em nosso dataset")
print(f"O caracter ' '(espaço em branco) aparece {dataset.count(' ')} vezes em nosso dataset")

O caracter '!' aparece 129 vezes em nosso dataset
O caracter '#' aparece 32 vezes em nosso dataset
O caracter '-' aparece 19405 vezes em nosso dataset
O caracter ' '(espaço em branco) aparece 1775366 vezes em nosso dataset


In [8]:
# A base de dados diferencia Capitalização. 
# A base de dados será posteriormente tratada para trabalhar apenas com palavras minúsculas.
print(f"O caracter 'Começar' aparece {dataset.count('Começar')} vezes em nosso dataset")
print(f"O caracter 'começar' aparece {dataset.count('começar')} vezes em nosso dataset")

O caracter 'Começar' aparece 2 vezes em nosso dataset
O caracter 'começar' aparece 253 vezes em nosso dataset


## Realizando a Tokenização e separação em palavras da base de dados


> Mais informações: https://www.nltk.org/ 

In [9]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/gabi/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
# Cada vez que encontrar um caracter não alfabético, temos a quebra do texto 
# e o conteúdo anterior a esse caracter é adicionado a um item da lista, 
# o caracter não alfabético é ignorado, e a próxima sequencia é analisada, 
# repetindo o processo até o fim do conteúdo do dataset.

def separa_palavras(lista_tokens):
  lista_palavras = []
  for token in lista_tokens:
    if token.isalpha():
      lista_palavras.append(token)
  return lista_palavras

In [11]:
# Tokenizando o dataset
lista_tokens = nltk.tokenize.word_tokenize(dataset)
 
print(lista_tokens[:10])

['[', '[', '220', ']', ']', 'A', 'Astronomia', 'é', 'uma', 'ciência']


In [12]:
# Aplicando a função de separação de palavras a lista de tokens,
# desta forma apenas os itens da lista que são compostos por caracteres alfabéticos serão armazenados
lista_palavras = separa_palavras(lista_tokens)

lista_palavras[:10]

['A',
 'Astronomia',
 'é',
 'uma',
 'ciência',
 'natural',
 'que',
 'estuda',
 'corpos',
 'celestes']

In [13]:
print(f"O número de tokens é {len(lista_tokens)}")
print(f"O número de palavras é {len(lista_palavras)}")

O número de tokens é 1857955
O número de palavras é 1554570


## Normalizando a base de dados

In [14]:
def normalizacao(lista_palavras):
  lista_normalizada = []
  for palavra in lista_palavras:
    lista_normalizada.append(palavra.lower())
  return lista_normalizada

In [15]:
# Aplicando a normalização ao nosso dataset

lista_normalizada = normalizacao(lista_palavras)

In [16]:
# Verificando a lista sem normalização
print(lista_palavras[:3])

# Verificando a lista normalizada
print(lista_normalizada[:3])

['A', 'Astronomia', 'é']
['a', 'astronomia', 'é']


In [17]:
# Quantidade de palavras, após o tratamento do dataset
len(set(lista_normalizada))

72129

## Primeira versão do Corretor

### Tratando o erro: Palavra com uma letra faltando

In [18]:
# Definindo uma palavra incorreta para ser corrigida
# Resultado esperado: 'arremesso'
palavra_exemplo = "aremesso"

In [19]:
# Implementando a primeira função de correção
# Erro: Palavra digitada com uma letra faltando, como a palavra 'aremesso' definida anteriormente
# Solução: Adicionar a letra 

def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôòõúûùũç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D) 
  return novas_palavras

In [20]:
# Gerando uma lista de palavras com adição de uma letra em diferentes posições de uma palavra
# As palavras vão ser dividas em lado esquerdo (E) e lado direito (D) repetidas vezes dentro do laço de repetição
def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  return palavras_geradas

In [38]:
# Visualizando a lista de palavras geradas a partir da palavra informada
# A palavra correta ('arremesso') está, por inspeção, na posição 64 da lista
palavras_geradas = gerador_palavras(palavra_exemplo)

# Retirar o comentário da linha abaixo, caso queira visualizar as palavras geradas
# print(f"Lista de palavras geradas a partir da palavra informada: {palavras_geradas}")


Palavra correta: arrrenesso


### Calculando a frequência e a probabilidade

In [39]:
# Extraindo o tamanho da lista normalizada e armazenando o valor
total_palavras = len(lista_normalizada)

#Calculando a frequência de ocorrências dos itens (palavras) da lista
frequencia = nltk.FreqDist(lista_normalizada)

# Exibindo os itens mais frequentes da lista
frequencia.most_common(10)

[('de', 83879),
 ('a', 58538),
 ('e', 49079),
 ('o', 45027),
 ('do', 29929),
 ('da', 27201),
 ('em', 26864),
 ('que', 26634),
 ('os', 15461),
 ('um', 15002)]

In [23]:
# Dada a divisão da frequência de ocorrência da palavra informada pelo total de palavras da lista,
# assumimos que quanto maior a ocorrência, maior a chance de ser a palavra correta
def probabilidade(palavra_gerada):
  return frequencia[palavra_gerada]/total_palavras

### Criando a primeira versão do corretor

In [24]:
# A primeira versão do corretor irá corrigir apenas o erro de palavras com uma letra faltando, 
# considerando que este o algoritmo de inserção de letras é o único implementado em nosso gerador de palavras

def corretor(palavra): 
  palavras_geradas = gerador_palavras(palavra)
  palavra_correta = max(palavras_geradas, key = probabilidade)
  return palavra_correta

In [25]:
# Testando o corretor com a palavra de exemplo
corretor(palavra_exemplo)

'arremesso'

In [26]:
# Mais testes com o corretor, relativos a palavras com letra faltando
print(f"A palavra correta é: {corretor('proessor')}")
print(f"A palavra correta é: {corretor('camiho')}")
print(f"A palavra correta é: {corretor('ecada')}")
print(f"A palavra correta é: {corretor('cmida')}")

A palavra correta é: professor
A palavra correta é: caminho
A palavra correta é: escada
A palavra correta é: comida


### Avaliando a primeira versão do corretor


* A primeira versão do corretor, realiza a correção de um único tipo de erro: o de palavras com letra faltando, logo ela não é eficiente em muitos casos. 
* Todos os resultados abaixo mostram erros do corretor, pois os casos não são de palavras com letra faltando, e como este é o unico algoritmo implementado, o corretor não se comporta de forma eficiente, como verificamos a seguir:



In [27]:
# Resultado incorreto para palavras com letras duplicadas
print(f"A palavra correta é: {corretor('professoor')}") # resultado esperado: 'professor' 
# Resultado incorreto para palavras com letras invertidas
print(f"A palavra correta é: {corretor('camihno')}") # resultado esperado: 'caminho' 
# Resultado incorreto para palavras com letras trocadas
print(f"A palavra correta é: {corretor('cpmida')}") # resultado esperado: 'comida'


A palavra correta é: aprofessoor
A palavra correta é: acamihno
A palavra correta é: acpmida


In [28]:
# Para medir a eficiência do corretor (taxa de acerto), iremos usar um novo arquivo de texto,
# Cada linha deste arquivo contém uma palavra escrita errada ao lado da mesma palavra escrita da forma correta

# Criando os dados de teste a partir do arquivo informado
def cria_dados_teste(nome_arquivo):
  lista_palavras_teste = []
  f = open(nome_arquivo, "r")
  for linha in f: 
    correta, errada = linha.split()
    lista_palavras_teste.append((correta, errada))
  f.close()
  return lista_palavras_teste

# armazenando o resultado em uma lista de tuplas
lista_teste = cria_dados_teste("./data/dataset_test.txt")
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

In [29]:
# Função de avaliação do corretor
# A função receberá o conjunto de dados de testes, e o vocabulário

# armazenando as palavras do dataset sem as repetições - lista normalizada
vocabulario = set(lista_normalizada)

# definindo a avaliação do corretor
def avaliador(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  # iteração a partir de cada linha (palavra correta e incorreta) no arquivo
  for correta, errada in testes:
    # a palavra errada do arquivo, após passar pelo corretor, será armazenada
    palavra_corrigida = corretor(errada)
    # se a palavra for igual a palavra correta do arquivo adiciona-se 1 ao total de acertos
    if palavra_corrigida == correta:
      acertou += 1
    # caso a palavra seja diferente, o contador de palava desconhecida será incrementado se
    # a palavra em questão não for encontrada na lista de palavras do nosso dataset
    else:
      desconhecida += (correta not in vocabulario)

  # Desta forma, temos a taxa de acerto do nosso corretor 
  # E também a taxa de palavras que não existem no nosso dataset de palavras
  taxa_acerto = round(acertou*100 / numero_palavras, 2)
  taxa_desconhecida = round(desconhecida*100 / numero_palavras, 2)

  print(f"A taxa de acerto do corretor é: {taxa_acerto}% de {numero_palavras}")
  print(f"{taxa_desconhecida}% das palavras do teste não estão no vocabulário")

avaliador(lista_teste, vocabulario)

A taxa de acerto do corretor é: 2.15% de 186
4.84% das palavras do teste não estão no vocabulário


## Segunda versão do corretor

### Tratando o erro: Palavra com um caractere a mais

In [30]:
palavra_exemplo = "arremmesso"

# Implementando a segunda função de correção
# Erro: Palavra digitada com um caractere a mais, como a palavra 'arremmesso' definida anteriormente
# Solução: Retirar o caractere
def deletando_caracteres(fatias):
  novas_palavras = []
  for E, D in fatias:
    novas_palavras.append(E + D[1:]) 
  return novas_palavras

### Criando a segunda versão do corretor

In [40]:
# Adicionando a função deletando_caracteres ao gerador de palavras
def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  return palavras_geradas

# O gerador de palavras agora possui dois algoritmos: insere_letras e deletando_caracteres
palavras_geradas = gerador_palavras(palavra_exemplo)
# Retirar o comentário da linha abaixo, caso queira visualizar as palavras geradas
# print(palavras_geradas)

### Avaliando a segunda versão do corretor

In [32]:
avaliador(lista_teste, vocabulario)

A taxa de acerto do corretor é: 43.55% de 186
4.84% das palavras do teste não estão no vocabulário


## Versão final do corretor

### Tratando mais dois erros: Palavra com letra trocada e Palavra com letras invertidas

In [33]:
# Implementando mais funções de correção

# Reescrevendo:
# Erro: Palavra digitada com uma letra faltando, como a palavra 'aremesso'
# Solução: Adicionar a letra 
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôòõúûùũç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D) 
  return novas_palavras

# Reescrevendo:
# Erro: Palavra digitada com um caractere a mais, como a palavra 'arremmesso'
# Solução: # Solução: Retirar o caractere
def deletando_caracteres(fatias):
  novas_palavras = []
  for E, D in fatias:
    novas_palavras.append(E + D[1:]) 
  return novas_palavras

# Nova função:
# Erro: Palavra digitada com uma letra trocada, como a palavra 'arrenesso'
# Solução: Trocar a letra 
def troca_letra(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôòõúûùũç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:]) 
  return novas_palavras

# Nova função:
# Erro: Palavra digitada com ordem das letras invertida, como a palavra 'arremesos' 
# Solução: Inverter as letras 
def inverte_letra(fatias):
  novas_palavras = []
  for E, D in fatias:
    if len(D) > 1:
      novas_palavras.append(E + D[1:] + D[0] + D[2:]) 
  return novas_palavras


### Criando a versão final do corretor

In [41]:
# Inserindo ao gerador de palavras os algoritmos implementados
def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  palavras_geradas += troca_letra(fatias)
  palavras_geradas += inverte_letra(fatias)
  return palavras_geradas

# Exemplo de palavras geradas, após a inserção dos algortimos
palavra_exemplo = "arrenesso"
palavras_geradas = gerador_palavras(palavra_exemplo)

# Retirar o comentário da linha abaixo, caso queira visualizar as palavras geradas
#print(palavras_geradas)

In [57]:
# Definindo palavras com diferentes tipos de erros

palavra_exemplo1 = "corida"     # erro: letra faltando
palavra_exemplo2 = "disciplinna"   # erro: caractere a mais
palavra_exemplo3 = "astrononia"    # erro: letra trocada
palavra_exemplo4 = "professro"    # erro: letras invertidas

In [58]:
# Verificando a ação do corretor em palavras com diferentes erros

print(f"A palavra correta é: {corretor(palavra_exemplo1)}")
print(f"A palavra correta é: {corretor(palavra_exemplo2)}")
print(f"A palavra correta é: {corretor(palavra_exemplo3)}")
print(f"A palavra correta é: {corretor(palavra_exemplo4)}")

A palavra correta é: corrida
A palavra correta é: disciplina
A palavra correta é: astronomia
A palavra correta é: professor


### Avaliando a versão final do corretor

In [59]:
avaliador(lista_teste, vocabulario)

A taxa de acerto do corretor é: 76.34% de 186
4.84% das palavras do teste não estão no vocabulário
