# Pré-corretor

In [None]:
with open('artigos.txt', 'r') as f:
  artigos = f.read()


In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## Tokenizando

In [None]:
def separa_palavras(lista_tokens):
  lista_palavras  = []
  for token in lista_tokens:
    if token.isalpha() == True:
      lista_palavras.append(token)
  return lista_palavras

In [None]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)

In [None]:
print(f"O número de palavras é {len(lista_palavras)}")

O número de palavras é 393914


## Normalizando o texto

In [None]:
def normalizacao(lista_palavras):
  lista_normalizada = []
  for palavra in lista_palavras:
    lista_normalizada.append(palavra.lower())
  return lista_normalizada
lista_normalizada = normalizacao(lista_palavras)

In [None]:
vocabulario = set(lista_normalizada)

# Partes do corretor

In [None]:
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E,D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D)
  return novas_palavras
def deletando_caracteres(fatias):
  novas_palavras = []
  for E,D in fatias:
    novas_palavras.append(E + D[1:])
  return novas_palavras
def troca_letra(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E,D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  return novas_palavras
def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
          novas_palavras.append(E+D[1]+D[0]+D[2:])
    return novas_palavras
def gerador_palavras(palavra):
  fatias =[]
  for i in range(len(palavra)+1):
    #temos que adicionar + 1 no range, pois senão não faria ('lgica','')
    fatias.append((palavra[:i],palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  palavras_geradas += troca_letra(fatias)
  palavras_geradas += inverte_letra(fatias)
  return palavras_geradas

## Corretor para dois erros

In [None]:
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

# Corretor

In [None]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15494),
 ('o', 13966),
 ('que', 12225),
 ('a', 11034),
 ('e', 10478),
 ('para', 7694),
 ('um', 6346),
 ('é', 5881),
 ('uma', 5202),
 ('do', 5116)]

In [None]:
def probabilidade(palavras_geradas):
  return frequencia[palavras_geradas]/total_palavras

In [None]:
def corretor(palavras):
  palavras_geradas = gerador_palavras(palavras)
  palavra_correta = max(palavras_geradas, key=probabilidade)
  return palavra_correta

## Diminuindo o número de candidatos para a correção de dois erros

In [None]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
          candidatos.append(palavra)
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

# Avaliador

In [None]:
def cria_dados_teste (nome_arquivo):
  lista_palavras_teste = []
  f = open(nome_arquivo, 'r')
  for linha in f:
    correta, errada = linha.split()
    lista_palavras_teste.append((correta, errada))
  f.close()
  return lista_palavras_teste
lista_teste = cria_dados_teste("palavras.txt")
lista_teste

In [None]:
def avaliador (testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  for correta, errada in testes:
    palavra_corrigida = novo_corretor(errada)
    desconhecida += (correta not in vocabulario)
    if palavra_corrigida == correta:
      acertou += 1
    else:
       print(errada + "-" + corretor(errada) + "-" + palavra_corrigida)
  taxa_acerto = round(acertou*100/numero_palavras, 2)
  taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
  print(f"{taxa_acerto}% de {numero_palavras} palavras")
  print(f"{taxa_desconhecida}% de {numero_palavras} palavras")

In [None]:
avaliador(lista_teste, vocabulario)

esje-esse-se
sãêo-são-não
dosa-dos-do
eme-em-de
eàssa-essa-esse
daõs-das-da
céda-cada-da
noâ-no-o
enêão-então-não
tĩem-tem-em
nossah-nossa-nosso
teb-tem-de
atĩ-até-a
âem-em-de
foo-foi-o
serr-ser-se
entke-entre-então
van-vai-a
çeus-seus-seu
eû-e-de
temeo-tempo-temos
semre-sempre-ser
elaá-ela-ele
síó-só-se
siàe-site-se
seém-sem-em
peln-pelo-ele
aléra-alura-agora
tdia-dia-da
jé-é-de
sãô-são-não
odos-dos-do
siua-sua-seu
elpe-ele-esse
teos-temos-os
eũsa-essa-esse
vjmos-vamos-temos
dms-dos-de
cava-java-para
ános-nos-no
èaso-caso-as
túem-tem-em
daáos-dados-dos
nossk-nosso-nosso
tãer-ter-ser
vté-até-é
búm-bem-um
sçerá-será-ser
entró-entre-então
uai-vai-a
sâus-seus-seu
ìeu-seu-de
fual-qual-sua
elal-ela-ele
skó-só-se
secm-sem-em
aluéa-alura-além
dil-dia-de
sód-só-se
eúaa-aeúaa-essa
ró-só-de
dĩaz-adĩaz-da
correptor-corretor-correto
trtica-tática-prática
ewpoderamento-aewpoderamento-ewpoderamento
îgato-gato-fato
cakvalo-acakvalo-carvalho
canelac-acanelac-janela
tênisy-atênisy-tênisy
anciosa-aancio