# Importação e leitura do arquivo

In [7]:
import nltk
nltk.download('punkt')

with open("artigos.txt", "r", encoding="utf-8") as f:
    artigos = f.read()

# Confere o que eh palavra depois da tokenizacao
def separa_palavras(lista_tokens) -> list:
    lista_palavras = []
    for token in lista_tokens:
        lista_palavras.append(token)
    return lista_palavras

# Normalização das palavras
def normalizacao(lista_palavras) -> list:
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

# Funcao de possibilidades
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def substitui_caracteres(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E+ letra + D[1:])
    return novas_palavras

def inverter_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

# Gerador de palavras
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += substitui_caracteres(fatias)
    palavras_geradas += inverter_caracteres(fatias)
    return palavras_geradas

def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

# Corrige e paga a palavra mais provavel de ser a correta
def probabilidade(palavra_gerada):
    frequencia = nltk.FreqDist(lista_normalizada)
    total_palavras = len(set(lista_normalizada))
    frequencia.most_common(10)
    return frequencia[palavra_gerada]/total_palavras

def corretor(palavra, vocabulario):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

# Ver a probabilade de acerto
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r", encoding="utf-8")
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

def avaliador(testes, vocabulario):
    print("Calculando a taxa de acerto...")
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada, vocabulario)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            palavra_corrigida = corretor(errada, vocabulario)
            if palavra_corrigida == correta:
                acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecida é {taxa_desconhecida}%")

# Apresentacao
def quant_palavras_artigo():
    print(f'O número de palavras no artigo é de: {len(lista_palavras)}')

def opcao1():
    palavra = input('Palavra que deseja corrigir: ')
    palavra = corretor(palavra, vocabulario)
    print(palavra)
    
def opcao2():
    avaliador(lista_teste, vocabulario)
    
    
# Opcoes de escolha
def switch_case(case):
    switch_dict = {
        'opcao1': opcao1,
        'opcao2': opcao2,
        'opcao3': quant_palavras_artigo
    }
    selected_case = switch_dict.get(case)
    return selected_case()


if 'lista_tokens' not in locals():
    print('Aprendendo as palavras ... Isso irá demorar um pouquinho.')
    print('Criando tokens do artigo...')
    lista_tokens = nltk.tokenize.word_tokenize(artigos)
    lista_palavras = separa_palavras(lista_tokens)
    print('Normalizando as palavras...')
    lista_normalizada = normalizacao(lista_palavras)
    lista_teste = cria_dados_teste("palavras.txt")
    vocabulario  = set(lista_normalizada)
    
print('''
        1 - Corretor
        2 - Probabilidade de acerto do algoritmo
        3 - Quanitidade de palavras que o algoritmo conhece''')
opcao = 'opcao' + input('Digite a opção: ')

switch_case(opcao)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Senai\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



        1 - Corretor
        2 - Probabilidade de acerto do algoritmo
        3 - Quanitidade de palavras que o algoritmo conhece
Digite a opção: 1
Palavra que deseja corrigir: cachoro
cachorro
