### Preparando Arquivos

#### Documentação útil para o projeto

nltk.tokenize.word_tokenize(artigos)
Permite quebrar frases em tokens (semelhante a palavras)

lista_normalizadas.append(palavra.lower())
Torna toda a lista 'palavra' com letras minusculas

set(lista_normalizadas)
set exclui as palavras repetidas

max(palavras_geradas,key=probabilidade)
#max retorna o elemento de max a partir de uma função chave. No caso, a função usada é a probabilidade

frequencia = nltk.FreqDist(lista_normalizadas)
o FreqDist conta quantas vezes cada item da lista foi mencionado

correta,errada = linha.split()
O split permite quebraro texto a partir de um caractere. O default é o espaço

#### Abrindo Arquivos e importando biblioteca

In [None]:
with open("artigos.txt", "r",encoding = 'utf-8') as f:
    artigos = f.read()
    
import nltk
nltk.download('punkt')

#### Função que exclui caracteres sem ser alfanumerico

In [None]:
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [None]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f"O número de palavras é: {len(lista_palavras)}")

#### Tornando todas as palavras com letras minusculas
##### Isso serve para que na proxima etapa, o algoritmo consiga excluir palavras repetidas

In [None]:
def normalizacao(lista_palavras):
    lista_normalizadas = []
    for palavra in lista_palavras:
        lista_normalizadas.append(palavra.lower())
    return lista_normalizadas

lista_normalizadas = normalizacao(lista_palavras)
print(lista_normalizadas[:5])

#### Excluir palavras repetidas

In [None]:
len(set(lista_normalizadas))

### Criando o Modelo

#### Operações de Correção

In [None]:
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E,D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletando_caractere(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E,D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E,D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def inverte_caractere(fatias):
    novas_palavras = []
    for E,D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))

    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caractere(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_caractere(fatias)
    return palavras_geradas

def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras


### Testando a Eficiência do Corretor

#### Corretor

In [None]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas,key=probabilidade)
    return palavra_correta

frequencia = nltk.FreqDist(lista_normalizadas)
total_palavra = len(lista_normalizadas)
#frequencia.most_common(10)

def probabilidade(palavras_geradas):
    return frequencia[palavras_geradas]/total_palavra



In [None]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo,"r",encoding = 'utf-8')
    for linha in f:
        correta,errada = linha.split()
        lista_palavras_teste.append((correta,errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste("palavras.txt")



#### Simulando

In [None]:
def avaliador(testes,vocabulario):
    numero_de_palavras = len(testes)
    desconhecida = 0
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou +=1
            
    taxa_acerto = round(acertou*100/numero_de_palavras,2)
    taxa_desconhecida = round(desconhecida*100/numero_de_palavras,2)
    print(f'taxa de acerto foi de {taxa_acerto}% no total de {numero_de_palavras} palavras, desconhecida é {taxa_desconhecida}%')

vocabulario = set(lista_normalizadas)
avaliador(lista_teste,vocabulario)

#### Inserindo uma palavra para teste

In [None]:
corretor("pallavra")