# Corretor Ortográfico

### Importando bibliotecas e carregando arquivos

In [1]:
import nltk

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/quasares/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

### Abrindo e salvando o arquivo de texto

In [3]:
with open('artigos.txt', 'r') as f:
    artigos = f.read()

### Funções usadas no código:

In [4]:
def seleciona_palavra(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [5]:
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [6]:
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

In [7]:
def remove_caracter(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

In [8]:
def troca_caracter(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

In [9]:
def inverte_caracter(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

In [10]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += remove_caracter(fatias)
    palavras_geradas += troca_caracter(fatias)
    palavras_geradas += inverte_caracter(fatias)
    return palavras_geradas

In [11]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada] / total_palavras

In [12]:
def corretor(palavra_errada):
    palavras_geradas = gerador_palavras(palavra_errada)
    palavras_corretas = max(palavras_geradas, key = probabilidade)
    return palavras_corretas

In [13]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, 'r')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

In [14]:
def avaliador(teste):
    numero_palavras = len(teste)
    acertou = 0
    desconhecida = 0
    for certa, errada in teste:
        palavra_corrigida = corretor(errada)
        desconhecida += (certa not in vocabulario)
        if palavra_corrigida == certa:
            acertou += 1   
    taxa_de_acerto = acertou/numero_palavras
    taxa_desconhecida = desconhecida/numero_palavras
    print('Taxa de acerto de {}% de {} palavras.'.format(round(taxa_de_acerto * 100, 2), numero_palavras))
    print('Taxa de palavras desconhecidas {}%.'.format(round(taxa_desconhecida * 100, 2)))

### Tratamento da lista de palavras

In [15]:
# Tokenização de palavras:
lista_tokens = nltk.tokenize.word_tokenize(artigos)

In [16]:
# Seleção de caracteres que são palavras:
lista_palavras = seleciona_palavra(lista_tokens)

In [17]:
# Deixando todas as palavras com caracteres minúsculos
lista_normalizada = normalizacao(lista_palavras)

In [18]:
# Variáveis importantes
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
teste = cria_dados_teste('palavras.txt')
vocabulario = set(lista_normalizada)

In [19]:
avaliador(teste)

Taxa de acerto de 76.34% de 186 palavras.
Taxa de palavras desconhecidas 6.99%.
