### Abrindo o arquivo de texto (Base de dados)

In [None]:
with open("data/artigos.txt", "r", encoding = "utf-8") as f:
    artigos = f.read()
print(artigos[:500])

### Descobrindo o numero de palavras da Base de dados

In [None]:
len(artigos) # Numero de caracteres e não numero de palavras

In [None]:
# Aqui separamos com o .split() os espaços entre as palavras
texto_exemplo = 'Olá, tudo bem?'
tokens = texto_exemplo.split()
tokens

In [None]:
# Aqui verificamos a quantidade de palavras, porém temos caracteres especiais
# embutidos em nossas palavras
len(tokens)

In [None]:
# Importando o nltk
import nltk

In [None]:
# Com essa função do nltk, é possível separar as palavras dos 
# caracteres especiais
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)
print(palavras_separadas)

In [None]:
# Criando uma função que separa as palavras das pontuações,
# a função isalpha() retorna True para os caracteres do alfabeto padrão
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha() == True:
            lista_palavras.append(token)
    return lista_palavras
separa_palavras(palavras_separadas)

In [None]:
# Vamos aplicar agora nossa função na base de dados e ver a quantidade de
# palavras que temos.
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print('O numero de palavras é: {}'.format(len(lista_palavras)))

### Colocar todos os caracteres de palavras em minusculo

In [None]:
# Frase exemplo com a palavra Temos com T maiusculo
print(lista_palavras[:5])

In [None]:
# Transforma todas as palavras maiusculas para minusculas
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [None]:
# Frase exemplo com a palavra temos com t minusculo
lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:5])

### Removendo palavras duplicadas

In [None]:
# Aqui temos a quantidade de palavras da nossa base de dados sem
# distinção maiuscula/minuscula e sem duplicatas.
len(set(lista_normalizada))

### Função inserir letras e gerador de palavras

In [None]:
palavra_exemplo = 'lgica'
# Pecorro a String e insiro uma letra entre o lado esquerdo ou direito de
# cada palavra.
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

# É gerado todas as palavras com diferentes letras do alfabeto em diferentes
# posições da string

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas
    
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

### Função corretor

In [None]:
# Aqui vamos pegar a maior probabilidade das palavras geradas
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    return palavra_correta

In [None]:
# Verifica a frequencia das palavras na lista de palavras normalizada
frequencia = nltk.FreqDist(lista_normalizada)
frequencia.most_common(10)

In [None]:
# A partir das palavras mais comuns, geramos probabilidades
total_palavras = len(lista_normalizada)
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras
probabilidade('lógica')

In [None]:
corretor(palavra_exemplo)

### Criando dados teste

In [None]:
# Aqui vamos abrir um arquivo onde na esquerda temos a palavra escrita
# corretamente e na direita a palavra incorreta, para isso fizemos uma
# tupla onde as linhas foram seccionadas pelo espaço e armazenadas nas
# variaveis correta e errada.
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, 'r', encoding = 'utf-8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste
lista_teste = cria_dados_teste('data/palavras.txt')
lista_teste

### Função Avaliador

In [None]:
# Aqui fizemos um contador, no qual a palavra errada é passada para a função
# corretor, dentro dessa função ela recebe o gerador de palavras e lá iremos
# fazer o fatiamento dessa palavra incorreta e ir inserindo letras ate corrigir
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print('Taxa de acerto = {}% de {} palavras'.format(taxa_acerto, numero_palavras))
avaliador(lista_teste)

### Função deleta caracteres

In [None]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
            novas_palavras.append(E + D[1:])
    return novas_palavras

### Complementando o Gerador de palavras

In [None]:
# Além de inserir letras deletamos caracteres digitados incorretamente
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas
palavra_exemplo = 'lóigica'
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

### Testando a Taxa de acerto com essas duas funções

In [None]:
avaliador(lista_teste)

### Adiciona a função troca de letras

In [None]:
def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

### Adiciona a função inverter letras

In [None]:
def inverter_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

### Complementando a função gerador palavras com as novas funções

In [None]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverter_letra(fatias)
    return palavras_geradas
palavra_exemplo = 'lógiac'
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

In [None]:
avaliador(lista_teste)

## Projeto - Corretor Ortográfico

In [4]:
import nltk

# Abre arquivo

with open("data/artigos.txt", "r", encoding = "utf-8") as f:
    artigos = f.read()

# Separa palavra de caracter especial    

lista_tokens = nltk.tokenize.word_tokenize(artigos)

# Deleta caracter especial e deixa só palavra

def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha() == True:
            lista_palavras.append(token)
    return lista_palavras

# A variavel recebe só palavras

lista_palavras = separa_palavras(lista_tokens)

# Transforma tudo pra minusculo

def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

# A variavel recebe só palavras minusculas

lista_normalizada = normalizacao(lista_palavras)

# Ler o arquivo e separa palavras certas e erradas

def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, 'r', encoding = 'utf-8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

# Atribui a variavel a tupla com palavras (correta, errada)

lista_teste = cria_dados_teste('data/palavras.txt')

# Pega a maior probabilidade entre todas as palavras geradas

def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    return palavra_correta

# Pega a frequencia de cada palavra

frequencia = nltk.FreqDist(lista_normalizada)

# Atribui a variavel a quantidade de palavras que temos

total_palavras = len(lista_normalizada)

# Pega a frequencia de cada palavra gerada e divide pelo total de palavras

def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

# Insere letras do alfabeto em diferentes posicoes

def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

# Deleta caracteres

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
            novas_palavras.append(E + D[1:])
    return novas_palavras

# Troca letras por outras do alfabeto em diferentes posicoes

def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

# Inverte letras digitadas incorretamente

def inverter_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

# Gera palavras com as 4 funções acima

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverter_letra(fatias)
    return palavras_geradas

# Avalia o desempenho do nosso corretor

def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print('Taxa de acerto = {}% de {} palavras'.format(taxa_acerto, numero_palavras))

# Vizualizando a nossa eficiência
    
avaliador(lista_teste)

Taxa de acerto = 76.34% de 186 palavras


### Tentando melhorar o corretor (Sem sucesso)

In [None]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print('Taxa de acerto = {}% de {} palavras'.format(taxa_acerto, numero_palavras))
    print('Taxa de palavras desconhecidas = {}%'.format(taxa_desconhecida))
    
vocabulario = set(lista_normalizada)    
avaliador(lista_teste,vocabulario)

In [None]:
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

palavras_g = gerador_turbinado(gerador_palavras('lóiigica'))
'lógica' in palavras_g

In [None]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

In [None]:
novo_corretor('lóiigica')

In [None]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(errada + '-' + corretor(errada) + '-' + palavra_corrigida)
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print('Taxa de acerto = {}% de {} palavras'.format(taxa_acerto, numero_palavras))
    print('Taxa de palavras desconhecidas = {}%'.format(taxa_desconhecida))
    
vocabulario = set(lista_normalizada)    
avaliador(lista_teste,vocabulario)

In [None]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print('Taxa de acerto = {}% de {} palavras'.format(taxa_acerto, numero_palavras))
    print('Taxa de palavras desconhecidas = {}%'.format(taxa_desconhecida))
    
vocabulario = set(lista_normalizada)    
avaliador(lista_teste,vocabulario)