# Corretor ortográfico com Python
> Criando e melhorando um corretor ortográfico utilizando Pythone NPL

- toc: false
- branch: master
- badges:false
- comments: false
- author: Everson
- categories: [blog]

In [None]:
#hide_output
with open("dados/artigos.txt", "r", encoding = 'utf8') as f:
    artigos = f.read()
    
print(artigos[:500])

In [None]:
#hide_output
len(artigos)

In [None]:
#hide_output
texto_exemplo = "Olá, tudo bem?"
tokens = texto_exemplo.split()
print(len(tokens))

In [None]:
#hide_output
!pip3 install nltk
import nltk
nltk.download('punkt')
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

In [None]:
#hide_output
print(palavras_separadas)

In [None]:
#hide_output
len(palavras_separadas)

In [None]:
#hide_output
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

separa_palavras(palavras_separadas)

In [None]:
#hide_output
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f" O número de palavras é {len(lista_palavras)}")

In [None]:
#hide_output
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:5])

In [None]:
#hide_output
len(set(lista_normalizada))

##### O algoritmo funcionará separando as palavras em (Esqueda + letra + Direita) isso vai ser percorrido por toda palavra, gerando possíveis candidatas à correção.

In [None]:
#hide_output
palavra_exemplo = 'lgica'



def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas
    
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

In [None]:
#hide_output
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key = probabilidade)
    return palavra_correta

In [None]:
#hide_output
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

In [None]:
#hide_output
def probabilidade(palavras_gerada):
    return frequencia[palavras_gerada] / total_palavras

probabilidade("lógica")

In [None]:
#hide_output
corretor(palavra_exemplo)

In [None]:
#hide_output
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, 'r', encoding = 'utf8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste("dados/palavras.txt")
lista_teste

In [None]:
#hide_output
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras")
    
avaliador(lista_teste)

In [None]:
#hide_output
corretor("lóigica")

In [None]:
#hide_output
avaliador(lista_teste)

In [None]:
#hide_output
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def invertendo_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += invertendo_caracteres(fatias)
    return palavras_geradas

palavra_exemplo = "lgóica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

In [None]:
#hide_output
avaliador(lista_teste)

In [None]:
#hide_output
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100 / numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecida é {taxa_desconhecida}%")
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

In [None]:
#hide_output
palavra = 'lóiigica'
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

palavras_g = gerador_turbinado(gerador_palavras(palavra))
"lógica" in  palavras_g

In [None]:
#hide_output
len(palavras_g)

In [None]:
#hide_output
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key = probabilidade)
    return palavra_correta

novo_corretor(palavra)

In [None]:
#hide_output
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(errada + " - " + corretor(errada) + " - " + palavra_corrigida)
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100 / numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecida é {taxa_desconhecida}%")
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

In [None]:
#hide_output
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100 / numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecida é {taxa_desconhecida}%")
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

In [None]:
palavra = "lóigica"
print(novo_corretor(palavra))
print(corretor(palavra))