# Corretor Ortográfico em Python: aplicando técnicas de NLP

Certificação: https://cursos.alura.com.br/certificate/7a2fb1d5-e8a0-4852-8d6b-f2feda6e7adb

<h2>Objetivo do treinamento:</h2>

<ul>
    <li>Conceitos fundamentais do processamento de linguagem natural.</li>
    <li>O que está por trás dos corretores ortográficos (spell checker).</li>
    <li>Criar um corretor de palavras do zero, utilizando Python.</li>
    <li>Utilizando o NLTK uma das principais bibliotecas Python para NLP.</li>
    <li>Aprender o que são tokens e como utilizar NLTK para realizar a fragmentação de um texto.</li>
</ul>

<h2>Aulas</h2>

<ol>
    <li>Explorando um projeto de NLP</li>
    <li>Utilizando NLTK para tokenizar um texto</li>
    <li>Desenvolvendo e testando o corretor</li>
    <li>Avaliando a qualidade do corretor</li>
    <li>Incrementando o corretor</li>
    <li>Corrigindo os principais erros de digitação</li>
    <li>Criando um corretor turbinado</li>
    <li>Avaliando e interpretando o erro do corretor turbinado</li>
</ol>

# Importe de dados, carga e configurações

In [1]:
# Python version
from platform import python_version
print('Python version:', python_version())

Python version: 3.8.5


In [2]:
import nltk

# Warnings remove 
import warnings
warnings.filterwarnings("ignore")

# 1. Explorando um projeto de NLP

In [3]:
# carga da base de artigos
with open("corretor-master/artigos.txt", "r") as f:
    artigos = f.read()
print(artigos[:500])






imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


In [4]:
#Retorna apenas itens alfanumericos de uma lista
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

#Função para normalizar as palavras
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada


lista_palavras = separa_palavras(artigos.split())
lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:10])


['imagem', 'temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no']


In [7]:
# Processo de tokenização
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f"Número de palavras é {len(lista_palavras)}")
print(f'Quantidade de palavras: {len(set(lista_normalizada))}\n')
print(lista_palavras[:10])


Número de palavras é 403031
Quantidade de palavras: 15152

['imagem', 'Temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no']


# 2. Utilizando NLTK para tokenizar um texto

<img src="img/inc1.png">
<img src="img/exemplo.png">
<p>Exemplo de como o algoritmo funciona, ele pega a pavra e divide de duas partes e insere letras entre as partes, após checa se a palavra faz sentido de acordo com a base de dados.</p>

In [8]:
palavra_exemplo = "lgica"

def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'álgica', 'âlgica', 'àlgica', 'ãlgica', 'élgica', 'êlgica', 'èlgica', 'ẽlgica', 'ílgica', 'îlgica', 'ìlgica', 'ĩlgica', 'ólgica', 'ôlgica', 'õlgica', 'òlgica', 'úlgica', 'ûlgica', 'ùlgica', 'ũlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'lágica', 'lâgica', 'làgica', 'lãgica', 'légica', 'lêgica', 'lègica', 'lẽgica', 'lígica', 'lîgica', 'lìgica', 'lĩgica', 'lógica', 'lôgica', 'lõgica', 'lògica', 'lúgica', 'lûgica', 'lùgica', 'lũgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica',

# 3. Desenvolvendo e testando o corretor

In [9]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    return palavra_correta

In [10]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15466),
 ('o', 13907),
 ('que', 11908),
 ('a', 10946),
 ('e', 10055),
 ('para', 7659),
 ('um', 6292),
 ('é', 5617),
 ('uma', 5174),
 ('do', 5109)]

In [11]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

probabilidade("logica")

0.0

In [12]:
probabilidade("lógica")

0.0002090343484080002

In [13]:
corretor(palavra_exemplo)

'lógica'

# 4. Avaliando a qualidade do corretor

In [14]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r")
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste("corretor-master/palavras.txt")
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

In [15]:
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras")

avaliador(lista_teste)

1.08% de 186 palavras


# 5. Incrementando o corretor
<img src="img/inc2.png">
<img src="img/tab2.png">

In [16]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

In [17]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas
palavra_exemplo = "lóigica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print((palavras_geradas))

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'álóigica', 'âlóigica', 'àlóigica', 'ãlóigica', 'élóigica', 'êlóigica', 'èlóigica', 'ẽlóigica', 'ílóigica', 'îlóigica', 'ìlóigica', 'ĩlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'òlóigica', 'úlóigica', 'ûlóigica', 'ùlóigica', 'ũlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'láóigica', 'lâóigica', 'làóigica', 'lãóigica', 'léóigica', 'lêóigica', 'lèóigica', 'lẽóigica', 'líóigica', 'lîóigica', 'lì

In [18]:
avaliador(lista_teste)

40.86% de 186 palavras


# 6. Corrigindo os principais erros de digitação
<img src="img/tab3.png">

In [19]:
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_letra(fatias)
    return palavras_geradas

def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
     
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
               
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecida é {taxa_desconhecida}%")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)
palavra_exemplo = "lógiac"
palavras_geradas = gerador_palavras(palavra_exemplo)
#print(palavras_geradas)

76.34% de 186 palavras, desconhecida é 7.53%


# 7. Criando um corretor turbinado

In [20]:
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for p in palavras_geradas:
        novas_palavras += gerador_palavras(p)
    return novas_palavras

p = "lóiigica"
a =gerador_turbinado(gerador_palavras(p))

In [21]:
"lógica" in a

True

In [22]:
# Quase um milhão de palavras geradas para corrigir apenas uma
len(a)

787396

In [23]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = {}
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = []
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    #print(len(candidatos))
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

In [24]:
novo_corretor('exbemplo')

'exemplo'

# 8. Avaliando e interpretando o erro do corretor turbinado

In [25]:
def avaliador_v2(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(errada + "-" + corretor(errada) + "-" + palavra_corrigida)
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecidas {taxa_desconhecida}%")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecida é 7.53%


In [26]:
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecida é 7.53%


In [27]:
avaliador_v2(lista_teste, vocabulario)

eme-em-em
noâ-no-no
teb-tem-tem
âem-em-em
serr-ser-ser
eû-e-e
jé-é-é
dms-dos-dos
nossk-nosso-nosso
ìeu-seu-seu
qelay-delay-delay
dtilizacr-adtilizacr-adtilizacr
bprojõto-abprojõto-abprojõto
ysiteo-aysiteo-aysiteo
sõêm-asõêm-asõêm
peàli-apeàli-apeàli
asuraó-aasuraó-aasuraó
deiìa-deixa-deixa
tuĩdoì-atuĩdoì-atuĩdoì
eúaa-aeúaa-aeúaa
utilizẽaçr-autilizẽaçr-autilizẽaçr
prêjetó-aprêjetó-aprêjetó
sqiqte-asqiqte-asqiqte
sũexm-asũexm-asũexm
pçlxo-apçlxo-apçlxo
uluraa-auluraa-auluraa
dĩaz-adĩaz-adĩaz
kzudo-akzudo-akzudo
ewpoderamento-aewpoderamento-aewpoderamento
îgato-aîgato-aîgato
cakvalo-acakvalo-acakvalo
canelac-acanelac-acanelac
tênisy-atênisy-atênisy
anciosa-aanciosa-aanciosa
ancciosa-aancciosa-aancciosa
ansioa-aansioa-aansioa
empoderamento-aempoderamento-aempoderamento
asterístico-aasterístico-aasterístico
entertido-aentertido-aentertido
indiota-aindiota-aindiota
tomare-tomar-tomar
provalecer-aprovalecer-aprovalecer
mindigo-amindigo-amindigo
pertubar-apertubar-apertubar
76.34% de 186 palav

In [40]:
corretor('funçãe')

'função'

In [38]:
novo_corretor('iss')

'os'