# Corretor Ortográfico em Python: Aplicando técnicas de NLP

## Importando um corpus textual

In [51]:
# Lendo um arquivo(corpus) de texto
with open('corretor-master/artigos.txt', 'r', encoding='utf-8') as f:
    artigos = f.read()

In [52]:
# Visualisando os primeiros 500 caracteres
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


> Observamos que onde contem trechos com imagens e códigos em nosso arquivo, são substituídos pela palavra "imagem" e "java".

## Tokenização

In [53]:
# Para entender melhor
texto_exemplo = 'Olá, tudo bem?'
palavras_separadas = texto_exemplo.split()
print(palavras_separadas)

['Olá,', 'tudo', 'bem?']


> o método .split() particionou nossa frase, porém existe um detalhe, ele separoou a vírgula junto na primeira palavra 'Olá,' e o sinal de interrogação na última 'bem?'

In [54]:
# Printando o tamando da lista
print(len(palavras_separadas))

3


In [55]:
# Alterando o nome dá variavel palavras separadas
tokens = palavras_separadas
print(len(tokens))
print(tokens)

3
['Olá,', 'tudo', 'bem?']


## Refinando a tokenização

In [56]:
# Natural Language Toolkit
import nltk
nltk.download('punkt')
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Bruno\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [57]:
# Visualizando
palavras_separadas

['Olá', ',', 'tudo', 'bem', '?']

> Já observamos que agora a separação está correta, porém, não queremos pegar as pontuações.

## Separando palavras de tokens

In [58]:
# Verificando a quantidade de palavras dentro de palavras_separadas
len(palavras_separadas)

5

In [59]:
# Criando uma função para separar as palavras das pontuações
def separa_palavras(lista_tokens):
    lista_palavras = []
    for i in lista_tokens:
        if i.isalpha():
            lista_palavras.append(i)
    return lista_palavras

In [60]:
# Testando a função
separa_palavras(palavras_separadas)

['Olá', 'tudo', 'bem']

> A função funcionou perfeitamente eliminando as pontuações que constam na lista de palavras separadas.

## Contando palavras do Corpus

In [61]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f'O número de palavras dentro de nossa lista de palavras é: {len(lista_palavras)}')

O número de palavras dentro de nossa lista de palavras é: 403104


## Normalização

<p>Pegando apenas as palavras únicas detro da nossa lista</p>

In [62]:
# Visualizando as 5 primeiras palavras
lista_palavras[:5]

['imagem', 'Temos', 'a', 'seguinte', 'classe']

In [63]:
len(lista_palavras)

403104

> A palavra 'Temos' tem uma letra maiúscula, se tiver outro exemplo como 'temos' com letra minúscula, será contabilizado como duas palavras, sendo que são a mesma.

In [64]:
# Definindo a função de normalizar nossa lista
def normalizacao(lista):
    lista_normalizada = []
    for palavra in lista:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [65]:
# Atribuindo a função a uma variável
lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:500])

['imagem', 'temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no', 'nosso', 'sistema', 'java', 'para', 'salvar', 'um', 'novo', 'usuário', 'várias', 'validações', 'são', 'feitas', 'como', 'por', 'exemplo', 'ver', 'se', 'o', 'nome', 'só', 'contém', 'letras', 'o', 'cpf', 'só', 'números', 'e', 'ver', 'se', 'o', 'usuário', 'possui', 'no', 'mínimo', 'anos', 'veja', 'o', 'método', 'que', 'faz', 'essa', 'validação', 'java', 'suponha', 'agora', 'que', 'eu', 'tenha', 'outra', 'classe', 'a', 'classe', 'produto', 'que', 'contém', 'um', 'atributo', 'nome', 'e', 'eu', 'quero', 'fazer', 'a', 'mesma', 'validação', 'que', 'fiz', 'para', 'o', 'nome', 'do', 'usuário', 'ver', 'se', 'só', 'contém', 'letras', 'e', 'aí', 'vou', 'criar', 'outro', 'método', 'para', 'fazer', 'a', 'mesma', 'validação', 'ou', 'criar', 'uma', 'interface', 'ou', 'uma', 'classe', 'que', 'tanto', 'usuario', 'quanto', 'produto', 'estendem', 'não', 'faz', 'muito', 'sentido', 'né', 'como', 'resolver', 'esse', 'ca

> Agora todas as palavras estão em letras minúsculas

## Tipos de palavras

In [66]:
# Aplicando o função set() que retorna um conjunto matemático, sendo assim, eliminando as palavras repetidas da lista
len(set(lista_normalizada))

18465

> Agora com a normalização da lista, temos uma quantidade bem menor de palavras, 18465, bem diferente das 403104 que tinha antes.

## Fatiando as strings

In [67]:
# Operação de inserção
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias: # as fatias serão uma lista de tuplas com 2 valores dentro [('l', 'gica')]
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

In [68]:
palavra_exemplo = 'lgica'
def gerador_de_palavras(palavra):
    fatias= []
    for i in range(len(palavra)+1): # +1 para ir além da última letra
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

In [69]:
palavras_geradas = gerador_de_palavras(palavra_exemplo)
print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'àlgica', 'álgica', 'âlgica', 'ãlgica', 'èlgica', 'élgica', 'êlgica', 'ìlgica', 'ílgica', 'îlgica', 'òlgica', 'ólgica', 'ôlgica', 'õlgica', 'ùlgica', 'úlgica', 'ûlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'làgica', 'lágica', 'lâgica', 'lãgica', 'lègica', 'légica', 'lêgica', 'lìgica', 'lígica', 'lîgica', 'lògica', 'lógica', 'lôgica', 'lõgica', 'lùgica', 'lúgica', 'lûgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica', 'lggica', 'lghica', 'lgiica', 'lgjica', 'lgkica', 'lglica',

## Construindo a função corretor

In [70]:
# Definindo a função que retorna a palavra correta
def corretor(palavra):
    palavras_geradas = gerador_de_palavras(palavra)
    palavras_correta = max(palavras_geradas, key=probabilidade)
    return palavras_correta

## Probabilidade das palavras geradas

In [71]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [72]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada] / total_palavras

probabilidade('lógica')

0.00023815194093831864

In [73]:
corretor(palavra_exemplo)

'lógica'

# Avaliando a qualidade do corretor

## Preparando dados de teste

In [74]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r", encoding='utf-8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste('corretor-master/palavras.txt')
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

## Avaliando o corretor

In [75]:
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(((acertou * 100) / numero_palavras), 2)
    print(f'{taxa_acerto}% de {numero_palavras} palavras.')
avaliador(lista_teste)

1.08% de 186 palavras.


## Operação de delete

In [76]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias: # as fatias serão uma lista de tuplas com 2 valores dentro [('l', 'gica')]
        novas_palavras.append(E + D[1:])
    return novas_palavras

In [77]:
# Adaptando a função gerador_de_palavras
# As funções troca_letra e inverte_letra estão abaixo, precisa rodar elas antes para a função gerador_de_palavras não gerar erros
# Deixei assim para seguir uma organização de acordo com as aulas
def gerador_de_palavras(palavra):
    fatias= []
    for i in range(len(palavra)+1): # +1 para ir além da última letra
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_letra(fatias)
    return palavras_geradas
palavra_exemplo = 'lóigica'
palavras_geradas = gerador_de_palavras(palavra_exemplo)
print(palavras_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'àlóigica', 'álóigica', 'âlóigica', 'ãlóigica', 'èlóigica', 'élóigica', 'êlóigica', 'ìlóigica', 'ílóigica', 'îlóigica', 'òlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'ùlóigica', 'úlóigica', 'ûlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'làóigica', 'láóigica', 'lâóigica', 'lãóigica', 'lèóigica', 'léóigica', 'lêóigica', 'lìóigica', 'líóigica', 'lîóigica', 'lòóigica', 'lóóigica', 'lôóigica', 'lõ

In [78]:
avaliador(lista_teste)

76.34% de 186 palavras.


# Corrigindo os principais erros de digitação

## Trocando as letras

In [79]:
def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòõôúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

In [80]:
palavra_exemplo = 'lígica'
palavras_geradas = gerador_de_palavras(palavra_exemplo)
print(palavras_geradas)

['alígica', 'blígica', 'clígica', 'dlígica', 'elígica', 'flígica', 'glígica', 'hlígica', 'ilígica', 'jlígica', 'klígica', 'llígica', 'mlígica', 'nlígica', 'olígica', 'plígica', 'qlígica', 'rlígica', 'slígica', 'tlígica', 'ulígica', 'vlígica', 'wlígica', 'xlígica', 'ylígica', 'zlígica', 'àlígica', 'álígica', 'âlígica', 'ãlígica', 'èlígica', 'élígica', 'êlígica', 'ìlígica', 'ílígica', 'îlígica', 'òlígica', 'ólígica', 'ôlígica', 'õlígica', 'ùlígica', 'úlígica', 'ûlígica', 'çlígica', 'laígica', 'lbígica', 'lcígica', 'ldígica', 'leígica', 'lfígica', 'lgígica', 'lhígica', 'liígica', 'ljígica', 'lkígica', 'llígica', 'lmígica', 'lnígica', 'loígica', 'lpígica', 'lqígica', 'lrígica', 'lsígica', 'ltígica', 'luígica', 'lvígica', 'lwígica', 'lxígica', 'lyígica', 'lzígica', 'làígica', 'láígica', 'lâígica', 'lãígica', 'lèígica', 'léígica', 'lêígica', 'lìígica', 'líígica', 'lîígica', 'lòígica', 'lóígica', 'lôígica', 'lõígica', 'lùígica', 'lúígica', 'lûígica', 'lçígica', 'líagica', 'líbgica', 'lícgica'

## Invertendo as letras

In [81]:
def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

In [82]:
palavra_exemplo = 'lgóica'
palavras_geradas = gerador_de_palavras(palavra_exemplo)
print(palavras_geradas)

['algóica', 'blgóica', 'clgóica', 'dlgóica', 'elgóica', 'flgóica', 'glgóica', 'hlgóica', 'ilgóica', 'jlgóica', 'klgóica', 'llgóica', 'mlgóica', 'nlgóica', 'olgóica', 'plgóica', 'qlgóica', 'rlgóica', 'slgóica', 'tlgóica', 'ulgóica', 'vlgóica', 'wlgóica', 'xlgóica', 'ylgóica', 'zlgóica', 'àlgóica', 'álgóica', 'âlgóica', 'ãlgóica', 'èlgóica', 'élgóica', 'êlgóica', 'ìlgóica', 'ílgóica', 'îlgóica', 'òlgóica', 'ólgóica', 'ôlgóica', 'õlgóica', 'ùlgóica', 'úlgóica', 'ûlgóica', 'çlgóica', 'lagóica', 'lbgóica', 'lcgóica', 'ldgóica', 'legóica', 'lfgóica', 'lggóica', 'lhgóica', 'ligóica', 'ljgóica', 'lkgóica', 'llgóica', 'lmgóica', 'lngóica', 'logóica', 'lpgóica', 'lqgóica', 'lrgóica', 'lsgóica', 'ltgóica', 'lugóica', 'lvgóica', 'lwgóica', 'lxgóica', 'lygóica', 'lzgóica', 'làgóica', 'lágóica', 'lâgóica', 'lãgóica', 'lègóica', 'légóica', 'lêgóica', 'lìgóica', 'lígóica', 'lîgóica', 'lògóica', 'lógóica', 'lôgóica', 'lõgóica', 'lùgóica', 'lúgóica', 'lûgóica', 'lçgóica', 'lgaóica', 'lgbóica', 'lgcóica'

In [83]:
avaliador(lista_teste)

76.34% de 186 palavras.


# Criando um corretor turbinado

## Palavras desconhecidas ao vocabulário

In [84]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = round(((acertou * 100) / numero_palavras), 2)
    taxa_desconhecida = round(((desconhecida * 100) / numero_palavras), 2)
    print(f'{taxa_acerto}% de {numero_palavras} palavras, desconhecidas é {taxa_desconhecida}%.')
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecidas é 6.99%.


## Turbinando o gerador de palavras

In [85]:
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_de_palavras(palavra)
    return novas_palavras

palavra = 'lóiigica'
palavras_g = gerador_turbinado(gerador_de_palavras(palavra))
'lógica' in palavras_g

True

In [86]:
len(palavras_g)

676760

## Escolhendo os melhores candidatos

In [87]:
def novo_corretor(palavra):
    palavras_geradas = gerador_de_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

novo_corretor(palavra)

'lógica'

# Avaliando e interpretando o erro do corretor turbinado

## Avaliando o resultado dos dois corretores

In [88]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(((acertou * 100) / numero_palavras), 2)
    taxa_desconhecida = round(((desconhecida * 100) / numero_palavras), 2)
    print(f'{taxa_acerto}% de {numero_palavras} palavras, desconhecidas é {taxa_desconhecida}%.')
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

55.38% de 186 palavras, desconhecidas é 6.99%.


## Avaliando o resultado dos dois corretores cont

In [89]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(errada + '-' + corretor(errada) + '-' + palavra_corrigida)
    taxa_acerto = round(((acertou * 100) / numero_palavras), 2)
    taxa_desconhecida = round(((desconhecida * 100) / numero_palavras), 2)
    print(f'{taxa_acerto}% de {numero_palavras} palavras, desconhecidas é {taxa_desconhecida}%.')
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

esje-esse-se
sãêo-são-não
dosa-dos-do
eme-em-de
eàssa-essa-esse
daõs-das-da
céda-cada-da
noâ-no-o
enêão-então-não
tĩem-tem-em
nossah-nossa-nosso
teb-tem-de
atĩ-até-a
âem-em-de
foo-foi-o
serr-ser-se
entke-entre-então
van-vai-a
çeus-seus-seu
eû-e-de
temeo-tempo-temos
semre-sempre-ser
elaá-ela-ele
síó-só-se
siàe-site-se
seém-sem-em
peln-pelo-ele
aléra-alura-agora
tdia-dia-da
tuúo-tudo-tipo
jé-é-de
sãô-são-não
odos-dos-do
siua-sua-seu
elpe-ele-esse
teos-temos-os
eũsa-essa-esse
vjmos-vamos-temos
dms-dos-de
cava-java-para
ános-nos-no
èaso-caso-as
túem-tem-em
daáos-dados-dos
nossk-nosso-nosso
tãer-ter-ser
vté-até-é
búm-bem-um
sçerá-será-ser
entró-entre-então
uai-vai-a
sâus-seus-seu
ìeu-seu-de
fual-qual-sua
elal-ela-ele
skó-só-se
secm-sem-em
aluéa-alura-além
dil-dia-de
sód-só-se
eúaa-aeúaa-essa
ró-só-de
dĩaz-adĩaz-da
correptor-corretor-correto
trtica-tática-prática
ewpoderamento-aewpoderamento-ewpoderamento
îgato-gato-fato
cakvalo-acakvalo-carvalho
canelac-acanelac-janela
tênisy-atênisy-tênisy

In [90]:
# O corretor original performa melhor do que o novo_corretor, por isso deixaremos o original
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada) # alterando aqui
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(((acertou * 100) / numero_palavras), 2)
    taxa_desconhecida = round(((desconhecida * 100) / numero_palavras), 2)
    print(f'{taxa_acerto}% de {numero_palavras} palavras, desconhecidas é {taxa_desconhecida}%.')
    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecidas é 6.99%.


In [91]:
palavra = 'lgica'
print(novo_corretor(palavra))
print(corretor(palavra))

fica
lógica


In [92]:
palavra = 'lóigica'
print(novo_corretor(palavra))
print(corretor(palavra))

lógica
lógica


In [93]:
palavra = 'lóiigica'
print(novo_corretor(palavra))
print(corretor(palavra))

lógica
alóiigica
