## Abrindo arquivo -> Corpus Textual para o corretor

In [82]:
with open(file = "artigos.txt", mode = "r", encoding = 'utf8' ) as f:
    artigos = f.read()

print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


In [83]:
len(artigos)

2605046

In [84]:
len('Olá')

3

In [85]:
texto_exemplo = 'Ola, tudo bem?'
tokens = texto_exemplo.split()

In [86]:
len(tokens)

3

In [87]:
print(tokens)

['Ola,', 'tudo', 'bem?']


## Utilizamos o nltk para tokenizar o arquivo com mais eficiência

In [88]:
import nltk
# nltk.download('punkt')

In [89]:
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

print(palavras_separadas)

['Ola', ',', 'tudo', 'bem', '?']


In [90]:
len(palavras_separadas)

5

## Separando palavras de pontuações

In [91]:
'palavra'.isalpha()

True

In [92]:
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [93]:
separa_palavras(palavras_separadas)

['Ola', 'tudo', 'bem']

## Aplicando ao Corpus

In [94]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)

In [95]:
print(f'O número de palavras é {len(lista_palavras)}')

O número de palavras é 403106


In [96]:
print(lista_palavras[:5])

['imagem', 'Temos', 'a', 'seguinte', 'classe']


## Normalizando

In [97]:
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [98]:
lista_normalizada = normalizacao(lista_palavras)

In [99]:
print(lista_normalizada[:5])

['imagem', 'temos', 'a', 'seguinte', 'classe']


In [100]:
len(set(lista_normalizada))

18465

In [101]:
len(lista_normalizada)

403106

## Preparando o corretor

In [102]:
lista = 'lgica'

(lista[:1], lista[1:])

('l', 'gica')

#### Aqui criamos todas as possibilidades de uma determinada palavra digitada errada

In [103]:


palavra_exemplo = 'lgica'

def insere_letras(fatias):   
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'   
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)      
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

palavras_geradas = gerador_palavras(palavra_exemplo)

print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'àlgica', 'álgica', 'âlgica', 'ãlgica', 'èlgica', 'élgica', 'êlgica', 'ìlgica', 'ílgica', 'îlgica', 'òlgica', 'ólgica', 'ôlgica', 'õlgica', 'ùlgica', 'úlgica', 'ûlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'làgica', 'lágica', 'lâgica', 'lãgica', 'lègica', 'légica', 'lêgica', 'lìgica', 'lígica', 'lîgica', 'lògica', 'lógica', 'lôgica', 'lõgica', 'lùgica', 'lúgica', 'lûgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica', 'lggica', 'lghica', 'lgiica', 'lgjica', 'lgkica', 'lglica',

#### Aqui criamos o corretor, que definira qual é a palavra correta na lista de palavras possível, escolhendo a que aparece com mais frequencia no nosso corpus textual (texto base)

In [104]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key = probabilidade)
    return palavra_correta

In [105]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [106]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

probabilidade('lagica')

0.0

In [107]:
corretor('lógic')

'lógica'

In [115]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r", encoding = 'utf-8')
    for linha in f:
        separada = linha.split() #se fosse no colab, poderia fazer correta, errada = linha.split() direto.
        correta = separada[0]    #Fiz essa gambiarra pra rodar aqui no jupyter
        errada = separada[1]
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste('palavras.txt')

lista_teste[:10]

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm')]

In [117]:
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round((acertou/numero_palavras)*100, 2)
    print(f'{taxa_acerto} % de {numero_palavras} palavras')


avaliador(lista_teste)

1.08 % de 186 palavras


## Cobrindo outros casos de erro de digitação

In [120]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])      
    return novas_palavras
    

In [121]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas

palavra_exemplo = 'lóigica'

palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'àlóigica', 'álóigica', 'âlóigica', 'ãlóigica', 'èlóigica', 'élóigica', 'êlóigica', 'ìlóigica', 'ílóigica', 'îlóigica', 'òlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'ùlóigica', 'úlóigica', 'ûlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'làóigica', 'láóigica', 'lâóigica', 'lãóigica', 'lèóigica', 'léóigica', 'lêóigica', 'lìóigica', 'líóigica', 'lîóigica', 'lòóigica', 'lóóigica', 'lôóigica', 'lõ

In [122]:
avaliador(lista_teste)

41.4 % de 186 palavras


In [137]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])      
    return novas_palavras
    
def insere_letras(fatias):   
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'   
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)      
    return novas_palavras

def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'   
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])      
    return novas_palavras

def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])      
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_letra(fatias)
    return palavras_geradas
    

In [138]:
palavra_exemplo = 'lógiac'

palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)


['alógiac', 'blógiac', 'clógiac', 'dlógiac', 'elógiac', 'flógiac', 'glógiac', 'hlógiac', 'ilógiac', 'jlógiac', 'klógiac', 'llógiac', 'mlógiac', 'nlógiac', 'ológiac', 'plógiac', 'qlógiac', 'rlógiac', 'slógiac', 'tlógiac', 'ulógiac', 'vlógiac', 'wlógiac', 'xlógiac', 'ylógiac', 'zlógiac', 'àlógiac', 'álógiac', 'âlógiac', 'ãlógiac', 'èlógiac', 'élógiac', 'êlógiac', 'ìlógiac', 'ílógiac', 'îlógiac', 'òlógiac', 'ólógiac', 'ôlógiac', 'õlógiac', 'ùlógiac', 'úlógiac', 'ûlógiac', 'çlógiac', 'laógiac', 'lbógiac', 'lcógiac', 'ldógiac', 'leógiac', 'lfógiac', 'lgógiac', 'lhógiac', 'liógiac', 'ljógiac', 'lkógiac', 'llógiac', 'lmógiac', 'lnógiac', 'loógiac', 'lpógiac', 'lqógiac', 'lrógiac', 'lsógiac', 'ltógiac', 'luógiac', 'lvógiac', 'lwógiac', 'lxógiac', 'lyógiac', 'lzógiac', 'làógiac', 'láógiac', 'lâógiac', 'lãógiac', 'lèógiac', 'léógiac', 'lêógiac', 'lìógiac', 'líógiac', 'lîógiac', 'lòógiac', 'lóógiac', 'lôógiac', 'lõógiac', 'lùógiac', 'lúógiac', 'lûógiac', 'lçógiac', 'lóagiac', 'lóbgiac', 'lócgiac'

In [140]:
avaliador(lista_teste)

76.34 % de 186 palavras


In [141]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = round((acertou/numero_palavras)*100, 2)
    taxa_desconhecida = round((desconhecida/numero_palavras)*100, 2)
    print(f'{taxa_acerto} % de {numero_palavras} palavras, desconhecida é {taxa_desconhecida} %')

    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34 % de 186 palavras, desconhecida é 6.99 %


In [149]:
palavra = 'lóiigica'

def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras


palavras_g = gerador_turbinado(gerador_palavras(palavra))

'lógica' in palavras_g

True

In [157]:
 def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]

    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    
    palavra_correta = max(candidatos, key = probabilidade)
    return palavra_correta

novo_corretor(palavra)

'lógica'

In [160]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(errada + '-' + corretor(errada) + '-' + palavra_corrigida)
    taxa_acerto = round((acertou/numero_palavras)*100, 2)
    taxa_desconhecida = round((desconhecida/numero_palavras)*100, 2)
    print(f'{taxa_acerto} % de {numero_palavras} palavras, desconhecida é {taxa_desconhecida} %')

    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

esje-esse-se
sãêo-são-não
dosa-dos-do
eme-em-de
eàssa-essa-esse
daõs-das-da
céda-cada-da
noâ-no-o
enêão-então-não
tĩem-tem-em
nossah-nossa-nosso
teb-tem-de
atĩ-até-a
âem-em-de
foo-foi-o
serr-ser-se
entke-entre-então
van-vai-a
çeus-seus-seu
eû-e-de
temeo-tempo-temos
semre-sempre-ser
elaá-ela-ele
síó-só-se
siàe-site-se
seém-sem-em
peln-pelo-ele
aléra-alura-agora
tdia-dia-da
tuúo-tudo-tipo
jé-é-de
sãô-são-não
odos-dos-do
siua-sua-seu
elpe-ele-esse
teos-temos-os
eũsa-essa-esse
vjmos-vamos-temos
dms-dos-de
cava-java-para
ános-nos-no
èaso-caso-as
túem-tem-em
daáos-dados-dos
nossk-nosso-nosso
tãer-ter-ser
vté-até-é
búm-bem-um
sçerá-será-ser
entró-entre-então
uai-vai-a
sâus-seus-seu
ìeu-seu-de
fual-qual-sua
elal-ela-ele
skó-só-se
secm-sem-em
aluéa-alura-além
dil-dia-de
sód-só-se
eúaa-aeúaa-essa
ró-só-de
dĩaz-adĩaz-da
correptor-corretor-correto
trtica-tática-prática
ewpoderamento-aewpoderamento-ewpoderamento
îgato-gato-fato
cakvalo-acakvalo-carvalho
canelac-acanelac-janela
tênisy-atênisy-tênisy

In [161]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round((acertou/numero_palavras)*100, 2)
    taxa_desconhecida = round((desconhecida/numero_palavras)*100, 2)
    print(f'{taxa_acerto} % de {numero_palavras} palavras, desconhecida é {taxa_desconhecida} %')

    
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34 % de 186 palavras, desconhecida é 6.99 %


### Avaliando ambos os corretores, podemos chegar a conclusão de que o antigo performou muito melhor para esse conjunto de palavras de teste e, sendo assim, faz mais sentido utilizá-lo ao invés do 'novo_corretor'

In [175]:
palavra = 'podeer'

print(novo_corretor(palavra))
print(corretor(palavra))

pode
poder


### No entanto, existem palavras erradas em que o novo corretor performa muito melhor, sobretudo para casos em que há letras equivocadas que se repetem duas vezes dentro da mesma palavra