# Corretor Ortográfico em Python: Aplicando técnicas de NLP

## Objetivos
* Aprenda conceitos fundamentais do processamento de linguagem natural.
* Saiba o que está por trás dos corretores ortográficos (spell checker).
* Crie um corretor de palavras do zero, utilizando Python.
* Utilize o NLTK uma das principais bibliotecas Python para NLP.
* Aprenda o que são tokens e como utilizar NLTK para realizar a fragmentação de um texto.

link: https://cursos.alura.com.br/course/nlp-corretor-ortografico

## Importando as bibliotecas necessárias

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
#from sklearn import

## Importando o dataset e explorando os dados

In [2]:
with open('artigos.txt', 'r', encoding='utf-8') as f:
    artigos = f.read()
    
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


In [3]:
frase = 'olá, tudo bem?'
tokens = frase.split()
tokens

['olá,', 'tudo', 'bem?']

In [4]:
len(tokens)

3

In [5]:
palavras_separadas = nltk.tokenize.word_tokenize(frase)

print(palavras_separadas)

['olá', ',', 'tudo', 'bem', '?']


In [6]:
len(palavras_separadas)

5

In [7]:
'palavra'.isalpha()

True

In [8]:
'palavra.'.isalpha()

False

In [9]:
def separa_palavras(lista_tokens):
    lista_palavras = [i for i in lista_tokens if i.isalpha()]
    return lista_palavras

In [10]:
separa_palavras(palavras_separadas)

['olá', 'tudo', 'bem']

In [11]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f'O número de palavras é: {len(lista_palavras)}')
lista_palavras[:5]

O número de palavras é: 403104


['imagem', 'Temos', 'a', 'seguinte', 'classe']

In [12]:
def normalizacao(lista_palavras):
    return [i.lower() for i in lista_palavras]

In [13]:
lista_normalizada = normalizacao(lista_palavras)
lista_normalizada[:5]

['imagem', 'temos', 'a', 'seguinte', 'classe']

In [14]:
len(set((lista_normalizada)))

18465

In [93]:
palavra_exemplo = 'lgica'

total_palavras = len(lista_normalizada)

frequencia = nltk.FreqDist(lista_normalizada)

letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'

def insere_letras(fatias, letras=letras):
    novas_palavras = []
    for letra in letras:
        for E, D in fatias:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas += inverte_letra(fatias)
    return palavras_geradas

def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    return palavra_correta

def probabilidade(palavra_gerada, frequencia=frequencia, total_palavras=total_palavras):
    return frequencia[palavra_gerada]/total_palavras

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def troca_letra(fatias, letras=letras):
    novas_palavras = []
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou +=1
    taxa_acerto = acertou/numero_palavras
    print(f'taxa de acerto: {taxa_acerto:0.2%} de {numero_palavras} palavras')


In [21]:
frequencia.most_common()[:10]

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [22]:
frequencia['logica']

0

In [23]:
probabilidade('código')

0.0019151385250456459

In [24]:
corretor(palavra_exemplo)

'lógica'

In [25]:
corretor('cdigo')

'código'

In [39]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, 'r', encoding='utf-8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste('palavras.txt')
lista_teste[:10]

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm')]

In [56]:
print('O corretor com apenas a função insere letra, tem a taxa de acerto de:')
avaliador(lista_teste)

O corretor com apenas a função insere letra, tem a taxa de acerto de:
taxa de acerto: 1.08% de 186 palavras


In [36]:
palavra_exemplo = 'lóigica'
gerador_palavras(palavra_exemplo)[]

['alóigica', 'laóigica', 'lóaigica', 'lóiagica', 'lóigaica']

In [58]:
print('O corretor com a função insere letra e deletando letra, tem a taxa de acerto de:')
avaliador(lista_teste)

O corretor com a função insere letra e deletando letra, tem a taxa de acerto de:
taxa de acerto: 41.40% de 186 palavras


In [60]:
print('O corretor apenas com a função insere letra, deletando letra e troca letra, tem a taxa de acerto de:')
avaliador(lista_teste)

O corretor apenas com a função insere letra, deletando letra e troca letra, tem a taxa de acerto de:
taxa de acerto: 76.34% de 186 palavras


In [48]:
palavra_exemplo = 'lgóica'
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas[-10:])

['lgóicaõ', 'lgóicaù', 'lgóicaú', 'lgóicaû', 'lgóicaç', 'glóica', 'lógica', 'lgióca', 'lgócia', 'lgóiac']


In [62]:
print('O corretor apenas com a função insere letra, deletando letra, troca letra e inverte letra, tem a taxa de acerto de:')
avaliador(lista_teste)

O corretor apenas com a função insere letra, deletando letra, troca letra e inverte letra, tem a taxa de acerto de:
taxa de acerto: 76.34% de 186 palavras


In [71]:
vocabulario = set(lista_normalizada)
def avaliador(testes, vocabulario=vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou +=1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = acertou/numero_palavras
    taxa_desconhecida = desconhecida/numero_palavras
    print(f'taxa de acerto: {taxa_acerto:0.2%} de {numero_palavras} palavras\nA taxa de palavras desconhecidas é: {taxa_desconhecida:0.2%}')
vocabulario = set(lista_normalizada)

In [72]:
avaliador(lista_teste)

taxa de acerto: 76.34% de 186 palavras
A taxa de palavras desconhecidas é: 6.99%


In [98]:
palavra = 'lóiigica'

def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

palavras_g = gerador_turbinado(gerador_palavras(palavra))
'lógica' in palavras_g

True

In [97]:
len(palavras_g)

691744

In [101]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key=probabilidade)
    return palavra_correta

novo_corretor(palavra)

'lógica'

In [106]:
vocabulario = set(lista_normalizada)

def avaliador(testes, vocabulario=vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou +=1
        else:
            print(f'{errada} - {corretor(errada)} - {palavra_corrigida}')
    taxa_acerto = acertou/numero_palavras
    taxa_desconhecida = desconhecida/numero_palavras
    print(f'taxa de acerto: {taxa_acerto:0.2%} de {numero_palavras} palavras\nA taxa de palavras desconhecidas é: {taxa_desconhecida:0.2%}')
vocabulario = set(lista_normalizada)

In [107]:
avaliador(lista_teste)

esje - esse - se
sãêo - são - não
dosa - dos - do
eme - em - de
eàssa - essa - esse
daõs - das - da
céda - cada - da
noâ - no - o
enêão - então - não
tĩem - tem - em
nossah - nossa - nosso
teb - tem - de
atĩ - até - a
âem - em - de
foo - foi - o
serr - ser - se
entke - entre - então
van - vai - a
çeus - seus - seu
eû - e - de
temeo - tempo - temos
semre - sempre - ser
elaá - ela - ele
síó - só - se
siàe - site - se
seém - sem - em
peln - pelo - ele
aléra - alura - agora
tdia - dia - da
tuúo - tudo - tipo
jé - é - de
sãô - são - não
odos - dos - do
siua - sua - seu
elpe - ele - esse
teos - temos - os
eũsa - essa - esse
vjmos - vamos - temos
dms - dos - de
cava - java - para
ános - nos - no
èaso - caso - as
túem - tem - em
daáos - dados - dos
nossk - nosso - nosso
tãer - ter - ser
vté - até - é
búm - bem - um
sçerá - será - ser
entró - entre - então
uai - vai - a
sâus - seus - seu
ìeu - seu - de
fual - qual - sua
elal - ela - ele
skó - só - se
secm - sem - em
aluéa - alura - além
dil - d

In [109]:
vocabulario = set(lista_normalizada)

def avaliador(testes, vocabulario=vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou +=1
    taxa_acerto = acertou/numero_palavras
    taxa_desconhecida = desconhecida/numero_palavras
    print(f'taxa de acerto: {taxa_acerto:0.2%} de {numero_palavras} palavras\nA taxa de palavras desconhecidas é: {taxa_desconhecida:0.2%}')
vocabulario = set(lista_normalizada)

In [110]:
avaliador(lista_teste)

taxa de acerto: 76.34% de 186 palavras
A taxa de palavras desconhecidas é: 6.99%


In [111]:
palavra = 'lgica'
print(novo_corretor(palavra))
print(corretor(palavra))

fica
lógica


In [112]:
palavra = 'lóigica'
print(novo_corretor(palavra))
print(corretor(palavra))

lógica
lógica


In [113]:
palavra = 'lóiigica'
print(novo_corretor(palavra))
print(corretor(palavra))

lógica
alóiigica
