# Corretor Ortográfico

## Instalando os pacotes

In [1]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/ghtanamati/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Abrindo o arquivo

In [2]:
with open('artigos.txt','r') as file:
    artigos = file.read()

In [3]:
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


In [4]:
len(artigos)

2605046

#### Mas 2.605.046 é o número de caracteres

In [5]:
lista_artigos = artigos.split()

In [6]:
len(lista_artigos)

416903

In [7]:
string_exemplo = 'Olá, tudo bem?'
lista_exemplo = string_exemplo.split()
len(lista_exemplo)

3

In [8]:
for token in lista_exemplo:
    print(token)

Olá,
tudo
bem?


#### Observe que as palavras não foram separadas das pontuações.
#### Nós queremos tokens de palavras + tokens de pontuação

## Refinando a Tokenização

In [9]:
tokens_exemplo = nltk.tokenize.word_tokenize(string_exemplo)

In [10]:
tokens_exemplo

['Olá', ',', 'tudo', 'bem', '?']

In [11]:
len(tokens_exemplo)

5

In [12]:
def seleciona_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [13]:
lista_palavras_exemplo = seleciona_palavras(tokens_exemplo)

In [14]:
lista_palavras_exemplo

['Olá', 'tudo', 'bem']

In [15]:
len(lista_palavras_exemplo)

3

## Tokenizando 'artigos'

In [16]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = seleciona_palavras(lista_tokens)

In [17]:
print(f'O número de palavras em artigos é: {len(lista_palavras)}')

O número de palavras em artigos é: 403031


## Normalização

In [18]:
def normalizacao(lista_de_palavras):
    lista_normalizada = []
    for palavra in lista_de_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [19]:
lista_normalizada = normalizacao(lista_palavras)

## Removendo as palavras repetidas

In [20]:
print(f'O número de palavras únicas é: {len(set(lista_normalizada))}')

O número de palavras únicas é: 18464


## Fatiando Strings

In [21]:
lista = 'lgica'
lista_nova = []
for i in range(len(lista)+1):
    lista_nova.append((lista[:i],lista[i:]))
print(lista_nova)

[('', 'lgica'), ('l', 'gica'), ('lg', 'ica'), ('lgi', 'ca'), ('lgic', 'a'), ('lgica', '')]


## Inserindo Letras

In [22]:
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòôõúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

In [23]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

In [24]:
gerador_palavras('lgica')[78]

'lógica'

In [38]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas,key=probabilidade)
    return palavra_correta

## Probabilidade das palavras geradas

In [29]:
total_de_palavras = len(lista_normalizada)
frequencia = nltk.FreqDist(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6367),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [30]:
frequencia["lógica"]

96

In [31]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_de_palavras

In [32]:
probabilidade("lógica")

0.00023819507680550628

In [33]:
probabilidade("lágica")

0.0

In [36]:
probabilidade("logica")

0.0

## Teste da Função corretor

In [39]:
corretor("lgica")

'lógica'

## Preparando Dados de Teste

In [44]:
def criar_dados_teste(base_de_dados):
    lista_palavras_teste = []
    file = open(base_de_dados, 'r')
    for linha in file:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta,errada))
    file.close()
    return lista_palavras_teste

In [45]:
lista_teste = criar_dados_teste('palavras.txt')

In [48]:
lista_teste[:20]

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah')]

## Avaliando o Corretor

In [66]:
def avaliador(testes):
    numero_de_palavras = len(testes)
    acertou = 0
    for correta,errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou = acertou + 1
    taxa_de_acerto = round((acertou/numero_de_palavras),4)
    print(f"Taxa de acerto: {taxa_de_acerto*100}% de {numero_de_palavras} palavras")

In [67]:
avaliador(lista_teste)

Taxa de acerto: 1.08% de 186 palavras


## Operação Deletar Caracteres

In [74]:
def deletar_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

In [75]:
gerador_palavras("lóigica")[1]

'blóigica'

In [76]:
corretor("lóigica")

'lógica'

## Reescrevendo a Função Gerador de Palavras

In [77]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletar_caracteres(fatias)
    return palavras_geradas

In [79]:
resultado_exemplo = gerador_palavras("lógica")

In [89]:
resultado_exemplo[-1]

'lógica'

## Avaliando o Corretor

In [90]:
avaliador(lista_teste)

Taxa de acerto: 41.4% de 186 palavras


## Trocando Letras

In [91]:
def trocar_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòôõúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

## Agrupando as funções em um só lugar

In [121]:
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòôõúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletar_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def trocar_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòôõúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletar_caracteres(fatias)
    palavras_geradas += trocar_letras(fatias)
    palavras_geradas += inverter_letras(fatias)
    return palavras_geradas

In [127]:
testando = gerador_palavras("lígica")

In [128]:
testando[386]

'lógica'

## Invertendo as Letras

In [119]:
def inverter_letras(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

In [130]:
testando = gerador_palavras("lgóica")
testando[-4]

'lógica'

## Avaliando o Corretor

In [131]:
avaliador(lista_teste)

Taxa de acerto: 76.34% de 186 palavras


## Palavras Desconhecidas do Vocabulário

In [175]:
def avaliador(testes,vocabulario):
    numero_de_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta,errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += + 1
    taxa_de_acerto = round((acertou/numero_de_palavras),4)
    taxa_desconhecida = round((desconhecida/numero_de_palavras),4)
    print(f"Taxa de Acerto: {taxa_de_acerto*100}% de {numero_de_palavras} palavras")
    print(f"Taxa de Palavras Desconhecidas: {taxa_desconhecida*100}% em um vocabulário de {len(vocabulario)} palavras")

In [176]:
vocabulario = set(lista_normalizada)
avaliador(lista_teste,vocabulario)

Taxa de Acerto: 76.34% de 186 palavras
Taxa de Palavras Desconhecidas: 6.99% em um vocabulário de 18464 palavras


## Turbinando o Corretor Ortográfico

#### Repetir a operação de eliminar uma letra 2 vezes

In [157]:
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

In [158]:
palavras_g = gerador_turbinado(gerador_palavras("lógica"))

In [159]:
"lógica" in palavras_g

True

In [160]:
len(palavras_g)

406740

## Escolhendo os Melhores Candidatos

#### Como otimizar o corretor, selecionando apenas as possíveis palavras corretas

In [169]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_geradas_turb = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_geradas_turb)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos,key=probabilidade)
    return palavra_correta

In [170]:
novo_corretor("lóiigica")

'lógica'

## Avaliando o Novo Corretor

In [180]:
def novo_avaliador(testes,vocabulario):
    numero_de_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta,errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += + 1
        else:
            print(errada + " - " + corretor(errada) + " - " +  palavra_corrigida)
    taxa_de_acerto = round((acertou/numero_de_palavras),4)
    taxa_desconhecida = round((desconhecida/numero_de_palavras),4)
    print(f"Taxa de Acerto: {taxa_de_acerto*100}% de {numero_de_palavras} palavras")
    print(f"Taxa de Palavras Desconhecidas: {taxa_desconhecida*100}% em um vocabulário de {len(vocabulario)} palavras")

In [181]:
vocabulario = set(lista_normalizada)
novo_avaliador(lista_teste,vocabulario)

esje - esse - se
sãêo - são - não
dosa - dos - do
eme - em - de
eàssa - essa - esse
daõs - das - da
céda - cada - da
noâ - no - o
enêão - então - não
tĩem - tem - em
nossah - nossa - nosso
teb - tem - de
atĩ - até - a
âem - em - de
foo - foi - o
serr - ser - se
entke - entre - então
van - vai - a
çeus - seus - seu
eû - e - de
temeo - tempo - temos
semre - sempre - ser
elaá - ela - ele
síó - só - se
siàe - site - se
seém - sem - em
peln - pelo - ele
aléra - alura - agora
tdia - dia - da
tuúo - tudo - tipo
jé - é - de
sãô - são - não
odos - dos - do
siua - sua - seu
elpe - ele - esse
teos - temos - os
eũsa - essa - esse
vjmos - vamos - temos
dms - dos - de
cava - java - para
ános - nos - no
èaso - caso - as
túem - tem - em
daáos - dados - dos
nossk - nosso - nosso
tãer - ter - ser
vté - até - é
búm - bem - um
sçerá - será - ser
entró - entre - então
uai - vai - a
sâus - seus - seu
ìeu - seu - de
fual - qual - sua
elal - ela - ele
skó - só - se
secm - sem - em
aluéa - alura - além
dil - d

## Avaliando Corretor Antigo

In [182]:
vocabulario = set(lista_normalizada)
avaliador(lista_teste,vocabulario)

Taxa de Acerto: 76.34% de 186 palavras
Taxa de Palavras Desconhecidas: 6.99% em um vocabulário de 18464 palavras


## Testes: Antigo x Novo Corretor

In [192]:
palavra = "lóogica"

print(f'Novo: {novo_corretor(palavra)}')
print(f'Antigo: {corretor(palavra)}')

Novo: lógica
Antigo: lógica
