# Correto Ortográfico em Python: Aplicando técnicas de NLP

## Importando um corpus textual

In [1]:
# Lendo um arquivo(corpus) de texto
with open('corretor-master/artigos.txt', 'r', encoding='utf-8') as f:
    artigos = f.read()

In [2]:
# Visualisando os primeiros 500 caracteres
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


> Observamos que onde contem trechos com imagens e códigos em nosso arquivo, são substituídos pela palavra "imagem" e "java".

## Tokenização

In [3]:
# Para entender melhor
texto_exemplo = 'Olá, tudo bem?'
palavras_separadas = texto_exemplo.split()
print(palavras_separadas)

['Olá,', 'tudo', 'bem?']


> o método .split() particionou nossa frase, porém existe um detalhe, ele separoou a vírgula junto na primeira palavra 'Olá,' e o sinal de interrogação na última 'bem?'

In [4]:
# Printando o tamando da lista
print(len(palavras_separadas))

3


In [5]:
# Alterando o nome dá variavel palavras separadas
tokens = palavras_separadas
print(len(tokens))
print(tokens)

3
['Olá,', 'tudo', 'bem?']


## Refinando a tokenização

In [6]:
# Natural Language Toolkit
import nltk
nltk.download('punkt')
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

[nltk_data] Downloading package punkt to /home/bruno/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [7]:
# Visualizando
palavras_separadas

['Olá', ',', 'tudo', 'bem', '?']

> Já observamos que agora a separação está correta, porém, não queremos pegar as pontuações.

## Separando palavras de tokens

In [8]:
# Verificando a quantidade de palavras dentro de palavras_separadas
len(palavras_separadas)

5

In [9]:
# Criando uma função para separar as palavras das pontuações
def separa_palavras(lista_tokens):
    lista_palavras = []
    for i in lista_tokens:
        if i.isalpha():
            lista_palavras.append(i)
    return lista_palavras

In [10]:
# Testando a função
separa_palavras(palavras_separadas)

['Olá', 'tudo', 'bem']

> A função funcionou perfeitamente eliminando as pontuações que constam na lista de palavras separadas.

## Contando palavras do Corpus

In [11]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f'O número de palavras dentro de nossa lista de palavras é: {len(lista_palavras)}')

O número de palavras dentro de nossa lista de palavras é: 403104


## Normalização

<p>Pegando apenas as palavras únicas detro da nossa lista</p>

In [12]:
# Visualizando as 5 primeiras palavras
lista_palavras[:5]

['imagem', 'Temos', 'a', 'seguinte', 'classe']

In [13]:
len(lista_palavras)

403104

> A palavra 'Temos' tem uma letra maiúscula, se tiver outro exemplo como 'temos' com letra minúscula, será contabilizado como duas palavras, sendo que são a mesma.

In [14]:
# Definindo a função de normalizar nossa lista
def normalizacao(lista):
    lista_normalizada = []
    for palavra in lista:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [15]:
# Atribuindo a função a uma variável
lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:500])

['imagem', 'temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no', 'nosso', 'sistema', 'java', 'para', 'salvar', 'um', 'novo', 'usuário', 'várias', 'validações', 'são', 'feitas', 'como', 'por', 'exemplo', 'ver', 'se', 'o', 'nome', 'só', 'contém', 'letras', 'o', 'cpf', 'só', 'números', 'e', 'ver', 'se', 'o', 'usuário', 'possui', 'no', 'mínimo', 'anos', 'veja', 'o', 'método', 'que', 'faz', 'essa', 'validação', 'java', 'suponha', 'agora', 'que', 'eu', 'tenha', 'outra', 'classe', 'a', 'classe', 'produto', 'que', 'contém', 'um', 'atributo', 'nome', 'e', 'eu', 'quero', 'fazer', 'a', 'mesma', 'validação', 'que', 'fiz', 'para', 'o', 'nome', 'do', 'usuário', 'ver', 'se', 'só', 'contém', 'letras', 'e', 'aí', 'vou', 'criar', 'outro', 'método', 'para', 'fazer', 'a', 'mesma', 'validação', 'ou', 'criar', 'uma', 'interface', 'ou', 'uma', 'classe', 'que', 'tanto', 'usuario', 'quanto', 'produto', 'estendem', 'não', 'faz', 'muito', 'sentido', 'né', 'como', 'resolver', 'esse', 'ca

> Agora todas as palavras estão em letras minúsculas

## Tipos de palavras

In [16]:
# Aplicando o função set() que retorna um conjunto matemático, sendo assim, eliminando as palavras repetidas da lista
len(set(lista_normalizada))

18465

> Agora com a normalização da lista, temos uma quantidade bem menor de palavras, 18465, bem diferente das 403104 que tinha antes.

## Fatiando as strings

In [17]:
# Operação de inserção
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias: # as fatias serão uma lista de tuplas com 2 valores dentro [('l', 'gica')]
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

In [18]:
palavra_exemplo = 'lgica'
def gerador_de_palavras(palavra):
    fatias= []
    for i in range(len(palavra)+1): # +1 para ir além da última letra
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

In [19]:
palavras_geradas = gerador_de_palavras(palavra_exemplo)
print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'àlgica', 'álgica', 'âlgica', 'ãlgica', 'èlgica', 'élgica', 'êlgica', 'ìlgica', 'ílgica', 'îlgica', 'òlgica', 'ólgica', 'ôlgica', 'õlgica', 'ùlgica', 'úlgica', 'ûlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'làgica', 'lágica', 'lâgica', 'lãgica', 'lègica', 'légica', 'lêgica', 'lìgica', 'lígica', 'lîgica', 'lògica', 'lógica', 'lôgica', 'lõgica', 'lùgica', 'lúgica', 'lûgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica', 'lggica', 'lghica', 'lgiica', 'lgjica', 'lgkica', 'lglica',

## Construindo a função corretor

In [24]:
# Definindo a função que retorna a palavra correta
def corretor(palavra):
    palavras_geradas = gerador_de_palavras(palavra)
    palavras_correta = max(palavras_geradas, key=probabilidade)
    return palavras_correta

## Probabilidade das palavras geradas

In [21]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [22]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada] / total_palavras

probabilidade('lógica')

0.00023815194093831864

In [25]:
corretor(palavra_exemplo)

'lógica'