### Tokenize articles

In [1]:
import nltk

In [2]:
# Constant
ALPHABET = 'abcdefghijklmopqrstuvwxyzáâàãéêèíîìóôòõúûùç'

In [3]:
with open('artigos.txt', 'r', encoding='utf8') as fil:
    articles = fil.read()

In [4]:
tokens = nltk.tokenize.word_tokenize(articles)

In [5]:
print(len(tokens))
print(tokens[:40])

515907
['imagem', 'Temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no', 'nosso', 'sistema', ':', 'java', 'Para', 'salvar', 'um', 'novo', 'usuário', ',', 'várias', 'validações', 'são', 'feitas', ',', 'como', 'por', 'exemplo', ':', 'Ver', 'se', 'o', 'nome', 'só', 'contém', 'letras', ',', '[', '*', '*']


### Separating words from tokens

In [6]:
def separate_words(tokens: list) -> list:
    '''
    Generates tokens
    '''
    return [ token for token in tokens if token.isalpha() ]

In [7]:
words = separate_words(tokens)

In [8]:
print(len(words))
print(words[:40])

403106
['imagem', 'Temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no', 'nosso', 'sistema', 'java', 'Para', 'salvar', 'um', 'novo', 'usuário', 'várias', 'validações', 'são', 'feitas', 'como', 'por', 'exemplo', 'Ver', 'se', 'o', 'nome', 'só', 'contém', 'letras', 'o', 'CPF', 'só', 'números', 'e', 'ver', 'se', 'o']


### putting all on lower case

In [9]:
def normalize(words: list) -> list:
    '''
    Puts all words on the list in lower case
    '''
    return [ word.lower() for word in words ]

In [10]:
norm_words = normalize(words)

In [11]:
print(len(norm_words))
print(norm_words[:40])

403106
['imagem', 'temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no', 'nosso', 'sistema', 'java', 'para', 'salvar', 'um', 'novo', 'usuário', 'várias', 'validações', 'são', 'feitas', 'como', 'por', 'exemplo', 'ver', 'se', 'o', 'nome', 'só', 'contém', 'letras', 'o', 'cpf', 'só', 'números', 'e', 'ver', 'se', 'o']


### total words

In [12]:
print(len(set(norm_words)))

18465


### Slicing and generate new words

In [13]:
def insert_letters(slices: list) -> tuple:
    '''
    Insert all letters of the Portuguese alphabet in the sliced word
    '''
    generated_words = list()
    
    for left, right in slices:
        for letter in ALPHABET: 
            generated_words.append(left + letter + right)
    
    return tuple(generated_words)

def generate_words(word: str) -> str:
    '''
    Generates possible correct keywords 
    '''
    slices = [ (word[:i], word[i:]) for i in range(len(word)+1) ]
    
    return insert_letters(slices) 

### Creating the checker

In [14]:
freq = nltk.FreqDist(norm_words)
total_words = len(norm_words)

In [15]:
def probability(word: str) -> float:
    '''
    Calculates the probability of the word being correct
    '''
    return freq[word]/total_words

In [16]:
def check(word: str) -> str:
    '''
    Checks the probabilities of all words
    '''
    generated_words = generate_words(word)
    correct = max(generated_words, key=probability)
    return correct

In [17]:
check('lgica')

'lógica'