# Visualizando dados

In [1]:
with open('artigos.txt', 'r', encoding="utf8") as f:
    artigos = f.read()

In [2]:
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


# Tokenização

In [3]:
import nltk

In [4]:
def separa_palavra(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [5]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavra(lista_tokens)

In [6]:
len(lista_palavras)

403106

In [7]:
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:5])

['imagem', 'temos', 'a', 'seguinte', 'classe']


In [8]:
len(set(lista_normalizada))

18465

# Desenvolvendo e testando corretor

In [9]:
palavra_exemplo = "lgica"

In [10]:
def inseri_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

In [11]:
def gerador_palavra(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i], palavra[i:]))
    palavras_geradas = inseri_letra(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas

In [12]:
def corretor(palavra):
    palavras_geradas = gerador_palavra(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    return palavra_correta
    

In [13]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

In [14]:
frequencia = nltk.FreqDist(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [15]:
total_de_palavras = len(lista_normalizada)

In [16]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada] / total_de_palavras

In [17]:
probabilidade("lógica")

0.00023815075935361914

In [18]:
palavra_correta = corretor("lgica")
palavra_correta

'lógica'

# Avaliando corretor

In [19]:
def criando_dados_testes(file):
    palavras_teste = []
    f = open(file, encoding='UTF-8')
    for linha in f:
        correta, errada = linha.split()
        palavras_teste.append((correta, errada))
    f.close()   
    return palavras_teste

In [20]:
palavras_teste = criando_dados_testes("palavras.txt")

In [21]:
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_de_acerto = round(acertou * 100/ numero_palavras, 2)
    print(f"{taxa_de_acerto}% de {numero_palavras} palavras")

In [22]:
avaliador(palavras_teste)

41.4% de 186 palavras


In [23]:
avaliador(palavras_teste)

41.4% de 186 palavras


# Corrigindo os principais erros de digitação

### Trocando a letra

In [28]:
def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòõôúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras



In [29]:
palavra_exemplo = "lígica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['alígica', 'blígica', 'clígica', 'dlígica', 'elígica', 'flígica', 'glígica', 'hlígica', 'ilígica', 'jlígica', 'klígica', 'llígica', 'mlígica', 'nlígica', 'olígica', 'plígica', 'qlígica', 'rlígica', 'slígica', 'tlígica', 'ulígica', 'vlígica', 'wlígica', 'xlígica', 'ylígica', 'zlígica', 'àlígica', 'álígica', 'âlígica', 'ãlígica', 'èlígica', 'élígica', 'êlígica', 'ìlígica', 'ílígica', 'îlígica', 'òlígica', 'ólígica', 'ôlígica', 'õlígica', 'ùlígica', 'úlígica', 'ûlígica', 'çlígica', 'laígica', 'lbígica', 'lcígica', 'ldígica', 'leígica', 'lfígica', 'lgígica', 'lhígica', 'liígica', 'ljígica', 'lkígica', 'llígica', 'lmígica', 'lnígica', 'loígica', 'lpígica', 'lqígica', 'lrígica', 'lsígica', 'ltígica', 'luígica', 'lvígica', 'lwígica', 'lxígica', 'lyígica', 'lzígica', 'làígica', 'láígica', 'lâígica', 'lãígica', 'lèígica', 'léígica', 'lêígica', 'lìígica', 'líígica', 'lîígica', 'lòígica', 'lóígica', 'lôígica', 'lõígica', 'lùígica', 'lúígica', 'lûígica', 'lçígica', 'líagica', 'líbgica', 'lícgica'