# CORRETOR ORTOGRAFICO NLP

In [1]:
import nltk

### AULA 1

In [2]:
with open('res/artigos.txt', 'r', encoding='utf-8') as f:
    artigos = f.read()
artigos[:500]

'\n\n\nimagem \n\nTemos a seguinte classe que representa um usuário no nosso sistema:\n\njava\n\nPara salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:\n\njava \n\nSuponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou'

In [3]:
tokens = artigos[:500].split()
len(tokens)

91

In [4]:
tokens[:5]

['imagem', 'Temos', 'a', 'seguinte', 'classe']

### AULA 2

In [5]:
texto_exemplo = 'Ola, tudo bem?'

In [6]:
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

In [7]:
palavras_separadas

['Ola', ',', 'tudo', 'bem', '?']

In [8]:
def separa_palavras(lista_tokens):
    return [token for token in lista_tokens if token.isalpha()]

In [9]:
separa_palavras(palavras_separadas)

['Ola', 'tudo', 'bem']

In [10]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)

In [11]:
lista_palavras = separa_palavras(lista_tokens)

In [12]:
len(lista_palavras)

403031

In [13]:
tokens[:5]

['imagem', 'Temos', 'a', 'seguinte', 'classe']

In [14]:
def normalizacao(lista_palavras):
    return [palavra.lower() for palavra in lista_palavras]

In [15]:
lista_normalizada = normalizacao(lista_palavras)

In [16]:
lista_normalizada[:5]

['imagem', 'temos', 'a', 'seguinte', 'classe']

In [17]:
len(set(lista_normalizada))

18464

### AULA 3

In [18]:
palavra_exemplo = 'lgica'

In [19]:
def insere_letras(fatias):
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    return [E+letra+D for letra in letras for E,D in fatias]

In [20]:
def gerador_palavras(palavra):
    fatias = [(palavra[:i], palavra[i:]) for i in range(len(palavra)+1)]
    return insere_letras(fatias)

In [21]:
palavras_geradas = gerador_palavras(palavra_exemplo)

In [22]:
palavras_geradas[:5]

['algica', 'lagica', 'lgaica', 'lgiaca', 'lgicaa']

In [23]:
frequencia = nltk.FreqDist(lista_normalizada)

In [24]:
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6367),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [25]:
frequencia['lógica']

96

In [26]:
total_palavras = len(lista_normalizada)

In [27]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

In [28]:
probabilidade('lógica')

0.00023819507680550628

In [29]:
probabilidade('logica')

0.0

In [30]:
def corretor(palavra):
    return max(gerador_palavras(palavra), key=probabilidade)

In [31]:
corretor(palavra_exemplo)

'lógica'

### AULA 4

In [32]:
def cria_dados_teste(arquivo):
    with open(arquivo, 'r', encoding='utf8') as f:
        return [tuple(linha.split()) for linha in f]

In [33]:
lista_teste = cria_dados_teste('res/palavras.txt')

In [34]:
lista_teste[:5]

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo')]

In [36]:
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print(f'{taxa_acerto}% de {numero_palavras} palavras')

In [37]:
avaliador(lista_teste)

1.08% de 186 palavras


### AULA 5

In [39]:
def deletando_caracters(fatias):
    return [E+D[1:] for E, D in fatias]

In [40]:
def gerador_palavras(palavra):
    fatias = [(palavra[:i], palavra[i:]) for i in range(len(palavra)+1)]
    return insere_letras(fatias) + deletando_caracters(fatias)

In [41]:
palavra_exemplo = 'lóigica'

In [42]:
palavras_geradas = gerador_palavras(palavra_exemplo)

In [49]:
palavras_geradas[-8:]

['óigica',
 'ligica',
 'lógica',
 'lóiica',
 'lóigca',
 'lóigia',
 'lóigic',
 'lóigica']

In [50]:
avaliador(lista_teste)

41.4% de 186 palavras


### AULA 6

In [52]:
def troca_letra(fatias):
    letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòõôúùûç'
    return [E+letra+D[1:] for E,D in fatias for letra in letras]

In [55]:
def gerador_palavras(palavra):
    fatias = [(palavra[:i], palavra[i:]) for i in range(len(palavra)+1)]
    return insere_letras(fatias) + deletando_caracters(fatias) + troca_letra(fatias)

In [56]:
palavra_exemplo = 'lígica'

In [57]:
palavras_geradas = gerador_palavras(palavra_exemplo)

In [60]:
avaliador(lista_teste)

76.34% de 186 palavras


In [63]:
def inverte_letra(fatias):
    return [E+D[1]+D[0]+D[2:] for E,D in fatias if len(D) > 1]

In [64]:
def gerador_palavras(palavra):
    fatias = [(palavra[:i], palavra[i:]) for i in range(len(palavra)+1)]
    return insere_letras(fatias) + deletando_caracters(fatias) + troca_letra(fatias) + inverte_letra(fatias)

In [65]:
palavra_exemplo = 'lgóica'

In [66]:
palavras_geradas = gerador_palavras(palavra_exemplo)

In [67]:
avaliador(lista_teste)

76.34% de 186 palavras
