## Importando bibliotecas

In [112]:
import nltk

In [113]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Importando o _corpus_ textual

In [114]:
with open('artigos.txt', 'r') as f:
  artigos = f.read()

# por fins didáticos o arquivo já veio tratado para facilitar a implementação do modelo de ML 

## Conhecendo o _corpus_ textual

### Utilizando método len()

In [115]:
len(artigos)

2605046

In [116]:
len('Olá')

3

In [117]:
# A função len não serve para identificar a quantidade de palavras pois retorna
# a quantidade de caracteres da string.

### Utilizando método split()

In [118]:
texto_exemplo = 'lorem ipsum, dolor si! amet'
tokens = texto_exemplo.split()

print(len(tokens))
print(tokens)

# Usando o split ele irá concaternar as pontuações gerando tokens
# por isso também não irá ser a forma adequada de separação

5
['lorem', 'ipsum,', 'dolor', 'si!', 'amet']


### Refinando a tokenização

In [119]:
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)
print(palavras_separadas)

['lorem', 'ipsum', ',', 'dolor', 'si', '!', 'amet']


In [120]:
len(palavras_separadas)

# O método len ainda está retornando a quantidade de pontuações junto com as palavras

7

#### Removendo pontuações da lista de palavras

In [121]:
def separa_palavras(lista_tokens):
  lista_palavras = []

  for token in lista_tokens:
    if token.isalpha():
      lista_palavras.append(token)
  
  return lista_palavras

In [122]:
separa_palavras(palavras_separadas)

['lorem', 'ipsum', 'dolor', 'si', 'amet']

In [123]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)

print('Qnte. palavras: {}'.format(len(lista_palavras)))

Qnte. palavras: 393914


#### Normalizando lista de palavras


In [124]:
def normalizacao(lista_palavras):
  lista_normalizada = []
  
  for palavra in lista_palavras:
    lista_normalizada.append(palavra.lower())
  
  return lista_normalizada

In [125]:
lista_normalizada = normalizacao(lista_palavras)

#### Removendo palavras repetidas

In [126]:
len(set(lista_normalizada))

# quantidade de palavras que vão ser aprendidas pelo dicionário,
# segundo um artigo da Duolingio, 8000 palavras são mais do que o suficiente para
# atingir um nível de fluencia semelhante a de um acadêmico.
#
# Baseado nisso a quantidade de palavras no nosso artigo é o suficiente para
# criarmos um corretor em Português.


17652

## Criando o corretor

### Inserindo letras

#### Fatiando strings

In [127]:
lista = 'lgica'
(lista[:1], lista[1:])

('l', 'gica')

In [128]:
def insere_letras(fatias):
  novas_palavras = []
  letras = 'bcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'

  for E, D in fatias:    
    for letra in letras:
      novas_palavras.append(E + letra + D)
    
  return novas_palavras

#### Gerando palavras

In [129]:
def gerador_palavras(palavra):
  fatias = []

  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
 
  palavras_geradas = insere_letras(fatias) 
  
  return palavras_geradas

In [130]:
gerador_palavras('lgica')

['blgica',
 'clgica',
 'dlgica',
 'elgica',
 'flgica',
 'glgica',
 'hlgica',
 'ilgica',
 'jlgica',
 'klgica',
 'llgica',
 'mlgica',
 'nlgica',
 'olgica',
 'plgica',
 'qlgica',
 'rlgica',
 'slgica',
 'tlgica',
 'ulgica',
 'vlgica',
 'wlgica',
 'xlgica',
 'ylgica',
 'zlgica',
 'àlgica',
 'álgica',
 'âlgica',
 'ãlgica',
 'èlgica',
 'élgica',
 'êlgica',
 'ìlgica',
 'ílgica',
 'îlgica',
 'òlgica',
 'ólgica',
 'ôlgica',
 'õlgica',
 'ùlgica',
 'úlgica',
 'ûlgica',
 'çlgica',
 'lbgica',
 'lcgica',
 'ldgica',
 'legica',
 'lfgica',
 'lggica',
 'lhgica',
 'ligica',
 'ljgica',
 'lkgica',
 'llgica',
 'lmgica',
 'lngica',
 'logica',
 'lpgica',
 'lqgica',
 'lrgica',
 'lsgica',
 'ltgica',
 'lugica',
 'lvgica',
 'lwgica',
 'lxgica',
 'lygica',
 'lzgica',
 'làgica',
 'lágica',
 'lâgica',
 'lãgica',
 'lègica',
 'légica',
 'lêgica',
 'lìgica',
 'lígica',
 'lîgica',
 'lògica',
 'lógica',
 'lôgica',
 'lõgica',
 'lùgica',
 'lúgica',
 'lûgica',
 'lçgica',
 'lgbica',
 'lgcica',
 'lgdica',
 'lgeica',
 'lgfica',

### Construindo o corretor

In [131]:
# cria uma lista com plavras de maior frequencia dentro da nossa lista de palavras normalizadas
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)

frequencia.most_common(10)

[('de', 15494),
 ('o', 13966),
 ('que', 12225),
 ('a', 11034),
 ('e', 10478),
 ('para', 7694),
 ('um', 6346),
 ('é', 5881),
 ('uma', 5202),
 ('do', 5116)]

In [136]:
def probabilidade(palavra_gerada):
  return frequencia[palavra_gerada]/total_palavras

In [137]:
#calculando a maior probabilidade de uma palavra podemos inferir qual a
#palavra correta com base na ocorrencia da palavra no dicionário de aprendizado

def corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavra_correta = max(palavras_geradas, key = probabilidade)

  return palavra_correta

In [138]:
palavra_exemplo = 'lgica'
corretor(palavra_exemplo)

'lógica'

#### Testando corretor

In [141]:
def cria_dados_teste(nome_arquivo):
  lista_palavras_teste = []
  f = open(nome_arquivo, 'r')
  for linha in f:
    correto, errado = linha.split()
    lista_palavras_teste.append((correto, errado))

  f.close()  
  return lista_palavras_teste

In [155]:
def avaliador(testes):

  acertos = 0

  for correta, errada in testes:
    if(corretor(errada) == correta):
      acertos += 1

  numero_palavras = len(testes)
  taxa_acerto = round(acertos*100/numero_palavras, 2)
  print(f'Total de palavras testadas: {numero_palavras}')
  print(f'Taxa de acerto: {taxa_acerto}%')

In [None]:
lista_teste = cria_dados_teste('palavras.txt')
lista_teste

In [156]:
avaliador(lista_teste)

## Adicionando outros casos de correção esperamos melhorar a taxa de acerto

Total de palavras testadas: 186
Taxa de acerto: 1.08%


### Melhorando o corretor - Deletando caracteres

In [165]:
def delete_char(fatias):
  novas_palavras = []
  for E, D in fatias:
    novas_palavras.append(E + D[1:])
  
  return novas_palavras

In [166]:
# redefinindo função para atualização de eficiência

def gerador_palavras(palavra):
  fatias = []

  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
 
  palavras_geradas = insere_letras(fatias) 
  palavras_geradas += delete_char(fatias)

  return palavras_geradas

def corretor(palavra):
  palavras_geradas = gerador_palavras_2(palavra)
  palavra_correta = max(palavras_geradas, key = probabilidade)

  return palavra_correta

In [163]:
corretor('lóigica')

'lógica'

#### Testando corretor

In [167]:
avaliador(lista_teste)

Total de palavras testadas: 186
Taxa de acerto: 41.4%


### Melhorando o corretor - Trocando caracateres

In [168]:
def troca_letra(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòõôúùûç'

  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  
  return novas_palavras

In [172]:
# redefinindo função para atualização de eficiência

def gerador_palavras(palavra):
  fatias = []

  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
 
  palavras_geradas = insere_letras(fatias) 
  palavras_geradas += delete_char(fatias)
  palavras_geradas += troca_letra(fatias)

  return palavras_geradas

def corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavra_correta = max(palavras_geradas, key = probabilidade)

  return palavra_correta

#### Testando corretor

In [173]:
avaliador(lista_teste)

Total de palavras testadas: 186
Taxa de acerto: 76.34%


### Melhorando o corretor - Inversão de letras

In [179]:
def inversao(fatias):
  novas_palavras = []

  for E, D in fatias:
    if len(D) > 1:
      novas_palavras.append(E + D[1] + D[0] + D[2:])
  
  return novas_palavras

In [180]:
# redefinindo função para atualização de eficiência

def gerador_palavras(palavra):
  fatias = []

  for i in range(len(palavra)+1):
    fatias.append((palavra[:i], palavra[i:]))
 
  palavras_geradas = insere_letras(fatias) 
  palavras_geradas += delete_char(fatias)
  palavras_geradas += troca_letra(fatias)
  palavras_geradas += inversao(fatias)

  return palavras_geradas

In [182]:
corretor('lgóica')

'lógica'

#### Testando corretor

In [181]:
avaliador(lista_teste)

Total de palavras testadas: 186
Taxa de acerto: 76.34%


### Palavras desconhecidas

In [183]:
def avaliador(testes, vocabulario):

  acertos = 0
  desconhecido = 0

  for correta, errada in testes:
    if(corretor(errada) == correta):
      acertos += 1
    
    else:
        desconhecido += (correta not in vocabulario)
    

  numero_palavras = len(testes)
  taxa_acerto = round(acertos*100/numero_palavras, 2)
  taxa_desconhecido = round(desconhecido*100/numero_palavras, 2)
  print(f'Total de palavras testadas: {numero_palavras}')
  print(f'Taxa de acerto: {taxa_acerto}%')
  print(f'Taxa de palavras desconhecidas: {taxa_desconhecido}%')

In [184]:
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

Total de palavras testadas: 186
Taxa de acerto: 76.34%
Taxa de palavras desconhecidas: 6.99%


#### Melhorando o gerador de palavras

In [186]:
def gerador_palavras_2(palavras_geradas):
  novas_palavras = []

  for palavra in palavras_geradas:
    novas_palavras += gerador_palavras(palavra)

  return novas_palavras

def corretor_2(palavra):
  palavras_geradas = gerador_palavras_2(gerador_palavras(palavra))
  palavra_correta = max(palavras_geradas, key = probabilidade)

  return palavra_correta

In [188]:
corretor_2('lógicia')

'lógica'

#### Otimizando corretor - Escolhendo os melhores candidatos a palavras

In [189]:
# Melhorando função corretor

def corretor_2(palavra):
  palavras_geradas = gerador_palavras_2(gerador_palavras(palavra))
  candidatos = [palavra]

  for p in palavras_geradas:
    if p in vocabulario:
      candidatos.append(p)
  
  palavra_correta = max(candidatos, key = probabilidade)

  return palavra_correta

In [194]:
corretor_2('logiac')

'lógica'

## Avaliando corretores

In [207]:
def avaliador(testes, vocabulario):

  acertos = 0
  desconhecido = 0

  for correta, errada in testes:
    desconhecido += (correta not in vocabulario)

    if(corretor(errada) == correta):
      acertos += 1

  numero_palavras = len(testes)
  taxa_acerto = round(acertos*100/numero_palavras, 2)
  taxa_desconhecido = round(desconhecido*100/numero_palavras, 2)
  print(f'Total de palavras testadas: {numero_palavras}')
  print(f'Taxa de acerto: {taxa_acerto}%')
  print(f'Taxa de palavras desconhecidas: {taxa_desconhecido}%')

In [208]:
avaliador(lista_teste, lista_normalizada)

Total de palavras testadas: 186
Taxa de acerto: 76.34%
Taxa de palavras desconhecidas: 6.99%


In [209]:
def avaliador_2(testes, vocabulario):

  acertos = 0
  desconhecido = 0

  for correta, errada in testes:
    desconhecido += (correta not in vocabulario)

    if(corretor_2(errada) == correta):
      acertos += 1

  numero_palavras = len(testes)
  taxa_acerto = round(acertos*100/numero_palavras, 2)
  taxa_desconhecido = round(desconhecido*100/numero_palavras, 2)
  print(f'Total de palavras testadas: {numero_palavras}')
  print(f'Taxa de acerto: {taxa_acerto}%')
  print(f'Taxa de palavras desconhecidas: {taxa_desconhecido}%')

In [210]:
avaliador_2(lista_teste, vocabulario)

Total de palavras testadas: 186
Taxa de acerto: 55.91%
Taxa de palavras desconhecidas: 6.99%
