# ***Discussão do projeto***
****
**Neste projeto será abordado uma aplicação de machine learning para corretor ortográfico. O objetivo é passar uma palavra ao computador e ele retornar com a palavra correta.**

****

# Importado as palavras e aprimorando os arquivos
**Importando um banco de palavras é importante nos perguntar quantas palavras nós temos, se há palavras o suficiente para conseguirmos realziar o projeto**

In [1]:
with open("artigos.txt", "r") as f:
  artigos = f.read()

print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


**Quantas palavras temos?**

In [2]:
print(len(artigos),len('ola'))

2605046 3


**Não há 2605046 palavras em artigos. Este número se refere aos caracteres**

In [3]:
texto_exemplo = 'Ola, Tudo bem?'

**Um token é uma separa, uma identificação**

In [4]:
tokens = texto_exemplo.split()
tokens

['Ola,', 'Tudo', 'bem?']

**Note que algumas palavras vem em conjunto com as pontuações. Como olá, e bem?**
**Precisamos então refinar estas palavras, alterá-las de forma que elas sejam palavras sem pontuações, palavras corretas**

## Refinando os Tokens
**O que iremos fazer se chama tokenização. E neste passo vamos refinar os tokens para termos apenas palavras exatas da nossa língua**

**Vamos utilizar a biblioteca nltk, que é uma ferramente de NLP (processamento de linguagem natural), para fazer tokens mais precisos e exatos para nós**

[link nltk](https://www.nltk.org)

In [5]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [6]:
nltk.download('punkt')
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)  #Dentro do parênteses deverá ser passado uma string
print(palavras_separadas)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
['Ola', ',', 'Tudo', 'bem', '?']


**Função para tirar as pontuações da lista e um teste exemplo**

In [7]:
def separa_palavras(lista_tokens):
  lista_palavras = []
  for i in lista_tokens:
    if i.isalpha():
      lista_palavras.append(i)
  return lista_palavras

In [8]:
separa_palavras(palavras_separadas)

['Ola', 'Tudo', 'bem']

**Vamos fazer a tokenização para o nosso corpus de palavras**

In [9]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras= separa_palavras(lista_tokens)

In [10]:
len(lista_palavras)

393914

**Pergunta: Será que destes tanto de palavras em lista_palavras há palavras repetidas?**

In [11]:
print(lista_palavras[:10],lista_palavras.count('você'))

['imagem', 'Temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no'] 1881


**Há mais de 1000 palavras 'você' na lista de palavras, indicando que há palavras repetidas. Agora vamos normalizar estas palavras, que são os passos:**

*   deixar tudo no minúsculo
*   Retirar duplicatas




In [12]:
def normalizacao(lista_palavras):
  lista_normalizada = []
  for palavra in lista_palavras:
    lista_normalizada.append(palavra.lower())
  return lista_normalizada

In [13]:
lista_normalizada = normalizacao(lista_palavras)

In [14]:
lista_normalizada[:5]    #Normalizamos a lista

['imagem', 'temos', 'a', 'seguinte', 'classe']

**A função built-in set() forma grupos de uma lista, retornando os valores dentro da lista únicos, sem repetições**

In [15]:
set([1,1,2,3,3,3,3,3,5,4,4,6])    #Exemplo da função set()

{1, 2, 3, 4, 5, 6}

**Com a normalização e a lista sem palavras repetidas teremos os tipos de palavras. Os tipos são as palavras que poderemos corrigir durante o uso do programa**

In [16]:
print(f'O total de palavras que poderemos corrigir é: {len(set(lista_normalizada))}')


O total de palavras que poderemos corrigir é: 17652


#  Construindo o corretor Básico
**O correto irá funcionar da seguinte forma: Ao passar uma palavras errada o programa irá colocar várias letras em uma determina posição e averiguar as palavras formadas desta forma está dentro do banco de palavras conhecidas(palavras normalizadas)**

**Será feito novamente o mesmo processo inserindo letras em outra posição e fazendo a verificação, e assim por diante até acertar a letra e a posição. Note que este é programa que se espera uma palavra errada com apenas uma letra faltante**

In [17]:
palavra_exemplo = 'lgica'
(palavra_exemplo[:1],palavra_exemplo[1:])    #Note que foi possível fatiar a string e separar ela em lados direito e esquerdo de um espaço

('l', 'gica')

**O insere letra faz a parte de pegar as diferentes formas de pegar o lado direito e esquerdo de uma palavra, e coloca entre eles uma letra do alfabeto porguês**

In [18]:
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D)
  return novas_palavras

**O gerador palavras faz o papel de fatiar a palavra escrita, passar para o insere letra e pedir a ele as várias palavras criadas da inserção de letras. Ele retorna uma lista com as várias palavras criadas**

**O nltk tem uma função que avaliar a distruibuição de frequências das palavras de um certo conjunto de palavras. Para calcular a probabilidade de cada palavras iremos utilizar a conta p = freq/total_de_palavras.**

**A função corretor escolhe a palavra certa dentre todas as palavras. Para tal vamos usar a função max() que escolhe a palavra com maior probabilidade entre todas**



In [31]:
def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
    fatias.append((palavra[:i],palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  return palavras_geradas

In [32]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)

def probabilidade(palavra_gerada):
  return frequencia[palavra_gerada]/total_palavras
probabilidade('lógica')

def corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavra_correta =  max(palavras_geradas, key = probabilidade)
  return palavra_correta

# Avaliador 
**vamos criar um avaliador que irá fornecer a taxa de acerto do corretor. Os passo são:**


*   Obter dados para teste
*   Criar o avaliador



In [33]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r")
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste("palavras.txt")
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

In [34]:
def avaliador(testes):
  numero_palavras = len(testes)
  acertou = 0
  for correta, errada in testes:
    palavra_corrigida = corretor(errada)
    if palavra_corrigida == correta:
      acertou += 1
  taxa_acerto = round(acertou*100/numero_palavras,5)
  print(f'{taxa_acerto}% de {numero_palavras}')
  return taxa_acerto

In [35]:
palavra_exemplo = 'lgica'
palavras_g = gerador_palavras(palavra_exemplo)
'lógica' in palavras_g

True

In [36]:
avaliador(lista_teste)

1.07527% de 186


1.07527

**O resultado do nosso avaliador indica que a taxa de acertos é minúscula. Precisamos aumentar a taxa de acertos melhorando o corretor**

# Melhorando o corretor

**Existem outros tipos de erros na hora de digitar uma palavras, e para cada tipo de erro foi criada uma função que o corrige**

**Das formas de errar podemos: Colocar letras a mais, escrever uma letra errada e errar a ordem de escrever as letras**

**O deletando_caracteres apaga letras e cria várias palavras diferentes. O Troca_letras troca cada letra da palavras por outras. E o inverte_letras muda a posição das letras com a do lado direito.**

**Também alteramos o gerador de palavras para aceitar todos os métodos de correção**

In [40]:
def deletando_caracteres(fatias):
  novas_palavras = []
  for E, D in fatias:
    novas_palavras.append(E+D[1:])
  return novas_palavras


def troca_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  return novas_palavras

def inverte_letras(fatias):
  novas_palavras = []
  for E, D in fatias:
    if len(D) > 1:
      novas_palavras.append(E + D[1] + D[0] + D[2:])
  return novas_palavras

def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
    fatias.append((palavra[:i],palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  palavras_geradas += troca_letras(fatias)
  palavras_geradas += inverte_letras(fatias)
  return palavras_geradas

**Abaixo temos**

In [41]:
avaliador(lista_teste)

76.34409% de 186


76.34409

**Temos um método de corretor muito melhor agora**

# Palavras Desconhecidas
**Vamos ver quantas palavras desconhecidas temos**

In [42]:
def avaliador(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  for correta, errada in testes:
    palavra_corrigida = corretor(errada)
    if palavra_corrigida == correta:
      acertou += 1
    else:
      desconhecida += (correta not in vocabulario)
  taxa_acerto = round(acertou*100/numero_palavras,2)
  taxa_desconhecida = round(desconhecida*100/numero_palavras,2)
  print(f'Acertou: {taxa_acerto}%, desconhece {taxa_desconhecida}% de {numero_palavras}. ')
  return taxa_acerto

vocabulario = set(lista_normalizada)
avaliador(lista_teste,vocabulario)

Acertou: 76.34%, desconhece 6.99% de 186. 


76.34

# Turbinando o gerador de palavras e desenvolvendo novo corretor
**O tubina_palavras é criado para corrigir palavras que possuem dois erros. Vamos criar ele de forma a gerar palavras a partir das palavras geradas. Depois o avaliaremos**

In [43]:
def Turbina_palavras(palavras_geradas):
  novas_palavras = []
  for palavra in palavras_geradas:
    novas_palavras += gerador_palavras(palavra)
  return novas_palavras

In [44]:
palavras_n = Turbina_palavras(gerador_palavras('lógiica'))
'lógica' in palavras_n

True

In [45]:
len(palavras_n)

550534

**Para diminuir a quantidade de palavras totais vamos alterar o corretor para ele ter que avaliar as probabilidades de menos palavras e ter mais chances de retornar o valor correto.**

**Ele funciona verificando se a palavra existe no nosso vocabulário, e assim exclui as que não existem.**

In [46]:
def novo_corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavras_turbinadas = Turbina_palavras(palavras_geradas)
  todas_palavras = set(palavras_geradas + palavras_turbinadas)
  candidatos =[palavra]
  for i in todas_palavras:
    if i in vocabulario:
      candidatos.append(i)
  palavra_correta =  max(candidatos, key = probabilidade)
  return palavra_correta

In [48]:
novo_corretor('ligica')

'lógica'

# Qual método corretor é melhor?
**O novo_corretor funciona com o gerador de palavras turbinadas, e o velho corretor funciona com o gerador de palavras não turbinado. Qual deles tem o melhor desempenho e deverá ser aceito como o definitivo?**

**O novo_avaliador é temporário, criado apenas para ver como qual a perfomace do novo corretor.**

In [49]:
def novo_avaliador(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  for correta, errada in testes:
    palavra_corrigida = novo_corretor(errada)
    desconhecida += (correta not in vocabulario)
    if palavra_corrigida == correta:
      acertou += 1
  taxa_acerto = round(acertou*100/numero_palavras,2)
  taxa_desconhecida = round(desconhecida*100/numero_palavras,2)
  print(f'Acertou: {taxa_acerto}%, desconhece {taxa_desconhecida}% de {numero_palavras}. ')
  return taxa_acerto

In [50]:
novo_avaliador(lista_teste,vocabulario)

Acertou: 55.91%, desconhece 6.99% de 186. 


55.91

In [51]:
avaliador(lista_teste,vocabulario)

Acertou: 76.34%, desconhece 6.99% de 186. 


76.34

**Dado que o novo corretor está errando mais palavras devemos ver o que está acontecendo e escolher um corretor definitivo. Para isso criei a função temporária (que deverá ser excluida no momento da aplicação) para verificar a performace dos dois corretores**

In [52]:
def verifica_performace(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  palavra_perfomace=[]
  for correta, errada in testes:
    palavra_corrigida = novo_corretor(errada)
    desconhecida += (correta not in vocabulario)
    if palavra_corrigida == correta:
      acertou += 1
    else:
      palavra_perfomace.append(errada +'-'+correta + '-' +palavra_corrigida)
  return palavra_perfomace

In [53]:
palavras_perfomace= verifica_performace(lista_teste,vocabulario)

In [54]:
palavras_perfomace[:10]

['esje-esse-se',
 'sãêo-são-não',
 'dosa-dos-do',
 'eme-ele-de',
 'eàssa-essa-esse',
 'daõs-das-da',
 'céda-cada-da',
 'noâ-nos-o',
 'enêão-então-não',
 'tĩem-tem-em']

**Pelas 10 palavras mostradas acima percebemos que as palavras que tiveram a correção errada não estão a duas alterações de distância para obter a resposta certa.**

**O que acontece então é que a palavra 'esje' é alterada duas vezes tornando a palavra 'se', e o corretor devolver a palavra que tem maior probabilidade de ser, que é o 'se' pois aparece muito mais vezes no nosso banco de palavras**

# Corretor Definitivo

In [55]:
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D)
  return novas_palavras

def deletando_caracteres(fatias):
  novas_palavras = []
  for E, D in fatias:
    novas_palavras.append(E+D[1:])
  return novas_palavras


def troca_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  return novas_palavras

def inverte_letras(fatias):
  novas_palavras = []
  for E, D in fatias:
    if len(D) > 1:
      novas_palavras.append(E + D[1] + D[0] + D[2:])
  return novas_palavras

def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
    fatias.append((palavra[:i],palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  palavras_geradas += troca_letras(fatias)
  palavras_geradas += inverte_letras(fatias)
  return palavras_geradas

frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)


def probabilidade(palavra_gerada):
  return frequencia[palavra_gerada]/total_palavras
probabilidade('lógica')

def corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavra_correta =  max(palavras_geradas, key = probabilidade)
  return palavra_correta


In [81]:
corrigida = corretor('mina')
print(f'A sua palavra corrigida é {corrigida}')

A sua palavra corrigida é minha
