# Processador de Linguagem Natural
Este projeto foi desenvolvido como fonte de estudo, baseado na formação "Python para Data Science" da Alura.

## Base de dados (Corpus)
A base de conhecimento do nosso corretor é baseado nos artigos da Alura, isto é, o sistema será treinado com termos do contexto da área tecnológica e de desenvolvimento.

In [1]:
with open('artigos.txt', 'r') as f:
  corpus = f.read()

In [2]:
print(corpus[:500]) # o corpus já está tratado




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


## Tokenização

É o processo de separação do corpus em unidades menores

In [3]:
!pip install nltk
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [4]:
#Dividindo o corpus em tokens
tokens = nltk.tokenize.word_tokenize(corpus)

In [5]:
#Separando as palavras dos tokens
def separa_palavras(lista_tokens):
  lista_palavras = []
  for token in lista_tokens:
    if token.isalpha():
      lista_palavras.append(token)
  return lista_palavras

In [6]:
palavras = separa_palavras(tokens)

palavras

['imagem',
 'Temos',
 'a',
 'seguinte',
 'classe',
 'que',
 'representa',
 'um',
 'usuário',
 'no',
 'nosso',
 'sistema',
 'java',
 'Para',
 'salvar',
 'um',
 'novo',
 'usuário',
 'várias',
 'validações',
 'são',
 'feitas',
 'como',
 'por',
 'exemplo',
 'Ver',
 'se',
 'o',
 'nome',
 'só',
 'contém',
 'letras',
 'CPF',
 'só',
 'e',
 'ver',
 'se',
 'o',
 'usuário',
 'possui',
 'no',
 'mínimo',
 'anos',
 'Veja',
 'o',
 'método',
 'que',
 'faz',
 'essa',
 'validação',
 'java',
 'Suponha',
 'agora',
 'que',
 'eu',
 'tenha',
 'outra',
 'classe',
 'a',
 'classe',
 'que',
 'contém',
 'um',
 'atributo',
 'nome',
 'e',
 'eu',
 'quero',
 'fazer',
 'a',
 'mesma',
 'validação',
 'que',
 'fiz',
 'para',
 'o',
 'nome',
 'do',
 'usuário',
 'Ver',
 'se',
 'só',
 'contém',
 'letras',
 'E',
 'aí',
 'Vou',
 'criar',
 'outro',
 'método',
 'para',
 'fazer',
 'a',
 'mesma',
 'validação',
 'Ou',
 'criar',
 'uma',
 'interface',
 'ou',
 'uma',
 'classe',
 'que',
 'tanto',
 'quanto',
 'estendem',
 'Não',
 'faz',

In [7]:
print(f'Temos {len(palavras)} em nosso Corpus')

Temos 393914 em nosso Corpus


## Normalização

Em NLP é preciso saber "quantos tipos de palavras" temos. Que são as palavras únicas do nosso corpus. Então precisamos normalizar todo o texto, deixando todo em letras minúsculas

In [8]:
def normalizacao(lista_palavras):
  lista_normalizada = []
  for palavra in lista_palavras:
    lista_normalizada.append(palavra.lower())
  return lista_normalizada

In [9]:
palavras_normalizadas = normalizacao(palavras)

palavras_normalizadas[:10]

['imagem',
 'temos',
 'a',
 'seguinte',
 'classe',
 'que',
 'representa',
 'um',
 'usuário',
 'no']

In [10]:
tipos_de_palavras = set(palavras_normalizadas)

print(f'Possímos {len(tipos_de_palavras)} tipos de palavras')

Possímos 17652 tipos de palavras


## Corretor
O corretor terá a tarefa de percorrer a palavra digitada, dividindo-a em duas partes, e inserir entre as partes um novo caracter, isso repetido por toda sua extensão. Ao final ele deverá "escolher" a palavra certa e devolvê-la

In [11]:
#Iserindo letras
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàâéêèíîìóôòõúûùç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D)
  return novas_palavras

In [12]:
#Gerador de palavras "corrigidas"
def gera_palavras(palavra):
  fatias_palavra = []
  for i in range(len(palavra)+1):
    fatias_palavra.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias_palavra)
  return palavras_geradas

In [13]:
#Probabilidade de cada palavra estar correta
frequencia = nltk.FreqDist(palavras_normalizadas) #essa função calcula a frequencia de distribuição das palavras
total_palavras = len(palavras_normalizadas)

def probabilidade(palavra_gerada):
  return frequencia[palavra_gerada]/total_palavras

In [14]:
#Corretor
def corretor(palavra):
  palavras_geradas = gera_palavras(palavra)
  palavra_correta = max(palavras_geradas, key=probabilidade)
  return palavra_correta

In [15]:
corretor('lgica')

'lógica'

## Avaliando o corretor

In [16]:
#Criando dados de texte
def cria_teste(nome_do_arquivo):
  lista_palavras_teste = []
  f = open(nome_do_arquivo, "r")
  for linha in f:
    correta, errada = linha.split()
    lista_palavras_teste.append((correta, errada))
  f.close()
  return lista_palavras_teste

In [17]:
lista_teste = cria_teste('palavras.txt')

In [18]:
#Função avaliadora
def avaliador(lista_de_teste):
  numero_de_palavras = len(lista_de_teste)
  acertos = 0
  for correta, errada in lista_de_teste:
    palavra_corrigida = corretor(errada)
    if palavra_corrigida == correta:
      acertos +=1
  taxa_de_acerto = acertos/numero_de_palavras
  print(f'A taxa de acerto do nosso corretor é: {round(taxa_de_acerto *100, 2)}% de {numero_de_palavras}')

In [19]:
avaliador(lista_teste)

A taxa de acerto do nosso corretor é: 1.08% de 186


## Adicionando novos tipos de correção

### Deletando caracteres
Outro erro de digitação que pode ocorrer, é serem digitadas letras a mais. E não só esquecer uma letra, como foi feito até agora.

In [20]:
#Removendo caracteres
def remove_letras(fatias):
  novas_palavras = []
  for E, D in fatias:
    novas_palavras.append(E + D[1:])
  return novas_palavras

In [21]:
#Gerador de palavras "corrigidas" 2.0
def gera_palavras(palavra):
  fatias_palavra = []
  for i in range(len(palavra)+1):
    fatias_palavra.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias_palavra)
  palavras_geradas += remove_letras(fatias_palavra)
  return palavras_geradas

In [22]:
corretor('lóigica')

'lógica'

#### Nova avaliação

In [24]:
avaliador(lista_teste)

A taxa de acerto do nosso corretor é: 41.4% de 186


### Trocando letras
Outro erro comum, é trocar uma letra por outra durante a digitação

In [25]:
#Trocar letras
def troca_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàâéêèíîìóôòõúûùç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  return novas_palavras

In [26]:
#Gerador de palavras "corrigidas" 3.0
def gera_palavras(palavra):
  fatias_palavra = []
  for i in range(len(palavra)+1):
    fatias_palavra.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias_palavra)
  palavras_geradas += remove_letras(fatias_palavra)
  palavras_geradas += troca_letras(fatias_palavra)
  return palavras_geradas

In [27]:
corretor('lígica')

'lógica'

#### Nova Avaliação

In [28]:
avaliador(lista_teste)

A taxa de acerto do nosso corretor é: 76.34% de 186


### Invertendo Letras

Mais um erro que pode acontecer, é as letras serem digitadas invertidas

In [30]:
#Invertendo caracteres
def inverte_letras(fatias):
  novas_palavras = []
  for E, D in fatias:
    if len(D) > 1:
      novas_palavras.append(E + D[1] + D[0] + D[2:])
  return novas_palavras

In [31]:
#Gerador de palavras "corrigidas" 4.0
def gera_palavras(palavra):
  fatias_palavra = []
  for i in range(len(palavra)+1):
    fatias_palavra.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias_palavra)
  palavras_geradas += remove_letras(fatias_palavra)
  palavras_geradas += troca_letras(fatias_palavra)
  palavras_geradas += inverte_letras(fatias_palavra)
  return palavras_geradas

In [33]:
corretor('lgóica')

'lógica'

#### Nova Avaliação

In [34]:
avaliador(lista_teste)

A taxa de acerto do nosso corretor é: 76.34% de 186


O erro do corretor depende das limitações no algorítimo e do vocabulário

## Estrutura final do corretor

In [36]:
#Iserindo letras
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàâéêèíîìóôòõúûùç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D)
  return novas_palavras

#Trocar letras
def troca_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàâéêèíîìóôòõúûùç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  return novas_palavras

#Trocar letras
def troca_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáâàâéêèíîìóôòõúûùç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D[1:])
  return novas_palavras

#Invertendo caracteres
def inverte_letras(fatias):
  novas_palavras = []
  for E, D in fatias:
    if len(D) > 1:
      novas_palavras.append(E + D[1] + D[0] + D[2:])
  return novas_palavras

#Gerador de Palavras
def gera_palavras(palavra):
  fatias_palavra = []
  for i in range(len(palavra)+1):
    fatias_palavra.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias_palavra)
  palavras_geradas += remove_letras(fatias_palavra)
  palavras_geradas += troca_letras(fatias_palavra)
  palavras_geradas += inverte_letras(fatias_palavra)
  return palavras_geradas

#Probabilidade
def probabilidade(palavra_gerada):
  return frequencia[palavra_gerada]/total_palavras

#Corretor
def corretor(palavra):
   palavras_geradas = gera_palavras(palavra)
   palavra_correta = max(palavras_geradas, key=probabilidade)
   return palavra_correta

#Criando dados de texte
def cria_teste(nome_do_arquivo):
  lista_palavras_teste = []
  f = open(nome_do_arquivo, "r")
  for linha in f:
    correta, errada = linha.split()
    lista_palavras_teste.append((correta, errada))
  f.close()
  return lista_palavras_teste

#Função avaliadora
def avaliador(lista_de_teste):
  numero_de_palavras = len(lista_de_teste)
  acertos = 0
  for correta, errada in lista_de_teste:
    palavra_corrigida = corretor(errada)
    if palavra_corrigida == correta:
      acertos +=1
  taxa_de_acerto = acertos/numero_de_palavras
  print(f'A taxa de acerto do nosso corretor é: {round(taxa_de_acerto *100, 2)}% de {numero_de_palavras}')