<a href="https://colab.research.google.com/github/ManJ-PC/introducao-ao-pln-com-python/blob/master/Contents_of_descriptions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  **Bag of Words**

BoW é uma forma de representar o texto de acordo com a ocorrência das palavras nele. Traduzindo para o português, o "saco de palavras" recebe esse nome porque não leva em conta a ordem ou a estrutura das palavras no texto, apenas se ela aparece ou a frequência com que aparece nele. Por exemplo, se a palavra TURING aparece muito num texto, ela se torna mais central e importante para a máquina. Portanto, BoW pode ser um ótimo método para determinar as palavras significativas de um texto com base no número de vezes que ela é usada. Bem simples, né? Basicamente, para gerar um modelo de bag of words precisamos realizar três passos:


1.  Selecionar os dados
2.  Gerar o vocabulário
3.  Formar vetores a partir do documento 

Vamos ver cada um desses passos separadamente:

## Selecionando seus dados

Essa parte diz respeito a selecionar os dados que serão usados - no nosso caso, o texto - e prepará-lo de forma que a máquina consiga processá-lo bem. Então, primeiro, vamos falar sobre os dados com qual trabalharemos nesse artigo. Nosso texto será descrição do anúncio "Quinta T14 de luxo à venda em Marco de Canaveses" do [site](https://www.remax.pt/imoveis/venda-quinta-t14-marco-de-canaveses-penhalonga-e-pacos-de-gaiolo/126021010-57) da Remax:









In [3]:
description = """Solar histórico conhecido por “Quinta ou Casa do Carrapatelo”. Datada de 1706, é constituída por uma bonita casa senhorial com brasão, capela, adega, celeiro, casa de animais, espigueiro, 7 minas de água, num total de cerca de 2,5 hectares.

Trata-se de um imóvel com raízes históricas, sendo aludida em diversos livros da especialidade, assim como em diversos sites acerca da região.

A propriedade,na sua totalidade, é composta pelos seguintes artigos:

Terrenos de cultura, ramada, oliveiras, fruteiras e dependências agrícolas, com a área de 15.300 m2;
Prédio urbanos, compostos de casa de habitação com capela e quintais, tendo anexo uma casa de caseiro, com a área coberta de 544 m2 e total do terreno de 5.212m2;
Prédio urbano, composto de casa de habitação de caseiros, com 2 pisos, com a área de 63,80 m2 por piso totalizando 127,60 m2;
a área total de cosntrução será de apropximadamente 1,200m2
Nota: medidas conforme registos. Levatamento topográfico disponivel."""

## Pré-processamento

Com nossos dados escolhidos precisamos prepará-los. Chamamos isso de pré-processamento e você já sabe que pré-processar um texto é essencial quando queremos trabalhar com ele, principalmente quando queremos aplicar um modelo de predição ou outros métodos estatísticos. São muitos os métodos de pré-processamento, mas aqui vamos realizar apenas alguns:

* Colocar todas as letras em minúsculo
* Selecionar apenas letras com regex
* Juntar os tokens em um texto - já que, ao usar a função .findall do regex, nosso texto é dividido em tokens, ou seja, cada palavra vira uma string individual em uma lista

In [48]:
import re

#deixa todas as letras minúsculas
description_min = description.lower()

In [47]:
#seleciona apenas letras (lembrando que o texto está em português e as letras possuem acento): In the regular expression pattern r'[a-zéóáêâãõç]+', a-zéóáêâãõç represents a range of characters from "a" to "z" including the letters "é", "ó", "á", "ê", "â", "ã", "õ", and "ç". The + quantifier means that one or more occurrences of these characters should be matched.
apenas_letras


['solar',
 'histórico',
 'conhecido',
 'por',
 'quinta',
 'ou',
 'casa',
 'do',
 'carrapatelo',
 'datada',
 'de',
 'é',
 'constitu',
 'da',
 'por',
 'uma',
 'bonita',
 'casa',
 'senhorial',
 'com',
 'brasão',
 'capela',
 'adega',
 'celeiro',
 'casa',
 'de',
 'animais',
 'espigueiro',
 'minas',
 'de',
 'água',
 'num',
 'total',
 'de',
 'cerca',
 'de',
 'hectares',
 'trata',
 'se',
 'de',
 'um',
 'imóvel',
 'com',
 'ra',
 'zes',
 'históricas',
 'sendo',
 'aludida',
 'em',
 'diversos',
 'livros',
 'da',
 'especialidade',
 'assim',
 'como',
 'em',
 'diversos',
 'sites',
 'acerca',
 'da',
 'região',
 'a',
 'propriedade',
 'na',
 'sua',
 'totalidade',
 'é',
 'composta',
 'pelos',
 'seguintes',
 'artigos',
 'terrenos',
 'de',
 'cultura',
 'ramada',
 'oliveiras',
 'fruteiras',
 'e',
 'dependências',
 'agr',
 'colas',
 'com',
 'a',
 'área',
 'de',
 'm',
 'prédio',
 'urbanos',
 'compostos',
 'de',
 'casa',
 'de',
 'habitação',
 'com',
 'capela',
 'e',
 'quintais',
 'tendo',
 'anexo',
 'uma',
 'c

In [20]:
#junta o texto, já que o .findall separa em tokens
new_description = " ".join(apenas_letras)
new_description

'solar histórico conhecido por quinta ou casa do carrapatelo datada de é constitu da por uma bonita casa senhorial com brasão capela adega celeiro casa de animais espigueiro minas de água num total de cerca de hectares trata se de um imóvel com ra zes históricas sendo aludida em diversos livros da especialidade assim como em diversos sites acerca da região a propriedade na sua totalidade é composta pelos seguintes artigos terrenos de cultura ramada oliveiras fruteiras e dependências agr colas com a área de m prédio urbanos compostos de casa de habitação com capela e quintais tendo anexo uma casa de caseiro com a área coberta de m e total do terreno de m prédio urbano composto de casa de habitação de caseiros com pisos com a área de m por piso totalizando m a área total de cosntrução será de apropximadamente m nota medidas conforme registos levatamento topográfico disponivel'

## Gerando o vocabulário
Já pensou se você conseguisse memorizar todas as palavras que você visse? Diferente de nós que precisamos ver, rever uma, duas e provavelmente mais vezes para memorizar, o computador já consegue fazer isso de primeira. Então para gerar o vocabulário que nada mais é que a coleção de todas as palavras que ocorrem em um texto, basta passarmos todas elas uma vez só. Então a ideia para o código é basicamente:

* Separar nosso texto em tokens;
* Criar uma lista para guardarmos o vocabulário;
* Fazer um loop para percorrer o texto inteiro;
* Criar uma condicional para verificar se a palavra está na lista -fazemos isso porque nosso vocabulário conta apenas as ocorrências únicas, sem repetições de palavras;
* Caso não esteja, ela é adicionada.

Vamos ver como fica isso na prática? Olha só!

In [13]:
from nltk import word_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [15]:
tokens = word_tokenize(new_description)
tokens

['solar',
 'histórico',
 'conhecido',
 'por',
 'quinta',
 'ou',
 'casa',
 'do',
 'carrapatelo',
 'datada',
 'de',
 'é',
 'constitu',
 'da',
 'por',
 'uma',
 'bonita',
 'casa',
 'senhorial',
 'com',
 'brasão',
 'capela',
 'adega',
 'celeiro',
 'casa',
 'de',
 'animais',
 'espigueiro',
 'minas',
 'de',
 'água',
 'num',
 'total',
 'de',
 'cerca',
 'de',
 'hectares',
 'trata',
 'se',
 'de',
 'um',
 'imóvel',
 'com',
 'ra',
 'zes',
 'históricas',
 'sendo',
 'aludida',
 'em',
 'diversos',
 'livros',
 'da',
 'especialidade',
 'assim',
 'como',
 'em',
 'diversos',
 'sites',
 'acerca',
 'da',
 'região',
 'a',
 'propriedade',
 'na',
 'sua',
 'totalidade',
 'é',
 'composta',
 'pelos',
 'seguintes',
 'artigos',
 'terrenos',
 'de',
 'cultura',
 'ramada',
 'oliveiras',
 'fruteiras',
 'e',
 'dependências',
 'agr',
 'colas',
 'com',
 'a',
 'área',
 'de',
 'm',
 'prédio',
 'urbanos',
 'compostos',
 'de',
 'casa',
 'de',
 'habitação',
 'com',
 'capela',
 'e',
 'quintais',
 'tendo',
 'anexo',
 'uma',
 'c

## Vocabulário

In [21]:
Vocab = []
for token in tokens:
  if token not in Vocab:
    Vocab.append(token)

print(Vocab, "\n", len(Vocab))

['solar', 'histórico', 'conhecido', 'por', 'quinta', 'ou', 'casa', 'do', 'carrapatelo', 'datada', 'de', 'é', 'constitu', 'da', 'uma', 'bonita', 'senhorial', 'com', 'brasão', 'capela', 'adega', 'celeiro', 'animais', 'espigueiro', 'minas', 'água', 'num', 'total', 'cerca', 'hectares', 'trata', 'se', 'um', 'imóvel', 'ra', 'zes', 'históricas', 'sendo', 'aludida', 'em', 'diversos', 'livros', 'especialidade', 'assim', 'como', 'sites', 'acerca', 'região', 'a', 'propriedade', 'na', 'sua', 'totalidade', 'composta', 'pelos', 'seguintes', 'artigos', 'terrenos', 'cultura', 'ramada', 'oliveiras', 'fruteiras', 'e', 'dependências', 'agr', 'colas', 'área', 'm', 'prédio', 'urbanos', 'compostos', 'habitação', 'quintais', 'tendo', 'anexo', 'caseiro', 'coberta', 'terreno', 'urbano', 'composto', 'caseiros', 'pisos', 'piso', 'totalizando', 'cosntrução', 'será', 'apropximadamente', 'nota', 'medidas', 'conforme', 'registos', 'levatamento', 'topográfico', 'disponivel'] 
 94


### Formando vetor do documento

Como o vocabulário tem um número fixo de palavras, podemos usar uma representação de tamanho fixo equivalente a esse número: um vetor! Cada elemento desse vetor corresponderá a uma palavra do vocabulário. Há diversas formas de preencher nosso vetor com números para representar um documento (uma 'amostra' de um conjunto maior de textos), por exemplo, usar a contagem de vezes em que a palavra aparece nele. Mas a maneira mais básica de fazer isso é atribuindo um valor booleano: 1 se a palavra aparece, 0 se não; isso é chamado de one-hot encoding.

Podemos pensar nesse processo como uma tabulação do documento, não veja o exemplo com as frases "Solar histórico conhecido por “Quinta ou Casa do Carrapatelo”. Datada de 1706, é constituída por uma bonita casa senhorial com brasão, capela, adega, celeiro, casa de animais, espigueiro, 7 minas de água, num total de cerca de 2,5 hectares.":

Assim, para codificar com one-hot, o passo a passo é:

* Criar uma lista que representa o vetor;
* Fazer um loop para percorrer todas as palavras do vocabulário;
* Se a palavra estiver no documento, adicionar 1 à lista; caso contrário, adicionar 0;
* Transformar a lista final em um array do numpy e retornar.

In [23]:
import numpy as np

In [24]:
def cria_vetor_documento(documento, vocab):
  vetor = []

  for palavra in vocab:
    if palavra in documento:
      vetor.append(1)
    else:
      vetor.append(0)
  return np.array(vector)

# **TFIDF**

TF-IDF vem para superar os problemas do Bag of Words. Trata-se de medidas estatísticas para medir o quão importante uma palavra é em um documento (texto), assim como BoW, mas com algumas diferenças. Com ele, podemos perceber a importância de uma palavra por meio de uma pontuação, o TF-IDF de uma palavra em um texto é feito multiplicando duas métricas diferentes:

* Term Frequency (a frequência do termo), que mede a frequência com que um termo ocorre num documento;
* Inverse Document Frequency (inverso da frequência nos documentos), que mede o quão importante um termo é no contexto de todos os documentos.

Em outras palavras, para o TF-IDF, quanto mais frequente uma palavra é em seu documento, mais importante ela tende a ser. Entretanto, isso depende da repetição dela ao longo de todos os documentos que estão sendo analisados.

Por exemplo, suponhamos que estejamos analisando três documentos:

* uma revista de futebol,
* uma de vôlei
* e uma de basquete.
Temos palavras que se repetem ao longo de todos esses documentos, por exemplo, a palavra "esporte" deve aparecer em todas as três revistas, certo? Então, provavelmente, não contribui muito para uma análise. Porém, palavras que se repetem muito em documentos individuais dizem mais a respeito dele, então a palavra "cesta", por exemplo, que pode se repetir muito na revista sobre basquete, mas não nas outras, tende a se tornar mais importante para o TF-IDF. Por isso dizemos que a repetição das palavras importa com relação aos documentos que estão sendo analisados. Interessante, né?

No nosso anúncio, consideraremos cada paragrafo como um documento (mas poderíamos fazer de outras formas também, considerando cada frase como um documento, por exemplo).

In [43]:
paragrafo1 = """Solar histórico conhecido por Quinta ou Casa do Carrapatelo. Datada de 1706, é constituída por uma bonita casa senhorial com brasão, capela, adega, celeiro, casa de animais, espigueiro, 7 minas de água, num total de cerca de 2,5 hectares.""".lower()
paragrafo2 = """Trata-se de um imóvel com raízes históricas, sendo aludida em diversos livros da especialidade, assim como em diversos sites acerca da região.""".lower()

## Implementando

Para a implementação de TF-IDF precisamos seguir passos muito semelhantes ao que fizemos com BoW anteriormente:

* Primeiro, é preciso selecionar seus dados e pré-processar seu texto;
* Depois, gerar um vocabulário, ou seja, uma lista com todos os termos do nosso texto;
Essas duas etapas já foram feitas lá em cima, então não vamos repeti-la - Lembre-se apenas que nosso vocabulário está armazenado na lista Vocab - Portanto, vamos direto para o último passo:

* Gerar um dicionário de frequência desses termos
Então vamos para a implementação!

Para criar o dicionário vamos criar uma função dicionario_de_contagem, que retorna a palavra e a quantidade de ocorrências dela. Basicamente, essa função recebe como argumento a lista Vocab, que já criamos, e o documento tokenizado, e cria um dicionário com as palavras do poema seguidas do número de ocorrências delas:

In [44]:
p1_tokens = paragrafo1.split()

p2_tokens = paragrafo2.split()

p1_tokens

['solar',
 'histórico',
 'conhecido',
 'por',
 'quinta',
 'ou',
 'casa',
 'do',
 'carrapatelo.',
 'datada',
 'de',
 '1706,',
 'é',
 'constituída',
 'por',
 'uma',
 'bonita',
 'casa',
 'senhorial',
 'com',
 'brasão,',
 'capela,',
 'adega,',
 'celeiro,',
 'casa',
 'de',
 'animais,',
 'espigueiro,',
 '7',
 'minas',
 'de',
 'água,',
 'num',
 'total',
 'de',
 'cerca',
 'de',
 '2,5',
 'hectares.']

In [45]:
def dicionario_de_contagem(vocabulario, documento):
  '''Recebe uma lista com o vocabulario e uma lista de tokens de um documento.
  Retorna um dicionario com o numero de vezes que cada palavra do vocabulario
  ocorre no documento.'''
  dic = dict.fromkeys(vocabulario, 0)
  for palavra in documento:
    dic[palavra] += 1
  return dic

In [46]:
p1_dic_cont = dicionario_de_contagem(Vocab, p1_tokens)
p2_dic_cont = dicionario_de_contagem(Vocab, p2_tokens)

print(p1_dic_cont, '\n')
print(p2_dic_cont)

KeyError: ignored

In [None]:
pip install openai

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting openai
  Downloading openai-0.27.7-py3-none-any.whl (71 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m72.0/72.0 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
Collecting aiohttp (from openai)
  Downloading aiohttp-3.8.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m26.7 MB/s[0m eta [36m0:00:00[0m
Collecting multidict<7.0,>=4.5 (from aiohttp->openai)
  Downloading multidict-6.0.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (114 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m114.5/114.5 kB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting async-timeout<5.0,>=4.0.0a3 (from aiohttp->openai)
  Downloading async_timeout-4.0.2-py3-none-any.whl (5.8 kB)
Collecting yarl<2.0,>=1.0 (from aiohttp->openai)
  Downloadin

Solução da OpenAI não está com free trial, vamos experiementar com outra rede já treinada

In [None]:
# import openai

# openai.api_key = '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'

# response = openai.Completion.create(
#     engine='text-davinci-003',
#     prompt='Hello, ChatGPT!',
#     max_tokens=50,
#     n=1,
#     stop=None,
#     temperature=0.7,
# )

# generated_response = response.choices[0].text.strip()
# print(generated_response)


RateLimitError: ignored