# Espaço vetorial

* A detecção de palavras no contexto de NLP é util para tarefas como obter estatísticas sobre o uso de palavras ou fazer pesquisas de palvra-chave.

* Isso fará que um detector de spam seja menos propenso a se enganar com uma única palavra.

* Ou até mesmo pode avaliar o quão positivo um tweet é quando há uma ampla variedade de palavras com vários graus de pontuação de "positividade"

* A frequência com que essas palavras aparecem em um documento em relação ao restante dos documentos pode ser usada para refinar ainda mais a "positividade" do documento.

* A ideia aqui é estudar medidas mais diferenciadas e seu uso em um documento.

* A abordagem que analisaremos aqui tem sido a base para a geração de recursos da linguagem natural para mecanismos de busca comercial e filtros de spam por décadas.

* A técnica de tokenização transforma palavras em números inteiros por represetar a ocorrência de cada palavra em um documento (vetores binarios).

* A ideia agora e representar as palavras em um espaço contínuo.

* Iremos analisar três técnicas de representar palavras e sua importância em um documento.

    * Bag of words: vetores de frequência de palavras.

    * Bag of n-grams: Contagem de pares (n) de palavras.

    * TF-IDF vectors: pontuação da palavra que melhor representa sua importância.
    

* Assumimos que, **quanto mais vezes uma palavra ocorre no documento, maior deve ser o significado da palavra para o documento**.

In [2]:
from nltk.tokenize import TreebankWordTokenizer
from collections import Counter

In [4]:
sentence = "The faster Harry got to the store, the faster Harry, the faster, would get home."

tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence.lower())
print(tokens)

['the', 'faster', 'harry', 'got', 'to', 'the', 'store', ',', 'the', 'faster', 'harry', ',', 'the', 'faster', ',', 'would', 'get', 'home', '.']


In [6]:
bag_of_words = Counter(tokens)
print(bag_of_words)

Counter({'the': 4, 'faster': 3, ',': 3, 'harry': 2, 'got': 1, 'to': 1, 'store': 1, 'would': 1, 'get': 1, 'home': 1, '.': 1})


In [8]:
bag_of_words_most_common = bag_of_words.most_common(4)
print(bag_of_words_most_common)

[('the', 4), ('faster', 3), (',', 3), ('harry', 2)]


In [10]:
times_harry_appers = bag_of_words['harry']
print(times_harry_appers)

2


* Para documentos pequenos como este, a lista não ordenada de palavras pode conter muitas informações sobre a inteção original da frase.

* E estas informações são suficientes para, por exemplo, detectar spam, calcular sentimentos e até detectar sarcasmo.

* Este número de vezes em que uma palavra aparece em um documento é chamado (em inglês) de **term frequency** (TF).

* Se normalizado, ela sera dividido pelo número de termos no documento (que será no máximo 1, se todas as palavras do documento forem iguais).

* A normalização é importante porque, dependendo do tamanho do documento, uma palavra aparecr 100 vezes pode indicar muita relevância para um documento de 1000 (0.1) palavras ou indicar baixa relevância para um documento de 1000000 (0.001).

* Assim, para cada palavra podemos calcular a importância relativa do documento neste termo.

* Assim, obtemos os 4 principais termos daquele documento.

* Sendo que termos como "the" e pontuações não são muito úteis para o documento e serão descartados (stop words).

* Agora vamos calcular o TF da palavra "harry"

In [12]:
unique_words = len(bag_of_words)
tf = times_harry_appers / unique_words
print(round(tf ,4))

0.1818


* Vamos utilizar um texto maior da wikipédia sobre pipas (kite_text da biblioteca "nlpia").

In [15]:
from collections import Counter
from nltk.tokenize import TreebankWordTokenizer
from nlpia.data.loaders import kite_text

ModuleNotFoundError: No module named 'nlpia'

In [18]:
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(kite_text.lower())
tokens_counts = Couter(tokens)
print(tokens_counts)

NameError: name 'kite_text' is not defined

In [19]:
from nltk.tokenize import TreebankWordTokenizer
from nlpia.data.loaders import kite_text
import nltk
from collections import Counter

tokenizer = TreebankWordTokenizer()

tokens = tokenizer.tokenize(kite_text.lower())
tokens_counts = Counter(tokens)

nltk.download('stopword', quiet=True)
stopwords = nltk.corpus.stopwords.words('enghish')

tokens = [x for x in tokens if x not in stopwords]
kite_couts = Counter(tokens)
print(kite_couts)

ModuleNotFoundError: No module named 'nlpia'