# Espaço vetorial

* A detecção de palavras no contexto de NLP é util para tarefas como obter estatísticas sobre o uso de palavras ou fazer pesquisas de palvra-chave.

* Isso fará que um detector de spam seja menos propenso a se enganar com uma única palavra.

* Ou até mesmo pode avaliar o quão positivo um tweet é quando há uma ampla variedade de palavras com vários graus de pontuação de "positividade"

* A frequência com que essas palavras aparecem em um documento em relação ao restante dos documentos pode ser usada para refinar ainda mais a "positividade" do documento.

* A ideia aqui é estudar medidas mais diferenciadas e seu uso em um documento.

* A abordagem que analisaremos aqui tem sido a base para a geração de recursos da linguagem natural para mecanismos de busca comercial e filtros de spam por décadas.

* A técnica de tokenização transforma palavras em números inteiros por represetar a ocorrência de cada palavra em um documento (vetores binarios).

* A ideia agora e representar as palavras em um espaço contínuo.

* Iremos analisar três técnicas de representar palavras e sua importância em um documento.

    * Bag of words: vetores de frequência de palavras.

    * Bag of n-grams: Contagem de pares (n) de palavras.

    * TF-IDF vectors: pontuação da palavra que melhor representa sua importância.
    

* Assumimos que, **quanto mais vezes uma palavra ocorre no documento, maior deve ser o significado da palavra para o documento**.

In [1]:
from nltk.tokenize import TreebankWordTokenizer
from collections import Counter

In [2]:
sentence = "The faster Harry got to the store, the faster Harry, the faster, would get home."

tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence.lower())
print(tokens)

['the', 'faster', 'harry', 'got', 'to', 'the', 'store', ',', 'the', 'faster', 'harry', ',', 'the', 'faster', ',', 'would', 'get', 'home', '.']


In [3]:
bag_of_words = Counter(tokens)
print(bag_of_words)

Counter({'the': 4, 'faster': 3, ',': 3, 'harry': 2, 'got': 1, 'to': 1, 'store': 1, 'would': 1, 'get': 1, 'home': 1, '.': 1})


In [4]:
bag_of_words_most_common = bag_of_words.most_common(4)
print(bag_of_words_most_common)

[('the', 4), ('faster', 3), (',', 3), ('harry', 2)]


In [5]:
times_harry_appers = bag_of_words['harry']
print(times_harry_appers)

2


* Para documentos pequenos como este, a lista não ordenada de palavras pode conter muitas informações sobre a inteção original da frase.

* E estas informações são suficientes para, por exemplo, detectar spam, calcular sentimentos e até detectar sarcasmo.

* Este número de vezes em que uma palavra aparece em um documento é chamado (em inglês) de **term frequency** (TF).

* Se normalizado, ela sera dividido pelo número de termos no documento (que será no máximo 1, se todas as palavras do documento forem iguais).

* A normalização é importante porque, dependendo do tamanho do documento, uma palavra aparecr 100 vezes pode indicar muita relevância para um documento de 1000 (0.1) palavras ou indicar baixa relevância para um documento de 1000000 (0.001).

* Assim, para cada palavra podemos calcular a importância relativa do documento neste termo.

* Assim, obtemos os 4 principais termos daquele documento.

* Sendo que termos como "the" e pontuações não são muito úteis para o documento e serão descartados (stop words).

* Agora vamos calcular o TF da palavra "harry"

In [6]:
unique_words = len(bag_of_words)
tf = times_harry_appers / unique_words
print(round(tf ,4))

0.1818


* Vamos utilizar um texto maior da wikipédia sobre pipas (kite_text da biblioteca "nlpia").

In [7]:
# http://go.microsoft.com/fwlink/?LinkId=691126&fixForIE=.exe
# !pip install nlpia --upgrade

In [8]:
from collections import Counter
from nltk.tokenize import TreebankWordTokenizer
from nlpia.data.loaders import kite_text

INFO:nlpia.constants:Starting logger in nlpia.constants...
INFO:nlpia.loaders:No BIGDATA index found in D:\angel\anaconda3\lib\site-packages\nlpia\data\bigdata_info.csv so copy D:\angel\anaconda3\lib\site-packages\nlpia\data\bigdata_info.latest.csv to D:\angel\anaconda3\lib\site-packages\nlpia\data\bigdata_info.csv if you want to "freeze" it.
INFO:nlpia.futil:Reading CSV with `read_csv(*('D:\\angel\\anaconda3\\lib\\site-packages\\nlpia\\data\\mavis-batey-greetings.csv',), **{'low_memory': False})`...
INFO:nlpia.futil:Reading CSV with `read_csv(*('D:\\angel\\anaconda3\\lib\\site-packages\\nlpia\\data\\sms-spam.csv',), **{'low_memory': False})`...


In [9]:
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(kite_text.lower())
tokens_counts = Counter(tokens)
print(tokens_counts)

Counter({'the': 26, 'a': 20, 'kite': 16, ',': 15, 'and': 10, 'of': 10, 'kites': 8, 'is': 7, 'in': 7, 'or': 6, 'wing': 5, 'to': 5, 'be': 5, 'as': 5, 'lift': 4, 'have': 4, 'may': 4, 'at': 3, 'so': 3, 'can': 3, 'also': 3, 'kiting': 3, 'are': 3, 'flown': 3, 'tethered': 2, 'craft': 2, 'with': 2, 'that': 2, 'air': 2, 'consists': 2, 'tethers': 2, 'anchors.': 2, 'often': 2, 'bridle': 2, 'wind': 2, "'s": 2, 'designed': 2, ';': 2, 'when': 2, 'for': 2, 'moving': 2, 'technical': 2, 'even': 2, 'called': 2, 'surface': 2, 'pressure': 2, 'drag': 2, 'force': 2, 'by': 2, 'which': 2, '.': 2, 'used': 2, 'power': 2, 'traditionally': 1, 'heavier-than-air': 1, 'surfaces': 1, 'react': 1, 'against': 1, 'create': 1, 'drag.': 1, 'wings': 1, 'guide': 1, 'face': 1, 'correct': 1, 'angle': 1, 'it.': 1, 'not': 1, 'needed': 1, 'sailplane': 1, 'launch': 1, 'tether': 1, 'meets': 1, 'single': 1, 'point.': 1, 'fixed': 1, 'untraditionally': 1, 'tether-set-coupled': 1, 'sets': 1, 'though': 1, 'system': 1, 'still': 1, 'kite.

In [10]:
from nltk.tokenize import TreebankWordTokenizer
from nlpia.data.loaders import kite_text
import nltk
from collections import Counter

tokenizer = TreebankWordTokenizer()

tokens = tokenizer.tokenize(kite_text.lower())
tokens_counts = Counter(tokens)

nltk.download('stopwords', quiet=True)
stopwords = nltk.corpus.stopwords.words('english')

tokens = [x for x in tokens if x not in stopwords]
kite_couts = Counter(tokens)
print(kite_couts)

Counter({'kite': 16, ',': 15, 'kites': 8, 'wing': 5, 'lift': 4, 'may': 4, 'also': 3, 'kiting': 3, 'flown': 3, 'tethered': 2, 'craft': 2, 'air': 2, 'consists': 2, 'tethers': 2, 'anchors.': 2, 'often': 2, 'bridle': 2, 'wind': 2, "'s": 2, 'designed': 2, ';': 2, 'moving': 2, 'technical': 2, 'even': 2, 'called': 2, 'surface': 2, 'pressure': 2, 'drag': 2, 'force': 2, '.': 2, 'used': 2, 'power': 2, 'traditionally': 1, 'heavier-than-air': 1, 'surfaces': 1, 'react': 1, 'create': 1, 'drag.': 1, 'wings': 1, 'guide': 1, 'face': 1, 'correct': 1, 'angle': 1, 'it.': 1, 'needed': 1, 'sailplane': 1, 'launch': 1, 'tether': 1, 'meets': 1, 'single': 1, 'point.': 1, 'fixed': 1, 'untraditionally': 1, 'tether-set-coupled': 1, 'sets': 1, 'though': 1, 'system': 1, 'still': 1, 'kite.': 1, 'sustains': 1, 'flight': 1, 'generated': 1, 'flows': 1, 'around': 1, 'producing': 1, 'low': 1, 'high': 1, 'wings.': 1, 'interaction': 1, 'generates': 1, 'horizontal': 1, 'along': 1, 'direction': 1, 'wind.': 1, 'resultant': 1, 

## Vetorização

* Agora, ao invés de manter a descrição do documento com um dicionário de frequência, vamos produzir um vetor dessa contagem de palavras.

In [11]:
document_vector = []
doc_len = len(tokens)

for key, value in kite_couts.most_common():
    document_vector.append(value / doc_len)

print(document_vector)
print()
print(sum(document_vector))

[0.07207207207207207, 0.06756756756756757, 0.036036036036036036, 0.02252252252252252, 0.018018018018018018, 0.018018018018018018, 0.013513513513513514, 0.013513513513513514, 0.013513513513513514, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.009009009009009009, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045, 0.0045045045045045045,

* Cada dimensão deste vetor é o TF (term frequency) normalizado de cada palavra neste (específico) documento.

* Mas observe que, como estamos tratando de apenas um único documento, todas as posições correspondem às palavras que aparecem no documento.

* Normalmente, com vários documentos, como que noso vetor se comporta ?

* Para comparar vários documento, precisamos que todos tenham vetores do mesmo tamanho (dimensão), sendo que o valor desta dimentsão é a quantidade total de palavras do vocabulário.

In [33]:
from nltk.tokenize import TreebankWordTokenizer
from collections import Counter

tokenizer = TreebankWordTokenizer()
docs = ['The faster Harry go to the store, the faster and faster Harry would get home.']
docs.append('Harry is hairy and faster than Jill.')
docs.append('Jill is not as hairy as Harry.')

doc_tokes = []

for doc in docs:
    doc_tokes += [sorted(tokenizer.tokenize(doc.lower()))]

print(len(doc_tokes))

3


In [34]:
doc_tokes

[[',',
  '.',
  'and',
  'faster',
  'faster',
  'faster',
  'get',
  'go',
  'harry',
  'harry',
  'home',
  'store',
  'the',
  'the',
  'the',
  'to',
  'would'],
 ['.', 'and', 'faster', 'hairy', 'harry', 'is', 'jill', 'than'],
 ['.', 'as', 'as', 'hairy', 'harry', 'is', 'jill', 'not']]

In [35]:
all_doc_tokens = sum(doc_tokes, [])

In [36]:
print(len(all_doc_tokens))

33


In [37]:
lexicon = sorted(set(all_doc_tokens))
print(len(lexicon))

18


In [38]:
from collections import OrderedDict
zero_vector = OrderedDict((token, 0) for token in lexicon)
zero_vector

OrderedDict([(',', 0),
             ('.', 0),
             ('and', 0),
             ('as', 0),
             ('faster', 0),
             ('get', 0),
             ('go', 0),
             ('hairy', 0),
             ('harry', 0),
             ('home', 0),
             ('is', 0),
             ('jill', 0),
             ('not', 0),
             ('store', 0),
             ('than', 0),
             ('the', 0),
             ('to', 0),
             ('would', 0)])

In [39]:
import copy

doc_vector = []
for doc in docs:
    vec = copy.copy(zero_vector)
    tokens = tokenizer.tokenize(doc.lower())
    tokens_count = Counter(tokens)
    for key, valu in tokens_count.items():
        vec[key] = valu / len(lexicon)
    doc_vector.append(dict(vec))

In [40]:
print(len(doc_vector))
print(doc_vector[0])

3
{',': 0.05555555555555555, '.': 0.05555555555555555, 'and': 0.05555555555555555, 'as': 0, 'faster': 0.16666666666666666, 'get': 0.05555555555555555, 'go': 0.05555555555555555, 'hairy': 0, 'harry': 0.1111111111111111, 'home': 0.05555555555555555, 'is': 0, 'jill': 0, 'not': 0, 'store': 0.05555555555555555, 'than': 0, 'the': 0.16666666666666666, 'to': 0.05555555555555555, 'would': 0.05555555555555555}
