### Vetorização de texto

É uma representação do texto em **vetores** para que seja permitida sua aplicabilidade em modelos de aprendizado de máquina.

![Vector Space](assets/vector_space.png "Vector Space").

**Obs:** Antes de tudo, é importante entender que os termos podem ser vistos como gramas, e a qualquer momento podemos avaliar a vetorização como não apenas uma palavra única, e sim como uma sequência, por exemplo 2 palavras por token ou 2-grama.

Exemplo: "Ola estou bem" 
- 1-grama: ["ola", "estou", "bem"]
- 2-grama: ["ola estou", "estou bem"]

Nos exemplos abaixo iremos usar apenas 1-grama.

Na figura acima podemos observar que na vetorização cada termo é mais uma **dimensão** no espaço vetorial, isso indica que essas dimensões tem direções independentes e ortogonais entre si.

Quando vetorizamos um corpus real o espaço dimensional é gigantesco dado o grande número de palavras.

As sentenças podem ser visualizadas como vetores que possem direção, módulo e sentido. Esses valores são correspondestes as dimensões do espaço vetorial **por exemplo**, a sentença1={term_1, term_2, term_n}.

Dado que um documento pode ser formado por diversos termos, isso quer dizer que essa sentença/vetor é composta por valores referentes a todas as dimensões ou palavras do corpus. Logo, pode ser visto como uma maneira de reconhecer um certo nível de entendimento da sentença.

O Nosso desafio é como obteremos esses valores que compõem um documento/sentença, para isso temos as seguintes formas de lidar com isso:

In [1]:
corpus = [
    "the red dog",
    "cat eats dog",
    "dog eats food",
    "red cat eats"
]

==========================================================================================================================

**Bag of words (BOW)**: Como o nome diz, é um saco de palavras. Iremos usar 1 se a palavra estive presente no documento e 0 se ela não estiver presente. 

![Bag Of Words](assets/bow.png "Bag Of Words").

Por exemplo, na frase "The red dog" teremos o valor 1 para os termos "THE", "RED" e "DOG". 
Iremos realizar o procedimento para todos os documentos do nosso corpus.

Mas... porque chamamos isso de **saco** de palavras ? Isso se dá ao fato de perdemos informações relacionadas a ordem/sequência das palavras, transformando apenas em um conjunnto, garantindo apenas se o termo existe ou não no documento.

In [4]:
import numpy as np

def calcule_bow(sentences):
    listOfList = [sentence.split() for sentence in corpus] # Obtem lista de lista de termos
    word_set = set().union(*listOfList) # Obtem as palavras unicas do corpus
    
    word_in = dict.fromkeys(word_set,0) # transforma em um dict com chave=palavra e value=0
    bow = [] # lista que vai conter todo o corpus vetorizado
    for sentence in sentences: # Iterando nas sentencas
        for word in sentence.split(): # Iterando nos termos
            word_in[word] = 1 # Colocando 1 na posicao do termo da sentenca

        bow.append(word_in) # salvando na lista
        word_in = dict.fromkeys(word_set,0) # resetando o dict
        
    return bow 

calcule_bow(corpus)

[{'cat': 0, 'dog': 1, 'eats': 0, 'food': 0, 'red': 1, 'the': 1},
 {'cat': 1, 'dog': 1, 'eats': 1, 'food': 0, 'red': 0, 'the': 0},
 {'cat': 0, 'dog': 1, 'eats': 1, 'food': 1, 'red': 0, 'the': 0},
 {'cat': 1, 'dog': 0, 'eats': 1, 'food': 0, 'red': 1, 'the': 0}]

Já com essa abordagem inicial podemos tentar calcular similaridades em as sentenças usando um simples **produto escalar**.

$$\vec{p}\cdot\vec{q}=x_{1}x_{2}+y_{1}y_{2}+z_{n}z_{n}$$

Vale lembrar que no produto escalar, quando temos vetores ortogonais a similaridade é 0, portanto as sentenças **não** teriam similaridades. (Se quiser ver com mais detalhes, adicione dois vetores e multiplique eles no https://www.geogebra.org/classic)

Uma curiosidade é que no Bag of words quando realizamos o produto escalar podemos encontrar a **intersecção** entre as duas sentenças que estamos observando, vamos ver um exemplo:

Se usarmos as frases: "The red dog" e "cat eats dog" temos os seguintes vetores

A = "The red dog": [0, 1, 0, 0 , 1, 1]
B = "cat eats dog": [1, 1, 1, 0, 0, 0]

A * B = (0 * 1) + (1 * 1) + (0 * 1) + (0 * 0) + (1 * 0) + (1 * 0)

A **única** palavra que é igual nas duas frases é **dog**

==========================================================================================================================

**Term Frequency (TF)**