# GABARITO
# Representação vetorial de textos – *Bag of words*
## Processamento de Linguagem Natural
Hoje trabalharemos com um assunto essencial ao PLN moderno, a representação vetorial de textos. Nesta aula você realizará atividades práticas relacionadas a técnica chamada  **Bag of words (BoW)**, visando:
1. Entender o modelo Bag of Words
2. Vetorizar textos utilizando a função `CountVectorizer` da biblioteca `scikit-learn`
3. Compreender as limitações do modelo e como ele pode ser utilizado em tarefas de PLN

### **O que é Bag of Words?**



É uma técnica de PLN na qual transformamos textos em **vetores numéricos** para **extrair características do texto**. Tais características podem ser interpretadas por diversos algoritmos, incluindo (principalmente) os de *Machine Learning*.

Apenas dois passos são necessários no algoritmo de BoW:
1.   Determinar o vocabulário do(s) texto(s)
2.   Realizar contagem do termos (frequência das palavras)



Imagine um corpus com os seguintes documentos:

*   *O menino correu*
*   *O menino correu do cão*
*   *O menino com o cão*









#### 1) Determinar vocabulário
Para determinar o vocabulário, basta definirmos uma lista com todas palavras contidas em nosso corpus.
As palavras encontradas nos documentos acima são: `o`, `menino`, `correu`, `do`, `cão` e `com`

#### 2) Contagem das palavras
Nesta etapa devemos contar quantas vezes cada palavra do vocabulário aparece em cada documento/texto, e criamos um vetor com as quantidades computadas.

![Tabela Bag of Words](https://docs.google.com/uc?export=download&id=1wDFX5RknqY8eBBaeurIqPK5KgwzjAKfd)

Assim são gerados vetores individuais de cada documento:

*   *O menino correu*: `[1, 1, 1, 0, 0, 0]`
*   *O menino correu do cão*: `[1, 1, 1, 1, 1, 0]`
*   *O menino com o cão*: `[2, 1, 0, 0, 1, 0]`





> **SACO DE PALAVRAS?** A técnica tem esse nome pois perde-se toda informação contextual do texto, ou seja, onde cada palavra apareceu em cada documento, como se pegássemos todas palavras e colocássemos dentro de um saco!



> A matriz com as frequências das palavras também é chamada de **MATRIZ TERMO-DOCUMENTO**

**Mas, qual a ideia por trás do BoW?**

O BoW segue a ideia de que **documentos semelhantes terão contagens de palavras semelhantes** entre si. Em outras palavras, quanto mais semelhantes forem as palavras em dois documentos, mais semelhantes poderão ser os documentos.
Além disso, ao definir a matriz termo-documento, intui-se que **palavras com alta ocorrência em um documento, sejam importantes a ele**, ou seja, devem estar entre os temas centrais do texto.



**EXEMPLO**: Imagine os vetores a seguir:

![Tabela Bag of Words](https://docs.google.com/uc?export=download&id=1dKga70Q9l3IRtW28TBqTcn8c_0kEQcrS)

O vetor do documento 1 e 2 são similares (assim como seus textos). Já o vetor do documento 3 se difere completamente.




### **Utilizando o scikit-learn para calcular o BoW ou matriz termo-documento**
Apesar de ser uma técnica simples de se implementar, não há necessidade, pois ela já é implementada dentro da biblioteca `scikit-learn` sob o nome de `CountVectorizer`

In [None]:
# Exemplo de corpus
corpus = [
            "o menino correu.",
            "o menino correu do cão.",
            "O Menino com o Cão."
]

# corpus = [
#             "gatos são bonitos",
#             "gatos são lindos",
#             "tomate é fruta"
# ]

In [None]:
# Importa funcionalidade de BoW
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# Cria instância de CountVectorizer
vect = CountVectorizer()

In [None]:
# Transforma o corpus em vetores numéricos (BoW)
X = vect.fit_transform(corpus)
X

<3x5 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [None]:
# Imprime a ordem de cada coluna
print(vect.get_feature_names())

['com', 'correu', 'cão', 'do', 'menino']


In [None]:
# Imprime vetores (BoW)
print(X.toarray())

[[0 1 0 0 1]
 [0 1 1 1 1]
 [1 0 1 0 1]]




> **ATENÇÃO**: O CountVectorizer já transforma as palavras em `lowercase` por padrão, ignora pontuação e coloca as palavras em ordem alfabética nos vetores. Além disso ignora palavras que tenham frequência abaixo ou acima dos parâmetros `min_df` e `max_df`.



É possível também **vetorizar N-Grams** do corpus usando o CountVectorizer, sem necessidade de usar alguma função extra. Geralmente o fazemos para obter mais **contexto** do texto.

In [None]:
# Cria instância de CountVectorizer
# Apenas 2-grams serão gerados
vect = CountVectorizer( ngram_range=(2,2) )

# Transforma o corpus em vetores numéricos (BoW)
X = vect.fit_transform(corpus)
X

<3x5 sparse matrix of type '<class 'numpy.int64'>'
	with 6 stored elements in Compressed Sparse Row format>

In [None]:
# Imprime a ordem de cada coluna
print(vect.get_feature_names())

['com cão', 'correu do', 'do cão', 'menino com', 'menino correu']


In [None]:
# Imprime vetores (BoW)
print(X.toarray())

[[0 0 0 0 1]
 [0 1 1 0 1]
 [1 0 0 1 0]]




> **DICA**: Vale a pena olhar a [documentação](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) do CountVectorizer, pois existem diversos parâmetros úteis que podemos utilizar.



### **Limitações do BoW**
Apesar das ideias de que **documentos semelhantes terão contagens de palavras semelhantes** entre si (ao aprender Classificação de Textos você poderá ver isso mais detalhadamente) e que **uma palavra com alta frequência em um documento é considerada importante** funcionarem em vários casos, o modelo BoW tem algumas limitações, entre elas:

*   **Peso igual a todas palavras**: o BoW dá um peso igual a todas palavras. Em nosso exemplo palavras como "com" e "do", tem o mesmo peso de "cão" e "menino". Isso não é bom pois palavras mais comuns (artigos, preposições, etc) deveriam ter peso menor, pois são menos discriminantes.
*   **Significado semântico**: a abordagem básica do BOW não considera o significado da palavra no documento. Ignora completamente o contexto em que é usado. A mesma palavra pode ser usada em vários locais com base no contexto ou nas palavras próximas (embora o uso de n-grams possa amenizar um pouco o problema do contexto).
*   **Tamanho do vetor - maldição da dimensionalidade**: para um documento grande, o tamanho do vetor pode ser enorme, resultando em muito tempo de processamento e alto consumo de memória. Pode ser necessário ignorar as palavras com base na relevância do seu caso de uso.






### **Aplicações do BoW**
Ele é útil em qualquer tarefa em que a posição ou informação contextual do texto não é tão importante. Alguns exemplos são:

*   Identificar o autor de um documento (**classificação de textos**)
*   Agrupar documentos por tópicos (**clusterização**)
*   Análise de sentimentos - identificar "positividade"/"negatividade" de um documento (**regressão**)


### **ATIVIDADE PRÁTICA** - Análise de vetorização de corpus
Nesta atividade iremos analisar um pequeno corpus fictício, realizar a vetorização do mesmo, discutir problemas no modelo e eventualmente tentar corrigí-los.

In [None]:
# Um corpus fictício com 8 documentos
corpus = [
          'Um caminhão está descendo rapidamente um morro.',#0
          'O caminhão está rapidamente descendo o morro.',#1
          'O menininho come bananas.',#2
          'O menino comeu banana.',#3
          'Pizza? Portuguesa!',#4
          'Carro? Marea!',#5
          'Qual Seu Nome?',#6
          'qual seu nome?'#7
]

In [None]:
# Código da QUESTÃO 4
import nltk
from nltk import tokenize
nltk.download('punkt')
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()

new_corpus=[' '.join([stemmer.stem(word) for word in tokenize.word_tokenize(text, language='portuguese')]) for text in corpus]


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [None]:
corpus

['Um caminhão está descendo rapidamente um morro.',
 'O caminhão está rapidamente descendo o morro.',
 'O menininho come bananas.',
 'O menino comeu banana.',
 'Pizza? Portuguesa!',
 'Carro? Marea!',
 'Qual Seu Nome?',
 'qual seu nome?']

In [None]:
new_corpus

['um caminh est desc rapid um morr .',
 'o caminh est rapid desc o morr .',
 'o menin com banan .',
 'o menin com banan .',
 'pizz ? portugu !',
 'carr ? mare !',
 'qual seu nom ?',
 'qual seu nom ?']

In [None]:
corpus = new_corpus

#### 1) Mostre a quantidade de caracteres e tokens do corpus


> **DICA**: É possível concatenar todas sentenças da lista em uma String apenas usando a função `join()`



In [None]:
todotexto = ' '.join(corpus)
todotexto

'um caminh est desc rapid um morr . o caminh est rapid desc o morr . o menin com banan . o menin com banan . pizz ? portugu ! carr ? mare ! qual seu nom ? qual seu nom ?'

In [None]:
import nltk
from nltk import tokenize
nltk.download('punkt')

tokens = tokenize.word_tokenize(todotexto, language='portuguese')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
len(todotexto)

168

In [None]:
len(tokens)

42

#### 2) Mostre a quantidade de tokens únicos do corpus
Ao saber a quantidade de tokens únicos, qual informação importante você pode afirmar a respeito de um possível BoW?

In [None]:
len(set(tokens))

20

In [None]:
# Após gerar o vetor, podemos mostrar para os alunos pq houve diferença na quantidade de tokens únicos para a dimensão dos vetores
set(tokens)

{'!',
 '.',
 '?',
 'banan',
 'caminh',
 'carr',
 'com',
 'desc',
 'est',
 'mare',
 'menin',
 'morr',
 'nom',
 'o',
 'pizz',
 'portugu',
 'qual',
 'rapid',
 'seu',
 'um'}

#### 3) Aplique o BoW no corpus e mostre as dimensões, palavras e os valores do vetor resultante

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
X = vect.fit_transform(corpus)
X

<8x16 sparse matrix of type '<class 'numpy.int64'>'
	with 27 stored elements in Compressed Sparse Row format>

In [None]:
print(vect.get_feature_names())

['banan', 'caminh', 'carr', 'com', 'desc', 'est', 'mare', 'menin', 'morr', 'nom', 'pizz', 'portugu', 'qual', 'rapid', 'seu', 'um']


In [None]:
print(X.toarray())

[[0 1 0 0 1 1 0 0 1 0 0 0 0 1 0 2]
 [0 1 0 0 1 1 0 0 1 0 0 0 0 1 0 0]
 [1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0]
 [0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0]]


#### 4) Coloque o nome das colunas e valores do vetor em um `DataFrame` do `pandas`

In [None]:
import pandas as pd
results = pd.DataFrame(X.toarray(), columns=vect.get_feature_names())
results

Unnamed: 0,banan,caminh,carr,com,desc,est,mare,menin,morr,nom,pizz,portugu,qual,rapid,seu,um
0,0,1,0,0,1,1,0,0,1,0,0,0,0,1,0,2
1,0,1,0,0,1,1,0,0,1,0,0,0,0,1,0,0
2,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0
3,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0
5,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0
7,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0


#### 5) Ao comparar os vetores resultantes e aplicar a função de Distância de Jaccard nos documentos 2 e 3 verificamos que eles são bem dissimilares, apesar de serem sentenças com valor semântico similar. **Como podemos tornar os vetores do BoW para estes documentos mais semelhantes?**

In [None]:
# Imprime vetor do documento 2
print(X[2].toarray())

[[1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]]


In [None]:
# Imprime vetor do documento 3
print(X[3].toarray())

[[1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]]


In [None]:
d2_set = set(nltk.word_tokenize(corpus[2], language='portuguese'))
d3_set = set(nltk.word_tokenize(corpus[3], language='portuguese'))

#Calcula Jaccard
nltk.jaccard_distance(d2_set, d3_set)

0.0

Você pode alterar/incluir células nas questões anteriores para resolver essa questão. Depois re-execute as 3 células acima para checar os resultados.

#### 6) Gere um BoW com 2-grams e 3-grams
Olhe a documentação do CountVectorizer para verificar como parametrizar para gerar os dois simultaneamente.

## Referências e Material complementar

*   [An Introduction to Bag-of-Words in NLP](https://medium.com/greyatom/an-introduction-to-bag-of-words-in-nlp-ac967d43b428)
*   [A Simple Explanation of the Bag-of-Words Model](https://victorzhou.com/blog/bag-of-words/)