# **Aplicação do Bag of Words**

*O Bag of Words é uma representação que transforma o texto em vetores de tamanhos fixos, contando a quantidade de vezes que cada palavra aparece*

*Esse notebook foi desenvolvido com o intuito de entender como seria o funcinamento do Bag of Words dentro de frases de exemplo do auto estudo disponibilizado*

<a href = "https://towardsdatascience.com/a-simple-explanation-of-the-bag-of-words-model-b88fc4f4971">A Simple Explanation of the Bag of Words Model</a>

In [1]:
# importação das bibliotecas necessárias
import nltk
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
from nltk.tokenize import WhitespaceTokenizer

In [2]:
# definição das senteças, que serão utilizadas no exemplo de ag of Words
sentences = {
    "comments" : [
        "the cat sat",
        "the cat sat in the hat",
        "the cat with the hat"
    ]
} 

In [3]:
df = pd.DataFrame(sentences)

## **1º Passo para a aplicação do Bag of Words**

*O primeiro passo para todo desenvolvimento de um modelo Bag of Words é determinar o vocabulário. A partir disso, temos os seguinte bloco de código que faz a tokenização das frases de exemplo.*


In [4]:
token_space = WhitespaceTokenizer()
tokenized_sentences = []
corpus = []

# para cada sentença dentro do nosso dataframe ele executa o bloco de código dentro do for
for sentence in df["comments"]:
        tokens = token_space.tokenize(sentence)
        tokenized_sentences.append(tokens)
        corpus.append(' '.join(tokens))

        print(f'Frases antes da Tokenização', {sentence})
        print()
        print(f'Frase após a Tokenização', tokens)

Frases antes da Tokenização {'the cat sat'}

Frase após a Tokenização ['the', 'cat', 'sat']
Frases antes da Tokenização {'the cat sat in the hat'}

Frase após a Tokenização ['the', 'cat', 'sat', 'in', 'the', 'hat']
Frases antes da Tokenização {'the cat with the hat'}

Frase após a Tokenização ['the', 'cat', 'with', 'the', 'hat']


## **2º Passo para a aplicação do Bag of Words**

*O segundo passo do Bag of Words é fazer realmente a contagem das palavras dentro das frases, utilizando uma matriz para representar a recorr~encia de cada palavra na frase inputada ou lida*

In [5]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
X_to_array = X.toarray()

print(X_to_array)

[[1 0 0 1 1 0]
 [1 1 1 1 2 0]
 [1 1 0 0 2 1]]
