# Bag of Words model

O bag of words consiste em vetorizar um documento de texto de acordo com um vocabulário definido. O vetor final de um documento apresenta a quantificação de quantas ocorrências determinada palavra têm no documento de texto.

In [1]:
from collections import Counter
import numpy as np

#### From scratch

In [2]:
class TAIL_BoW:
    def __init__(self, vocab_size, min_count):
        # Vocab size é o tamanho maximo do nosso vocabulario
        self.vocab_size = vocab_size
        # min_count é a quantidade minima de ocorrencias de uma palavra para essa ser considerada no nosso vetor
        self.min_count = min_count
        self.vocab = []
        self.vocab_vec = []
    
    def fit(self, words_in_doc):
        words_in_doc = [word for word in words_in_doc if words_in_doc.count(word) >= self.min_count]       
        result = sorted(words_in_doc, key = words_in_doc.count, reverse = True) 
        self.vocab = list(set(result[:self.vocab_size]))
        self.vocab_vec = np.zeros(len(self.vocab))
        
    def transform(self, query_doc_words):
        output_vector = np.zeros(len(self.vocab))
        for word in query_doc_words:
            if word in self.vocab:
                index = self.vocab.index(word)
                output_vector[index] += 1
            
        return output_vector
    
    def get_vocab_words(self):
        return self.vocab
    

    def fit_and_transform(self,words):
        self.fit(words)
        return self.transform(words)
        
        
            
    

In [3]:
vectorizer = TAIL_BoW(15,1)

In [4]:
vectorizer.fit(['hello','hi','how','hello','hi','apple','stonk','how'])

In [5]:
vectorizer.transform(['hello','hi','how','hello','hi','stonk'])

array([2., 2., 1., 0., 1.])

In [6]:
vectorizer.get_vocab_words()

['hello', 'hi', 'stonk', 'apple', 'how']

In [7]:
vectorizer.fit_and_transform(['hello','hi','how','hello','hi','apple','stonk','capacete'])

array([2., 2., 1., 1., 1., 1.])