# Introdução

Este notebook demonstra a implementação do modelo Bag of Words para processamento de linguagem natural (NLP), seguindo o tutorial disponível no [Kaggle](https://www.kaggle.com/code/vipulgandhi/bag-of-words-model-for-beginners). Serão realizados testes com frases em inglês e português para avaliar a eficácia do modelo.

## Teste com frases em Inglês:

In [None]:
famous_quotes = [
    "It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife.",  # Pride and Prejudice
    "It was the best of times, it was the worst of times.",  # A Tale of Two Cities
    "The only thing we have to fear is fear itself.",  # Franklin D. Roosevelt
    "May the Force be with you.",  # Star Wars
    "I'm the king of the world!",  # Titanic
    "To infinity and beyond!",  # Toy Story
    "There's no place like home.",  # The Wizard of Oz
    "I am your father.",  # Star Wars
    "Elementary, my dear Watson.",  # The Adventures of Sherlock Holmes
    "I think, therefore I am.",  # Rene Descartes
    "I'm gonna make him an offer he can't refuse.",  # The Godfather
    "Frankly, my dear, I don't give a damn.",  # Gone with the Wind
    "Inconceivable!",  # The Princess Bride
    "You're gonna need a bigger boat.",  # Jaws
    "I see dead people.",  # The Sixth Sense
    "Why so serious?",  # The Dark Knight
    "Houston, we have a problem.",  # Apollo 13
    "Just keep swimming.",  # Finding Nemo
    "Winter is coming.",  # Game of Thrones
    "You can't handle the truth!",  # A Few Good Men
    "My precious.",  # The Lord of the Rings
    "What we've got here is failure to communicate.",  # Cool Hand Luke
    "You talking to me?",  # Taxi Driver
    "After all this time? Always.",  # Harry Potter and the Deathly Hallows
    "Life is like a box of chocolates, you never know what you're gonna get."  # Forrest Gump
]

O código abaixo cria uma lista com todas as palavras utilizadas na lista oferecida (famous_quotes), de modo a não repetir nenhuma palavra:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
# tokenizar e construir vocabulário
vectorizer.fit(famous_quotes)

# coloca em ordem
sorted_list = sorted(vectorizer.vocabulary_)
print(sorted_list)

['acknowledged', 'after', 'all', 'always', 'am', 'an', 'and', 'be', 'best', 'beyond', 'bigger', 'boat', 'box', 'can', 'chocolates', 'coming', 'communicate', 'damn', 'dead', 'dear', 'don', 'elementary', 'failure', 'father', 'fear', 'force', 'fortune', 'frankly', 'get', 'give', 'gonna', 'good', 'got', 'handle', 'have', 'he', 'here', 'him', 'home', 'houston', 'in', 'inconceivable', 'infinity', 'is', 'it', 'itself', 'just', 'keep', 'king', 'know', 'life', 'like', 'make', 'man', 'may', 'me', 'must', 'my', 'need', 'never', 'no', 'of', 'offer', 'only', 'people', 'place', 'possession', 'precious', 'problem', 're', 'refuse', 'see', 'serious', 'single', 'so', 'swimming', 'talking', 'that', 'the', 'there', 'therefore', 'thing', 'think', 'this', 'time', 'times', 'to', 'truth', 'universally', 've', 'want', 'was', 'watson', 'we', 'what', 'why', 'wife', 'winter', 'with', 'world', 'worst', 'you', 'your']


O código abaixo vetoriza cada uma das frases. Analisa-se a partir do tamanho (shape) que são 25 frases, que foram os imputs colocados, e cada umas das linhas do vetor tem 103 colunas, que representam a quantidade de palavras compostas no vetor. Cada linha do vetor é uma frase, e se aquela frase tem aquela palavra, ela será colocada a quantidade de vezes que a palavra aparece. Confira abaixo:


In [None]:
# codificar documento
vector = vectorizer.transform(famous_quotes)
# resumir vetor codificado
print(vector.shape)
print(vector.toarray())

(25, 103)
[[1 0 0 ... 0 0 0]
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 1 0]
 [0 1 1 ... 0 0 0]
 [0 0 0 ... 0 2 0]]


In [None]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Nota-se que o vetor é muito grande, uma forma de diminuílo seria tirando as stop-words. Que são palavras que aparecem no texto mas são insignificantes para o processamento de linguagem, e sua presença pode impactar o modelo de processamento, como conectores. Segue o resultado tirando as stop-words, o que consequentemente diminuem o vetor:

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('punkt')
nltk.download('stopwords')

stop_words = set(stopwords.words('english'))

# Função para remover stopwords de uma frase
def remove_stopwords(sentence):
    words = word_tokenize(sentence)
    filtered_sentence = [word for word in words if not word.lower() in stop_words]
    return " ".join(filtered_sentence)

# Aplicando a função em todas as frases
filtered_quotes = [remove_stopwords(quote) for quote in famous_quotes]
filtered_quotes


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['truth universally acknowledged , single man possession good fortune , must want wife .',
 'best times , worst times .',
 'thing fear fear .',
 'May Force .',
 "'m king world !",
 'infinity beyond !',
 "'s place like home .",
 'father .',
 'Elementary , dear Watson .',
 'think , therefore .',
 "'m gon na make offer ca n't refuse .",
 "Frankly , dear , n't give damn .",
 'Inconceivable !',
 "'re gon na need bigger boat .",
 'see dead people .',
 'serious ?',
 'Houston , problem .',
 'keep swimming .',
 'Winter coming .',
 "ca n't handle truth !",
 'precious .',
 "'ve got failure communicate .",
 'talking ?',
 'time ? Always .',
 "Life like box chocolates , never know 're gon na get ."]

Agora que temos uma lista com todas as palavras que aparecem nas frases, tirando as stop-words, seguimos o processo de BAg-of-Words semelhante da anterior:


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
# tokenizar e construir vocabulário
vectorizer.fit(filtered_quotes)

# coloca em ordem
sorted_list = sorted(vectorizer.vocabulary_)
print(sorted_list)

['acknowledged', 'always', 'best', 'beyond', 'bigger', 'boat', 'box', 'ca', 'chocolates', 'coming', 'communicate', 'damn', 'dead', 'dear', 'elementary', 'failure', 'father', 'fear', 'force', 'fortune', 'frankly', 'get', 'give', 'gon', 'good', 'got', 'handle', 'home', 'houston', 'inconceivable', 'infinity', 'keep', 'king', 'know', 'life', 'like', 'make', 'man', 'may', 'must', 'na', 'need', 'never', 'offer', 'people', 'place', 'possession', 'precious', 'problem', 're', 'refuse', 'see', 'serious', 'single', 'swimming', 'talking', 'therefore', 'thing', 'think', 'time', 'times', 'truth', 'universally', 've', 'want', 'watson', 'wife', 'winter', 'world', 'worst']


In [None]:
# codificar documento
vector = vectorizer.transform(filtered_quotes)
# resumir vetor codificado
print(vector.shape)
print(vector.toarray())

(25, 70)
[[1 0 0 ... 0 0 0]
 [0 0 1 ... 0 0 1]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 1 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Veja que o tamanho do vetor diminuiu de 103 valores para 70 após a filtragem de Stop-words. Garantindo uma maior eficiência, tanto na economia de espaço, quanto na qualidade do modelo de treinamento.


## Teste com palavras em Português:

In [None]:
frases_famosas_pt = [
    "É uma verdade universalmente reconhecida que um homem solteiro, possuidor de uma boa fortuna, deve estar em busca de uma esposa.",  # Orgulho e Preconceito
    "Era o melhor dos tempos, era o pior dos tempos.",  # Um Conto de Duas Cidades
    "A única coisa que devemos temer é o próprio medo.",  # Franklin D. Roosevelt
    "Que a Força esteja com você.",  # Star Wars
    "Eu sou o rei do mundo!",  # Titanic
    "Ao infinito e além!",  # Toy Story
    "Não há lugar como nosso lar.",  # O Mágico de Oz
    "Eu sou seu pai.",  # Star Wars
    "Elementar, meu caro Watson.",  # As Aventuras de Sherlock Holmes
    "Penso, logo existo.",  # René Descartes
    "Vou fazer-lhe uma oferta que ele não poderá recusar.",  # O Poderoso Chefão
    "Francamente, minha querida, eu não dou a mínima.",  # E o Vento Levou
    "Inconcebível!",  # A Princesa Prometida
    "Você vai precisar de um barco maior.",  # Tubarão
    "Eu vejo pessoas mortas.",  # O Sexto Sentido
    "Por que tão sério?",  # O Cavaleiro das Trevas
    "Houston, temos um problema.",  # Apollo 13
    "Continue nadando.",  # Procurando Nemo
    "O inverno está chegando.",  # Game of Thrones
    "Você não pode lidar com a verdade!",  # Questão de Honra
    "Meu precioso.",  # O Senhor dos Anéis
    "O que temos aqui é uma falha de comunicação.",  # Rebeldia Indomável
    "Você está falando comigo?",  # Taxi Driver
    "Depois de todo esse tempo? Sempre.",  # Harry Potter e as Relíquias da Morte
    "A vida é como uma caixa de chocolates, você nunca sabe o que vai encontrar."  # Forrest Gump
]


Seguindo o mesmo processo que o anterior, temos a seguinte solução

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
# tokenizar e construir vocabulário
vectorizer.fit(frases_famosas_pt)

# coloca em ordem
sorted_list = sorted(vectorizer.vocabulary_)
print(sorted_list)

['além', 'ao', 'aqui', 'barco', 'boa', 'busca', 'caixa', 'caro', 'chegando', 'chocolates', 'coisa', 'com', 'comigo', 'como', 'comunicação', 'continue', 'de', 'depois', 'deve', 'devemos', 'do', 'dos', 'dou', 'ele', 'elementar', 'em', 'encontrar', 'era', 'esposa', 'esse', 'estar', 'esteja', 'está', 'eu', 'existo', 'falando', 'falha', 'fazer', 'fortuna', 'força', 'francamente', 'homem', 'houston', 'há', 'inconcebível', 'infinito', 'inverno', 'lar', 'lhe', 'lidar', 'logo', 'lugar', 'maior', 'medo', 'melhor', 'meu', 'minha', 'mortas', 'mundo', 'mínima', 'nadando', 'nosso', 'nunca', 'não', 'oferta', 'pai', 'penso', 'pessoas', 'pior', 'pode', 'poderá', 'por', 'possuidor', 'precioso', 'precisar', 'problema', 'próprio', 'que', 'querida', 'reconhecida', 'recusar', 'rei', 'sabe', 'sempre', 'seu', 'solteiro', 'sou', 'sério', 'temer', 'temos', 'tempo', 'tempos', 'todo', 'tão', 'um', 'uma', 'universalmente', 'vai', 'vejo', 'verdade', 'vida', 'você', 'vou', 'watson', 'única']


In [None]:
# codificar documento
vector = vectorizer.transform(frases_famosas_pt)
# resumir vetor codificado
print(vector.shape)
print(vector.toarray())

(25, 105)
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 1]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Agora vamos tentar retirando as stop-words, que novamente vai gerar uma diminuição do vetor de palavras ggarantindo eficiência para a solução final:

In [None]:
stop_words = set(stopwords.words('portuguese'))

# Função para remover stopwords de uma frase
def remove_stopwords(sentence):
    words = word_tokenize(sentence)
    filtered_sentence = [word for word in words if not word.lower() in stop_words]
    return " ".join(filtered_sentence)

# Aplicando a função em todas as frases
frases_famosas_pt_sem_stopwords = [remove_stopwords(frase) for frase in frases_famosas_pt]
frases_famosas_pt_sem_stopwords

['verdade universalmente reconhecida homem solteiro , possuidor boa fortuna , deve busca esposa .',
 'melhor tempos , pior tempos .',
 'única coisa devemos temer próprio medo .',
 'Força .',
 'rei mundo !',
 'infinito além !',
 'lugar lar .',
 'pai .',
 'Elementar , caro Watson .',
 'Penso , logo existo .',
 'Vou fazer-lhe oferta poderá recusar .',
 'Francamente , querida , dou mínima .',
 'Inconcebível !',
 'vai precisar barco maior .',
 'vejo pessoas mortas .',
 'tão sério ?',
 'Houston , problema .',
 'Continue nadando .',
 'inverno chegando .',
 'pode lidar verdade !',
 'precioso .',
 'aqui falha comunicação .',
 'falando comigo ?',
 'todo tempo ? Sempre .',
 'vida caixa chocolates , nunca sabe vai encontrar .']

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
# tokenize and build vocab
vectorizer.fit(frases_famosas_pt_sem_stopwords)

# summarize
sorted_list = sorted(vectorizer.vocabulary_)
print(sorted_list)

['além', 'aqui', 'barco', 'boa', 'busca', 'caixa', 'caro', 'chegando', 'chocolates', 'coisa', 'comigo', 'comunicação', 'continue', 'deve', 'devemos', 'dou', 'elementar', 'encontrar', 'esposa', 'existo', 'falando', 'falha', 'fazer', 'fortuna', 'força', 'francamente', 'homem', 'houston', 'inconcebível', 'infinito', 'inverno', 'lar', 'lhe', 'lidar', 'logo', 'lugar', 'maior', 'medo', 'melhor', 'mortas', 'mundo', 'mínima', 'nadando', 'nunca', 'oferta', 'pai', 'penso', 'pessoas', 'pior', 'pode', 'poderá', 'possuidor', 'precioso', 'precisar', 'problema', 'próprio', 'querida', 'reconhecida', 'recusar', 'rei', 'sabe', 'sempre', 'solteiro', 'sério', 'temer', 'tempo', 'tempos', 'todo', 'tão', 'universalmente', 'vai', 'vejo', 'verdade', 'vida', 'vou', 'watson', 'única']


In [None]:
# codificar documento
vector = vectorizer.transform(frases_famosas_pt_sem_stopwords)
# resumir vetor codificado
print(vector.shape)
print(vector.toarray())

(25, 77)
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 1]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
