<a href="https://colab.research.google.com/github/esashika/esashika_academy/blob/main/NLP_BOW.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Esashika Academy**

**Autor:** Rhedson Esashika

**Linkedin:** https://www.linkedin.com/in/esashika/

# **Bag of Words (BoW)**

O **Bag of Words** (traduzido livremente para “saco de palavras”) é um método simples e bastante utilizado no **Processamento de Linguagem Natural (PLN)** para representar textos de forma numérica, tornando-os compreensíveis para algoritmos de **Machine Learning**.

> Em muitas fontes, você poderá ver a sigla “BoW” em inglês.



# **Pontos Fortes e Limitações**

### Pontos Fortes

- **Fácil de implementar**: é uma das técnicas mais simples para transformar texto em números.
- **Rápido**: requer basicamente contar palavras e montar vetores.
- **Serve de base para algoritmos de classificação** e outras tarefas de PLN, principalmente quando se tem muitos dados de texto e é importante ter um método simples para começar.

### Limitações

- **Não considera a ordem das palavras**: “O gato dorme na cama” e “Na cama, o gato dorme” geram a mesma representação, apesar de a ordem poder ser relevante em alguns casos.
- **Não leva em conta a estrutura sintática** (sujeito, verbo, objeto, etc.).
- **Gera vetores esparsos**: em grandes vocabulários, a maioria das posições pode ficar em zero.
- **Palavras com significados diferentes** em contextos diversos são tratadas como iguais (por exemplo, “banco” de sentar e “banco” instituição financeira).

# **1. Implementando um BoW** "*na mão*".

## **Step 1:** Preprocessing the Text Data

In [3]:
from collections import defaultdict
import string
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Download stopwords e tokenizer
nltk.download("punkt")
nltk.download("stopwords")
nltk.download('punkt_tab')

# Sample text data: sentenças
corpus = [
    "Python is amazing and fun.",
    "Python is not just fun but also powerful.",
    "Learning Python is fun!",
]

# Função para pré-processar texto
def preprocess(text):
    # Convert to lowercase
    text = text.lower()
    # Remove punctuation
    text = text.translate(str.maketrans("", "", string.punctuation))
    # Tokenize: split the text into words
    tokens = word_tokenize(text)
    # Remove stopwords
    stop_words = set(stopwords.words("english"))
    tokens = [word for word in tokens if word not in stop_words]
    return tokens

# Aplicar pré-processamento ao corpus de amostra
processed_corpus = [preprocess(sentence) for sentence in corpus]
print(processed_corpus)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


[['python', 'amazing', 'fun'], ['python', 'fun', 'also', 'powerful'], ['learning', 'python', 'fun']]


## **Step 2:** Build Vocabulary

In [4]:
# Inicialize um conjunto vazio para o vocabulário
vocabulary = set()

# Construindo o vocabulário
for sentence in processed_corpus:
    vocabulary.update(sentence)

# Convertendo para uma lista ordenada
vocabulary = sorted(list(vocabulary))
print("Vocabulary:", vocabulary)

Vocabulary: ['also', 'amazing', 'fun', 'learning', 'powerful', 'python']


## **Step 3:** Calculate Word Frequencies and Vectorize

In [5]:
def create_bow_vector(sentence, vocab):
    vector = [0] * len(vocab)  # Inicializando o vetor com zeros
    for word in sentence:
        if word in vocab:
            idx = vocab.index(word)  # Encontrando o índice da palavra no vocabulário
            vector[idx] += 1
    return vector


# Criando um vetor BoW para cada frase no corpus processado
bow_vectors = [create_bow_vector(sentence, vocabulary) for sentence in processed_corpus]
print("Bag of Words Vectors:")
for vector in bow_vectors:
    print(vector)

Bag of Words Vectors:
[0, 1, 1, 0, 0, 1]
[1, 0, 1, 0, 1, 1]
[0, 0, 1, 1, 0, 1]


# **2. Usando o Scikit-learn’s CountVectorizer**

In [9]:
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

# Download das stopwords
nltk.download("stopwords")

# Lista de stopwords em inglês
stop_words = list(stopwords.words("english"))

# Original corpus
corpus = [
    "I loved the movie, it was fantastic!",
    "The movie was okay, but not great.",
    "I hated the movie, it was terrible.",
]

# O objeto CountVectorizer será usado para transformar o texto em uma matriz de contagens de palavras,
# removendo as stopwords do processamento.
vectorizer = CountVectorizer(stop_words=stop_words)

# O método .fit_transform() aprende o vocabulário do corpus e transforma os
# textos em uma matriz esparsa (matriz que tem muitos elementos com valor zero,
# ou seja, que é composta principalmente por zeros), onde cada linha representa
# um documento e cada coluna representa uma palavra única do vocabulário.
X = vectorizer.fit_transform(corpus)

# Exibir o vocabulário (palavras únicas extraídas do corpus)
print("Vocabulary:", vectorizer.get_feature_names_out())

# Converter a matriz esparsa em uma matriz comum para visualização
print("BoW Representation:")
print(X.toarray())

Vocabulary: ['fantastic' 'great' 'hated' 'loved' 'movie' 'okay' 'terrible']
BoW Representation:
[[1 0 0 1 1 0 0]
 [0 1 0 0 1 1 0]
 [0 0 1 0 1 0 1]]


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# **3. Exemplo "beeeem prático" de utilização.**

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Conjunto de frases
corpus = [
    "I love this movie", "This film is amazing", "I really enjoyed the story",
    "The acting was great", "What a fantastic experience", "I hate this movie",
    "This film is terrible", "The story was boring", "I did not enjoy the acting",
    "What a horrible experience", "I absolutely loved it", "This was the worst movie ever",
    "I highly recommend this film", "I would not watch it again", "The performance was outstanding",
    "The dialogues were poorly written", "It was an unforgettable movie",
    "I disliked the character development", "One of the best films I have ever seen",
    "The script was badly executed", "A masterpiece of storytelling",
    "This film is not bad", "I never want to see this again",
    "Incredible cinematography and acting", "I cannot stand this movie",
    "The music and visuals were stunning", "The film was just okay",
    "I think this was a very good movie", "The characters were well developed",
    "This was a total disappointment", "I was very impressed with the film",
    "The movie exceeded my expectations", "I wish I had never watched this",
    "I wouldn't recommend it to anyone", "This was a well-crafted movie",
    "I regret spending my time watching this"
]

# Rótulos (1 = positivo, 0 = negativo)
labels = [1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1,
          0, 1, 1, 0, 1, 1, 0, 0, 1, 0]

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(corpus, labels, test_size=0.2, random_state=42)

# Criaando um modelo Bag of Words melhorado
# ngram_range=(1,2) → Considera palavras individuais (unigramas) e pares de palavras consecutivas (bigramas) para capturar melhor o contexto.
# max_features=500 → Mantém apenas as 500 palavras/termos mais frequentes, reduzindo ruído e melhorando a eficiência do modelo.
vectorizer = CountVectorizer(ngram_range=(1,2), max_features=500)  # Inclui unigramas e bigramas, limita a 500 features

# Transformar os textos em representações numéricas
X_train_bow = vectorizer.fit_transform(X_train)
X_test_bow = vectorizer.transform(X_test)

# Criar e treinar o classificador Naive Bayes
classifier = MultinomialNB(alpha=0.3)  # Melhor ajuste para suavização
classifier.fit(X_train_bow, y_train)

# Fazer previsões
y_pred = classifier.predict(X_test_bow)

# Avaliação do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f" Precisão do modelo: {accuracy * 100:.2f}%")

# Testar com uma nova frase
new_sentence = ["I absolutely loved the story"]
new_sentence_bow = vectorizer.transform(new_sentence)
prediction = classifier.predict(new_sentence_bow)

# Exibir a predição
print(f" Sentimento previsto: {'Positivo' if prediction[0] == 1 else 'Negativo'}")

 Precisão do modelo: 62.50%
 Sentimento previsto: Positivo
