# Bag of Word

Bag of Words（BoW）又称词袋模型，是一种简单而有效的文本向量化方法。词袋模型目前没有归属一个具体的发明者，而是在信息检索、文本分类和自然语言处理等领域中逐渐发展演变出来的一种常用的文本表示方法。One-Hot编码虽然完成了数据从非数值到数值的转变，但在文本分类，特征提取等方面作用十分有限，且每个词都对应一个稀疏向量，存储效率较低。词袋模型将文本看作是单词的无序集合，忽略词的顺序和语法，只关注词的出现频率。因此词袋模型在One-Hot编码的基础上提升了文本向量化的效果，并减少了存储负担。

对于句子、篇章，常用的离散表示方法是词袋模型，词袋模型以 One-Hot 为基础，忽略词表中词的顺序和语法关系， 通过记录词表中的每一个词在该文本中出现的频次来表示该词在文本中的重要程度，解决了 One-Hot 未能考虑词频的问题
词袋(Bag Of Word) 模型是最早的以词语为基本单元的文本向量化方法。词袋模型，也称为**计数向量表示(Count Vectors)**. 文档的向量表示可以直接使用单词的向量进行求和得到


## 优点与缺点

优点：

● 简单易实现。

● 对于小规模数据集，词袋模型的计算效率很高。

缺点：

● 对于大型词汇表，词袋模型生成的向量维度很高，从而导致内存使用量大。

● 完全忽略了词的顺序，无法捕捉句子的语法和结构信息。

● 仅仅统计词频，而无法捕捉词与词之间的语义关系。


## 应用场景

● 作为一种基础的文本向量化方法，词袋模型可用于简单的文本处理任务，也可结合其他技术而用于更复杂的场景中。

In [11]:
import os
import pandas as pd

# 文本数据
# corpus = ["The cat sat the mat", "The dog ate my homework"]

file_path = os.path.join("./data", "corpus.txt")
with open(file_path, encoding="utf-8") as f:
    corpus = f.readlines()

# 构建词汇表
vocab = sorted(set(" ".join(corpus).split()))
word_to_idx = {word: idx for idx, word in enumerate(vocab)}

# 获取词汇表大小
vocab_size = len(vocab)

# print("词汇表:", vocab)
# print("索引映射:", word_to_idx)


# 将文本转换为词袋表示
def text_to_bag_of_words(text, vocab_size, word_to_idx):
    bag_of_words = [0] * vocab_size

    # 计算每个单词出现的次数
    words = text.split()
    for word in words:
        if word in word_to_idx:
            idx = word_to_idx[word]
            bag_of_words[idx] += 1

    return bag_of_words


# 将语料库中的每句话转换为词袋表示
bag_of_words_corpus = [text_to_bag_of_words(sentence, vocab_size, word_to_idx) for sentence in corpus]

# 打印词袋表示结果
# for sentence, bow in zip(corpus, bag_of_words_corpus):
#     print(f"句子: '{sentence.strip()}'")
#     print(f"词汇: {vocab}")
#     print(f"词袋表示: {bow}")
df = pd.DataFrame(bag_of_words_corpus, columns=vocab)
df

Unnamed: 0,John,Mary,also,football,games.,likes,"moives,",to,too.,watch
0,1,1,0,0,0,2,1,1,1,1
1,1,0,1,1,1,1,0,1,0,1


In [8]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

count_vec = CountVectorizer(stop_words=None, lowercase=False)
# transform
feature = count_vec.fit_transform(corpus)

# create dataframe
df = pd.DataFrame(feature.toarray(), columns=count_vec.get_feature_names_out())
df


Unnamed: 0,John,Mary,also,football,games,likes,moives,to,too,watch
0,1,1,0,0,0,2,1,1,1,1
1,1,0,1,1,1,1,0,1,0,1
