# Bag of Words Text Classifier

The code below implements a simple bag of words text classifier.
- We tokenize the text, create a vocabulary and encode each piece of text in the dataset
- The lookup allows for extracting embeddings for each tokenized inputs
- The embedding vectors are added together with a bias vector
- The resulting vector is referred to as the scores
- The score are applied a softmax to generate probabilities which are used for the classification task

The code used in this notebook was inspired by code from the [official repo](https://github.com/neubig/nn4nlp-code) used in the [CMU Neural Networks for NLP class](http://www.phontron.com/class/nn4nlp2021/schedule.html) by [Graham Neubig](http://www.phontron.com/index.php). 

![img txt](../img/bow.png?raw=true)

In [4]:
import torch #导入PyTorch库
import random#导入Python标准库中的random模块
import torch.nn as nn#导入PyTorch中的nn模块，用于搭建和训练神经网络

### Download the Data

In [2]:
%%capture#隐藏输出

# download the files
#使用!wget命令从GitHub下载了三个名为train.txt、test.txt和dev.txt的文本文件
!wget https://raw.githubusercontent.com/neubig/nn4nlp-code/master/data/classes/dev.txt
!wget https://raw.githubusercontent.com/neubig/nn4nlp-code/master/data/classes/test.txt
!wget https://raw.githubusercontent.com/neubig/nn4nlp-code/master/data/classes/train.txt

# create the data folders
!mkdir data data/classes#使用!mkdir创建一个名为data的新文件夹和一个名为data/classes的新文件夹
#代码使用!cp命令把三个下载的文本文件复制到data/classes文件夹中
!cp dev.txt data/classes
!cp test.txt data/classes
!cp train.txt data/classes

### Read the Data

In [5]:
# function to read in data, process each line and split columns by " ||| "
def read_data(filename):#定义读取数据的函数read_data，该函数接收一个文件名作为输入参数
    data = []#定义一个空列表data，用于存放读取的数据
    with open(filename, 'r') as f:#打开文件，使用with语句自动关闭文件
        for line in f: #对文件中的每一行进行循环
            line = line.lower().strip()#将每一行字符串转换为小写字母，并去除两端的空格
            line = line.split(' ||| ')#以’ ||| '为分隔符将每一行拆分成多个字符串，并组合成一个列表
            data.append(line) #将这个列表添加到数据列表data中
    return data#返回数据列表data

train_data = read_data('data/classes/train.txt')#读取train.txt文件中的数据，将结果赋值给train_data变量
test_data = read_data('data/classes/test.txt')#读取test.txt文件中的数据，将结果赋值给test_data变量

### Construct the Vocab and Datasets

In [6]:
# creating the word and tag indices
word_to_index = {}#创建一个空字典word_to_index，用于存放词汇表
word_to_index["<unk>"] = len(word_to_index) # adds <UNK> to dictionary#将"<unk>"作为第一个词汇表项，其索引为0
tag_to_index = {}#创建一个空字典tag_to_index，用于存放标记表

# create word to index dictionary and tag to index dictionary from data
#创建词汇表字典和标记表字典，根据数据列表中的句子生成词汇表和标记表
def create_dict(data, check_unk=False):
    for line in data:#对数据列表data中的每一个元素进行循环
        for word in line[1].split(" "):#对句子中的每一个单词进行循环
            if check_unk == False:#表示未查找到未知词汇，将新单词加入词汇表
                if word not in word_to_index:
                    word_to_index[word] = len(word_to_index)
            else:#如果check_unk=True，表示查找到未知词汇，将新单词替换为”<unk>“，并加入词汇表
                if word not in word_to_index:#将数据列表data中的标注加入标记表tag_to_index中
                    word_to_index[word] = word_to_index["<unk>"]

        if line[0] not in tag_to_index:
            tag_to_index[line[0]] = len(tag_to_index)

create_dict(train_data)#使用train_data创建词汇表和标记表
create_dict(test_data, check_unk=True)#使用test_data创建词汇表和标记表，并进行未知词汇检查
#生成词汇表张量和标记张量
# create word and tag tensors from data
def create_tensor(data):
    for line in data:#对数据列表data中的每一个元素进行循环
        yield([word_to_index[word] for word in line[1].split(" ")], tag_to_index[line[0]])#依据词汇表创建词
        
train_data = list(create_tensor(train_data))#使用create_tensor函数生成训练集的词汇表张量和标记张量，并将结果转换为列表
test_data = list(create_tensor(test_data))#使用create_tensor函数生成测试集的词汇表张量和标记张量，并将结果转换为列表

number_of_words = len(word_to_index)#计算词汇表中元素的个数，即词汇的个数
number_of_tags = len(tag_to_index)#计算标记表中元素的个数，即标记的个数

### Model

In [7]:
# cpu or gpu
device = "cuda" if torch.cuda.is_available() else "cpu" #设置训练设备为显卡“cuda”（GPU）或者CPU

# create a simple neural network with embedding layer, bias, and xavier initialization
class BoW(torch.nn.Module):#定义一个继承自nn.Module的神经网络类BoW
    def __init__(self, nwords, ntags):#定义初始化方法，接收输入单词数量和输出标记数量
        super(BoW, self).__init__()#调用神经网络的父类的初始化方法
        self.embedding = nn.Embedding(nwords, ntags)#定义嵌入层，输入单词数为nwords，嵌入向量长度为ntags
        nn.init.xavier_uniform_(self.embedding.weight)#使用xavier初始化对权重进行初始化

        type = torch.cuda.FloatTensor if torch.cuda.is_available() else torch.FloatTensor#定义偏置变量，设置数据类型为float或者cuda的float类型
        self.bias = torch.zeros(ntags, requires_grad=True).type(type)#初始化偏置变量，大小为ntags，设定为需要求导

def forward(self, x):  #定义前向传播函数

    def forward(self, x):#获取x对应的嵌入向量
        emb = self.embedding(x) # seq_len x ntags (for each seq) 
        out = torch.sum(emb, dim=0) + self.bias # ntags #计算每个词汇的嵌入向量和，加上偏置
        out = out.view(1, -1) # reshape to (1, ntags) #将输出张量reshape为大小为(1, ntags)的二维张量
        return out #返回输出张量

### Pretest the Model

In [8]:
# function to convert sentence into tensor using word_to_index dictionary
def sentence_to_tensor(sentence):
    return torch.LongTensor([word_to_index[word] for word in sentence.split(" ")])
#将句子转换为相应的整数序列，并创建一个PyTorch Tensor
# test the sentence_to_tensor function
type = torch.cuda.LongTensor if torch.cuda.is_available() else torch.LongTensor#定义变量type，表示输入张量的数据类型
out = sentence_to_tensor("i love dogs").type(type)#将输入的句子转换为张量，并设置数据类型为type
test_model = BoW(number_of_words, number_of_tags).to(device)#定义测试模型，并将其放在设备device上
test_model(out)#使用test_model对输入张量进行测试，输出模型的预测结果

tensor([[ 0.0124,  0.0164, -0.0182, -0.0014, -0.0120]], device='cuda:0',
       grad_fn=<ViewBackward0>)

### Train the Model

In [9]:
# train and test the BoW model
model = BoW(number_of_words, number_of_tags).to(device)#使用 BoW 类创建一个名为 model 的模型实例
criterion = nn.CrossEntropyLoss()#使用 PyTorch 内置的交叉熵损失函数作为 criterion，
optimizer = torch.optim.Adam(model.parameters())#使用 Adam 优化器来优化模型参数
type = torch.LongTensor

if torch.cuda.is_available():
    model.to(device)#程序检查是否有可用的 GPU，如果有，则将模型放在 device 上运行
    type = torch.cuda.LongTensor#将变量 type 的数据类型设置为 LongTensor

# perform training of the Bow model
def train_bow(model, optimizer, criterion, train_data):
    for ITER in range(10):#该循环遍历多次训练数据，对模型进行训练和评估
        # perform training
        model.train()#将模型设置为训练模式
        random.shuffle(train_data)#对输入数据进行随机混洗操作，以确保我们不会重复用于训练的相同数据
        total_loss = 0.0
        train_correct = 0
        for sentence, tag in train_data:#对于训练数据集中的每个句子和对应的标签，进行循环迭代
            sentence = torch.tensor(sentence).type(type)#将句子转换为 PyTorch 张量类型，并根据设置的数据类型 type 进行数据类型转换
            tag = torch.tensor([tag]).type(type)#将标签转换为 PyTorch 张量类型，并根据设置的数据类型 type 进行数据类型转换。标签通常是一个整数，这里加上方括号是为了将其转换为一维张量
            output = model(sentence)#输入句子到模型中进行前向计算，得到模型的预测结果
            predicted = torch.argmax(output.data.detach()).item()#对模型的预测结果进行 argmax 操作，得到预测标签
            
            loss = criterion(output, tag)#通过计算模型的预测结果和真实标签之间的差异来计算损失值
            total_loss += loss.item()#累加每个数据点的损失值，用于计算平均损失值

            optimizer.zero_grad()#清零模型参数的梯度，使得在每个训练迭代时，梯度不会累积
            loss.backward()#根据损失值计算每个参数的梯度，并将梯度保存在相应参数张量的 .grad 属性中
            optimizer.step()#根据参数的梯度和学习率更新参数的数值，使得模型的损失值逐步降低

            if predicted == tag: train_correct+=1#如果模型的预测标签和真实标签相等，则将正确分类的数量（分类准确度）加一，用于后续计算模型的性能评估指标

        # perform testing of the model
        model.eval()#将模型切换到评估模式，用于测试或验证模型的性能。在评估模式下，模型不会应用 dropout 和 batch normalization 等技术
        test_correct = 0#初始化测试数据集中正确分类的数量
        for sentence, tag in test_data:#对于测试数据集中的每个句子和对应的标签，进行循环迭代
            sentence = torch.tensor(sentence).type(type)#将句子转换为 PyTorch 张量类型，并根据设置的数据类型 type 进行数据类型转换
            output = model(sentence)#输入句子到模型中进行前向计算，得到模型的预测结果
            predicted = torch.argmax(output.data.detach()).item()#对模型的预测结果进行 argmax 操作，得到预测标签，使用与训练时相同的方法
            if predicted == tag: test_correct += 1#如果模型的预测标签和真实标签相等，则将测试数据集中正确分类的数量加一，用于后续计算模型的性能评估指标
        
        # print model performance results
        #使用 f-string 格式化字符串，将迭代次数、训练集平均损失值、训练集分类准确度和测试集分类准确度等信息显示在一行中
        log = f'ITER: {ITER+1} | ' \
            f'train loss/sent: {total_loss/len(train_data):.4f} | ' \
            f'train accuracy: {train_correct/len(train_data):.4f} | ' \
            f'test accuracy: {test_correct/len(test_data):.4f}'
        print(log)#打印输出模型在测试数据集上的性能表现

# call the train_bow function
train_bow(model, optimizer, criterion, train_data)#一个 BoW 模型训练函数，接受模型、优化器、损失函数和训练数据集为参数

ITER: 1 | train loss/sent: 1.4733 | train accuracy: 0.3631 | test accuracy: 0.4009
ITER: 2 | train loss/sent: 1.1216 | train accuracy: 0.6040 | test accuracy: 0.4118
ITER: 3 | train loss/sent: 0.9123 | train accuracy: 0.7117 | test accuracy: 0.4154
ITER: 4 | train loss/sent: 0.7688 | train accuracy: 0.7664 | test accuracy: 0.4140
ITER: 5 | train loss/sent: 0.6631 | train accuracy: 0.8065 | test accuracy: 0.4068
ITER: 6 | train loss/sent: 0.5814 | train accuracy: 0.8324 | test accuracy: 0.4059
ITER: 7 | train loss/sent: 0.5171 | train accuracy: 0.8507 | test accuracy: 0.4077
ITER: 8 | train loss/sent: 0.4640 | train accuracy: 0.8695 | test accuracy: 0.4036
ITER: 9 | train loss/sent: 0.4191 | train accuracy: 0.8830 | test accuracy: 0.3991
ITER: 10 | train loss/sent: 0.3818 | train accuracy: 0.8929 | test accuracy: 0.3964
