在Pytorch中进行情感分类实战

创建`Vocab`类实现标记和索引之间的相互映射

In [1]:
from collections import defaultdict

In [2]:
class Vocab:
    def __init__(self,tokens=None) -> None:
        # 索引转换为标记
        self.idx_to_token = []
        # 标记映射到索引
        self.token_to_idx = {}

        # 如果tokens不为空，添加标记
        if tokens is not None:
            if "<unk>" not in tokens:
                tokens = ["<unk>"] + tokens
            # 遍历tokens，添加标记
            for token in tokens:
                self.idx_to_token.append(token)
                self.token_to_idx[token] = len(self.idx_to_token) - 1
            # 未知标记
            self.unk = self.token_to_idx["<unk>"]
    # 使用@classmethod装饰器，将类方法转换为静态方法
    @classmethod
    def build(cls,text,min_freq=1,reserved_tokens=None):
        """
        根据文本构建词汇表
        cls：类方法
        text：文本
        min_freq：最小词频
        reserved_tokens：保留的标记
        """
        token_freqs = defaultdict(int)
        # 遍历文本，统计词频
        for sentence in text:
            for token in sentence:
                token_freqs[token] += 1
        uniq_tokens = ["<unk>"] + (reserved_tokens)