In [1]:
# from torchtext.datasets import WikiText2 #导入 WikiText2 数据集
from torchtext.data.utils import get_tokenizer #导入分词器
from torchtext.vocab import build_vocab_from_iterator #导入vocabulary工具，用于从一个迭代器构建一个词汇表（Vocabulary），迭代器中包含了分词后的文本数据

In [40]:
from torch.utils.data import Dataset, DataLoader
import torch
import torch.nn as nn

max_seq_len = 256

In [3]:
#获取分词器
tokenizer = get_tokenizer('basic_english')

In [9]:
def load_local_wikitext2(split='train'):
    # 定义文件路径
    file_path = f'../data/traindata/wikitext-2/wiki.{split}.tokens'
    # 读取文件内容
    with open(file_path, 'r', encoding='utf-8') as file:
        data = file.readlines()
    return data

In [None]:
train_iter = load_local_wikitext2(split='train')

In [25]:
# 定义一个生成器函数，用于将数据集中的文本转换为tokens
def yield_tokens(data_iter):
    for item in data_iter:
        yield tokenizer(item)

# 创建词汇表，包括特殊tokens："<pad>", "<sos>", "<eos>"
#specials:一个包含特殊符号的列表，如<pad>（填充符），<unk>（未知词标记）等。这些特殊符号会被添加到词汇表的开始位置。
vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=["<pad>", "<sos>", "<eos>"])
# 设置当查询的词汇项不在词汇表中时返回的默认索引值。当查询的词汇不在词汇表中默认返回<pad>的值
vocab.set_default_index(vocab["<pad>"])
'''
vocab的几个方法：
__getitem__(self, token): 返回给定词汇项的索引。
__len__(self): 返回词汇表中词汇项的数量。
get_itos(self): 返回一个列表，其中包含词汇表中所有词汇项，索引即为它们在词汇表中的位置。
get_stoi(self): 返回一个字典，键为词汇项，值为它们在词汇表中的索引。
set_default_index(self, index): 设置当查询的词汇项不在词汇表中时返回的默认索引值。
'''

# 打印词汇表信息
print("词汇表大小:", len(vocab))
print("词汇示例(word to index):", {word: vocab[word] for word in ["<pad>", "<sos>", "<eos>", "the", "apple"]})

词汇表大小: 28785
词汇示例(word to index): {'<pad>': 0, '<sos>': 1, '<eos>': 2, 'the': 3, 'apple': 11505}


In [41]:
class WikiDataset(Dataset):
    def __init__(self, data_iter, vocab, max_len=max_seq_len):
        super(WikiDataset, self).__init__()
        self.data = []
        for sentence in data_iter:
            tokens = tokenizer(sentence)[:max_len-2]
            tokens = [vocab['<sos>']] + vocab([tokens]) + [vocab['<eos>']]
            self.data.append(tokens)
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        source = self.data[idx][:-1]
        target = self.data[idx][1:]
        return torch.LongTensor(source), torch.LongTensor(target)