In [1]:
import torch
from datasets import load_dataset


#定义数据集
class Dataset(torch.utils.data.Dataset):
    def __init__(self, split):
        dataset = load_dataset(path='seamew/ChnSentiCorp', split=split)

        def f(data):
            return len(data['text']) > 30

        self.dataset = dataset.filter(f)

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, i):
        text = self.dataset[i]['text']

        return text


dataset = Dataset('train')

len(dataset), dataset[0]

Using custom data configuration default
Reusing dataset chn_senti_corp (/Users/lee/.cache/huggingface/datasets/seamew___chn_senti_corp/default/0.0.0/1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85)
Loading cached processed dataset at /Users/lee/.cache/huggingface/datasets/seamew___chn_senti_corp/default/0.0.0/1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85/cache-e4f30e09e5a06112.arrow


(9192,
 '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般')

In [2]:
from transformers import BertTokenizer

#加载字典和分词工具
token = BertTokenizer.from_pretrained('bert-base-chinese')

token

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})

In [3]:
def collate_fn(data):
    #编码
    data = token.batch_encode_plus(batch_text_or_text_pairs=data,
                                   truncation=True,
                                   padding='max_length',
                                   max_length=30,
                                   return_tensors='pt',
                                   return_length=True)

    #input_ids:编码之后的数字
    #attention_mask:是补零的位置是0,其他位置是1
    input_ids = data['input_ids']
    attention_mask = data['attention_mask']
    token_type_ids = data['token_type_ids']

    #把第15个词固定替换为mask
    labels = input_ids[:, 15].reshape(-1).clone()
    input_ids[:, 15] = token.get_vocab()[token.mask_token]

    #print(data['length'], data['length'].max())

    return input_ids, attention_mask, token_type_ids, labels


#数据加载器
loader = torch.utils.data.DataLoader(dataset=dataset,
                                     batch_size=16,
                                     collate_fn=collate_fn,
                                     shuffle=True,
                                     drop_last=True)

for i, (input_ids, attention_mask, token_type_ids,
        labels) in enumerate(loader):
    break

print(len(loader))
print(token.decode(input_ids[0]))
print(token.decode(labels[0]))
input_ids.shape, attention_mask.shape, token_type_ids.shape, labels.shape

574
[CLS] 只 住 了 一 个 晚 上 ， 房 间 很 小 ， 不 [MASK] 考 虑 到 只 是 一 个 三 星 级 的 宾 馆 [SEP]
过


(torch.Size([16, 30]),
 torch.Size([16, 30]),
 torch.Size([16, 30]),
 torch.Size([16]))

In [4]:
from transformers import BertModel

#加载预训练模型
pretrained = BertModel.from_pretrained('bert-base-chinese')

#不训练,不需要计算梯度
for param in pretrained.parameters():
    param.requires_grad_(False)

#模型试算
out = pretrained(input_ids=input_ids,
           attention_mask=attention_mask,
           token_type_ids=token_type_ids)

out.last_hidden_state.shape

Some weights of the model checkpoint at bert-base-chinese were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


torch.Size([16, 30, 768])

In [5]:
#定义下游任务模型
class Model(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.decoder = torch.nn.Linear(768, token.vocab_size, bias=False)
        self.bias = torch.nn.Parameter(torch.zeros(token.vocab_size))
        self.decoder.bias = self.bias

    def forward(self, input_ids, attention_mask, token_type_ids):
        with torch.no_grad():
            out = pretrained(input_ids=input_ids,
                             attention_mask=attention_mask,
                             token_type_ids=token_type_ids)

        out = self.decoder(out.last_hidden_state[:, 15])

        return out


model = Model()

model(input_ids=input_ids,
      attention_mask=attention_mask,
      token_type_ids=token_type_ids).shape

torch.Size([16, 21128])

In [6]:
from transformers import AdamW

#训练
optimizer = AdamW(model.parameters(), lr=5e-4)
criterion = torch.nn.CrossEntropyLoss()

model.train()
for epoch in range(5):
    for i, (input_ids, attention_mask, token_type_ids,
            labels) in enumerate(loader):
        out = model(input_ids=input_ids,
                    attention_mask=attention_mask,
                    token_type_ids=token_type_ids)

        loss = criterion(out, labels)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

        if i % 50 == 0:
            out = out.argmax(dim=1)
            accuracy = (out == labels).sum().item() / len(labels)

            print(epoch, i, loss.item(), accuracy)

0 0 9.984944343566895 0.0
0 50 8.533296585083008 0.125
0 100 6.3379387855529785 0.25
0 150 5.006066799163818 0.375
0 200 4.933525562286377 0.3125
0 250 5.3085222244262695 0.25
0 300 4.5820441246032715 0.25
0 350 3.11991548538208 0.5625
0 400 4.346089839935303 0.3125
0 450 3.8530707359313965 0.375
0 500 1.6403313875198364 0.8125
0 550 2.572502851486206 0.5625
1 0 1.9827029705047607 0.8125
1 50 2.5521962642669678 0.5625
1 100 2.748547077178955 0.5625
1 150 1.0036667585372925 0.875
1 200 2.2741544246673584 0.625
1 250 1.6249862909317017 0.8125
1 300 1.682465672492981 0.75
1 350 1.7401515245437622 0.6875
1 400 1.65713369846344 0.8125
1 450 1.53067946434021 0.8125
1 500 1.451479196548462 0.8125
1 550 2.535844087600708 0.5625
2 0 1.3117371797561646 0.75
2 50 0.6940720081329346 0.9375
2 100 1.2575973272323608 0.8125
2 150 1.3493293523788452 0.5625
2 200 0.7944004535675049 0.9375
2 250 1.33329176902771 0.625
2 300 1.009347915649414 0.75
2 350 1.3858131170272827 0.75
2 400 0.5483282208442688 0.

In [7]:
#测试
def test():
    model.eval()
    correct = 0
    total = 0

    loader_test = torch.utils.data.DataLoader(dataset=Dataset('test'),
                                              batch_size=32,
                                              collate_fn=collate_fn,
                                              shuffle=True,
                                              drop_last=True)

    for i, (input_ids, attention_mask, token_type_ids,
            labels) in enumerate(loader_test):

        if i == 15:
            break

        print(i)

        with torch.no_grad():
            out = model(input_ids=input_ids,
                        attention_mask=attention_mask,
                        token_type_ids=token_type_ids)

        out = out.argmax(dim=1)
        correct += (out == labels).sum().item()
        total += len(labels)

        print(token.decode(input_ids[0]))
        print(token.decode(labels[0]), token.decode(labels[0]))

    print(correct / total)


test()

Using custom data configuration default
Reusing dataset chn_senti_corp (/Users/lee/.cache/huggingface/datasets/seamew___chn_senti_corp/default/0.0.0/1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85)
Loading cached processed dataset at /Users/lee/.cache/huggingface/datasets/seamew___chn_senti_corp/default/0.0.0/1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85/cache-3e9b343e1ee7b81d.arrow


0
[CLS] 某 些 酒 店 人 员 对 待 顾 客 不 诚 恳 。 [MASK] 给 你 换 房 间 ， 骗 你 说 是 价 钱 贵 [SEP]
说 说
1
[CLS] 这 套 书 ， 是 听 别 人 介 绍 的 ， 回 家 [MASK] 3 岁 的 女 儿 一 起 分 享 了 故 事 内 [SEP]
与 与
2
[CLS] flash 分 编 程 和 动 画 两 部 分 ， 这 本 书 [MASK] 的 是 flash [UNK] ， 可 是 脚 本 的 运 用 任 [SEP]
说 说
3
[CLS] 作 者 力 从 马 克 思 注 意 经 济 学 角 度 [MASK] 剖 析 当 代 中 国 经 济 细 心 的 人 会 [SEP]
来 来
4
[CLS] 唯 美 的 人 物 ， 唯 美 的 故 事 接 触 过 [MASK] 个 此 时 代 背 景 下 的 故 事 ， 不 过 [SEP]
多 多
5
[CLS] 预 装 的 linux 不 是 直 接 进 入 系 统 的 ， [MASK] 方 便 测 试 机 器 。 随 机 光 盘 全 英 [SEP]
不 不
6
[CLS] 选 择 的 事 例 太 离 奇 了 ， 夸 大 了 心 [MASK] 咨 询 的 现 实 意 义 ， 让 人 失 去 了 [SEP]
理 理
7
[CLS] 洛 尔 卡 深 受 我 的 老 师 推 崇 。 在 那 [MASK] 神 奇 的 大 学 夜 晚 ， 跟 老 师 谈 论 [SEP]
个 个
8
[CLS] 房 间 比 中 州 皇 冠 之 类 的 大 多 了 ， [MASK] 务 也 还 可 以 ； 早 餐 太 次 ， 品 种 [SEP]
服 服
9
[CLS] 这 本 书 是 我 无 意 中 从 网 上 发 现 的 [MASK] 看 了 简 介 觉 得 不 错 就 继 续 把 整 [SEP]
， ，
10
[CLS] 外 观 时 尚 ， 配 置 均 衡 ， 机 器 散 热 [MASK] 不 错 ， 用 了 大 概 一 个 月 ， 感 觉 [SEP]
也 也
11
[CLS] 地 理 位 置 不 错 ， 房 间 环 境 也 可 以 [MASK] 洗 衣 速 度 快 ， 值 得 称 赞 ， 唯 一 [SEP]
， ，
12
[CLS] 机 器 的 上 盖 外 表 面 是 钢 琴 烤 漆