In [1]:
from collections import defaultdict
from operator import itemgetter
from tqdm import tqdm
import numpy as np
import random
import torch 
import jieba
import json
import os
import pickle as pk

if torch.cuda.is_available():
    device = torch.device('cuda:0')
    torch.cuda.set_device(0)
else:
    device = torch.device('cpu')
# 确定模型训练方式，GPU训练或CPU训练
parameter_copy = {
    # 此处embedding维度为768
    'd_model':768, 
    # rnn的隐层维度为300
    'hid_dim':300,
    # 训练的批次为100轮
    'epoch':20,
    # 单次训练的batch_size为100条数据
    'batch_size':50,
    # 设置序列的最大长度为100
    'n_layers':2,
    # 设置dropout，为防止过拟合
    'dropout':0.1,
    # 配置cpu、gpu
    'device':device,
    # 设置训练学习率
    'lr':0.001,
    # 优化器的参数，动量主要用于随机梯度下降
    'momentum':0.99,
    'max_len':50,
}

def build_dataSet(parameter,data_path = '../../dataSet/tagging.txt'):
    data = open(data_path,'r',encoding = 'utf-8').readlines()
    data_set = {'input':[],'label':[]}
    key_table = defaultdict(int)
    vocab_table = defaultdict(int)
    vocab_table['<PAD>'] = 0
    vocab_table['<UNK>'] = 0
    for i in data:
        i = i.strip().split()
        data_set['input'].append(i[0])
        data_set['label'].append(i[1])
        vocab_table[i[0]] += 1
        key_table[i[1]] += 1
    key2ind = dict(zip(key_table.keys(),range(len(key_table))))
    ind2key = dict(zip(range(len(key_table)),key_table.keys()))
    word2ind = dict(zip(vocab_table.keys(),range(len(vocab_table))))
    ind2word = dict(zip(range(len(vocab_table)),vocab_table.keys()))
    parameter['key2ind'] = key2ind
    parameter['ind2key'] = ind2key
    parameter['word2ind'] = word2ind
    parameter['ind2word'] = ind2word
    parameter['data_set'] = data_set
    parameter['output_size'] = len(key2ind)
    parameter['word_size'] = len(word2ind)
    return parameter

def sample(parameter):#数据增强
    while 1:
        data_set = parameter['data_set']
        select_id = random.randint(0,len(data_set['label'])-parameter['max_len'])
        select_id = [select_id,select_id+parameter['max_len']-1]#随机数往后取50个，进行裁切
        #保证关键词不被拆分，开头要为 B\O\S结尾要为O\E\S
        while data_set['label'][select_id[0]][0] not in ['O','B','S'] and select_id[0] < len(data_set['label']):
            select_id[0] += 1
        while data_set['label'][select_id[1]][0] not in ['O','E','S'] and select_id[1] > 0:
            select_id[1] -= 1
            
        if select_id[1] > select_id[0] and \
            data_set['label'][select_id[0]][0] in ['O','B','S'] and \
            data_set['label'][select_id[1]][0] in ['O','E','S']:
            select_label = data_set['label'][select_id[0]:select_id[1]+1]
            select_input = data_set['input'][select_id[0]:select_id[1]+1]
            return select_input,select_label
        else:
            continue


def batch_yield(parameter):
    Epoch = parameter['epoch'] 
    for epoch in range(Epoch):
        inputs,targets = [],[]
        max_len = 0
        for items in tqdm(range(10000)):
            input,label = sample(parameter)
            input = tokenizer.convert_tokens_to_ids(input)
            label = itemgetter(*label)(parameter['key2ind'])
            label = label if type(label) == type(()) else (label,0)
            if len(input) > max_len:
                max_len = len(input)
            inputs.append(list(input))
            targets.append(list(label))
            if len(inputs) >= parameter['batch_size']:
                inputs = [i+[0]*(max_len-len(i)) for i in inputs]
                targets = [i+[0]*(max_len-len(i)) for i in targets]
                if items < 10000-1:
                    yield list2torch(inputs),list2torch(targets),None,False
                else:
                    yield list2torch(inputs),list2torch(targets),epoch,False
                inputs,targets = [],[]
                max_len = 0
        inputs = [i+[0]*(max_len-len(i)) for i in inputs]
        targets = [i+[0]*(max_len-len(i)) for i in targets]
    yield None,None,None,True
            

def list2torch(ins):
    return torch.from_numpy(np.array(ins)).long().to(parameter['device'])

parameter = build_dataSet(parameter_copy)
pk.dump(parameter,open('parameter.pkl','wb'))

In [2]:
a_list,b_list = [],[]
for i in range(2):
    a,b = sample(parameter)
    a_list.append(a)
    b_list.append(b)
print(a_list,'\n\n',b_list)

[['易', '学', '习', '-', '我', '也', '不', '知', '道', '具', '体', '好', '在', '哪', '，', '如', '果', '有', '大', '佬', '会', '可', '以', '指', '导', '一', '下', '，', '感', '恩', '-', '之', '前', '用', '的', 'd', 'e', 'e', 'p', 'f', 'm', '在', '历', '史', '数', '据', '的', '拟', '合', '上'], ['c', 'o', 'm', 'p', 'u', 't', 'a', 't', 'i', 'o', 'n', '-', '支', '持', '分', '布', '式', '计', '算', '可', '以', '运', '行', '在', 'M', 'P', 'I', '，', 'Y', 'A', 'R', 'N', '上', '，', '得', '益', '于', '底', '层', '支', '持', '容', '错', '的', '分', '布', '式', '通', '信', '框']] 

 [['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-推荐', 'I-推荐', 'I-推荐', 'I-推荐', 'I-推荐', 'E-推荐', 'O', 'O', 'O', 'O', 'O', 'O', 'B-推荐', 'E-推荐', 'O'], ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',

In [7]:
print(a_list[0],'\n')
print(a_list[1])
print('\n')
print(b_list[0],'\n')
print(b_list[1])

['以', '保', '持', '正', '态', '分', '布', '且', '方', '差', '相', '近', '：', 'n', 'p', '.', 'r', 'a', 'n', 'd', 'o', 'm', '.', 'r', 'a', 'n', 'd', '(', 'l', 'a', 'y', 'e', 'r', '[', 'n', '-', '1', ']', ',', 'l', 'a', 'y', 'e', 'r', '[', 'n', ']', ')', '*', 'n'] 

['A', 't', 't', 'e', 'n', 't', 'i', 'o', 'n', '只', '是', '重', '复', '了', 'h', '次', '的', 'A', 't', 't', 'e', 'n', 't', 'i', 'o', 'n', '，', '最', '后', '把', '结', '果', '进', '行', '拼', '接', 'A', 't', 't', 'e', 'n', 't', 'i', 'o', 'n', '模', '型', '怎', '么', '避']


['O', 'O', 'O', 'B-推荐', 'I-推荐', 'I-推荐', 'E-推荐', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-推荐', 'I-推荐', 'I-推荐', 'I-推荐', 'I-推荐', 'E-推荐', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'] 

['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-深度学习', 'I-深度学习', 'I-深度学习', 'I-深度学习', 'I-深度学习', 'I-深度学习', 'I-深度学习', 'I-深度学习', 'E-深度学习', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 

In [8]:
from transformers import WEIGHTS_NAME, BertConfig,get_linear_schedule_with_warmup,AdamW, BertTokenizer
from transformers import BertModel,BertPreTrainedModel
from torch.nn import CrossEntropyLoss
import torch.nn as nn
import torch

import torch.nn.functional as F # pytorch 激活函数的类
from torch import nn,optim # 构建模型和优化器
from torchcrf import CRF

class bert_crf(BertPreTrainedModel):
    def __init__(self, config,parameter):
        super(bert_crf, self).__init__(config)
        self.num_labels = config.num_labels
        self.bert = BertModel(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        embedding_dim = parameter['d_model']
        output_size = parameter['output_size']
        self.fc = nn.Linear(embedding_dim, output_size)
        self.init_weights()
        self.crf = CRF(output_size,batch_first=True)
        
    def forward(self, input_ids, attention_mask=None, token_type_ids=None,labels=None):
        outputs = self.bert(input_ids = input_ids,attention_mask=attention_mask,token_type_ids=token_type_ids)
        sequence_output = outputs[0]
        sequence_output = self.dropout(sequence_output)
        logits = self.fc(sequence_output)
        return logits
    
config_class, bert_crf, tokenizer_class = BertConfig, bert_crf, BertTokenizer
config = config_class.from_pretrained("prev_trained_model")
tokenizer = tokenizer_class.from_pretrained("prev_trained_model")

In [9]:
model = bert_crf.from_pretrained("prev_trained_model",config=config,parameter = parameter)
tmp = model(torch.zeros((100,30)).long())

Some weights of the model checkpoint at prev_trained_model were not used when initializing bert_crf: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing bert_crf from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing bert_crf from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of bert_crf were not initialized from the model checkpoint at prev_trained_model and are newly initialized: ['crf.start_transitions', 'fc.weight

In [None]:
[[i.shape,i] for i in tmp]

In [3]:
import os
import shutil
import pickle as pk
from torch.utils.tensorboard import SummaryWriter

random.seed(2019)

# 构建模型
model = bert_crf.from_pretrained("prev_trained_model",config=config,parameter = parameter).to(parameter['device'])

# 决定训练权重
full_finetuning = True
if full_finetuning:
        param_optimizer = list(model.named_parameters())
        no_decay = ['bias', 'LayerNorm.bias', 'LayerNorm.weight']
        optimizer_grouped_parameters = [
            {'params': [p for n, p in param_optimizer if not any(nd in n for nd in no_decay)], 
             'weight_decay': 0.01},
            {'params': [p for n, p in param_optimizer if any(nd in n for nd in no_decay)], 
             'weight_decay': 0.0}
        ]
else: 
        param_optimizer = list(model.fc.named_parameters()) 
        optimizer_grouped_parameters = [{'params': [p for n, p in param_optimizer]}]

# 确定优化器和策略
optimizer = AdamW(optimizer_grouped_parameters, lr=3e-5, correct_bias=False)
train_steps_per_epoch = 10000 // parameter['batch_size']
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=train_steps_per_epoch, num_training_steps=parameter['epoch'] * train_steps_per_epoch)

# 确定训练模式
model.train()

# 准备迭代器
train_yield = batch_yield(parameter)

# 开始训练
loss_cal = []
min_loss = float('inf')
logging_steps = 0
while 1:
        inputs,targets,epoch,keys = next(train_yield)
        if keys:
            break
        out = model(inputs)
        loss = -model.crf(out,targets)
        optimizer.zero_grad()
        loss.backward()
        nn.utils.clip_grad_norm_(parameters=model.parameters(), max_norm=5)
        optimizer.step()
        scheduler.step()
        loss_cal.append(loss.item())
        logging_steps += 1
        if logging_steps%20 == 0:
            print(sum(loss_cal)/len(loss_cal))
        if epoch is not None:
            if (epoch+1)%1 == 0:
                loss_cal = sum(loss_cal)/len(loss_cal)
                if loss_cal < min_loss:
                    min_loss = loss_cal
                    torch.save(model.state_dict(), 'bert_crf.h5')
                print('epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, \
                                                       parameter['epoch'],loss_cal))
            loss_cal = [loss.item()]

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
Some weights of the model checkpoint at prev_trained_model were not used when initializing bert_crf: ['cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing bert_crf from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing bert_crf from the checkpo

4776.668994140625


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.47it/s]

3329.040054321289


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.63it/s]

2773.103727213542


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.25it/s]

2422.875468444824


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 99.24it/s]

2146.158868408203


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 99.18it/s]

1929.7518086751302


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:10<00:30, 99.10it/s]

1751.8214024135045


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 99.23it/s]

1597.4085369110107


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 95.28it/s]

1471.0436152140298


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:40<00:00, 99.73it/s]

1358.5253164672852


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.47it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [1/20], Loss: 1358.5253


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.29it/s]

361.89778791155135


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:21, 98.50it/s]

305.7106003179783


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.02it/s]

270.1922737496798


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.31it/s]

243.2597053433642


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 99.52it/s]

225.97589050897278


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 98.56it/s]

209.47581494544164


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:10<00:30, 98.97it/s]

196.20353471471907


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:20<00:20, 98.97it/s]

183.4323154236219


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:30<00:10, 99.39it/s]

172.24701079479237


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:40<00:00, 99.17it/s]

163.69791302277673


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.87it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [2/20], Loss: 163.6979


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.10it/s]

82.63652111235119


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.99it/s]

87.18395847227515


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.37it/s]

78.75311779585041


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.92it/s]

75.68034570011092


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 99.01it/s]

70.91322371983293


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 99.34it/s]

68.35261270822572


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:10<00:30, 98.92it/s]

65.94574429126496


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:20<00:20, 98.76it/s]

62.677566054444874


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:30<00:10, 97.90it/s]

60.49884522158796


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:40<00:00, 96.47it/s]

57.94395940220771


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.61it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [3/20], Loss: 57.9440


 10%|███████▋                                                                     | 1000/10000 [00:10<01:32, 97.09it/s]

30.564426967075892


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:21, 98.75it/s]

30.457134712033156


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 98.94it/s]

30.465681232389855


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.05it/s]

29.165771861135223


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.96it/s]

29.131051847250156


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:40, 99.12it/s]

28.757147418565985


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:30, 98.77it/s]

27.476996022758755


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:22, 90.54it/s]

26.800951086956523


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:32<00:10, 97.02it/s]

26.14300671993698


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:42<00:00, 99.42it/s]

25.449175934293375


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:43<00:00, 96.81it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [4/20], Loss: 25.4492


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 98.98it/s]

22.614776611328125


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.95it/s]

20.274125262004574


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.00it/s]

18.17320426565702


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 98.93it/s]

16.806104118441358


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.95it/s]

17.644773577699567


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 98.98it/s]

17.920845220896823


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:32, 93.31it/s]

17.559672903507312


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 98.93it/s]

17.527411608962538


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 99.21it/s]

17.757210410102296


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:41<00:00, 98.84it/s]

17.715315785574084


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:42<00:00, 97.86it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [5/20], Loss: 17.7153


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.08it/s]

10.818362281436013


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.93it/s]

11.624250458508003


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 98.91it/s]

13.619061579469774


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 98.71it/s]

13.433806996286652


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:51, 97.14it/s]

13.56692142297726


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 97.67it/s]

14.125219676120222


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:30, 98.76it/s]

13.193192502285571


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 98.86it/s]

13.558723781419838


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 98.42it/s]

12.672932493093922


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:41<00:00, 98.34it/s]

12.482412006131453


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.25it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [6/20], Loss: 12.4824


 10%|███████▋                                                                     | 1000/10000 [00:10<01:31, 98.80it/s]

11.75147937593006


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.77it/s]

13.686541301448171


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.14it/s]

12.153113193199284


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 98.76it/s]

12.6297607421875


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 99.10it/s]

12.949186721650682


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 98.73it/s]

12.039775249386622


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:10<00:30, 98.59it/s]

11.592304635555186


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 97.20it/s]

10.982914705454192


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 98.78it/s]

10.612963260208046


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:40<00:00, 99.32it/s]

9.90843360103778


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.48it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [7/20], Loss: 9.9084


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 98.99it/s]

9.335594540550595


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.93it/s]

10.698251119474085


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 98.73it/s]

10.684380703285091


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:01, 98.00it/s]

10.146746976875965


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.76it/s]

9.098920765489634


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:44, 89.62it/s]

8.4105176689211


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:12<00:33, 88.32it/s]

8.872690836588541


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:23<00:20, 98.15it/s]

8.704658650463413


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:33<00:10, 98.89it/s]

8.569918131960032


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:43<00:00, 98.47it/s]

8.834938315016712


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:44<00:00, 96.04it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [8/20], Loss: 8.8349


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.01it/s]

10.98237537202381


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.08it/s]

10.918473406535822


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:11, 98.17it/s]

9.200859695184427


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:01, 97.99it/s]

7.650921103395062


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:51<00:53, 93.95it/s]

7.474072144763304


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:02<00:44, 89.79it/s]

7.803385080384814


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:13<00:30, 97.37it/s]

7.513152426861702


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:23<00:21, 91.88it/s]

8.432221027634899


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:34<00:10, 96.11it/s]

8.47311215901243


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:44<00:00, 88.83it/s]

8.350519740166355


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:45<00:00, 94.69it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [9/20], Loss: 8.3505


 10%|███████▋                                                                     | 1000/10000 [00:10<01:31, 97.85it/s]

6.635970342726934


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.24it/s]

6.435081668016387


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:11, 98.06it/s]

8.517914318647541


 40%|██████████████████████████████▊                                              | 4000/10000 [00:41<01:03, 94.87it/s]

7.107097107687114


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:51<00:52, 95.72it/s]

7.707087752842667


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:02<00:40, 98.64it/s]

7.0461831841587035


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:12<00:30, 99.01it/s]

6.790197277745457


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:22<00:20, 99.00it/s]

6.383490520974864


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:32<00:10, 98.77it/s]

6.221409581642783


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:42<00:00, 90.30it/s]

6.164873265508396


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:43<00:00, 96.73it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [10/20], Loss: 6.1649


 10%|███████▋                                                                     | 1000/10000 [00:10<01:38, 91.69it/s]

1.5081932431175595


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.21it/s]

1.0579655344893293


 30%|███████████████████████                                                      | 3000/10000 [00:31<01:10, 98.65it/s]

3.3384844670530227


 40%|██████████████████████████████▊                                              | 4000/10000 [00:41<01:00, 99.00it/s]

5.147425145278742


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:51<00:52, 94.94it/s]

5.5822388299620975


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:40, 98.94it/s]

5.498070835081999


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:12<00:30, 99.20it/s]

5.827778701241135


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:22<00:20, 99.29it/s]

5.6407954056070455


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:32<00:10, 93.76it/s]

5.305102437899258


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:42<00:00, 98.04it/s]

5.041672132501555


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:43<00:00, 96.88it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [11/20], Loss: 5.0417


 10%|███████▋                                                                     | 1000/10000 [00:10<01:31, 97.89it/s]

4.981531052362351


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.87it/s]

5.29249609970465


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:11, 98.33it/s]

4.666343313748719


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:01, 97.55it/s]

5.374064127604167


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.48it/s]

5.925083878016708


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:40, 98.95it/s]

5.795585443165677


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:12<00:32, 93.24it/s]

5.2830187209109045


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:23<00:20, 97.93it/s]

5.532135767966324


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:33<00:10, 99.39it/s]

5.420319446542645


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:43<00:00, 96.19it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

5.337039169387438
epoch [12/20], Loss: 5.3370


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.04it/s]

5.349401564825149


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.40it/s]

5.066672720560214


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:11, 98.17it/s]

4.745527924084272


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 98.91it/s]

4.286954526548032


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 99.97it/s]

3.590887995049505


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:43, 91.56it/s]

3.9672947402827994


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:31, 95.37it/s]

3.974455488489029


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:22<00:20, 98.76it/s]

3.8696455866653725


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:32<00:10, 99.12it/s]

3.925011903541523


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:41<00:00, 98.61it/s]

3.941650694282494


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:42<00:00, 97.37it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [13/20], Loss: 3.9417


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.71it/s]

0.9004720052083334


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.77it/s]

1.7548805795064786


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 98.97it/s]

1.8111432184938525


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.36it/s]

2.1502583821614585


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.52it/s]

2.799173789449257


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:40, 99.25it/s]

2.9430693319021177


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:32, 90.97it/s]

2.739393301889406


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 99.36it/s]

2.623578942340353


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:32<00:10, 96.31it/s]

2.812465604497583


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:42<00:00, 89.37it/s]

2.844754498989428


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:43<00:00, 96.77it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [14/20], Loss: 2.8448


 10%|███████▋                                                                     | 1000/10000 [00:10<01:32, 97.44it/s]

1.3616783505394345


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.35it/s]

1.1909328553734757


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:15, 92.90it/s]

1.5898482525934938


 40%|██████████████████████████████▊                                              | 4000/10000 [00:41<01:00, 99.01it/s]

1.4679124620225694


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:51<00:50, 99.41it/s]

1.5469040068069306


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:02<00:42, 94.40it/s]

1.5490175357534866


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:12<00:30, 99.22it/s]

1.4527590054992243


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:22<00:20, 97.93it/s]

1.6247894097559201


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:33<00:10, 92.26it/s]

1.566836193780214


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:43<00:00, 90.76it/s]

1.7762861109491606


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:43<00:00, 96.27it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [15/20], Loss: 1.7763


 10%|███████▋                                                                     | 1000/10000 [00:10<01:35, 94.10it/s]

3.8012317475818453


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.30it/s]

3.4180699790396343


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 98.61it/s]

3.4446241034836067


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:01, 97.70it/s]

3.4335670000241127


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:51<00:50, 98.55it/s]

3.271368649926516


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:01<00:40, 98.96it/s]

2.994920462616219


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:30, 98.24it/s]

3.301409565810616


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 99.49it/s]

2.944818721794934


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 99.09it/s]

2.9436470158192334


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.40it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

2.751435844459344
epoch [16/20], Loss: 2.7514


 10%|███████▋                                                                     | 1000/10000 [00:10<01:31, 98.87it/s]

3.2267921084449407


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:21, 98.62it/s]

2.8435423316025155


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.30it/s]

2.390934178086578


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.83it/s]

1.8462256914303627


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:51, 97.72it/s]

1.8170879099628714


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 98.89it/s]

1.695659038449122


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:30, 98.15it/s]

1.7258354890431074


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 99.44it/s]

1.754431872634414


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 99.72it/s]

1.6468488998834598


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.41it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

1.882252251923974
epoch [17/20], Loss: 1.8823


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 99.74it/s]

3.6596258254278276


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.58it/s]

2.358685749333079


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:13, 95.71it/s]

1.8427909475858095


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:01, 97.76it/s]

1.9681004653742284


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.87it/s]

2.3853137327892946


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 99.29it/s]

2.2501669639398245


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:11<00:30, 99.09it/s]

1.9714807821503768


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:20, 97.55it/s]

2.0208956321574147


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 99.31it/s]

1.895776400908581


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:41<00:00, 99.15it/s]

1.7651939581875777


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.20it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

epoch [18/20], Loss: 1.7652


 10%|███████▋                                                                     | 1000/10000 [00:10<01:31, 98.62it/s]

1.1827814011346727


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 99.47it/s]

1.1175574325933688


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.08it/s]

0.8551235511654713


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 99.62it/s]

1.1199216489438657


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 98.45it/s]

1.7197386486695545


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:40, 98.64it/s]

1.7548232906120869


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:10<00:30, 99.10it/s]

1.7806918096880542


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:20<00:20, 99.35it/s]

2.0146266392299106


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:30<00:10, 98.95it/s]

1.9481354602792644


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:40<00:00, 99.04it/s]
  0%|                                                                                        | 0/10000 [00:00<?, ?it/s]

1.8566183972714552
epoch [19/20], Loss: 1.8566


 10%|███████▋                                                                     | 1000/10000 [00:10<01:30, 98.99it/s]

1.1801583426339286


 20%|███████████████▍                                                             | 2000/10000 [00:20<01:20, 98.95it/s]

1.1059488436070883


 30%|███████████████████████                                                      | 3000/10000 [00:30<01:10, 99.53it/s]

0.7591702820824795


 40%|██████████████████████████████▊                                              | 4000/10000 [00:40<01:00, 98.74it/s]

0.626965934847608


 50%|██████████████████████████████████████▌                                      | 5000/10000 [00:50<00:50, 99.76it/s]

0.513632594948948


 60%|██████████████████████████████████████████████▏                              | 6000/10000 [01:00<00:41, 96.98it/s]

0.5297639704932852


 70%|█████████████████████████████████████████████████████▉                       | 7000/10000 [01:10<00:30, 99.13it/s]

0.5911940987228502


 80%|█████████████████████████████████████████████████████████████▌               | 8000/10000 [01:21<00:21, 94.29it/s]

0.7443256259704969


 90%|█████████████████████████████████████████████████████████████████████▎       | 9000/10000 [01:31<00:10, 98.06it/s]

1.1814062634884324


100%|████████████████████████████████████████████████████████████████████████████▌| 9950/10000 [01:41<00:00, 99.29it/s]

1.4242198431669777


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [01:41<00:00, 98.07it/s]

epoch [20/20], Loss: 1.4242



