# IMDb 文本情感分析

## RNN分析——深度学习初体验（坐牢）

In [1]:
#测试cuda是否可用
import torch
if torch.cuda.is_available():
    print("CUDA is available.")
else:
    print("CUDA is not available.")

CUDA is available.


In [2]:
import warnings
warnings.filterwarnings("ignore")
import numpy as np
#导入数据
import pandas as pd
data = pd.read_csv('E:/本科/数据挖掘与商务分析/hw/final/IMDB Dataset.csv')
data.head()

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


In [3]:
#将数据集分为训练集、验证集和测试集
from sklearn.model_selection import train_test_split
X = data['review']
y = data['sentiment']
X_train_valid, X_test, y_train_valid, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_valid, y_train_valid, test_size=0.2, random_state=1)

In [None]:
#准备dataset
test_dataset = [(x, y) for x, y in zip(X_test, y_test)]
train_dataset = [(x, y) for x, y in zip(X_train, y_train)]
valid_dataset = [(x, y) for x, y in zip(X_valid, y_valid)]

In [None]:
import re
from collections import Counter, OrderedDict

token_counts = Counter()

def tokenizer(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)', text.lower())
    text = re.sub('[\W]+', ' ', text.lower()) +\
        ' '.join(emoticons).replace('-', '')
    tokenized = text.split()
    return tokenized


for review, _ in train_dataset:
    tokens = tokenizer(review)
    token_counts.update(tokens)
 
    
print('Vocab-size:', len(token_counts))

Vocab-size: 86341


In [None]:
#利用torchtext的vocab将token转换为整数
from torchtext.vocab import vocab

sorted_by_freq_tuples = sorted(token_counts.items(), key=lambda x: x[1], reverse=True) 
ordered_dict = OrderedDict(sorted_by_freq_tuples)

vocab = vocab(ordered_dict)
vocab.insert_token("<pad>", 0)
vocab.insert_token("<unk>", 1)
vocab.set_default_index(1)

print([vocab[token] for token in ['this', 'is', 'an', 'example']])

[11, 7, 35, 467]


In [None]:
#定义转换函数
import torch.nn as nn
device = torch.device('cuda' )
review_pipeline = lambda x: [vocab[token] for token in tokenizer(x)]
sentiment_pipeline = lambda x: 1 if x == 'positive' else 0

def collate_batch(batch):
    review_list, sentiment_list, lengths = [], [], []
    for _review, _sentiment,in batch:
        processed_text =torch.tensor(review_pipeline(_review), dtype=torch.int64)
        review_list.append(processed_text)
        sentiment_list.append(sentiment_pipeline(_sentiment))
        lengths.append(processed_text.size(0))
    sentiment_list = torch.tensor(sentiment_list)
    lengths = torch.tensor(lengths)
    padded_review_list = nn.utils.rnn.pad_sequence(review_list, batch_first=True)
    return padded_review_list.to(device), sentiment_list.to(device), lengths.to(device)

In [None]:
#small batch 看看实力
from torch.utils.data import DataLoader
dataloader = DataLoader(train_dataset, batch_size=4, shuffle=False, collate_fn=collate_batch)
review_batch, sentiment_batch, length_batch = next(iter(dataloader))
print(review_batch)
print(sentiment_batch)
print(length_batch)
print(review_batch.shape)

tensor([[   11,     7,    39,  ...,     0,     0,     0],
        [   10,  1304,     6,  ...,     0,     0,     0],
        [    2,   590,  2348,  ..., 25611,   785, 29777],
        [   10,   103,    11,  ...,     0,     0,     0]], device='cuda:0')
tensor([1, 1, 0, 1], device='cuda:0')
tensor([164, 120, 448, 254], device='cuda:0')
torch.Size([4, 448])


In [None]:
#batch data生成data loader
batch_size = 32 

train_dl = DataLoader(train_dataset, batch_size=batch_size,shuffle=True, collate_fn=collate_batch)
valid_dl = DataLoader(valid_dataset, batch_size=batch_size,shuffle=False, collate_fn=collate_batch)
test_dl = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_batch)

In [None]:
#将句子转为嵌入编码
embedding = nn.Embedding(num_embeddings=10, embedding_dim=3, padding_idx=0)

#example
text_encoded_input = torch.LongTensor([[1,2,4,5],[4,3,2,0]])
print(embedding(text_encoded_input))

tensor([[[ 1.3474, -0.2270,  0.9934],
         [ 1.2762, -1.2231, -1.2136],
         [-1.2001, -0.9781,  0.0818],
         [-1.9540,  0.7038,  0.4304]],

        [[-1.2001, -0.9781,  0.0818],
         [ 0.5202, -0.0546, -0.3535],
         [ 1.2762, -1.2231, -1.2136],
         [ 0.0000,  0.0000,  0.0000]]], grad_fn=<EmbeddingBackward0>)


### 构建循环神经网络

In [None]:
#用RNN进行情感分析
class RNN(nn.Module):
    def __init__(self, vocab_size, embed_dim, rnn_hidden_size, fc_hidden_size):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0) 
        self.rnn = nn.LSTM(embed_dim, rnn_hidden_size,  batch_first=True)
        self.fc1 = nn.Linear(rnn_hidden_size, fc_hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(fc_hidden_size, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, text, lengths):
        out = self.embedding(text)
        out = nn.utils.rnn.pack_padded_sequence(out, lengths.cpu().numpy(), enforce_sorted=False, batch_first=True)
        out, (hidden, cell) = self.rnn(out)
        out = hidden[-1, :, :]
        out = self.fc1(out)
        out = self.relu(out)
        out = self.fc2(out)
        out = self.sigmoid(out)
        return out

vocab_size = len(vocab)
embed_dim = 20
rnn_hidden_size = 64
fc_hidden_size = 64

torch.manual_seed(1)
model = RNN(vocab_size, embed_dim, rnn_hidden_size, fc_hidden_size) 
model = model.to(device)
model

RNN(
  (embedding): Embedding(86343, 20, padding_idx=0)
  (rnn): LSTM(20, 64, batch_first=True)
  (fc1): Linear(in_features=64, out_features=64, bias=True)
  (relu): ReLU()
  (fc2): Linear(in_features=64, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)

In [None]:
#编写train函数
def train(dataloader):
    model.train()
    total_acc, total_loss = 0, 0
    for text_batch, label_batch, lengths in dataloader:
        text_batch = text_batch.to(device)
        label_batch = label_batch.to(device).float()  # 确保标签是浮点类型
        lengths = lengths.to(device)
        optimizer.zero_grad()
        pred = model(text_batch, lengths)[:, 0]
        loss = loss_fn(pred, label_batch)
        loss.backward()
        optimizer.step()
        total_acc += ((pred>=0.5).float() == label_batch).float().sum().item()
        total_loss += loss.item()*label_batch.size(0)
    return total_acc/len(dataloader.dataset), total_loss/len(dataloader.dataset)
 
def evaluate(dataloader):
    model.eval()
    total_acc, total_loss = 0, 0
    all_labels, all_preds = [], []
    with torch.no_grad():
        for text_batch, label_batch, lengths in dataloader:
            text_batch = text_batch.to(device)
            label_batch = label_batch.to(device).float()  # 确保标签是浮点类型
            lengths = lengths.to(device)
            pred = model(text_batch, lengths)[:, 0]
            loss = loss_fn(pred, label_batch)
            total_acc += ((pred>=0.5).float() == label_batch).float().sum().item()
            total_loss += loss.item()*label_batch.size(0)
            # 收集所有预测分数和真实标签
            all_labels.extend(label_batch.cpu().numpy())
            all_preds.extend(pred.cpu().numpy())
    return total_acc/len(dataloader.dataset), total_loss/len(dataloader.dataset), all_labels, all_preds

In [None]:
#编写损失函数
loss_fn = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

num_epochs = 10 

torch.manual_seed(1)

#开始显卡炼丹 
for epoch in range(num_epochs):
    acc_train, loss_train = train(train_dl)
    acc_valid, loss_valid,_,_ = evaluate(valid_dl)
    print(f'Epoch {epoch} accuracy: {acc_train:.4f} val_accuracy: {acc_valid:.4f}')


Epoch 0 accuracy: 0.5945 val_accuracy: 0.6593
Epoch 1 accuracy: 0.6984 val_accuracy: 0.7422
Epoch 2 accuracy: 0.7612 val_accuracy: 0.8031
Epoch 3 accuracy: 0.8486 val_accuracy: 0.8464
Epoch 4 accuracy: 0.8827 val_accuracy: 0.8664
Epoch 5 accuracy: 0.9051 val_accuracy: 0.8744
Epoch 6 accuracy: 0.9263 val_accuracy: 0.8784
Epoch 7 accuracy: 0.9401 val_accuracy: 0.8769
Epoch 8 accuracy: 0.9527 val_accuracy: 0.8814
Epoch 9 accuracy: 0.9631 val_accuracy: 0.8855


In [None]:
#用sklearn评估测试集效果
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
acc_test, loss_test, true_labels, pred_scores= evaluate(test_dl)

# 二分类的阈值设置为0.5
pred_labels = [1 if score >= 0.5 else 0 for score in pred_scores]
precision = precision_score(true_labels, pred_labels)
recall = recall_score(true_labels, pred_labels)
f1 = f1_score(true_labels, pred_labels)
auc = roc_auc_score(true_labels, pred_scores)
print(f'Precision: {precision:.3f}')
print(f'Recall: {recall:.3f}')
print(f'F1 Score: {f1:.3f}')
print(f'AUC Score: {auc:.3f}')

Precision: 0.858
Recall: 0.934
F1 Score: 0.894
AUC Score: 0.955


### 双向循环神经网络

In [None]:
#用RNN进行情感分析
class RNN(nn.Module):
    def __init__(self, vocab_size, embed_dim, rnn_hidden_size, fc_hidden_size):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0) 
        self.rnn = nn.LSTM(embed_dim, rnn_hidden_size, batch_first=True, bidirectional=True)
        self.fc1 = nn.Linear(rnn_hidden_size*2, fc_hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(fc_hidden_size, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, text, lengths):
        out = self.embedding(text)
        out = nn.utils.rnn.pack_padded_sequence(out, lengths.cpu().numpy(), enforce_sorted=False, batch_first=True)
        out, (hidden, cell) = self.rnn(out)
        out = torch.cat((hidden[-2, :, :], hidden[-1, :, :]), dim=1)
        out = self.fc1(out)
        out = self.relu(out)
        out = self.fc2(out)
        out = self.sigmoid(out)
        return out

vocab_size = len(vocab)
embed_dim = 20
rnn_hidden_size = 64
fc_hidden_size = 64

torch.manual_seed(1)
model = RNN(vocab_size, embed_dim, rnn_hidden_size, fc_hidden_size) 
model = model.to(device)
model

RNN(
  (embedding): Embedding(86343, 20, padding_idx=0)
  (rnn): LSTM(20, 64, batch_first=True, bidirectional=True)
  (fc1): Linear(in_features=128, out_features=64, bias=True)
  (relu): ReLU()
  (fc2): Linear(in_features=64, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)

In [None]:
#编写train函数
def train(dataloader):
    model.train()
    total_acc, total_loss = 0, 0
    for text_batch, label_batch, lengths in dataloader:
        text_batch = text_batch.to(device)
        label_batch = label_batch.to(device).float()  # 确保标签是浮点类型
        lengths = lengths.to(device)
        optimizer.zero_grad()
        pred = model(text_batch, lengths)[:, 0]
        loss = loss_fn(pred, label_batch)
        loss.backward()
        optimizer.step()
        total_acc += ((pred>=0.5).float() == label_batch).float().sum().item()
        total_loss += loss.item()*label_batch.size(0)
    return total_acc/len(dataloader.dataset), total_loss/len(dataloader.dataset)
 
def evaluate(dataloader):
    model.eval()
    total_acc, total_loss = 0, 0
    all_labels, all_preds = [], []
    with torch.no_grad():
        for text_batch, label_batch, lengths in dataloader:
            text_batch = text_batch.to(device)
            label_batch = label_batch.to(device).float()  # 确保标签是浮点类型
            lengths = lengths.to(device)
            pred = model(text_batch, lengths)[:, 0]
            loss = loss_fn(pred, label_batch)
            total_acc += ((pred>=0.5).float() == label_batch).float().sum().item()
            total_loss += loss.item()*label_batch.size(0)
            # 收集所有预测分数和真实标签
            all_labels.extend(label_batch.cpu().numpy())
            all_preds.extend(pred.cpu().numpy())
    return total_acc/len(dataloader.dataset), total_loss/len(dataloader.dataset), all_labels, all_preds

In [None]:
#编写损失函数
loss_fn = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

num_epochs = 10 

torch.manual_seed(1)

#开始显卡炼丹 
for epoch in range(num_epochs):
    acc_train, loss_train = train(train_dl)
    acc_valid, loss_valid,_,_ = evaluate(valid_dl)
    print(f'Epoch {epoch} accuracy: {acc_train:.4f} val_accuracy: {acc_valid:.4f}')

Epoch 0 accuracy: 0.6147 val_accuracy: 0.7330
Epoch 1 accuracy: 0.7090 val_accuracy: 0.7538
Epoch 2 accuracy: 0.8048 val_accuracy: 0.8373
Epoch 3 accuracy: 0.8787 val_accuracy: 0.8520
Epoch 4 accuracy: 0.9123 val_accuracy: 0.8761
Epoch 5 accuracy: 0.9342 val_accuracy: 0.8782
Epoch 6 accuracy: 0.9509 val_accuracy: 0.8818
Epoch 7 accuracy: 0.9643 val_accuracy: 0.8534
Epoch 8 accuracy: 0.9765 val_accuracy: 0.8779
Epoch 9 accuracy: 0.9850 val_accuracy: 0.8816


In [None]:
#用sklearn评估测试集效果
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
acc_test, loss_test, true_labels, pred_scores= evaluate(test_dl)

# 二分类的阈值设置为0.5
pred_labels = [1 if score >= 0.5 else 0 for score in pred_scores]
precision = precision_score(true_labels, pred_labels)
recall = recall_score(true_labels, pred_labels)
f1 = f1_score(true_labels, pred_labels)
auc = roc_auc_score(true_labels, pred_scores)
print(f'Precision: {precision:.3f}')
print(f'Recall: {recall:.3f}')
print(f'F1 Score: {f1:.3f}')
print(f'AUC Score: {auc:.3f}')

Precision: 0.901
Recall: 0.865
F1 Score: 0.883
AUC Score: 0.952


### 增加神经网络层数

In [None]:
class RNN(nn.Module):
    def __init__(self, vocab_size, embed_dim, rnn_hidden_size, fc_hidden_size):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        self.rnn1 = nn.LSTM(embed_dim, rnn_hidden_size, batch_first=True, bidirectional=True)
        self.rnn2 = nn.LSTM(rnn_hidden_size*2, rnn_hidden_size, batch_first=True, bidirectional=True)
        self.fc1 = nn.Linear(rnn_hidden_size*2, fc_hidden_size)
        self.relu1 = nn.ReLU()
        self.fc2 = nn.Linear(fc_hidden_size, fc_hidden_size)
        self.relu2 = nn.ReLU()
        self.fc3 = nn.Linear(fc_hidden_size, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, text, lengths):
        out = self.embedding(text)
        out = nn.utils.rnn.pack_padded_sequence(out, lengths.cpu().numpy(), enforce_sorted=False, batch_first=True)
        out, (hidden, cell) = self.rnn1(out)
        out, _ = self.rnn2(out)  # 这里需要使用pad_packed_sequence来恢复序列
        out = nn.utils.rnn.pad_packed_sequence(out, batch_first=True)  # 添加这行代码
        out, output = out  # 现在out是恢复后的序列，output是序列的隐藏状态
        out = torch.cat((hidden[-2, :, :], hidden[-1, :, :]), dim=1)  # 这里需要确保hidden的形状正确
        out = self.fc1(out)
        out = self.relu1(out)
        out = self.fc2(out)
        out = self.relu2(out)
        out = self.fc3(out)
        out = self.sigmoid(out)
        return out

vocab_size = len(vocab)
embed_dim = 20
rnn_hidden_size = 64
fc_hidden_size = 64

torch.manual_seed(1)
model = RNN(vocab_size, embed_dim, rnn_hidden_size, fc_hidden_size) 
model = model.to(device)
model

RNN(
  (embedding): Embedding(86343, 20, padding_idx=0)
  (rnn1): LSTM(20, 64, batch_first=True, bidirectional=True)
  (rnn2): LSTM(128, 64, batch_first=True, bidirectional=True)
  (fc1): Linear(in_features=128, out_features=64, bias=True)
  (relu1): ReLU()
  (fc2): Linear(in_features=64, out_features=64, bias=True)
  (relu2): ReLU()
  (fc3): Linear(in_features=64, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)

In [None]:
#编写train函数
def train(dataloader):
    model.train()
    total_acc, total_loss = 0, 0
    for text_batch, label_batch, lengths in dataloader:
        text_batch = text_batch.to(device)
        label_batch = label_batch.to(device).float()  # 确保标签是浮点类型
        lengths = lengths.to(device)
        optimizer.zero_grad()
        pred = model(text_batch, lengths)[:, 0]
        loss = loss_fn(pred, label_batch)
        loss.backward()
        optimizer.step()
        total_acc += ((pred>=0.5).float() == label_batch).float().sum().item()
        total_loss += loss.item()*label_batch.size(0)
    return total_acc/len(dataloader.dataset), total_loss/len(dataloader.dataset)
 
def evaluate(dataloader):
    model.eval()
    total_acc, total_loss = 0, 0
    all_labels, all_preds = [], []
    with torch.no_grad():
        for text_batch, label_batch, lengths in dataloader:
            text_batch = text_batch.to(device)
            label_batch = label_batch.to(device).float()  # 确保标签是浮点类型
            lengths = lengths.to(device)
            pred = model(text_batch, lengths)[:, 0]
            loss = loss_fn(pred, label_batch)
            total_acc += ((pred>=0.5).float() == label_batch).float().sum().item()
            total_loss += loss.item()*label_batch.size(0)
            # 收集所有预测分数和真实标签
            all_labels.extend(label_batch.cpu().numpy())
            all_preds.extend(pred.cpu().numpy())
    return total_acc/len(dataloader.dataset), total_loss/len(dataloader.dataset), all_labels, all_preds

In [None]:
#编写损失函数
loss_fn = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

num_epochs = 10 

torch.manual_seed(1)

#开始显卡炼丹 
for epoch in range(num_epochs):
    acc_train, loss_train = train(train_dl)
    acc_valid, loss_valid,_,_ = evaluate(valid_dl)
    print(f'Epoch {epoch} accuracy: {acc_train:.4f} val_accuracy: {acc_valid:.4f}')

Epoch 0 accuracy: 0.6402 val_accuracy: 0.6529
Epoch 1 accuracy: 0.7530 val_accuracy: 0.7700
Epoch 2 accuracy: 0.7940 val_accuracy: 0.8285
Epoch 3 accuracy: 0.8718 val_accuracy: 0.8660
Epoch 4 accuracy: 0.9062 val_accuracy: 0.8819
Epoch 5 accuracy: 0.9309 val_accuracy: 0.8862
Epoch 6 accuracy: 0.9469 val_accuracy: 0.8910
Epoch 7 accuracy: 0.9608 val_accuracy: 0.8851
Epoch 8 accuracy: 0.9722 val_accuracy: 0.8825
Epoch 9 accuracy: 0.9821 val_accuracy: 0.8882


In [None]:
#用sklearn评估测试集效果
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
acc_test, loss_test, true_labels, pred_scores= evaluate(test_dl)

# 二分类的阈值设置为0.5
pred_labels = [1 if score >= 0.5 else 0 for score in pred_scores]
precision = precision_score(true_labels, pred_labels)
recall = recall_score(true_labels, pred_labels)
f1 = f1_score(true_labels, pred_labels)
auc = roc_auc_score(true_labels, pred_scores)
print(f'Precision: {precision:.3f}')
print(f'Recall: {recall:.3f}')
print(f'F1 Score: {f1:.3f}')
print(f'AUC Score: {auc:.3f}')

Precision: 0.906
Recall: 0.881
F1 Score: 0.893
AUC Score: 0.955


可能由于过拟合问题，难以进一步提升

## 引入Transformer——Attention is all you need

In [4]:
torch.backends.cudnn.deterministic = True #确保结果可重现
torch.manual_seed(1)
device = torch.device('cuda' )
num_epochs = 3

#### 运用预训练BERT模型

In [5]:
#使用BERT的tokenizer
from transformers import DistilBertForSequenceClassification, DistilBertTokenizerFast
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
# 检查 X_train 的长度 
print(f'Length of X_train: {len(X_train)}')
train_encodings = tokenizer(list(X_train), truncation=True, padding=True)
valid_encodings = tokenizer(list(X_valid), truncation=True, padding=True)
test_encodings = tokenizer(list(X_test), truncation=True, padding=True)
train_encodings[0]
print(f'Length of train_encodings["input_ids"]: {len(train_encodings["input_ids"])}') 
print(f'Length of valid_encodings["input_ids"]: {len(valid_encodings["input_ids"])}') 
print(f'Length of test_encodings["input_ids"]: {len(test_encodings["input_ids"])}')

Length of X_train: 32000
Length of train_encodings["input_ids"]: 32000
Length of valid_encodings["input_ids"]: 8000
Length of test_encodings["input_ids"]: 10000


In [6]:
#准备dataset
class IMDbDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx],dtype=torch.long)
        return item

    def __len__(self):
        return len(self.labels)

label_map = {'positive': 1, 'negative': 0}

y_train = np.array([label_map[label] for label in y_train]) 
y_valid = np.array([label_map[label] for label in y_valid]) 
y_test = np.array([label_map[label] for label in y_test])

train_dataset = IMDbDataset(train_encodings, y_train)
valid_dataset = IMDbDataset(valid_encodings, y_valid)
test_dataset = IMDbDataset(test_encodings, y_test)

# 打印数据集的长度
print(f'Length of train_dataset: {len(train_dataset)}')
print(f'Length of valid_dataset: {len(valid_dataset)}')
print(f'Length of test_dataset: {len(test_dataset)}')

Length of train_dataset: 32000
Length of valid_dataset: 8000
Length of test_dataset: 10000


In [7]:
#准备dataloader
from torch.utils.data import DataLoader
train_dl = DataLoader(train_dataset, batch_size=16, shuffle=True)
valid_dl = DataLoader(valid_dataset, batch_size=16, shuffle=False)
test_dl =  DataLoader(test_dataset, batch_size=16, shuffle=False)

# 打印数据加载器的长度
print(f'Length of train_dl: {len(train_dl)}')
print(f'Length of valid_dl: {len(valid_dl)}')
print(f'Length of test_dl: {len(test_dl)}')


Length of train_dl: 2000
Length of valid_dl: 500
Length of test_dl: 625


In [8]:
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
model.to(device)
model.train()
optim = torch.optim.Adam(model.parameters(), lr=5e-5)

Some weights of the model checkpoint at distilbert-base-uncased were not used when initializing DistilBertForSequenceClassification: ['vocab_transform.weight', 'vocab_layer_norm.weight', 'vocab_projector.bias', 'vocab_transform.bias', 'vocab_layer_norm.bias']
- This IS expected if you are initializing DistilBertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['pre_classifier.weight', 'classifier.weight', 'classifier.bias', 'pre_classifier.

In [9]:
def compute_accuracy(model, data_loader, device):
    with torch.no_grad():
        correct_pred, num_examples = 0, 0
        
        for batch_idx, batch in enumerate(data_loader):
        
        ### Prepare data
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            outputs = model(input_ids, attention_mask=attention_mask)
            logits = outputs['logits']
            predicted_labels = torch.argmax(logits, 1)
            num_examples += labels.size(0)
            correct_pred += (predicted_labels == labels).sum()
        
        return correct_pred.float()/num_examples

#### 手动微调BERT

In [10]:
import time
start_time = time.time()

for epoch in range(num_epochs):
    
    model.train()
    
    for batch_idx, batch in enumerate(train_dl):
        
        ### Prepare data
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)

        ### Forward
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        
        ### Backward
        optim.zero_grad()
        loss.backward()
        optim.step()
        
        ### Logging
        if not batch_idx % 250:
            print (f'Epoch: {epoch+1:04d}/{num_epochs:04d} | '
                   f'Batch {batch_idx:04d}/{len(train_dl):04d} | '
                   f'Loss: {loss:.4f}')
            
    model.eval()

    with torch.set_grad_enabled(False):
        print(f'Training accuracy: '
              f'{compute_accuracy(model, train_dl, device):.2f}%'
              f'\nValid accuracy: '
              f'{compute_accuracy(model, valid_dl, device):.2f}%')
        
    print(f'Time elapsed: {(time.time() - start_time)/60:.2f} min')
    
print(f'Total Training Time: {(time.time() - start_time)/60:.2f} min')
print(f'Test accuracy: {compute_accuracy(model, test_dl, device):.2f}%')

Epoch: 0001/0003 | Batch 0000/2000 | Loss: 0.6908
Epoch: 0001/0003 | Batch 0250/2000 | Loss: 0.4078
Epoch: 0001/0003 | Batch 0500/2000 | Loss: 0.5256
Epoch: 0001/0003 | Batch 0750/2000 | Loss: 0.2178
Epoch: 0001/0003 | Batch 1000/2000 | Loss: 0.4660
Epoch: 0001/0003 | Batch 1250/2000 | Loss: 0.0117
Epoch: 0001/0003 | Batch 1500/2000 | Loss: 0.2185
Epoch: 0001/0003 | Batch 1750/2000 | Loss: 0.0909
Training accuracy: 0.96%
Valid accuracy: 0.93%
Time elapsed: 16.92 min
Epoch: 0002/0003 | Batch 0000/2000 | Loss: 0.2528
Epoch: 0002/0003 | Batch 0250/2000 | Loss: 0.0874
Epoch: 0002/0003 | Batch 0500/2000 | Loss: 0.0153
Epoch: 0002/0003 | Batch 0750/2000 | Loss: 0.0285
Epoch: 0002/0003 | Batch 1000/2000 | Loss: 0.0619
Epoch: 0002/0003 | Batch 1250/2000 | Loss: 0.1183
Epoch: 0002/0003 | Batch 1500/2000 | Loss: 0.1946
Epoch: 0002/0003 | Batch 1750/2000 | Loss: 0.2867
Training accuracy: 0.99%
Valid accuracy: 0.93%
Time elapsed: 33.79 min
Epoch: 0003/0003 | Batch 0000/2000 | Loss: 0.0876
Epoch: 0

In [11]:
# 在测试集上计算Precision, Recall, F1-score, AUC
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
def evaluate_model(model, dataloader, device):
    model.eval()
    all_preds = []
    all_labels = []
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            outputs = model(input_ids, attention_mask=attention_mask)
            preds = outputs.logits.argmax(dim=1).cpu().numpy()
            labels = labels.cpu().numpy()

            all_preds.extend(preds)
            all_labels.extend(labels)

    return all_preds, all_labels

# 获取预测值和真实标签
test_preds, test_labels = evaluate_model(model, test_dl, device)

# 计算各项指标
precision = precision_score(test_labels, test_preds)
recall = recall_score(test_labels, test_preds)
f1 = f1_score(test_labels, test_preds)
auc = roc_auc_score(test_labels, test_preds)

print(f'Precision: {precision:.3f}')
print(f'Recall: {recall:.3f}')
print(f'F1 Score: {f1:.3f}')
print(f'AUC: {auc:.3f}')


Precision: 0.919
Recall: 0.943
F1 Score: 0.931
AUC: 0.931


#### 调用自带API微调BERT

In [12]:
#释放显存
del model

In [13]:
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
model.to(device)
model.train()

Some weights of the model checkpoint at distilbert-base-uncased were not used when initializing DistilBertForSequenceClassification: ['vocab_transform.weight', 'vocab_layer_norm.weight', 'vocab_projector.bias', 'vocab_transform.bias', 'vocab_layer_norm.bias']
- This IS expected if you are initializing DistilBertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['pre_classifier.weight', 'classifier.weight', 'classifier.bias', 'pre_classifier.

DistilBertForSequenceClassification(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0-5): 6 x TransformerBlock(
          (attention): MultiHeadSelfAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropout): Dropout(p=0.1, inplace=False)
 

In [14]:
from transformers import Trainer, TrainingArguments

optim = torch.optim.Adam(model.parameters(), lr=5e-5)
training_args = TrainingArguments(
    output_dir='./results', 
    num_train_epochs=3,     
    per_device_train_batch_size=16, 
    per_device_eval_batch_size=16,   
    logging_dir='./logs',
    logging_steps=10,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

In [15]:
import time
start_time = time.time()
trainer.train()
print(f'Total Training Time: {(time.time() - start_time)/60:.2f} min')

***** Running training *****
  Num examples = 32000
  Num Epochs = 3
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 16
  Gradient Accumulation steps = 1
  Total optimization steps = 6000
  Number of trainable parameters = 66955010
  0%|          | 10/6000 [00:03<35:52,  2.78it/s]

{'loss': 0.6867, 'learning_rate': 4.991666666666667e-05, 'epoch': 0.01}


  0%|          | 20/6000 [00:07<35:53,  2.78it/s]

{'loss': 0.6225, 'learning_rate': 4.9833333333333336e-05, 'epoch': 0.01}


  0%|          | 30/6000 [00:10<35:52,  2.77it/s]

{'loss': 0.556, 'learning_rate': 4.975e-05, 'epoch': 0.01}


  1%|          | 40/6000 [00:14<35:52,  2.77it/s]

{'loss': 0.3789, 'learning_rate': 4.966666666666667e-05, 'epoch': 0.02}


  1%|          | 50/6000 [00:18<35:38,  2.78it/s]

{'loss': 0.3798, 'learning_rate': 4.958333333333334e-05, 'epoch': 0.03}


  1%|          | 60/6000 [00:21<35:40,  2.78it/s]

{'loss': 0.4664, 'learning_rate': 4.9500000000000004e-05, 'epoch': 0.03}


  1%|          | 70/6000 [00:25<35:34,  2.78it/s]

{'loss': 0.4783, 'learning_rate': 4.9416666666666664e-05, 'epoch': 0.04}


  1%|▏         | 80/6000 [00:28<35:34,  2.77it/s]

{'loss': 0.4105, 'learning_rate': 4.933333333333334e-05, 'epoch': 0.04}


  2%|▏         | 90/6000 [00:32<35:30,  2.77it/s]

{'loss': 0.3572, 'learning_rate': 4.9250000000000004e-05, 'epoch': 0.04}


  2%|▏         | 100/6000 [00:36<35:18,  2.78it/s]

{'loss': 0.3531, 'learning_rate': 4.9166666666666665e-05, 'epoch': 0.05}


  2%|▏         | 110/6000 [00:39<35:18,  2.78it/s]

{'loss': 0.5148, 'learning_rate': 4.908333333333334e-05, 'epoch': 0.06}


  2%|▏         | 120/6000 [00:43<35:12,  2.78it/s]

{'loss': 0.3219, 'learning_rate': 4.9e-05, 'epoch': 0.06}


  2%|▏         | 130/6000 [00:46<35:18,  2.77it/s]

{'loss': 0.2871, 'learning_rate': 4.891666666666667e-05, 'epoch': 0.07}


  2%|▏         | 140/6000 [00:50<35:43,  2.73it/s]

{'loss': 0.3631, 'learning_rate': 4.883333333333334e-05, 'epoch': 0.07}


  2%|▎         | 150/6000 [00:54<35:30,  2.75it/s]

{'loss': 0.2558, 'learning_rate': 4.875e-05, 'epoch': 0.07}


  3%|▎         | 160/6000 [00:57<35:09,  2.77it/s]

{'loss': 0.3115, 'learning_rate': 4.866666666666667e-05, 'epoch': 0.08}


  3%|▎         | 170/6000 [01:01<35:48,  2.71it/s]

{'loss': 0.3223, 'learning_rate': 4.858333333333333e-05, 'epoch': 0.09}


  3%|▎         | 180/6000 [01:05<35:24,  2.74it/s]

{'loss': 0.3669, 'learning_rate': 4.85e-05, 'epoch': 0.09}


  3%|▎         | 190/6000 [01:08<34:53,  2.78it/s]

{'loss': 0.3118, 'learning_rate': 4.8416666666666673e-05, 'epoch': 0.1}


  3%|▎         | 200/6000 [01:12<34:43,  2.78it/s]

{'loss': 0.2953, 'learning_rate': 4.8333333333333334e-05, 'epoch': 0.1}


  4%|▎         | 210/6000 [01:15<34:37,  2.79it/s]

{'loss': 0.3392, 'learning_rate': 4.825e-05, 'epoch': 0.1}


  4%|▎         | 220/6000 [01:19<34:40,  2.78it/s]

{'loss': 0.3044, 'learning_rate': 4.8166666666666674e-05, 'epoch': 0.11}


  4%|▍         | 230/6000 [01:23<34:32,  2.78it/s]

{'loss': 0.3394, 'learning_rate': 4.8083333333333334e-05, 'epoch': 0.12}


  4%|▍         | 240/6000 [01:26<34:29,  2.78it/s]

{'loss': 0.2431, 'learning_rate': 4.8e-05, 'epoch': 0.12}


  4%|▍         | 250/6000 [01:30<34:31,  2.78it/s]

{'loss': 0.3804, 'learning_rate': 4.791666666666667e-05, 'epoch': 0.12}


  4%|▍         | 260/6000 [01:33<34:21,  2.78it/s]

{'loss': 0.3563, 'learning_rate': 4.7833333333333335e-05, 'epoch': 0.13}


  4%|▍         | 270/6000 [01:37<34:21,  2.78it/s]

{'loss': 0.2435, 'learning_rate': 4.775e-05, 'epoch': 0.14}


  5%|▍         | 280/6000 [01:41<34:13,  2.79it/s]

{'loss': 0.3145, 'learning_rate': 4.766666666666667e-05, 'epoch': 0.14}


  5%|▍         | 290/6000 [01:44<34:08,  2.79it/s]

{'loss': 0.347, 'learning_rate': 4.7583333333333336e-05, 'epoch': 0.14}


  5%|▌         | 300/6000 [01:48<34:10,  2.78it/s]

{'loss': 0.2704, 'learning_rate': 4.75e-05, 'epoch': 0.15}


  5%|▌         | 310/6000 [01:51<34:06,  2.78it/s]

{'loss': 0.2163, 'learning_rate': 4.741666666666667e-05, 'epoch': 0.15}


  5%|▌         | 320/6000 [01:55<34:06,  2.78it/s]

{'loss': 0.3489, 'learning_rate': 4.7333333333333336e-05, 'epoch': 0.16}


  6%|▌         | 330/6000 [01:59<34:08,  2.77it/s]

{'loss': 0.2039, 'learning_rate': 4.7249999999999997e-05, 'epoch': 0.17}


  6%|▌         | 340/6000 [02:02<33:49,  2.79it/s]

{'loss': 0.2885, 'learning_rate': 4.716666666666667e-05, 'epoch': 0.17}


  6%|▌         | 350/6000 [02:06<33:47,  2.79it/s]

{'loss': 0.2914, 'learning_rate': 4.708333333333334e-05, 'epoch': 0.17}


  6%|▌         | 360/6000 [02:09<33:54,  2.77it/s]

{'loss': 0.2781, 'learning_rate': 4.7e-05, 'epoch': 0.18}


  6%|▌         | 370/6000 [02:13<33:47,  2.78it/s]

{'loss': 0.3587, 'learning_rate': 4.691666666666667e-05, 'epoch': 0.18}


  6%|▋         | 380/6000 [02:17<33:44,  2.78it/s]

{'loss': 0.243, 'learning_rate': 4.683333333333334e-05, 'epoch': 0.19}


  6%|▋         | 390/6000 [02:20<33:38,  2.78it/s]

{'loss': 0.2249, 'learning_rate': 4.6750000000000005e-05, 'epoch': 0.2}


  7%|▋         | 400/6000 [02:24<33:31,  2.78it/s]

{'loss': 0.2121, 'learning_rate': 4.666666666666667e-05, 'epoch': 0.2}


  7%|▋         | 410/6000 [02:28<33:26,  2.79it/s]

{'loss': 0.3336, 'learning_rate': 4.658333333333333e-05, 'epoch': 0.2}


  7%|▋         | 420/6000 [02:31<33:29,  2.78it/s]

{'loss': 0.3195, 'learning_rate': 4.6500000000000005e-05, 'epoch': 0.21}


  7%|▋         | 430/6000 [02:35<33:22,  2.78it/s]

{'loss': 0.2595, 'learning_rate': 4.641666666666667e-05, 'epoch': 0.21}


  7%|▋         | 440/6000 [02:38<33:23,  2.78it/s]

{'loss': 0.2132, 'learning_rate': 4.633333333333333e-05, 'epoch': 0.22}


  8%|▊         | 450/6000 [02:42<33:27,  2.76it/s]

{'loss': 0.3335, 'learning_rate': 4.6250000000000006e-05, 'epoch': 0.23}


  8%|▊         | 460/6000 [02:46<33:17,  2.77it/s]

{'loss': 0.1941, 'learning_rate': 4.6166666666666666e-05, 'epoch': 0.23}


  8%|▊         | 470/6000 [02:49<33:21,  2.76it/s]

{'loss': 0.1938, 'learning_rate': 4.608333333333333e-05, 'epoch': 0.23}


  8%|▊         | 480/6000 [02:53<33:20,  2.76it/s]

{'loss': 0.2421, 'learning_rate': 4.600000000000001e-05, 'epoch': 0.24}


  8%|▊         | 490/6000 [02:56<33:03,  2.78it/s]

{'loss': 0.3092, 'learning_rate': 4.591666666666667e-05, 'epoch': 0.24}


  8%|▊         | 500/6000 [03:00<32:55,  2.78it/s]Saving model checkpoint to ./results\checkpoint-500
Configuration saved in ./results\checkpoint-500\config.json


{'loss': 0.2126, 'learning_rate': 4.5833333333333334e-05, 'epoch': 0.25}


Model weights saved in ./results\checkpoint-500\pytorch_model.bin
  8%|▊         | 510/6000 [03:05<35:26,  2.58it/s]

{'loss': 0.2558, 'learning_rate': 4.575e-05, 'epoch': 0.26}


  9%|▊         | 520/6000 [03:08<34:33,  2.64it/s]

{'loss': 0.2326, 'learning_rate': 4.566666666666667e-05, 'epoch': 0.26}


  9%|▉         | 530/6000 [03:12<33:49,  2.70it/s]

{'loss': 0.2945, 'learning_rate': 4.5583333333333335e-05, 'epoch': 0.27}


  9%|▉         | 540/6000 [03:16<33:41,  2.70it/s]

{'loss': 0.2862, 'learning_rate': 4.55e-05, 'epoch': 0.27}


  9%|▉         | 550/6000 [03:20<33:38,  2.70it/s]

{'loss': 0.2243, 'learning_rate': 4.541666666666667e-05, 'epoch': 0.28}


  9%|▉         | 560/6000 [03:23<33:39,  2.69it/s]

{'loss': 0.2932, 'learning_rate': 4.5333333333333335e-05, 'epoch': 0.28}


 10%|▉         | 570/6000 [03:27<33:36,  2.69it/s]

{'loss': 0.2894, 'learning_rate': 4.525e-05, 'epoch': 0.28}


 10%|▉         | 580/6000 [03:31<33:19,  2.71it/s]

{'loss': 0.3201, 'learning_rate': 4.516666666666667e-05, 'epoch': 0.29}


 10%|▉         | 590/6000 [03:34<33:21,  2.70it/s]

{'loss': 0.3945, 'learning_rate': 4.5083333333333336e-05, 'epoch': 0.29}


 10%|█         | 600/6000 [03:38<33:17,  2.70it/s]

{'loss': 0.2532, 'learning_rate': 4.5e-05, 'epoch': 0.3}


 10%|█         | 610/6000 [03:42<33:17,  2.70it/s]

{'loss': 0.2469, 'learning_rate': 4.491666666666667e-05, 'epoch': 0.3}


 10%|█         | 620/6000 [03:46<33:17,  2.69it/s]

{'loss': 0.1907, 'learning_rate': 4.483333333333333e-05, 'epoch': 0.31}


 10%|█         | 630/6000 [03:49<33:14,  2.69it/s]

{'loss': 0.4005, 'learning_rate': 4.4750000000000004e-05, 'epoch': 0.32}


 11%|█         | 640/6000 [03:53<33:13,  2.69it/s]

{'loss': 0.258, 'learning_rate': 4.466666666666667e-05, 'epoch': 0.32}


 11%|█         | 650/6000 [03:57<33:02,  2.70it/s]

{'loss': 0.2975, 'learning_rate': 4.458333333333334e-05, 'epoch': 0.33}


 11%|█         | 660/6000 [04:00<32:58,  2.70it/s]

{'loss': 0.2731, 'learning_rate': 4.4500000000000004e-05, 'epoch': 0.33}


 11%|█         | 670/6000 [04:04<32:56,  2.70it/s]

{'loss': 0.2123, 'learning_rate': 4.4416666666666664e-05, 'epoch': 0.34}


 11%|█▏        | 680/6000 [04:08<32:55,  2.69it/s]

{'loss': 0.2812, 'learning_rate': 4.433333333333334e-05, 'epoch': 0.34}


 12%|█▏        | 690/6000 [04:12<32:44,  2.70it/s]

{'loss': 0.2869, 'learning_rate': 4.4250000000000005e-05, 'epoch': 0.34}


 12%|█▏        | 700/6000 [04:15<32:48,  2.69it/s]

{'loss': 0.1481, 'learning_rate': 4.4166666666666665e-05, 'epoch': 0.35}


 12%|█▏        | 710/6000 [04:19<32:42,  2.70it/s]

{'loss': 0.258, 'learning_rate': 4.408333333333334e-05, 'epoch': 0.35}


 12%|█▏        | 720/6000 [04:23<32:27,  2.71it/s]

{'loss': 0.2169, 'learning_rate': 4.4000000000000006e-05, 'epoch': 0.36}


 12%|█▏        | 730/6000 [04:26<32:31,  2.70it/s]

{'loss': 0.3216, 'learning_rate': 4.3916666666666666e-05, 'epoch': 0.36}


 12%|█▏        | 740/6000 [04:30<32:22,  2.71it/s]

{'loss': 0.1611, 'learning_rate': 4.383333333333334e-05, 'epoch': 0.37}


 12%|█▎        | 750/6000 [04:34<32:26,  2.70it/s]

{'loss': 0.1487, 'learning_rate': 4.375e-05, 'epoch': 0.38}


 13%|█▎        | 760/6000 [04:38<32:17,  2.70it/s]

{'loss': 0.1407, 'learning_rate': 4.3666666666666666e-05, 'epoch': 0.38}


 13%|█▎        | 770/6000 [04:41<32:22,  2.69it/s]

{'loss': 0.2344, 'learning_rate': 4.358333333333334e-05, 'epoch': 0.39}


 13%|█▎        | 780/6000 [04:45<32:17,  2.69it/s]

{'loss': 0.1892, 'learning_rate': 4.35e-05, 'epoch': 0.39}


 13%|█▎        | 790/6000 [04:49<32:08,  2.70it/s]

{'loss': 0.2412, 'learning_rate': 4.341666666666667e-05, 'epoch': 0.4}


 13%|█▎        | 800/6000 [04:52<32:10,  2.69it/s]

{'loss': 0.213, 'learning_rate': 4.3333333333333334e-05, 'epoch': 0.4}


 14%|█▎        | 810/6000 [04:56<32:04,  2.70it/s]

{'loss': 0.1782, 'learning_rate': 4.325e-05, 'epoch': 0.41}


 14%|█▎        | 820/6000 [05:00<32:04,  2.69it/s]

{'loss': 0.2206, 'learning_rate': 4.316666666666667e-05, 'epoch': 0.41}


 14%|█▍        | 830/6000 [05:04<31:56,  2.70it/s]

{'loss': 0.346, 'learning_rate': 4.3083333333333335e-05, 'epoch': 0.41}


 14%|█▍        | 840/6000 [05:07<31:58,  2.69it/s]

{'loss': 0.1268, 'learning_rate': 4.3e-05, 'epoch': 0.42}


 14%|█▍        | 850/6000 [05:11<31:55,  2.69it/s]

{'loss': 0.2017, 'learning_rate': 4.291666666666667e-05, 'epoch': 0.42}


 14%|█▍        | 860/6000 [05:15<31:37,  2.71it/s]

{'loss': 0.278, 'learning_rate': 4.2833333333333335e-05, 'epoch': 0.43}


 14%|█▍        | 870/6000 [05:18<31:37,  2.70it/s]

{'loss': 0.2784, 'learning_rate': 4.275e-05, 'epoch': 0.43}


 15%|█▍        | 880/6000 [05:22<31:37,  2.70it/s]

{'loss': 0.3926, 'learning_rate': 4.266666666666667e-05, 'epoch': 0.44}


 15%|█▍        | 890/6000 [05:26<31:40,  2.69it/s]

{'loss': 0.2742, 'learning_rate': 4.2583333333333336e-05, 'epoch': 0.45}


 15%|█▌        | 900/6000 [05:30<31:23,  2.71it/s]

{'loss': 0.2383, 'learning_rate': 4.25e-05, 'epoch': 0.45}


 15%|█▌        | 910/6000 [05:33<31:24,  2.70it/s]

{'loss': 0.2814, 'learning_rate': 4.241666666666667e-05, 'epoch': 0.46}


 15%|█▌        | 920/6000 [05:37<31:28,  2.69it/s]

{'loss': 0.2953, 'learning_rate': 4.233333333333334e-05, 'epoch': 0.46}


 16%|█▌        | 930/6000 [05:41<31:14,  2.71it/s]

{'loss': 0.2206, 'learning_rate': 4.2250000000000004e-05, 'epoch': 0.47}


 16%|█▌        | 940/6000 [05:44<31:10,  2.70it/s]

{'loss': 0.2449, 'learning_rate': 4.216666666666667e-05, 'epoch': 0.47}


 16%|█▌        | 950/6000 [05:48<31:11,  2.70it/s]

{'loss': 0.2863, 'learning_rate': 4.208333333333334e-05, 'epoch': 0.47}


 16%|█▌        | 960/6000 [05:52<31:14,  2.69it/s]

{'loss': 0.2337, 'learning_rate': 4.2e-05, 'epoch': 0.48}


 16%|█▌        | 970/6000 [05:56<31:07,  2.69it/s]

{'loss': 0.2129, 'learning_rate': 4.191666666666667e-05, 'epoch': 0.48}


 16%|█▋        | 980/6000 [05:59<30:59,  2.70it/s]

{'loss': 0.2238, 'learning_rate': 4.183333333333334e-05, 'epoch': 0.49}


 16%|█▋        | 990/6000 [06:03<30:56,  2.70it/s]

{'loss': 0.164, 'learning_rate': 4.175e-05, 'epoch': 0.49}


 17%|█▋        | 1000/6000 [06:07<30:45,  2.71it/s]Saving model checkpoint to ./results\checkpoint-1000
Configuration saved in ./results\checkpoint-1000\config.json
Model weights saved in ./results\checkpoint-1000\pytorch_model.bin


{'loss': 0.3808, 'learning_rate': 4.166666666666667e-05, 'epoch': 0.5}


 17%|█▋        | 1010/6000 [06:12<33:18,  2.50it/s]

{'loss': 0.3075, 'learning_rate': 4.158333333333333e-05, 'epoch': 0.51}


 17%|█▋        | 1020/6000 [06:16<30:44,  2.70it/s]

{'loss': 0.3044, 'learning_rate': 4.15e-05, 'epoch': 0.51}


 17%|█▋        | 1030/6000 [06:19<30:37,  2.70it/s]

{'loss': 0.2296, 'learning_rate': 4.141666666666667e-05, 'epoch': 0.52}


 17%|█▋        | 1040/6000 [06:23<30:34,  2.70it/s]

{'loss': 0.2038, 'learning_rate': 4.133333333333333e-05, 'epoch': 0.52}


 18%|█▊        | 1050/6000 [06:27<30:38,  2.69it/s]

{'loss': 0.1886, 'learning_rate': 4.125e-05, 'epoch': 0.53}


 18%|█▊        | 1060/6000 [06:30<30:26,  2.70it/s]

{'loss': 0.2274, 'learning_rate': 4.116666666666667e-05, 'epoch': 0.53}


 18%|█▊        | 1070/6000 [06:34<30:31,  2.69it/s]

{'loss': 0.2375, 'learning_rate': 4.1083333333333334e-05, 'epoch': 0.54}


 18%|█▊        | 1080/6000 [06:38<30:23,  2.70it/s]

{'loss': 0.1872, 'learning_rate': 4.1e-05, 'epoch': 0.54}


 18%|█▊        | 1090/6000 [06:42<30:12,  2.71it/s]

{'loss': 0.3294, 'learning_rate': 4.091666666666667e-05, 'epoch': 0.55}


 18%|█▊        | 1100/6000 [06:45<30:12,  2.70it/s]

{'loss': 0.2952, 'learning_rate': 4.0833333333333334e-05, 'epoch': 0.55}


 18%|█▊        | 1110/6000 [06:49<30:06,  2.71it/s]

{'loss': 0.2519, 'learning_rate': 4.075e-05, 'epoch': 0.56}


 19%|█▊        | 1120/6000 [06:53<30:13,  2.69it/s]

{'loss': 0.245, 'learning_rate': 4.066666666666667e-05, 'epoch': 0.56}


 19%|█▉        | 1130/6000 [06:56<30:06,  2.70it/s]

{'loss': 0.199, 'learning_rate': 4.0583333333333335e-05, 'epoch': 0.56}


 19%|█▉        | 1140/6000 [07:00<30:06,  2.69it/s]

{'loss': 0.2974, 'learning_rate': 4.05e-05, 'epoch': 0.57}


 19%|█▉        | 1150/6000 [07:04<29:58,  2.70it/s]

{'loss': 0.2307, 'learning_rate': 4.041666666666667e-05, 'epoch': 0.57}


 19%|█▉        | 1160/6000 [07:08<29:51,  2.70it/s]

{'loss': 0.2923, 'learning_rate': 4.0333333333333336e-05, 'epoch': 0.58}


 20%|█▉        | 1170/6000 [07:11<29:52,  2.70it/s]

{'loss': 0.2154, 'learning_rate': 4.025e-05, 'epoch': 0.58}


 20%|█▉        | 1180/6000 [07:15<29:40,  2.71it/s]

{'loss': 0.235, 'learning_rate': 4.016666666666667e-05, 'epoch': 0.59}


 20%|█▉        | 1190/6000 [07:19<29:49,  2.69it/s]

{'loss': 0.1812, 'learning_rate': 4.0083333333333336e-05, 'epoch': 0.59}


 20%|██        | 1200/6000 [07:22<29:46,  2.69it/s]

{'loss': 0.428, 'learning_rate': 4e-05, 'epoch': 0.6}


 20%|██        | 1210/6000 [07:26<29:34,  2.70it/s]

{'loss': 0.2578, 'learning_rate': 3.991666666666667e-05, 'epoch': 0.6}


 20%|██        | 1220/6000 [07:30<29:34,  2.69it/s]

{'loss': 0.2243, 'learning_rate': 3.983333333333333e-05, 'epoch': 0.61}


 20%|██        | 1230/6000 [07:34<29:20,  2.71it/s]

{'loss': 0.2148, 'learning_rate': 3.9750000000000004e-05, 'epoch': 0.61}


 21%|██        | 1240/6000 [07:37<29:20,  2.70it/s]

{'loss': 0.2032, 'learning_rate': 3.966666666666667e-05, 'epoch': 0.62}


 21%|██        | 1250/6000 [07:41<29:16,  2.70it/s]

{'loss': 0.2513, 'learning_rate': 3.958333333333333e-05, 'epoch': 0.62}


 21%|██        | 1260/6000 [07:45<29:24,  2.69it/s]

{'loss': 0.2764, 'learning_rate': 3.9500000000000005e-05, 'epoch': 0.63}


 21%|██        | 1270/6000 [07:48<29:11,  2.70it/s]

{'loss': 0.2649, 'learning_rate': 3.941666666666667e-05, 'epoch': 0.64}


 21%|██▏       | 1280/6000 [07:52<29:09,  2.70it/s]

{'loss': 0.3858, 'learning_rate': 3.933333333333333e-05, 'epoch': 0.64}


 22%|██▏       | 1290/6000 [07:56<29:10,  2.69it/s]

{'loss': 0.207, 'learning_rate': 3.9250000000000005e-05, 'epoch': 0.65}


 22%|██▏       | 1300/6000 [08:00<28:56,  2.71it/s]

{'loss': 0.2455, 'learning_rate': 3.9166666666666665e-05, 'epoch': 0.65}


 22%|██▏       | 1310/6000 [08:03<28:52,  2.71it/s]

{'loss': 0.195, 'learning_rate': 3.908333333333333e-05, 'epoch': 0.66}


 22%|██▏       | 1320/6000 [08:07<28:46,  2.71it/s]

{'loss': 0.2257, 'learning_rate': 3.9000000000000006e-05, 'epoch': 0.66}


 22%|██▏       | 1330/6000 [08:11<28:58,  2.69it/s]

{'loss': 0.3135, 'learning_rate': 3.8916666666666666e-05, 'epoch': 0.67}


 22%|██▏       | 1340/6000 [08:14<28:49,  2.70it/s]

{'loss': 0.315, 'learning_rate': 3.883333333333333e-05, 'epoch': 0.67}


 22%|██▎       | 1350/6000 [08:18<28:42,  2.70it/s]

{'loss': 0.1681, 'learning_rate': 3.875e-05, 'epoch': 0.68}


 23%|██▎       | 1360/6000 [08:22<28:43,  2.69it/s]

{'loss': 0.1283, 'learning_rate': 3.866666666666667e-05, 'epoch': 0.68}


 23%|██▎       | 1370/6000 [08:26<28:32,  2.70it/s]

{'loss': 0.2347, 'learning_rate': 3.8583333333333334e-05, 'epoch': 0.69}


 23%|██▎       | 1380/6000 [08:29<28:26,  2.71it/s]

{'loss': 0.2442, 'learning_rate': 3.85e-05, 'epoch': 0.69}


 23%|██▎       | 1390/6000 [08:33<28:27,  2.70it/s]

{'loss': 0.2115, 'learning_rate': 3.841666666666667e-05, 'epoch': 0.69}


 23%|██▎       | 1400/6000 [08:37<28:33,  2.69it/s]

{'loss': 0.3015, 'learning_rate': 3.8333333333333334e-05, 'epoch': 0.7}


 24%|██▎       | 1410/6000 [08:40<28:26,  2.69it/s]

{'loss': 0.2502, 'learning_rate': 3.825e-05, 'epoch': 0.7}


 24%|██▎       | 1420/6000 [08:44<28:15,  2.70it/s]

{'loss': 0.2021, 'learning_rate': 3.816666666666667e-05, 'epoch': 0.71}


 24%|██▍       | 1430/6000 [08:48<28:14,  2.70it/s]

{'loss': 0.2658, 'learning_rate': 3.8083333333333335e-05, 'epoch': 0.71}


 24%|██▍       | 1440/6000 [08:52<28:08,  2.70it/s]

{'loss': 0.2898, 'learning_rate': 3.8e-05, 'epoch': 0.72}


 24%|██▍       | 1450/6000 [08:55<28:05,  2.70it/s]

{'loss': 0.1855, 'learning_rate': 3.791666666666667e-05, 'epoch': 0.72}


 24%|██▍       | 1460/6000 [08:59<28:00,  2.70it/s]

{'loss': 0.2609, 'learning_rate': 3.7833333333333336e-05, 'epoch': 0.73}


 24%|██▍       | 1470/6000 [09:03<28:03,  2.69it/s]

{'loss': 0.2636, 'learning_rate': 3.775e-05, 'epoch': 0.73}


 25%|██▍       | 1480/6000 [09:06<27:56,  2.70it/s]

{'loss': 0.1684, 'learning_rate': 3.766666666666667e-05, 'epoch': 0.74}


 25%|██▍       | 1490/6000 [09:10<27:53,  2.70it/s]

{'loss': 0.1261, 'learning_rate': 3.7583333333333337e-05, 'epoch': 0.74}


 25%|██▌       | 1500/6000 [09:14<27:48,  2.70it/s]Saving model checkpoint to ./results\checkpoint-1500
Configuration saved in ./results\checkpoint-1500\config.json


{'loss': 0.2367, 'learning_rate': 3.7500000000000003e-05, 'epoch': 0.75}


Model weights saved in ./results\checkpoint-1500\pytorch_model.bin
 25%|██▌       | 1510/6000 [09:19<29:55,  2.50it/s]

{'loss': 0.146, 'learning_rate': 3.7416666666666664e-05, 'epoch': 0.76}


 25%|██▌       | 1520/6000 [09:23<27:44,  2.69it/s]

{'loss': 0.2136, 'learning_rate': 3.733333333333334e-05, 'epoch': 0.76}


 26%|██▌       | 1530/6000 [09:26<27:35,  2.70it/s]

{'loss': 0.2254, 'learning_rate': 3.7250000000000004e-05, 'epoch': 0.77}


 26%|██▌       | 1540/6000 [09:30<27:23,  2.71it/s]

{'loss': 0.1997, 'learning_rate': 3.7166666666666664e-05, 'epoch': 0.77}


 26%|██▌       | 1550/6000 [09:34<27:25,  2.70it/s]

{'loss': 0.195, 'learning_rate': 3.708333333333334e-05, 'epoch': 0.78}


 26%|██▌       | 1560/6000 [09:38<27:31,  2.69it/s]

{'loss': 0.2307, 'learning_rate': 3.7e-05, 'epoch': 0.78}


 26%|██▌       | 1570/6000 [09:41<27:19,  2.70it/s]

{'loss': 0.139, 'learning_rate': 3.6916666666666665e-05, 'epoch': 0.79}


 26%|██▋       | 1580/6000 [09:45<27:18,  2.70it/s]

{'loss': 0.3002, 'learning_rate': 3.683333333333334e-05, 'epoch': 0.79}


 26%|██▋       | 1590/6000 [09:49<27:16,  2.70it/s]

{'loss': 0.2176, 'learning_rate': 3.675e-05, 'epoch': 0.8}


 27%|██▋       | 1600/6000 [09:52<27:09,  2.70it/s]

{'loss': 0.2916, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.8}


 27%|██▋       | 1610/6000 [09:56<27:07,  2.70it/s]

{'loss': 0.2301, 'learning_rate': 3.658333333333334e-05, 'epoch': 0.81}


 27%|██▋       | 1620/6000 [10:00<27:02,  2.70it/s]

{'loss': 0.2936, 'learning_rate': 3.65e-05, 'epoch': 0.81}


 27%|██▋       | 1630/6000 [10:04<27:05,  2.69it/s]

{'loss': 0.246, 'learning_rate': 3.641666666666667e-05, 'epoch': 0.81}


 27%|██▋       | 1640/6000 [10:07<26:58,  2.69it/s]

{'loss': 0.2457, 'learning_rate': 3.633333333333333e-05, 'epoch': 0.82}


 28%|██▊       | 1650/6000 [10:11<26:47,  2.71it/s]

{'loss': 0.232, 'learning_rate': 3.625e-05, 'epoch': 0.82}


 28%|██▊       | 1660/6000 [10:15<26:53,  2.69it/s]

{'loss': 0.2992, 'learning_rate': 3.6166666666666674e-05, 'epoch': 0.83}


 28%|██▊       | 1670/6000 [10:18<26:41,  2.70it/s]

{'loss': 0.2573, 'learning_rate': 3.6083333333333334e-05, 'epoch': 0.83}


 28%|██▊       | 1680/6000 [10:22<26:40,  2.70it/s]

{'loss': 0.2071, 'learning_rate': 3.6e-05, 'epoch': 0.84}


 28%|██▊       | 1690/6000 [10:26<26:32,  2.71it/s]

{'loss': 0.2597, 'learning_rate': 3.591666666666667e-05, 'epoch': 0.84}


 28%|██▊       | 1700/6000 [10:30<26:36,  2.69it/s]

{'loss': 0.2945, 'learning_rate': 3.5833333333333335e-05, 'epoch': 0.85}


 28%|██▊       | 1710/6000 [10:33<26:28,  2.70it/s]

{'loss': 0.1763, 'learning_rate': 3.575e-05, 'epoch': 0.85}


 29%|██▊       | 1720/6000 [10:37<26:27,  2.70it/s]

{'loss': 0.2123, 'learning_rate': 3.566666666666667e-05, 'epoch': 0.86}


 29%|██▉       | 1730/6000 [10:41<26:21,  2.70it/s]

{'loss': 0.1819, 'learning_rate': 3.5583333333333335e-05, 'epoch': 0.86}


 29%|██▉       | 1740/6000 [10:44<26:15,  2.70it/s]

{'loss': 0.229, 'learning_rate': 3.55e-05, 'epoch': 0.87}


 29%|██▉       | 1750/6000 [10:48<26:16,  2.70it/s]

{'loss': 0.2251, 'learning_rate': 3.541666666666667e-05, 'epoch': 0.88}


 29%|██▉       | 1760/6000 [10:52<26:09,  2.70it/s]

{'loss': 0.1964, 'learning_rate': 3.5333333333333336e-05, 'epoch': 0.88}


 30%|██▉       | 1770/6000 [10:56<26:16,  2.68it/s]

{'loss': 0.1965, 'learning_rate': 3.525e-05, 'epoch': 0.89}


 30%|██▉       | 1780/6000 [10:59<26:11,  2.69it/s]

{'loss': 0.1659, 'learning_rate': 3.516666666666667e-05, 'epoch': 0.89}


 30%|██▉       | 1790/6000 [11:03<25:56,  2.71it/s]

{'loss': 0.2455, 'learning_rate': 3.508333333333334e-05, 'epoch': 0.9}


 30%|███       | 1800/6000 [11:07<25:54,  2.70it/s]

{'loss': 0.2393, 'learning_rate': 3.5e-05, 'epoch': 0.9}


 30%|███       | 1810/6000 [11:10<25:50,  2.70it/s]

{'loss': 0.2867, 'learning_rate': 3.491666666666667e-05, 'epoch': 0.91}


 30%|███       | 1820/6000 [11:14<25:47,  2.70it/s]

{'loss': 0.1581, 'learning_rate': 3.483333333333334e-05, 'epoch': 0.91}


 30%|███       | 1830/6000 [11:18<25:46,  2.70it/s]

{'loss': 0.2373, 'learning_rate': 3.475e-05, 'epoch': 0.92}


 31%|███       | 1840/6000 [11:22<25:46,  2.69it/s]

{'loss': 0.3447, 'learning_rate': 3.466666666666667e-05, 'epoch': 0.92}


 31%|███       | 1850/6000 [11:25<25:44,  2.69it/s]

{'loss': 0.261, 'learning_rate': 3.458333333333333e-05, 'epoch': 0.93}


 31%|███       | 1860/6000 [11:29<25:33,  2.70it/s]

{'loss': 0.2184, 'learning_rate': 3.45e-05, 'epoch': 0.93}


 31%|███       | 1870/6000 [11:33<25:29,  2.70it/s]

{'loss': 0.2444, 'learning_rate': 3.441666666666667e-05, 'epoch': 0.94}


 31%|███▏      | 1880/6000 [11:36<25:23,  2.70it/s]

{'loss': 0.2221, 'learning_rate': 3.433333333333333e-05, 'epoch': 0.94}


 32%|███▏      | 1890/6000 [11:40<25:24,  2.70it/s]

{'loss': 0.176, 'learning_rate': 3.4250000000000006e-05, 'epoch': 0.94}


 32%|███▏      | 1900/6000 [11:44<25:17,  2.70it/s]

{'loss': 0.2035, 'learning_rate': 3.4166666666666666e-05, 'epoch': 0.95}


 32%|███▏      | 1910/6000 [11:48<25:20,  2.69it/s]

{'loss': 0.1993, 'learning_rate': 3.408333333333333e-05, 'epoch': 0.95}


 32%|███▏      | 1920/6000 [11:51<25:14,  2.69it/s]

{'loss': 0.192, 'learning_rate': 3.4000000000000007e-05, 'epoch': 0.96}


 32%|███▏      | 1930/6000 [11:55<25:06,  2.70it/s]

{'loss': 0.2782, 'learning_rate': 3.391666666666667e-05, 'epoch': 0.96}


 32%|███▏      | 1940/6000 [11:59<25:05,  2.70it/s]

{'loss': 0.1381, 'learning_rate': 3.3833333333333334e-05, 'epoch': 0.97}


 32%|███▎      | 1950/6000 [12:02<24:58,  2.70it/s]

{'loss': 0.2451, 'learning_rate': 3.375000000000001e-05, 'epoch': 0.97}


 33%|███▎      | 1960/6000 [12:06<24:59,  2.69it/s]

{'loss': 0.1859, 'learning_rate': 3.366666666666667e-05, 'epoch': 0.98}


 33%|███▎      | 1970/6000 [12:10<24:54,  2.70it/s]

{'loss': 0.3181, 'learning_rate': 3.3583333333333334e-05, 'epoch': 0.98}


 33%|███▎      | 1980/6000 [12:14<24:57,  2.69it/s]

{'loss': 0.2256, 'learning_rate': 3.35e-05, 'epoch': 0.99}


 33%|███▎      | 1990/6000 [12:17<24:47,  2.70it/s]

{'loss': 0.1963, 'learning_rate': 3.341666666666667e-05, 'epoch': 0.99}


 33%|███▎      | 2000/6000 [12:21<24:41,  2.70it/s]Saving model checkpoint to ./results\checkpoint-2000
Configuration saved in ./results\checkpoint-2000\config.json


{'loss': 0.2698, 'learning_rate': 3.3333333333333335e-05, 'epoch': 1.0}


Model weights saved in ./results\checkpoint-2000\pytorch_model.bin
 34%|███▎      | 2010/6000 [12:26<26:45,  2.48it/s]

{'loss': 0.1726, 'learning_rate': 3.325e-05, 'epoch': 1.0}


 34%|███▎      | 2020/6000 [12:30<24:38,  2.69it/s]

{'loss': 0.2194, 'learning_rate': 3.316666666666667e-05, 'epoch': 1.01}


 34%|███▍      | 2030/6000 [12:34<24:31,  2.70it/s]

{'loss': 0.1437, 'learning_rate': 3.3083333333333336e-05, 'epoch': 1.01}


 34%|███▍      | 2040/6000 [12:37<24:22,  2.71it/s]

{'loss': 0.1187, 'learning_rate': 3.3e-05, 'epoch': 1.02}


 34%|███▍      | 2050/6000 [12:41<24:25,  2.69it/s]

{'loss': 0.1335, 'learning_rate': 3.291666666666667e-05, 'epoch': 1.02}


 34%|███▍      | 2060/6000 [12:45<24:17,  2.70it/s]

{'loss': 0.0968, 'learning_rate': 3.283333333333333e-05, 'epoch': 1.03}


 34%|███▍      | 2070/6000 [12:49<24:17,  2.70it/s]

{'loss': 0.1229, 'learning_rate': 3.275e-05, 'epoch': 1.03}


 35%|███▍      | 2080/6000 [12:52<24:14,  2.69it/s]

{'loss': 0.0795, 'learning_rate': 3.266666666666667e-05, 'epoch': 1.04}


 35%|███▍      | 2090/6000 [12:56<24:03,  2.71it/s]

{'loss': 0.1269, 'learning_rate': 3.258333333333333e-05, 'epoch': 1.04}


 35%|███▌      | 2100/6000 [13:00<24:03,  2.70it/s]

{'loss': 0.1649, 'learning_rate': 3.2500000000000004e-05, 'epoch': 1.05}


 35%|███▌      | 2110/6000 [13:03<24:00,  2.70it/s]

{'loss': 0.0975, 'learning_rate': 3.2416666666666664e-05, 'epoch': 1.05}


 35%|███▌      | 2120/6000 [13:07<23:55,  2.70it/s]

{'loss': 0.1865, 'learning_rate': 3.233333333333333e-05, 'epoch': 1.06}


 36%|███▌      | 2130/6000 [13:11<23:51,  2.70it/s]

{'loss': 0.0561, 'learning_rate': 3.2250000000000005e-05, 'epoch': 1.06}


 36%|███▌      | 2140/6000 [13:15<23:59,  2.68it/s]

{'loss': 0.0657, 'learning_rate': 3.2166666666666665e-05, 'epoch': 1.07}


 36%|███▌      | 2150/6000 [13:18<23:52,  2.69it/s]

{'loss': 0.1513, 'learning_rate': 3.208333333333334e-05, 'epoch': 1.07}


 36%|███▌      | 2160/6000 [13:22<23:41,  2.70it/s]

{'loss': 0.1029, 'learning_rate': 3.2000000000000005e-05, 'epoch': 1.08}


 36%|███▌      | 2170/6000 [13:26<23:37,  2.70it/s]

{'loss': 0.1465, 'learning_rate': 3.1916666666666665e-05, 'epoch': 1.08}


 36%|███▋      | 2180/6000 [13:29<23:37,  2.70it/s]

{'loss': 0.0949, 'learning_rate': 3.183333333333334e-05, 'epoch': 1.09}


 36%|███▋      | 2190/6000 [13:33<23:35,  2.69it/s]

{'loss': 0.1749, 'learning_rate': 3.175e-05, 'epoch': 1.09}


 37%|███▋      | 2200/6000 [13:37<23:28,  2.70it/s]

{'loss': 0.0403, 'learning_rate': 3.1666666666666666e-05, 'epoch': 1.1}


 37%|███▋      | 2210/6000 [13:41<23:27,  2.69it/s]

{'loss': 0.1146, 'learning_rate': 3.158333333333334e-05, 'epoch': 1.1}


 37%|███▋      | 2220/6000 [13:44<23:28,  2.68it/s]

{'loss': 0.0817, 'learning_rate': 3.15e-05, 'epoch': 1.11}


 37%|███▋      | 2230/6000 [13:48<23:10,  2.71it/s]

{'loss': 0.0784, 'learning_rate': 3.141666666666667e-05, 'epoch': 1.11}


 37%|███▋      | 2240/6000 [13:52<23:10,  2.70it/s]

{'loss': 0.0895, 'learning_rate': 3.1333333333333334e-05, 'epoch': 1.12}


 38%|███▊      | 2250/6000 [13:55<23:08,  2.70it/s]

{'loss': 0.2056, 'learning_rate': 3.125e-05, 'epoch': 1.12}


 38%|███▊      | 2260/6000 [13:59<23:10,  2.69it/s]

{'loss': 0.0732, 'learning_rate': 3.116666666666667e-05, 'epoch': 1.13}


 38%|███▊      | 2270/6000 [14:03<22:56,  2.71it/s]

{'loss': 0.1501, 'learning_rate': 3.1083333333333334e-05, 'epoch': 1.14}


 38%|███▊      | 2280/6000 [14:07<23:02,  2.69it/s]

{'loss': 0.0765, 'learning_rate': 3.1e-05, 'epoch': 1.14}


 38%|███▊      | 2290/6000 [14:10<23:02,  2.68it/s]

{'loss': 0.1026, 'learning_rate': 3.091666666666667e-05, 'epoch': 1.15}


 38%|███▊      | 2300/6000 [14:14<22:47,  2.71it/s]

{'loss': 0.1704, 'learning_rate': 3.0833333333333335e-05, 'epoch': 1.15}


 38%|███▊      | 2310/6000 [14:18<22:46,  2.70it/s]

{'loss': 0.158, 'learning_rate': 3.075e-05, 'epoch': 1.16}


 39%|███▊      | 2320/6000 [14:21<22:44,  2.70it/s]

{'loss': 0.2097, 'learning_rate': 3.066666666666667e-05, 'epoch': 1.16}


 39%|███▉      | 2330/6000 [14:25<22:40,  2.70it/s]

{'loss': 0.1504, 'learning_rate': 3.0583333333333336e-05, 'epoch': 1.17}


 39%|███▉      | 2340/6000 [14:29<22:36,  2.70it/s]

{'loss': 0.1802, 'learning_rate': 3.05e-05, 'epoch': 1.17}


 39%|███▉      | 2350/6000 [14:33<22:36,  2.69it/s]

{'loss': 0.1416, 'learning_rate': 3.0416666666666666e-05, 'epoch': 1.18}


 39%|███▉      | 2360/6000 [14:36<22:30,  2.69it/s]

{'loss': 0.0858, 'learning_rate': 3.0333333333333337e-05, 'epoch': 1.18}


 40%|███▉      | 2370/6000 [14:40<22:21,  2.71it/s]

{'loss': 0.1788, 'learning_rate': 3.025e-05, 'epoch': 1.19}


 40%|███▉      | 2380/6000 [14:44<22:17,  2.71it/s]

{'loss': 0.1861, 'learning_rate': 3.016666666666667e-05, 'epoch': 1.19}


 40%|███▉      | 2390/6000 [14:47<22:16,  2.70it/s]

{'loss': 0.1423, 'learning_rate': 3.0083333333333337e-05, 'epoch': 1.2}


 40%|████      | 2400/6000 [14:51<22:17,  2.69it/s]

{'loss': 0.07, 'learning_rate': 3e-05, 'epoch': 1.2}


 40%|████      | 2410/6000 [14:55<22:12,  2.69it/s]

{'loss': 0.1339, 'learning_rate': 2.991666666666667e-05, 'epoch': 1.21}


 40%|████      | 2420/6000 [14:59<22:07,  2.70it/s]

{'loss': 0.0238, 'learning_rate': 2.9833333333333335e-05, 'epoch': 1.21}


 40%|████      | 2430/6000 [15:02<22:05,  2.69it/s]

{'loss': 0.1449, 'learning_rate': 2.975e-05, 'epoch': 1.22}


 41%|████      | 2440/6000 [15:06<21:55,  2.71it/s]

{'loss': 0.1872, 'learning_rate': 2.9666666666666672e-05, 'epoch': 1.22}


 41%|████      | 2450/6000 [15:10<21:53,  2.70it/s]

{'loss': 0.1232, 'learning_rate': 2.9583333333333335e-05, 'epoch': 1.23}


 41%|████      | 2460/6000 [15:13<21:51,  2.70it/s]

{'loss': 0.1647, 'learning_rate': 2.95e-05, 'epoch': 1.23}


 41%|████      | 2470/6000 [15:17<21:52,  2.69it/s]

{'loss': 0.0739, 'learning_rate': 2.941666666666667e-05, 'epoch': 1.23}


 41%|████▏     | 2480/6000 [15:21<21:44,  2.70it/s]

{'loss': 0.1939, 'learning_rate': 2.9333333333333336e-05, 'epoch': 1.24}


 42%|████▏     | 2490/6000 [15:25<21:43,  2.69it/s]

{'loss': 0.1461, 'learning_rate': 2.925e-05, 'epoch': 1.25}


 42%|████▏     | 2500/6000 [15:28<21:38,  2.70it/s]Saving model checkpoint to ./results\checkpoint-2500
Configuration saved in ./results\checkpoint-2500\config.json


{'loss': 0.083, 'learning_rate': 2.916666666666667e-05, 'epoch': 1.25}


Model weights saved in ./results\checkpoint-2500\pytorch_model.bin
 42%|████▏     | 2510/6000 [15:33<23:13,  2.50it/s]

{'loss': 0.1703, 'learning_rate': 2.9083333333333333e-05, 'epoch': 1.25}


 42%|████▏     | 2520/6000 [15:37<21:34,  2.69it/s]

{'loss': 0.076, 'learning_rate': 2.9e-05, 'epoch': 1.26}


 42%|████▏     | 2530/6000 [15:41<21:21,  2.71it/s]

{'loss': 0.1378, 'learning_rate': 2.891666666666667e-05, 'epoch': 1.27}


 42%|████▏     | 2540/6000 [15:45<21:20,  2.70it/s]

{'loss': 0.2063, 'learning_rate': 2.8833333333333334e-05, 'epoch': 1.27}


 42%|████▎     | 2550/6000 [15:48<21:16,  2.70it/s]

{'loss': 0.1641, 'learning_rate': 2.8749999999999997e-05, 'epoch': 1.27}


 43%|████▎     | 2560/6000 [15:52<21:18,  2.69it/s]

{'loss': 0.1376, 'learning_rate': 2.8666666666666668e-05, 'epoch': 1.28}


 43%|████▎     | 2570/6000 [15:56<21:12,  2.69it/s]

{'loss': 0.1559, 'learning_rate': 2.8583333333333335e-05, 'epoch': 1.28}


 43%|████▎     | 2580/6000 [15:59<21:09,  2.69it/s]

{'loss': 0.1322, 'learning_rate': 2.8499999999999998e-05, 'epoch': 1.29}


 43%|████▎     | 2590/6000 [16:03<21:04,  2.70it/s]

{'loss': 0.1301, 'learning_rate': 2.841666666666667e-05, 'epoch': 1.29}


 43%|████▎     | 2600/6000 [16:07<20:50,  2.72it/s]

{'loss': 0.1014, 'learning_rate': 2.8333333333333335e-05, 'epoch': 1.3}


 44%|████▎     | 2610/6000 [16:10<20:55,  2.70it/s]

{'loss': 0.1001, 'learning_rate': 2.825e-05, 'epoch': 1.3}


 44%|████▎     | 2620/6000 [16:14<20:48,  2.71it/s]

{'loss': 0.1344, 'learning_rate': 2.816666666666667e-05, 'epoch': 1.31}


 44%|████▍     | 2630/6000 [16:18<20:52,  2.69it/s]

{'loss': 0.2193, 'learning_rate': 2.8083333333333333e-05, 'epoch': 1.31}


 44%|████▍     | 2640/6000 [16:22<20:47,  2.69it/s]

{'loss': 0.1107, 'learning_rate': 2.8000000000000003e-05, 'epoch': 1.32}


 44%|████▍     | 2650/6000 [16:25<20:41,  2.70it/s]

{'loss': 0.0587, 'learning_rate': 2.791666666666667e-05, 'epoch': 1.32}


 44%|████▍     | 2660/6000 [16:29<20:38,  2.70it/s]

{'loss': 0.1402, 'learning_rate': 2.7833333333333333e-05, 'epoch': 1.33}


 44%|████▍     | 2670/6000 [16:33<20:27,  2.71it/s]

{'loss': 0.156, 'learning_rate': 2.7750000000000004e-05, 'epoch': 1.33}


 45%|████▍     | 2680/6000 [16:36<20:27,  2.70it/s]

{'loss': 0.1564, 'learning_rate': 2.7666666666666667e-05, 'epoch': 1.34}


 45%|████▍     | 2690/6000 [16:40<20:22,  2.71it/s]

{'loss': 0.0598, 'learning_rate': 2.7583333333333334e-05, 'epoch': 1.34}


 45%|████▌     | 2700/6000 [16:44<20:25,  2.69it/s]

{'loss': 0.2207, 'learning_rate': 2.7500000000000004e-05, 'epoch': 1.35}


 45%|████▌     | 2710/6000 [16:48<20:21,  2.69it/s]

{'loss': 0.0978, 'learning_rate': 2.7416666666666668e-05, 'epoch': 1.35}


 45%|████▌     | 2720/6000 [16:51<20:14,  2.70it/s]

{'loss': 0.145, 'learning_rate': 2.733333333333333e-05, 'epoch': 1.36}


 46%|████▌     | 2730/6000 [16:55<20:09,  2.70it/s]

{'loss': 0.1543, 'learning_rate': 2.725e-05, 'epoch': 1.36}


 46%|████▌     | 2740/6000 [16:59<20:07,  2.70it/s]

{'loss': 0.1573, 'learning_rate': 2.716666666666667e-05, 'epoch': 1.37}


 46%|████▌     | 2750/6000 [17:02<20:05,  2.70it/s]

{'loss': 0.0834, 'learning_rate': 2.7083333333333332e-05, 'epoch': 1.38}


 46%|████▌     | 2760/6000 [17:06<19:57,  2.71it/s]

{'loss': 0.0545, 'learning_rate': 2.7000000000000002e-05, 'epoch': 1.38}


 46%|████▌     | 2770/6000 [17:10<20:03,  2.68it/s]

{'loss': 0.1746, 'learning_rate': 2.691666666666667e-05, 'epoch': 1.39}


 46%|████▋     | 2780/6000 [17:14<19:57,  2.69it/s]

{'loss': 0.0774, 'learning_rate': 2.6833333333333333e-05, 'epoch': 1.39}


 46%|████▋     | 2790/6000 [17:17<19:47,  2.70it/s]

{'loss': 0.1345, 'learning_rate': 2.6750000000000003e-05, 'epoch': 1.4}


 47%|████▋     | 2800/6000 [17:21<19:48,  2.69it/s]

{'loss': 0.3335, 'learning_rate': 2.6666666666666667e-05, 'epoch': 1.4}


 47%|████▋     | 2810/6000 [17:25<19:41,  2.70it/s]

{'loss': 0.0801, 'learning_rate': 2.6583333333333333e-05, 'epoch': 1.41}


 47%|████▋     | 2820/6000 [17:28<19:36,  2.70it/s]

{'loss': 0.193, 'learning_rate': 2.6500000000000004e-05, 'epoch': 1.41}


 47%|████▋     | 2830/6000 [17:32<19:31,  2.71it/s]

{'loss': 0.1574, 'learning_rate': 2.6416666666666667e-05, 'epoch': 1.42}


 47%|████▋     | 2840/6000 [17:36<19:35,  2.69it/s]

{'loss': 0.0932, 'learning_rate': 2.633333333333333e-05, 'epoch': 1.42}


 48%|████▊     | 2850/6000 [17:39<19:32,  2.69it/s]

{'loss': 0.1361, 'learning_rate': 2.625e-05, 'epoch': 1.43}


 48%|████▊     | 2860/6000 [17:43<19:25,  2.70it/s]

{'loss': 0.2049, 'learning_rate': 2.6166666666666668e-05, 'epoch': 1.43}


 48%|████▊     | 2870/6000 [17:47<19:19,  2.70it/s]

{'loss': 0.0999, 'learning_rate': 2.608333333333333e-05, 'epoch': 1.44}


 48%|████▊     | 2880/6000 [17:51<19:16,  2.70it/s]

{'loss': 0.1328, 'learning_rate': 2.6000000000000002e-05, 'epoch': 1.44}


 48%|████▊     | 2890/6000 [17:54<19:10,  2.70it/s]

{'loss': 0.2487, 'learning_rate': 2.5916666666666665e-05, 'epoch': 1.45}


 48%|████▊     | 2900/6000 [17:58<19:07,  2.70it/s]

{'loss': 0.2341, 'learning_rate': 2.5833333333333336e-05, 'epoch': 1.45}


 48%|████▊     | 2910/6000 [18:02<19:07,  2.69it/s]

{'loss': 0.0946, 'learning_rate': 2.5750000000000002e-05, 'epoch': 1.46}


 49%|████▊     | 2920/6000 [18:05<19:03,  2.69it/s]

{'loss': 0.1993, 'learning_rate': 2.5666666666666666e-05, 'epoch': 1.46}


 49%|████▉     | 2930/6000 [18:09<18:57,  2.70it/s]

{'loss': 0.0998, 'learning_rate': 2.5583333333333336e-05, 'epoch': 1.47}


 49%|████▉     | 2940/6000 [18:13<18:49,  2.71it/s]

{'loss': 0.1396, 'learning_rate': 2.5500000000000003e-05, 'epoch': 1.47}


 49%|████▉     | 2950/6000 [18:17<18:48,  2.70it/s]

{'loss': 0.1706, 'learning_rate': 2.5416666666666667e-05, 'epoch': 1.48}


 49%|████▉     | 2960/6000 [18:20<18:45,  2.70it/s]

{'loss': 0.1799, 'learning_rate': 2.5333333333333337e-05, 'epoch': 1.48}


 50%|████▉     | 2970/6000 [18:24<18:43,  2.70it/s]

{'loss': 0.0715, 'learning_rate': 2.525e-05, 'epoch': 1.48}


 50%|████▉     | 2980/6000 [18:28<18:44,  2.68it/s]

{'loss': 0.0768, 'learning_rate': 2.5166666666666667e-05, 'epoch': 1.49}


 50%|████▉     | 2990/6000 [18:31<18:42,  2.68it/s]

{'loss': 0.1225, 'learning_rate': 2.5083333333333338e-05, 'epoch': 1.5}


 50%|█████     | 3000/6000 [18:35<18:30,  2.70it/s]Saving model checkpoint to ./results\checkpoint-3000
Configuration saved in ./results\checkpoint-3000\config.json


{'loss': 0.0681, 'learning_rate': 2.5e-05, 'epoch': 1.5}


Model weights saved in ./results\checkpoint-3000\pytorch_model.bin
 50%|█████     | 3010/6000 [18:40<19:54,  2.50it/s]

{'loss': 0.1942, 'learning_rate': 2.4916666666666668e-05, 'epoch': 1.5}


 50%|█████     | 3020/6000 [18:44<18:25,  2.70it/s]

{'loss': 0.2859, 'learning_rate': 2.4833333333333335e-05, 'epoch': 1.51}


 50%|█████     | 3030/6000 [18:48<18:15,  2.71it/s]

{'loss': 0.1224, 'learning_rate': 2.4750000000000002e-05, 'epoch': 1.52}


 51%|█████     | 3040/6000 [18:51<18:11,  2.71it/s]

{'loss': 0.1266, 'learning_rate': 2.466666666666667e-05, 'epoch': 1.52}


 51%|█████     | 3050/6000 [18:55<18:11,  2.70it/s]

{'loss': 0.0725, 'learning_rate': 2.4583333333333332e-05, 'epoch': 1.52}


 51%|█████     | 3060/6000 [18:59<18:06,  2.71it/s]

{'loss': 0.2269, 'learning_rate': 2.45e-05, 'epoch': 1.53}


 51%|█████     | 3070/6000 [19:03<18:08,  2.69it/s]

{'loss': 0.2301, 'learning_rate': 2.441666666666667e-05, 'epoch': 1.54}


 51%|█████▏    | 3080/6000 [19:06<18:02,  2.70it/s]

{'loss': 0.0672, 'learning_rate': 2.4333333333333336e-05, 'epoch': 1.54}


 52%|█████▏    | 3090/6000 [19:10<17:53,  2.71it/s]

{'loss': 0.1016, 'learning_rate': 2.425e-05, 'epoch': 1.54}


 52%|█████▏    | 3100/6000 [19:14<17:52,  2.71it/s]

{'loss': 0.2003, 'learning_rate': 2.4166666666666667e-05, 'epoch': 1.55}


 52%|█████▏    | 3110/6000 [19:17<17:48,  2.70it/s]

{'loss': 0.1421, 'learning_rate': 2.4083333333333337e-05, 'epoch': 1.56}


 52%|█████▏    | 3120/6000 [19:21<17:43,  2.71it/s]

{'loss': 0.0445, 'learning_rate': 2.4e-05, 'epoch': 1.56}


 52%|█████▏    | 3130/6000 [19:25<17:42,  2.70it/s]

{'loss': 0.1402, 'learning_rate': 2.3916666666666668e-05, 'epoch': 1.56}


 52%|█████▏    | 3140/6000 [19:28<17:45,  2.68it/s]

{'loss': 0.2165, 'learning_rate': 2.3833333333333334e-05, 'epoch': 1.57}


 52%|█████▎    | 3150/6000 [19:32<17:37,  2.70it/s]

{'loss': 0.1631, 'learning_rate': 2.375e-05, 'epoch': 1.57}


 53%|█████▎    | 3160/6000 [19:36<17:28,  2.71it/s]

{'loss': 0.1715, 'learning_rate': 2.3666666666666668e-05, 'epoch': 1.58}


 53%|█████▎    | 3170/6000 [19:40<17:26,  2.70it/s]

{'loss': 0.1516, 'learning_rate': 2.3583333333333335e-05, 'epoch': 1.58}


 53%|█████▎    | 3180/6000 [19:43<17:20,  2.71it/s]

{'loss': 0.1033, 'learning_rate': 2.35e-05, 'epoch': 1.59}


 53%|█████▎    | 3190/6000 [19:47<17:22,  2.69it/s]

{'loss': 0.1133, 'learning_rate': 2.341666666666667e-05, 'epoch': 1.59}


 53%|█████▎    | 3200/6000 [19:51<17:17,  2.70it/s]

{'loss': 0.0897, 'learning_rate': 2.3333333333333336e-05, 'epoch': 1.6}


 54%|█████▎    | 3210/6000 [19:54<17:17,  2.69it/s]

{'loss': 0.1537, 'learning_rate': 2.3250000000000003e-05, 'epoch': 1.6}


 54%|█████▎    | 3220/6000 [19:58<17:12,  2.69it/s]

{'loss': 0.0651, 'learning_rate': 2.3166666666666666e-05, 'epoch': 1.61}


 54%|█████▍    | 3230/6000 [20:02<17:04,  2.70it/s]

{'loss': 0.1706, 'learning_rate': 2.3083333333333333e-05, 'epoch': 1.61}


 54%|█████▍    | 3240/6000 [20:06<17:02,  2.70it/s]

{'loss': 0.0545, 'learning_rate': 2.3000000000000003e-05, 'epoch': 1.62}


 54%|█████▍    | 3250/6000 [20:09<16:54,  2.71it/s]

{'loss': 0.1533, 'learning_rate': 2.2916666666666667e-05, 'epoch': 1.62}


 54%|█████▍    | 3260/6000 [20:13<16:54,  2.70it/s]

{'loss': 0.1392, 'learning_rate': 2.2833333333333334e-05, 'epoch': 1.63}


 55%|█████▍    | 3270/6000 [20:17<16:51,  2.70it/s]

{'loss': 0.1229, 'learning_rate': 2.275e-05, 'epoch': 1.64}


 55%|█████▍    | 3280/6000 [20:20<16:47,  2.70it/s]

{'loss': 0.0913, 'learning_rate': 2.2666666666666668e-05, 'epoch': 1.64}


 55%|█████▍    | 3290/6000 [20:24<16:44,  2.70it/s]

{'loss': 0.1185, 'learning_rate': 2.2583333333333335e-05, 'epoch': 1.65}


 55%|█████▌    | 3300/6000 [20:28<16:33,  2.72it/s]

{'loss': 0.0455, 'learning_rate': 2.25e-05, 'epoch': 1.65}


 55%|█████▌    | 3310/6000 [20:31<16:31,  2.71it/s]

{'loss': 0.0917, 'learning_rate': 2.2416666666666665e-05, 'epoch': 1.66}


 55%|█████▌    | 3320/6000 [20:35<16:31,  2.70it/s]

{'loss': 0.1089, 'learning_rate': 2.2333333333333335e-05, 'epoch': 1.66}


 56%|█████▌    | 3330/6000 [20:39<16:29,  2.70it/s]

{'loss': 0.1108, 'learning_rate': 2.2250000000000002e-05, 'epoch': 1.67}


 56%|█████▌    | 3340/6000 [20:43<16:22,  2.71it/s]

{'loss': 0.0643, 'learning_rate': 2.216666666666667e-05, 'epoch': 1.67}


 56%|█████▌    | 3350/6000 [20:46<16:24,  2.69it/s]

{'loss': 0.0763, 'learning_rate': 2.2083333333333333e-05, 'epoch': 1.68}


 56%|█████▌    | 3360/6000 [20:50<16:20,  2.69it/s]

{'loss': 0.1709, 'learning_rate': 2.2000000000000003e-05, 'epoch': 1.68}


 56%|█████▌    | 3370/6000 [20:54<16:08,  2.71it/s]

{'loss': 0.0997, 'learning_rate': 2.191666666666667e-05, 'epoch': 1.69}


 56%|█████▋    | 3380/6000 [20:57<16:07,  2.71it/s]

{'loss': 0.1917, 'learning_rate': 2.1833333333333333e-05, 'epoch': 1.69}


 56%|█████▋    | 3390/6000 [21:01<16:05,  2.70it/s]

{'loss': 0.2219, 'learning_rate': 2.175e-05, 'epoch': 1.69}


 57%|█████▋    | 3400/6000 [21:05<16:07,  2.69it/s]

{'loss': 0.0715, 'learning_rate': 2.1666666666666667e-05, 'epoch': 1.7}


 57%|█████▋    | 3410/6000 [21:09<16:00,  2.70it/s]

{'loss': 0.1447, 'learning_rate': 2.1583333333333334e-05, 'epoch': 1.71}


 57%|█████▋    | 3420/6000 [21:12<15:56,  2.70it/s]

{'loss': 0.1248, 'learning_rate': 2.15e-05, 'epoch': 1.71}


 57%|█████▋    | 3430/6000 [21:16<15:53,  2.69it/s]

{'loss': 0.1326, 'learning_rate': 2.1416666666666668e-05, 'epoch': 1.71}


 57%|█████▋    | 3440/6000 [21:20<15:44,  2.71it/s]

{'loss': 0.1131, 'learning_rate': 2.1333333333333335e-05, 'epoch': 1.72}


 57%|█████▊    | 3450/6000 [21:23<15:46,  2.69it/s]

{'loss': 0.0495, 'learning_rate': 2.125e-05, 'epoch': 1.73}


 58%|█████▊    | 3460/6000 [21:27<15:40,  2.70it/s]

{'loss': 0.0694, 'learning_rate': 2.116666666666667e-05, 'epoch': 1.73}


 58%|█████▊    | 3470/6000 [21:31<15:39,  2.69it/s]

{'loss': 0.0344, 'learning_rate': 2.1083333333333335e-05, 'epoch': 1.73}


 58%|█████▊    | 3480/6000 [21:35<15:32,  2.70it/s]

{'loss': 0.1513, 'learning_rate': 2.1e-05, 'epoch': 1.74}


 58%|█████▊    | 3490/6000 [21:38<15:32,  2.69it/s]

{'loss': 0.1792, 'learning_rate': 2.091666666666667e-05, 'epoch': 1.75}


 58%|█████▊    | 3500/6000 [21:42<15:29,  2.69it/s]Saving model checkpoint to ./results\checkpoint-3500
Configuration saved in ./results\checkpoint-3500\config.json


{'loss': 0.1184, 'learning_rate': 2.0833333333333336e-05, 'epoch': 1.75}


Model weights saved in ./results\checkpoint-3500\pytorch_model.bin
 58%|█████▊    | 3510/6000 [21:47<16:27,  2.52it/s]

{'loss': 0.2023, 'learning_rate': 2.075e-05, 'epoch': 1.75}


 59%|█████▊    | 3520/6000 [21:51<15:20,  2.69it/s]

{'loss': 0.1052, 'learning_rate': 2.0666666666666666e-05, 'epoch': 1.76}


 59%|█████▉    | 3530/6000 [21:54<15:14,  2.70it/s]

{'loss': 0.1524, 'learning_rate': 2.0583333333333333e-05, 'epoch': 1.77}


 59%|█████▉    | 3540/6000 [21:58<15:11,  2.70it/s]

{'loss': 0.1407, 'learning_rate': 2.05e-05, 'epoch': 1.77}


 59%|█████▉    | 3550/6000 [22:02<15:03,  2.71it/s]

{'loss': 0.1279, 'learning_rate': 2.0416666666666667e-05, 'epoch': 1.77}


 59%|█████▉    | 3560/6000 [22:06<15:05,  2.70it/s]

{'loss': 0.1334, 'learning_rate': 2.0333333333333334e-05, 'epoch': 1.78}


 60%|█████▉    | 3570/6000 [22:09<15:03,  2.69it/s]

{'loss': 0.1067, 'learning_rate': 2.025e-05, 'epoch': 1.79}


 60%|█████▉    | 3580/6000 [22:13<14:58,  2.69it/s]

{'loss': 0.1365, 'learning_rate': 2.0166666666666668e-05, 'epoch': 1.79}


 60%|█████▉    | 3590/6000 [22:17<14:53,  2.70it/s]

{'loss': 0.0955, 'learning_rate': 2.0083333333333335e-05, 'epoch': 1.79}


 60%|██████    | 3600/6000 [22:20<14:44,  2.71it/s]

{'loss': 0.1686, 'learning_rate': 2e-05, 'epoch': 1.8}


 60%|██████    | 3610/6000 [22:24<14:45,  2.70it/s]

{'loss': 0.101, 'learning_rate': 1.9916666666666665e-05, 'epoch': 1.81}


 60%|██████    | 3620/6000 [22:28<14:38,  2.71it/s]

{'loss': 0.0435, 'learning_rate': 1.9833333333333335e-05, 'epoch': 1.81}


 60%|██████    | 3630/6000 [22:32<14:37,  2.70it/s]

{'loss': 0.1667, 'learning_rate': 1.9750000000000002e-05, 'epoch': 1.81}


 61%|██████    | 3640/6000 [22:35<14:36,  2.69it/s]

{'loss': 0.2137, 'learning_rate': 1.9666666666666666e-05, 'epoch': 1.82}


 61%|██████    | 3650/6000 [22:39<14:32,  2.69it/s]

{'loss': 0.0628, 'learning_rate': 1.9583333333333333e-05, 'epoch': 1.82}


 61%|██████    | 3660/6000 [22:43<14:27,  2.70it/s]

{'loss': 0.1699, 'learning_rate': 1.9500000000000003e-05, 'epoch': 1.83}


 61%|██████    | 3670/6000 [22:46<14:20,  2.71it/s]

{'loss': 0.1809, 'learning_rate': 1.9416666666666667e-05, 'epoch': 1.83}


 61%|██████▏   | 3680/6000 [22:50<14:18,  2.70it/s]

{'loss': 0.2292, 'learning_rate': 1.9333333333333333e-05, 'epoch': 1.84}


 62%|██████▏   | 3690/6000 [22:54<14:14,  2.70it/s]

{'loss': 0.0707, 'learning_rate': 1.925e-05, 'epoch': 1.84}


 62%|██████▏   | 3700/6000 [22:58<14:17,  2.68it/s]

{'loss': 0.0567, 'learning_rate': 1.9166666666666667e-05, 'epoch': 1.85}


 62%|██████▏   | 3710/6000 [23:01<14:10,  2.69it/s]

{'loss': 0.0854, 'learning_rate': 1.9083333333333334e-05, 'epoch': 1.85}


 62%|██████▏   | 3720/6000 [23:05<14:05,  2.70it/s]

{'loss': 0.0699, 'learning_rate': 1.9e-05, 'epoch': 1.86}


 62%|██████▏   | 3730/6000 [23:09<14:02,  2.70it/s]

{'loss': 0.0222, 'learning_rate': 1.8916666666666668e-05, 'epoch': 1.86}


 62%|██████▏   | 3740/6000 [23:12<13:53,  2.71it/s]

{'loss': 0.1039, 'learning_rate': 1.8833333333333335e-05, 'epoch': 1.87}


 62%|██████▎   | 3750/6000 [23:16<13:54,  2.70it/s]

{'loss': 0.0319, 'learning_rate': 1.8750000000000002e-05, 'epoch': 1.88}


 63%|██████▎   | 3760/6000 [23:20<13:49,  2.70it/s]

{'loss': 0.1333, 'learning_rate': 1.866666666666667e-05, 'epoch': 1.88}


 63%|██████▎   | 3770/6000 [23:23<13:49,  2.69it/s]

{'loss': 0.0929, 'learning_rate': 1.8583333333333332e-05, 'epoch': 1.89}


 63%|██████▎   | 3780/6000 [23:27<13:42,  2.70it/s]

{'loss': 0.1763, 'learning_rate': 1.85e-05, 'epoch': 1.89}


 63%|██████▎   | 3790/6000 [23:31<13:39,  2.70it/s]

{'loss': 0.1371, 'learning_rate': 1.841666666666667e-05, 'epoch': 1.9}


 63%|██████▎   | 3800/6000 [23:35<13:35,  2.70it/s]

{'loss': 0.1437, 'learning_rate': 1.8333333333333333e-05, 'epoch': 1.9}


 64%|██████▎   | 3810/6000 [23:38<13:30,  2.70it/s]

{'loss': 0.0995, 'learning_rate': 1.825e-05, 'epoch': 1.91}


 64%|██████▎   | 3820/6000 [23:42<13:27,  2.70it/s]

{'loss': 0.1513, 'learning_rate': 1.8166666666666667e-05, 'epoch': 1.91}


 64%|██████▍   | 3830/6000 [23:46<13:23,  2.70it/s]

{'loss': 0.2123, 'learning_rate': 1.8083333333333337e-05, 'epoch': 1.92}


 64%|██████▍   | 3840/6000 [23:49<13:24,  2.69it/s]

{'loss': 0.0555, 'learning_rate': 1.8e-05, 'epoch': 1.92}


 64%|██████▍   | 3850/6000 [23:53<13:21,  2.68it/s]

{'loss': 0.1023, 'learning_rate': 1.7916666666666667e-05, 'epoch': 1.93}


 64%|██████▍   | 3860/6000 [23:57<13:12,  2.70it/s]

{'loss': 0.0782, 'learning_rate': 1.7833333333333334e-05, 'epoch': 1.93}


 64%|██████▍   | 3870/6000 [24:01<13:11,  2.69it/s]

{'loss': 0.0754, 'learning_rate': 1.775e-05, 'epoch': 1.94}


 65%|██████▍   | 3880/6000 [24:04<13:04,  2.70it/s]

{'loss': 0.1972, 'learning_rate': 1.7666666666666668e-05, 'epoch': 1.94}


 65%|██████▍   | 3890/6000 [24:08<13:01,  2.70it/s]

{'loss': 0.2083, 'learning_rate': 1.7583333333333335e-05, 'epoch': 1.94}


 65%|██████▌   | 3900/6000 [24:12<12:56,  2.70it/s]

{'loss': 0.0837, 'learning_rate': 1.75e-05, 'epoch': 1.95}


 65%|██████▌   | 3910/6000 [24:15<12:55,  2.69it/s]

{'loss': 0.2049, 'learning_rate': 1.741666666666667e-05, 'epoch': 1.96}


 65%|██████▌   | 3920/6000 [24:19<12:54,  2.68it/s]

{'loss': 0.1293, 'learning_rate': 1.7333333333333336e-05, 'epoch': 1.96}


 66%|██████▌   | 3930/6000 [24:23<12:44,  2.71it/s]

{'loss': 0.1006, 'learning_rate': 1.725e-05, 'epoch': 1.96}


 66%|██████▌   | 3940/6000 [24:27<12:43,  2.70it/s]

{'loss': 0.0992, 'learning_rate': 1.7166666666666666e-05, 'epoch': 1.97}


 66%|██████▌   | 3950/6000 [24:30<12:35,  2.71it/s]

{'loss': 0.0771, 'learning_rate': 1.7083333333333333e-05, 'epoch': 1.98}


 66%|██████▌   | 3960/6000 [24:34<12:34,  2.70it/s]

{'loss': 0.0289, 'learning_rate': 1.7000000000000003e-05, 'epoch': 1.98}


 66%|██████▌   | 3970/6000 [24:38<12:32,  2.70it/s]

{'loss': 0.1317, 'learning_rate': 1.6916666666666667e-05, 'epoch': 1.98}


 66%|██████▋   | 3980/6000 [24:41<12:30,  2.69it/s]

{'loss': 0.2027, 'learning_rate': 1.6833333333333334e-05, 'epoch': 1.99}


 66%|██████▋   | 3990/6000 [24:45<12:25,  2.69it/s]

{'loss': 0.1264, 'learning_rate': 1.675e-05, 'epoch': 2.0}


 67%|██████▋   | 4000/6000 [24:49<12:19,  2.70it/s]Saving model checkpoint to ./results\checkpoint-4000
Configuration saved in ./results\checkpoint-4000\config.json


{'loss': 0.2123, 'learning_rate': 1.6666666666666667e-05, 'epoch': 2.0}


Model weights saved in ./results\checkpoint-4000\pytorch_model.bin
 67%|██████▋   | 4010/6000 [24:54<13:16,  2.50it/s]

{'loss': 0.023, 'learning_rate': 1.6583333333333334e-05, 'epoch': 2.0}


 67%|██████▋   | 4020/6000 [24:58<12:13,  2.70it/s]

{'loss': 0.1214, 'learning_rate': 1.65e-05, 'epoch': 2.01}


 67%|██████▋   | 4030/6000 [25:01<12:07,  2.71it/s]

{'loss': 0.0873, 'learning_rate': 1.6416666666666665e-05, 'epoch': 2.02}


 67%|██████▋   | 4040/6000 [25:05<12:05,  2.70it/s]

{'loss': 0.0477, 'learning_rate': 1.6333333333333335e-05, 'epoch': 2.02}


 68%|██████▊   | 4050/6000 [25:09<12:02,  2.70it/s]

{'loss': 0.0994, 'learning_rate': 1.6250000000000002e-05, 'epoch': 2.02}


 68%|██████▊   | 4060/6000 [25:12<11:56,  2.71it/s]

{'loss': 0.0502, 'learning_rate': 1.6166666666666665e-05, 'epoch': 2.03}


 68%|██████▊   | 4070/6000 [25:16<11:57,  2.69it/s]

{'loss': 0.0396, 'learning_rate': 1.6083333333333332e-05, 'epoch': 2.04}


 68%|██████▊   | 4080/6000 [25:20<11:53,  2.69it/s]

{'loss': 0.0045, 'learning_rate': 1.6000000000000003e-05, 'epoch': 2.04}


 68%|██████▊   | 4090/6000 [25:24<11:43,  2.71it/s]

{'loss': 0.1217, 'learning_rate': 1.591666666666667e-05, 'epoch': 2.04}


 68%|██████▊   | 4100/6000 [25:27<11:42,  2.70it/s]

{'loss': 0.053, 'learning_rate': 1.5833333333333333e-05, 'epoch': 2.05}


 68%|██████▊   | 4110/6000 [25:31<11:37,  2.71it/s]

{'loss': 0.0083, 'learning_rate': 1.575e-05, 'epoch': 2.06}


 69%|██████▊   | 4120/6000 [25:35<11:36,  2.70it/s]

{'loss': 0.0136, 'learning_rate': 1.5666666666666667e-05, 'epoch': 2.06}


 69%|██████▉   | 4130/6000 [25:38<11:30,  2.71it/s]

{'loss': 0.111, 'learning_rate': 1.5583333333333334e-05, 'epoch': 2.06}


 69%|██████▉   | 4140/6000 [25:42<11:29,  2.70it/s]

{'loss': 0.0168, 'learning_rate': 1.55e-05, 'epoch': 2.07}


 69%|██████▉   | 4150/6000 [25:46<11:26,  2.69it/s]

{'loss': 0.2154, 'learning_rate': 1.5416666666666668e-05, 'epoch': 2.08}


 69%|██████▉   | 4160/6000 [25:50<11:19,  2.71it/s]

{'loss': 0.1103, 'learning_rate': 1.5333333333333334e-05, 'epoch': 2.08}


 70%|██████▉   | 4170/6000 [25:53<11:17,  2.70it/s]

{'loss': 0.0299, 'learning_rate': 1.525e-05, 'epoch': 2.08}


 70%|██████▉   | 4180/6000 [25:57<11:12,  2.71it/s]

{'loss': 0.0199, 'learning_rate': 1.5166666666666668e-05, 'epoch': 2.09}


 70%|██████▉   | 4190/6000 [26:01<11:10,  2.70it/s]

{'loss': 0.0541, 'learning_rate': 1.5083333333333335e-05, 'epoch': 2.1}


 70%|███████   | 4200/6000 [26:04<11:05,  2.70it/s]

{'loss': 0.0429, 'learning_rate': 1.5e-05, 'epoch': 2.1}


 70%|███████   | 4210/6000 [26:08<11:03,  2.70it/s]

{'loss': 0.0309, 'learning_rate': 1.4916666666666667e-05, 'epoch': 2.1}


 70%|███████   | 4220/6000 [26:12<11:02,  2.69it/s]

{'loss': 0.0161, 'learning_rate': 1.4833333333333336e-05, 'epoch': 2.11}


 70%|███████   | 4230/6000 [26:15<10:55,  2.70it/s]

{'loss': 0.0271, 'learning_rate': 1.475e-05, 'epoch': 2.12}


 71%|███████   | 4240/6000 [26:19<10:49,  2.71it/s]

{'loss': 0.0411, 'learning_rate': 1.4666666666666668e-05, 'epoch': 2.12}


 71%|███████   | 4250/6000 [26:23<10:46,  2.71it/s]

{'loss': 0.0636, 'learning_rate': 1.4583333333333335e-05, 'epoch': 2.12}


 71%|███████   | 4260/6000 [26:27<10:46,  2.69it/s]

{'loss': 0.0016, 'learning_rate': 1.45e-05, 'epoch': 2.13}


 71%|███████   | 4270/6000 [26:30<10:42,  2.69it/s]

{'loss': 0.0533, 'learning_rate': 1.4416666666666667e-05, 'epoch': 2.13}


 71%|███████▏  | 4280/6000 [26:34<10:39,  2.69it/s]

{'loss': 0.0553, 'learning_rate': 1.4333333333333334e-05, 'epoch': 2.14}


 72%|███████▏  | 4290/6000 [26:38<10:35,  2.69it/s]

{'loss': 0.0076, 'learning_rate': 1.4249999999999999e-05, 'epoch': 2.15}


 72%|███████▏  | 4300/6000 [26:41<10:28,  2.71it/s]

{'loss': 0.0015, 'learning_rate': 1.4166666666666668e-05, 'epoch': 2.15}


 72%|███████▏  | 4310/6000 [26:45<10:26,  2.70it/s]

{'loss': 0.0852, 'learning_rate': 1.4083333333333335e-05, 'epoch': 2.15}


 72%|███████▏  | 4320/6000 [26:49<10:22,  2.70it/s]

{'loss': 0.0221, 'learning_rate': 1.4000000000000001e-05, 'epoch': 2.16}


 72%|███████▏  | 4330/6000 [26:53<10:18,  2.70it/s]

{'loss': 0.0714, 'learning_rate': 1.3916666666666667e-05, 'epoch': 2.17}


 72%|███████▏  | 4340/6000 [26:56<10:15,  2.69it/s]

{'loss': 0.0497, 'learning_rate': 1.3833333333333334e-05, 'epoch': 2.17}


 72%|███████▎  | 4350/6000 [27:00<10:12,  2.69it/s]

{'loss': 0.0213, 'learning_rate': 1.3750000000000002e-05, 'epoch': 2.17}


 73%|███████▎  | 4360/6000 [27:04<10:08,  2.70it/s]

{'loss': 0.0338, 'learning_rate': 1.3666666666666666e-05, 'epoch': 2.18}


 73%|███████▎  | 4370/6000 [27:07<10:02,  2.71it/s]

{'loss': 0.0455, 'learning_rate': 1.3583333333333334e-05, 'epoch': 2.19}


 73%|███████▎  | 4380/6000 [27:11<09:59,  2.70it/s]

{'loss': 0.0494, 'learning_rate': 1.3500000000000001e-05, 'epoch': 2.19}


 73%|███████▎  | 4390/6000 [27:15<09:57,  2.70it/s]

{'loss': 0.0167, 'learning_rate': 1.3416666666666666e-05, 'epoch': 2.19}


 73%|███████▎  | 4400/6000 [27:19<09:55,  2.69it/s]

{'loss': 0.0398, 'learning_rate': 1.3333333333333333e-05, 'epoch': 2.2}


 74%|███████▎  | 4410/6000 [27:22<09:50,  2.69it/s]

{'loss': 0.0638, 'learning_rate': 1.3250000000000002e-05, 'epoch': 2.21}


 74%|███████▎  | 4420/6000 [27:26<09:47,  2.69it/s]

{'loss': 0.0497, 'learning_rate': 1.3166666666666665e-05, 'epoch': 2.21}


 74%|███████▍  | 4430/6000 [27:30<09:41,  2.70it/s]

{'loss': 0.0258, 'learning_rate': 1.3083333333333334e-05, 'epoch': 2.21}


 74%|███████▍  | 4440/6000 [27:33<09:37,  2.70it/s]

{'loss': 0.0291, 'learning_rate': 1.3000000000000001e-05, 'epoch': 2.22}


 74%|███████▍  | 4450/6000 [27:37<09:32,  2.71it/s]

{'loss': 0.1061, 'learning_rate': 1.2916666666666668e-05, 'epoch': 2.23}


 74%|███████▍  | 4460/6000 [27:41<09:30,  2.70it/s]

{'loss': 0.0019, 'learning_rate': 1.2833333333333333e-05, 'epoch': 2.23}


 74%|███████▍  | 4470/6000 [27:45<09:30,  2.68it/s]

{'loss': 0.0855, 'learning_rate': 1.2750000000000002e-05, 'epoch': 2.23}


 75%|███████▍  | 4480/6000 [27:48<09:24,  2.69it/s]

{'loss': 0.0546, 'learning_rate': 1.2666666666666668e-05, 'epoch': 2.24}


 75%|███████▍  | 4490/6000 [27:52<09:19,  2.70it/s]

{'loss': 0.0142, 'learning_rate': 1.2583333333333334e-05, 'epoch': 2.25}


 75%|███████▌  | 4500/6000 [27:56<09:16,  2.70it/s]Saving model checkpoint to ./results\checkpoint-4500
Configuration saved in ./results\checkpoint-4500\config.json


{'loss': 0.0013, 'learning_rate': 1.25e-05, 'epoch': 2.25}


Model weights saved in ./results\checkpoint-4500\pytorch_model.bin
 75%|███████▌  | 4510/6000 [28:01<09:57,  2.49it/s]

{'loss': 0.0421, 'learning_rate': 1.2416666666666667e-05, 'epoch': 2.25}


 75%|███████▌  | 4520/6000 [28:05<09:11,  2.68it/s]

{'loss': 0.1245, 'learning_rate': 1.2333333333333334e-05, 'epoch': 2.26}


 76%|███████▌  | 4530/6000 [28:08<09:03,  2.70it/s]

{'loss': 0.0839, 'learning_rate': 1.225e-05, 'epoch': 2.27}


 76%|███████▌  | 4540/6000 [28:12<09:00,  2.70it/s]

{'loss': 0.1456, 'learning_rate': 1.2166666666666668e-05, 'epoch': 2.27}


 76%|███████▌  | 4550/6000 [28:16<08:55,  2.71it/s]

{'loss': 0.0561, 'learning_rate': 1.2083333333333333e-05, 'epoch': 2.27}


 76%|███████▌  | 4560/6000 [28:19<08:53,  2.70it/s]

{'loss': 0.0666, 'learning_rate': 1.2e-05, 'epoch': 2.28}


 76%|███████▌  | 4570/6000 [28:23<08:49,  2.70it/s]

{'loss': 0.0582, 'learning_rate': 1.1916666666666667e-05, 'epoch': 2.29}


 76%|███████▋  | 4580/6000 [28:27<08:45,  2.70it/s]

{'loss': 0.0308, 'learning_rate': 1.1833333333333334e-05, 'epoch': 2.29}


 76%|███████▋  | 4590/6000 [28:31<08:42,  2.70it/s]

{'loss': 0.1629, 'learning_rate': 1.175e-05, 'epoch': 2.29}


 77%|███████▋  | 4600/6000 [28:34<08:35,  2.71it/s]

{'loss': 0.0275, 'learning_rate': 1.1666666666666668e-05, 'epoch': 2.3}


 77%|███████▋  | 4610/6000 [28:38<08:33,  2.71it/s]

{'loss': 0.0026, 'learning_rate': 1.1583333333333333e-05, 'epoch': 2.31}


 77%|███████▋  | 4620/6000 [28:42<08:29,  2.71it/s]

{'loss': 0.0814, 'learning_rate': 1.1500000000000002e-05, 'epoch': 2.31}


 77%|███████▋  | 4630/6000 [28:45<08:26,  2.70it/s]

{'loss': 0.0392, 'learning_rate': 1.1416666666666667e-05, 'epoch': 2.31}


 77%|███████▋  | 4640/6000 [28:49<08:25,  2.69it/s]

{'loss': 0.0533, 'learning_rate': 1.1333333333333334e-05, 'epoch': 2.32}


 78%|███████▊  | 4650/6000 [28:53<08:19,  2.70it/s]

{'loss': 0.0359, 'learning_rate': 1.125e-05, 'epoch': 2.33}


 78%|███████▊  | 4660/6000 [28:56<08:17,  2.70it/s]

{'loss': 0.0124, 'learning_rate': 1.1166666666666668e-05, 'epoch': 2.33}


 78%|███████▊  | 4670/6000 [29:00<08:11,  2.70it/s]

{'loss': 0.0019, 'learning_rate': 1.1083333333333335e-05, 'epoch': 2.33}


 78%|███████▊  | 4680/6000 [29:04<08:08,  2.70it/s]

{'loss': 0.0351, 'learning_rate': 1.1000000000000001e-05, 'epoch': 2.34}


 78%|███████▊  | 4690/6000 [29:08<08:05,  2.70it/s]

{'loss': 0.0415, 'learning_rate': 1.0916666666666667e-05, 'epoch': 2.34}


 78%|███████▊  | 4700/6000 [29:11<08:02,  2.69it/s]

{'loss': 0.0406, 'learning_rate': 1.0833333333333334e-05, 'epoch': 2.35}


 78%|███████▊  | 4710/6000 [29:15<07:59,  2.69it/s]

{'loss': 0.0426, 'learning_rate': 1.075e-05, 'epoch': 2.35}


 79%|███████▊  | 4720/6000 [29:19<07:53,  2.70it/s]

{'loss': 0.1037, 'learning_rate': 1.0666666666666667e-05, 'epoch': 2.36}


 79%|███████▉  | 4730/6000 [29:22<07:49,  2.71it/s]

{'loss': 0.0488, 'learning_rate': 1.0583333333333334e-05, 'epoch': 2.37}


 79%|███████▉  | 4740/6000 [29:26<07:44,  2.71it/s]

{'loss': 0.0376, 'learning_rate': 1.05e-05, 'epoch': 2.37}


 79%|███████▉  | 4750/6000 [29:30<07:42,  2.70it/s]

{'loss': 0.0678, 'learning_rate': 1.0416666666666668e-05, 'epoch': 2.38}


 79%|███████▉  | 4760/6000 [29:34<07:38,  2.71it/s]

{'loss': 0.0277, 'learning_rate': 1.0333333333333333e-05, 'epoch': 2.38}


 80%|███████▉  | 4770/6000 [29:37<07:36,  2.69it/s]

{'loss': 0.0691, 'learning_rate': 1.025e-05, 'epoch': 2.38}


 80%|███████▉  | 4780/6000 [29:41<07:33,  2.69it/s]

{'loss': 0.1107, 'learning_rate': 1.0166666666666667e-05, 'epoch': 2.39}


 80%|███████▉  | 4790/6000 [29:45<07:27,  2.71it/s]

{'loss': 0.0491, 'learning_rate': 1.0083333333333334e-05, 'epoch': 2.4}


 80%|████████  | 4800/6000 [29:48<07:23,  2.71it/s]

{'loss': 0.0464, 'learning_rate': 1e-05, 'epoch': 2.4}


 80%|████████  | 4810/6000 [29:52<07:19,  2.71it/s]

{'loss': 0.0161, 'learning_rate': 9.916666666666668e-06, 'epoch': 2.41}


 80%|████████  | 4820/6000 [29:56<07:17,  2.70it/s]

{'loss': 0.0298, 'learning_rate': 9.833333333333333e-06, 'epoch': 2.41}


 80%|████████  | 4830/6000 [29:59<07:13,  2.70it/s]

{'loss': 0.0678, 'learning_rate': 9.750000000000002e-06, 'epoch': 2.42}


 81%|████████  | 4840/6000 [30:03<07:10,  2.69it/s]

{'loss': 0.0029, 'learning_rate': 9.666666666666667e-06, 'epoch': 2.42}


 81%|████████  | 4850/6000 [30:07<07:07,  2.69it/s]

{'loss': 0.0038, 'learning_rate': 9.583333333333334e-06, 'epoch': 2.42}


 81%|████████  | 4860/6000 [30:11<07:01,  2.71it/s]

{'loss': 0.143, 'learning_rate': 9.5e-06, 'epoch': 2.43}


 81%|████████  | 4870/6000 [30:14<06:56,  2.71it/s]

{'loss': 0.1196, 'learning_rate': 9.416666666666667e-06, 'epoch': 2.44}


 81%|████████▏ | 4880/6000 [30:18<06:54,  2.70it/s]

{'loss': 0.0026, 'learning_rate': 9.333333333333334e-06, 'epoch': 2.44}


 82%|████████▏ | 4890/6000 [30:22<06:51,  2.70it/s]

{'loss': 0.0623, 'learning_rate': 9.25e-06, 'epoch': 2.44}


 82%|████████▏ | 4900/6000 [30:25<06:47,  2.70it/s]

{'loss': 0.0866, 'learning_rate': 9.166666666666666e-06, 'epoch': 2.45}


 82%|████████▏ | 4910/6000 [30:29<06:44,  2.69it/s]

{'loss': 0.0323, 'learning_rate': 9.083333333333333e-06, 'epoch': 2.46}


 82%|████████▏ | 4920/6000 [30:33<06:41,  2.69it/s]

{'loss': 0.0309, 'learning_rate': 9e-06, 'epoch': 2.46}


 82%|████████▏ | 4930/6000 [30:37<06:34,  2.71it/s]

{'loss': 0.0273, 'learning_rate': 8.916666666666667e-06, 'epoch': 2.46}


 82%|████████▏ | 4940/6000 [30:40<06:32,  2.70it/s]

{'loss': 0.0389, 'learning_rate': 8.833333333333334e-06, 'epoch': 2.47}


 82%|████████▎ | 4950/6000 [30:44<06:28,  2.70it/s]

{'loss': 0.1808, 'learning_rate': 8.75e-06, 'epoch': 2.48}


 83%|████████▎ | 4960/6000 [30:48<06:25,  2.70it/s]

{'loss': 0.0322, 'learning_rate': 8.666666666666668e-06, 'epoch': 2.48}


 83%|████████▎ | 4970/6000 [30:51<06:20,  2.70it/s]

{'loss': 0.063, 'learning_rate': 8.583333333333333e-06, 'epoch': 2.48}


 83%|████████▎ | 4980/6000 [30:55<06:17,  2.70it/s]

{'loss': 0.0437, 'learning_rate': 8.500000000000002e-06, 'epoch': 2.49}


 83%|████████▎ | 4990/6000 [30:59<06:15,  2.69it/s]

{'loss': 0.1036, 'learning_rate': 8.416666666666667e-06, 'epoch': 2.5}


 83%|████████▎ | 5000/6000 [31:02<06:09,  2.71it/s]Saving model checkpoint to ./results\checkpoint-5000
Configuration saved in ./results\checkpoint-5000\config.json


{'loss': 0.0039, 'learning_rate': 8.333333333333334e-06, 'epoch': 2.5}


Model weights saved in ./results\checkpoint-5000\pytorch_model.bin
 84%|████████▎ | 5010/6000 [31:08<06:35,  2.50it/s]

{'loss': 0.0655, 'learning_rate': 8.25e-06, 'epoch': 2.5}


 84%|████████▎ | 5020/6000 [31:11<06:02,  2.70it/s]

{'loss': 0.0259, 'learning_rate': 8.166666666666668e-06, 'epoch': 2.51}


 84%|████████▍ | 5030/6000 [31:15<05:58,  2.71it/s]

{'loss': 0.0993, 'learning_rate': 8.083333333333333e-06, 'epoch': 2.52}


 84%|████████▍ | 5040/6000 [31:19<05:54,  2.71it/s]

{'loss': 0.0343, 'learning_rate': 8.000000000000001e-06, 'epoch': 2.52}


 84%|████████▍ | 5050/6000 [31:22<05:50,  2.71it/s]

{'loss': 0.1408, 'learning_rate': 7.916666666666667e-06, 'epoch': 2.52}


 84%|████████▍ | 5060/6000 [31:26<05:47,  2.70it/s]

{'loss': 0.0501, 'learning_rate': 7.833333333333333e-06, 'epoch': 2.53}


 84%|████████▍ | 5070/6000 [31:30<05:45,  2.69it/s]

{'loss': 0.0427, 'learning_rate': 7.75e-06, 'epoch': 2.54}


 85%|████████▍ | 5080/6000 [31:34<05:41,  2.69it/s]

{'loss': 0.0031, 'learning_rate': 7.666666666666667e-06, 'epoch': 2.54}


 85%|████████▍ | 5090/6000 [31:37<05:37,  2.70it/s]

{'loss': 0.0261, 'learning_rate': 7.583333333333334e-06, 'epoch': 2.54}


 85%|████████▌ | 5100/6000 [31:41<05:33,  2.70it/s]

{'loss': 0.1303, 'learning_rate': 7.5e-06, 'epoch': 2.55}


 85%|████████▌ | 5110/6000 [31:45<05:29,  2.70it/s]

{'loss': 0.0367, 'learning_rate': 7.416666666666668e-06, 'epoch': 2.56}


 85%|████████▌ | 5120/6000 [31:48<05:26,  2.69it/s]

{'loss': 0.1003, 'learning_rate': 7.333333333333334e-06, 'epoch': 2.56}


 86%|████████▌ | 5130/6000 [31:52<05:22,  2.70it/s]

{'loss': 0.0229, 'learning_rate': 7.25e-06, 'epoch': 2.56}


 86%|████████▌ | 5140/6000 [31:56<05:20,  2.68it/s]

{'loss': 0.0166, 'learning_rate': 7.166666666666667e-06, 'epoch': 2.57}


 86%|████████▌ | 5150/6000 [32:00<05:15,  2.69it/s]

{'loss': 0.0721, 'learning_rate': 7.083333333333334e-06, 'epoch': 2.58}


 86%|████████▌ | 5160/6000 [32:03<05:09,  2.71it/s]

{'loss': 0.0431, 'learning_rate': 7.000000000000001e-06, 'epoch': 2.58}


 86%|████████▌ | 5170/6000 [32:07<05:06,  2.71it/s]

{'loss': 0.0416, 'learning_rate': 6.916666666666667e-06, 'epoch': 2.58}


 86%|████████▋ | 5180/6000 [32:11<05:03,  2.71it/s]

{'loss': 0.0878, 'learning_rate': 6.833333333333333e-06, 'epoch': 2.59}


 86%|████████▋ | 5190/6000 [32:14<05:00,  2.69it/s]

{'loss': 0.0029, 'learning_rate': 6.750000000000001e-06, 'epoch': 2.59}


 87%|████████▋ | 5200/6000 [32:18<04:56,  2.70it/s]

{'loss': 0.0441, 'learning_rate': 6.666666666666667e-06, 'epoch': 2.6}


 87%|████████▋ | 5210/6000 [32:22<04:53,  2.70it/s]

{'loss': 0.0102, 'learning_rate': 6.583333333333333e-06, 'epoch': 2.6}


 87%|████████▋ | 5220/6000 [32:25<04:49,  2.69it/s]

{'loss': 0.0301, 'learning_rate': 6.5000000000000004e-06, 'epoch': 2.61}


 87%|████████▋ | 5230/6000 [32:29<04:43,  2.72it/s]

{'loss': 0.0605, 'learning_rate': 6.4166666666666665e-06, 'epoch': 2.62}


 87%|████████▋ | 5240/6000 [32:33<04:41,  2.70it/s]

{'loss': 0.0689, 'learning_rate': 6.333333333333334e-06, 'epoch': 2.62}


 88%|████████▊ | 5250/6000 [32:37<04:36,  2.71it/s]

{'loss': 0.0711, 'learning_rate': 6.25e-06, 'epoch': 2.62}


 88%|████████▊ | 5260/6000 [32:40<04:34,  2.69it/s]

{'loss': 0.0022, 'learning_rate': 6.166666666666667e-06, 'epoch': 2.63}


 88%|████████▊ | 5270/6000 [32:44<04:30,  2.70it/s]

{'loss': 0.0367, 'learning_rate': 6.083333333333334e-06, 'epoch': 2.63}


 88%|████████▊ | 5280/6000 [32:48<04:26,  2.70it/s]

{'loss': 0.0811, 'learning_rate': 6e-06, 'epoch': 2.64}


 88%|████████▊ | 5290/6000 [32:51<04:23,  2.70it/s]

{'loss': 0.1502, 'learning_rate': 5.916666666666667e-06, 'epoch': 2.65}


 88%|████████▊ | 5300/6000 [32:55<04:18,  2.71it/s]

{'loss': 0.1326, 'learning_rate': 5.833333333333334e-06, 'epoch': 2.65}


 88%|████████▊ | 5310/6000 [32:59<04:15,  2.70it/s]

{'loss': 0.1112, 'learning_rate': 5.750000000000001e-06, 'epoch': 2.66}


 89%|████████▊ | 5320/6000 [33:03<04:11,  2.71it/s]

{'loss': 0.1242, 'learning_rate': 5.666666666666667e-06, 'epoch': 2.66}


 89%|████████▉ | 5330/6000 [33:06<04:08,  2.70it/s]

{'loss': 0.0994, 'learning_rate': 5.583333333333334e-06, 'epoch': 2.67}


 89%|████████▉ | 5340/6000 [33:10<04:05,  2.69it/s]

{'loss': 0.0456, 'learning_rate': 5.500000000000001e-06, 'epoch': 2.67}


 89%|████████▉ | 5350/6000 [33:14<04:01,  2.69it/s]

{'loss': 0.0195, 'learning_rate': 5.416666666666667e-06, 'epoch': 2.67}


 89%|████████▉ | 5360/6000 [33:17<03:57,  2.70it/s]

{'loss': 0.0824, 'learning_rate': 5.333333333333334e-06, 'epoch': 2.68}


 90%|████████▉ | 5370/6000 [33:21<03:53,  2.70it/s]

{'loss': 0.0976, 'learning_rate': 5.25e-06, 'epoch': 2.69}


 90%|████████▉ | 5380/6000 [33:25<03:49,  2.70it/s]

{'loss': 0.0343, 'learning_rate': 5.166666666666667e-06, 'epoch': 2.69}


 90%|████████▉ | 5390/6000 [33:29<03:45,  2.70it/s]

{'loss': 0.0088, 'learning_rate': 5.0833333333333335e-06, 'epoch': 2.69}


 90%|█████████ | 5400/6000 [33:32<03:43,  2.69it/s]

{'loss': 0.0239, 'learning_rate': 5e-06, 'epoch': 2.7}


 90%|█████████ | 5410/6000 [33:36<03:39,  2.69it/s]

{'loss': 0.048, 'learning_rate': 4.9166666666666665e-06, 'epoch': 2.71}


 90%|█████████ | 5420/6000 [33:40<03:35,  2.69it/s]

{'loss': 0.072, 'learning_rate': 4.833333333333333e-06, 'epoch': 2.71}


 90%|█████████ | 5430/6000 [33:43<03:31,  2.70it/s]

{'loss': 0.0181, 'learning_rate': 4.75e-06, 'epoch': 2.71}


 91%|█████████ | 5440/6000 [33:47<03:27,  2.70it/s]

{'loss': 0.0187, 'learning_rate': 4.666666666666667e-06, 'epoch': 2.72}


 91%|█████████ | 5450/6000 [33:51<03:24,  2.70it/s]

{'loss': 0.0205, 'learning_rate': 4.583333333333333e-06, 'epoch': 2.73}


 91%|█████████ | 5460/6000 [33:54<03:20,  2.70it/s]

{'loss': 0.0495, 'learning_rate': 4.5e-06, 'epoch': 2.73}


 91%|█████████ | 5470/6000 [33:58<03:17,  2.69it/s]

{'loss': 0.0199, 'learning_rate': 4.416666666666667e-06, 'epoch': 2.73}


 91%|█████████▏| 5480/6000 [34:02<03:13,  2.69it/s]

{'loss': 0.0455, 'learning_rate': 4.333333333333334e-06, 'epoch': 2.74}


 92%|█████████▏| 5490/6000 [34:06<03:08,  2.70it/s]

{'loss': 0.0149, 'learning_rate': 4.250000000000001e-06, 'epoch': 2.75}


 92%|█████████▏| 5500/6000 [34:09<03:05,  2.70it/s]Saving model checkpoint to ./results\checkpoint-5500
Configuration saved in ./results\checkpoint-5500\config.json
Model weights saved in ./results\checkpoint-5500\pytorch_model.bin


{'loss': 0.0852, 'learning_rate': 4.166666666666667e-06, 'epoch': 2.75}


 92%|█████████▏| 5510/6000 [34:14<03:14,  2.51it/s]

{'loss': 0.0314, 'learning_rate': 4.083333333333334e-06, 'epoch': 2.75}


 92%|█████████▏| 5520/6000 [34:18<02:58,  2.69it/s]

{'loss': 0.0694, 'learning_rate': 4.000000000000001e-06, 'epoch': 2.76}


 92%|█████████▏| 5530/6000 [34:22<02:53,  2.71it/s]

{'loss': 0.0489, 'learning_rate': 3.916666666666667e-06, 'epoch': 2.77}


 92%|█████████▏| 5540/6000 [34:26<02:50,  2.71it/s]

{'loss': 0.0016, 'learning_rate': 3.833333333333334e-06, 'epoch': 2.77}


 92%|█████████▎| 5550/6000 [34:29<02:46,  2.70it/s]

{'loss': 0.0361, 'learning_rate': 3.75e-06, 'epoch': 2.77}


 93%|█████████▎| 5560/6000 [34:33<02:43,  2.70it/s]

{'loss': 0.0333, 'learning_rate': 3.666666666666667e-06, 'epoch': 2.78}


 93%|█████████▎| 5570/6000 [34:37<02:39,  2.70it/s]

{'loss': 0.0312, 'learning_rate': 3.5833333333333335e-06, 'epoch': 2.79}


 93%|█████████▎| 5580/6000 [34:40<02:35,  2.70it/s]

{'loss': 0.0675, 'learning_rate': 3.5000000000000004e-06, 'epoch': 2.79}


 93%|█████████▎| 5590/6000 [34:44<02:31,  2.70it/s]

{'loss': 0.1387, 'learning_rate': 3.4166666666666664e-06, 'epoch': 2.79}


 93%|█████████▎| 5600/6000 [34:48<02:27,  2.71it/s]

{'loss': 0.0112, 'learning_rate': 3.3333333333333333e-06, 'epoch': 2.8}


 94%|█████████▎| 5610/6000 [34:51<02:24,  2.71it/s]

{'loss': 0.0058, 'learning_rate': 3.2500000000000002e-06, 'epoch': 2.81}


 94%|█████████▎| 5620/6000 [34:55<02:20,  2.71it/s]

{'loss': 0.0473, 'learning_rate': 3.166666666666667e-06, 'epoch': 2.81}


 94%|█████████▍| 5630/6000 [34:59<02:17,  2.70it/s]

{'loss': 0.064, 'learning_rate': 3.0833333333333336e-06, 'epoch': 2.81}


 94%|█████████▍| 5640/6000 [35:03<02:13,  2.69it/s]

{'loss': 0.0599, 'learning_rate': 3e-06, 'epoch': 2.82}


 94%|█████████▍| 5650/6000 [35:06<02:09,  2.71it/s]

{'loss': 0.0492, 'learning_rate': 2.916666666666667e-06, 'epoch': 2.83}


 94%|█████████▍| 5660/6000 [35:10<02:05,  2.71it/s]

{'loss': 0.0249, 'learning_rate': 2.8333333333333335e-06, 'epoch': 2.83}


 94%|█████████▍| 5670/6000 [35:14<02:02,  2.70it/s]

{'loss': 0.0772, 'learning_rate': 2.7500000000000004e-06, 'epoch': 2.83}


 95%|█████████▍| 5680/6000 [35:17<01:58,  2.70it/s]

{'loss': 0.0919, 'learning_rate': 2.666666666666667e-06, 'epoch': 2.84}


 95%|█████████▍| 5690/6000 [35:21<01:54,  2.71it/s]

{'loss': 0.0358, 'learning_rate': 2.5833333333333333e-06, 'epoch': 2.84}


 95%|█████████▌| 5700/6000 [35:25<01:51,  2.69it/s]

{'loss': 0.0518, 'learning_rate': 2.5e-06, 'epoch': 2.85}


 95%|█████████▌| 5710/6000 [35:29<01:47,  2.69it/s]

{'loss': 0.0166, 'learning_rate': 2.4166666666666667e-06, 'epoch': 2.85}


 95%|█████████▌| 5720/6000 [35:32<01:43,  2.71it/s]

{'loss': 0.0681, 'learning_rate': 2.3333333333333336e-06, 'epoch': 2.86}


 96%|█████████▌| 5730/6000 [35:36<01:39,  2.71it/s]

{'loss': 0.0115, 'learning_rate': 2.25e-06, 'epoch': 2.87}


 96%|█████████▌| 5740/6000 [35:40<01:35,  2.72it/s]

{'loss': 0.0701, 'learning_rate': 2.166666666666667e-06, 'epoch': 2.87}


 96%|█████████▌| 5750/6000 [35:43<01:32,  2.70it/s]

{'loss': 0.015, 'learning_rate': 2.0833333333333334e-06, 'epoch': 2.88}


 96%|█████████▌| 5760/6000 [35:47<01:28,  2.70it/s]

{'loss': 0.0773, 'learning_rate': 2.0000000000000003e-06, 'epoch': 2.88}


 96%|█████████▌| 5770/6000 [35:51<01:25,  2.69it/s]

{'loss': 0.0278, 'learning_rate': 1.916666666666667e-06, 'epoch': 2.88}


 96%|█████████▋| 5780/6000 [35:54<01:21,  2.69it/s]

{'loss': 0.1, 'learning_rate': 1.8333333333333335e-06, 'epoch': 2.89}


 96%|█████████▋| 5790/6000 [35:58<01:17,  2.70it/s]

{'loss': 0.0016, 'learning_rate': 1.7500000000000002e-06, 'epoch': 2.9}


 97%|█████████▋| 5800/6000 [36:02<01:13,  2.71it/s]

{'loss': 0.0412, 'learning_rate': 1.6666666666666667e-06, 'epoch': 2.9}


 97%|█████████▋| 5810/6000 [36:06<01:10,  2.71it/s]

{'loss': 0.002, 'learning_rate': 1.5833333333333336e-06, 'epoch': 2.91}


 97%|█████████▋| 5820/6000 [36:09<01:06,  2.69it/s]

{'loss': 0.0811, 'learning_rate': 1.5e-06, 'epoch': 2.91}


 97%|█████████▋| 5830/6000 [36:13<01:02,  2.70it/s]

{'loss': 0.0205, 'learning_rate': 1.4166666666666667e-06, 'epoch': 2.92}


 97%|█████████▋| 5840/6000 [36:17<00:59,  2.69it/s]

{'loss': 0.1219, 'learning_rate': 1.3333333333333334e-06, 'epoch': 2.92}


 98%|█████████▊| 5850/6000 [36:20<00:55,  2.69it/s]

{'loss': 0.0524, 'learning_rate': 1.25e-06, 'epoch': 2.92}


 98%|█████████▊| 5860/6000 [36:24<00:51,  2.71it/s]

{'loss': 0.0366, 'learning_rate': 1.1666666666666668e-06, 'epoch': 2.93}


 98%|█████████▊| 5870/6000 [36:28<00:48,  2.70it/s]

{'loss': 0.002, 'learning_rate': 1.0833333333333335e-06, 'epoch': 2.94}


 98%|█████████▊| 5880/6000 [36:32<00:44,  2.70it/s]

{'loss': 0.0574, 'learning_rate': 1.0000000000000002e-06, 'epoch': 2.94}


 98%|█████████▊| 5890/6000 [36:35<00:40,  2.70it/s]

{'loss': 0.0017, 'learning_rate': 9.166666666666667e-07, 'epoch': 2.94}


 98%|█████████▊| 5900/6000 [36:39<00:37,  2.70it/s]

{'loss': 0.1153, 'learning_rate': 8.333333333333333e-07, 'epoch': 2.95}


 98%|█████████▊| 5910/6000 [36:43<00:33,  2.70it/s]

{'loss': 0.0292, 'learning_rate': 7.5e-07, 'epoch': 2.96}


 99%|█████████▊| 5920/6000 [36:46<00:29,  2.68it/s]

{'loss': 0.052, 'learning_rate': 6.666666666666667e-07, 'epoch': 2.96}


 99%|█████████▉| 5930/6000 [36:50<00:25,  2.71it/s]

{'loss': 0.0012, 'learning_rate': 5.833333333333334e-07, 'epoch': 2.96}


 99%|█████████▉| 5940/6000 [36:54<00:22,  2.71it/s]

{'loss': 0.1154, 'learning_rate': 5.000000000000001e-07, 'epoch': 2.97}


 99%|█████████▉| 5950/6000 [36:57<00:18,  2.71it/s]

{'loss': 0.0072, 'learning_rate': 4.1666666666666667e-07, 'epoch': 2.98}


 99%|█████████▉| 5960/6000 [37:01<00:14,  2.70it/s]

{'loss': 0.0325, 'learning_rate': 3.3333333333333335e-07, 'epoch': 2.98}


100%|█████████▉| 5970/6000 [37:05<00:11,  2.70it/s]

{'loss': 0.0459, 'learning_rate': 2.5000000000000004e-07, 'epoch': 2.98}


100%|█████████▉| 5980/6000 [37:09<00:07,  2.70it/s]

{'loss': 0.0509, 'learning_rate': 1.6666666666666668e-07, 'epoch': 2.99}


100%|█████████▉| 5990/6000 [37:12<00:03,  2.69it/s]

{'loss': 0.1431, 'learning_rate': 8.333333333333334e-08, 'epoch': 3.0}


100%|██████████| 6000/6000 [37:16<00:00,  2.70it/s]Saving model checkpoint to ./results\checkpoint-6000
Configuration saved in ./results\checkpoint-6000\config.json


{'loss': 0.0567, 'learning_rate': 0.0, 'epoch': 3.0}


Model weights saved in ./results\checkpoint-6000\pytorch_model.bin


Training completed. Do not forget to share your model on huggingface.co/models =)


100%|██████████| 6000/6000 [37:17<00:00,  2.68it/s]

{'train_runtime': 2237.0922, 'train_samples_per_second': 42.913, 'train_steps_per_second': 2.682, 'train_loss': 0.1486751826258066, 'epoch': 3.0}
Total Training Time: 37.29 min





In [16]:
# 在测试集上计算Precision, Recall, F1-score, AUC
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
def evaluate_model(model, dataloader, device):
    model.eval()
    all_preds = []
    all_labels = []
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            outputs = model(input_ids, attention_mask=attention_mask)
            preds = outputs.logits.argmax(dim=1).cpu().numpy()
            labels = labels.cpu().numpy()

            all_preds.extend(preds)
            all_labels.extend(labels)

    return all_preds, all_labels

# 获取预测值和真实标签
test_preds, test_labels = evaluate_model(model, test_dl, device)

# 计算各项指标
precision = precision_score(test_labels, test_preds)
recall = recall_score(test_labels, test_preds)
f1 = f1_score(test_labels, test_preds)
auc = roc_auc_score(test_labels, test_preds)

print(f'Precision: {precision:.3f}')
print(f'Recall: {recall:.3f}')
print(f'F1 Score: {f1:.3f}')
print(f'AUC: {auc:.3f}')

Precision: 0.933
Recall: 0.937
F1 Score: 0.935
AUC: 0.935
