In [1]:
import warnings
warnings.simplefilter('ignore')

import os
import time
import copy
import random

import numpy as np
import pandas as pd
pd.set_option('max_columns', None)
pd.set_option('max_colwidth', 400)
from tqdm.notebook import tqdm

import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AutoModel, get_linear_schedule_with_warmup, AutoConfig

# 参数设置

class Config:
    def __init__(self):
        super(Config, self).__init__()

        self.SEED = 71
        self.MODEL_PATH = 'hfl/chinese-roberta-wwm-ext'
        self.NUM_LABELS = 6

        # data
        self.TOKENIZER = AutoTokenizer.from_pretrained(self.MODEL_PATH)
        self.MAX_LENGTH = 400
        self.BATCH_SIZE = 8
        self.VALIDATION_SPLIT = 0.10

        # model
        self.DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.FULL_FINETUNING = True
        self.LR = 3e-5
        self.OPTIMIZER = 'AdamW'
        self.N_VALIDATE_DUR_TRAIN = 3
        self.N_WARMUP = 0
        self.SAVE_BEST_ONLY = True
        self.EPOCHS = 1
        self.USE_FGM = False


config = Config()


def seed_torch(seed=42):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True


np.random.seed(config.SEED)
seed_torch(seed=config.SEED)

os.environ['CUDA_VISIBLE_DEVICES'] = '0'

In [2]:
train = pd.read_csv('data/train_scenes_characters.csv')
test = pd.read_csv('data/test_scenes_characters.csv')

submit = pd.read_csv('raw_data/submit_example.tsv', sep='\t')

train['labels'] = train['emotions'].apply(lambda x: [int(i) for i in x.split(',')])
for i in range(6):
    train[f'label_{i}'] = train['labels'].apply(lambda x: x[i])

In [3]:
train_df = train[['id', 'movie', 'text'] + [f'label_{i}' for i in range(6)]].copy().reset_index(drop=True)
test_df = test[['id', 'movie', 'text']].copy().reset_index(drop=True)

In [4]:
print(train_df.shape)
train_df.head(10)

(36782, 9)


Unnamed: 0,id,movie,text,label_0,label_1,label_2,label_3,label_4,label_5
0,1171_0001_A_1,1171,剧本: 1171 场景: 1 当前: 天空下着暴雨， 剧本1171 何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。 角色: 何仁晴 前文:,0,0,0,0,0,0
1,1171_0001_A_3,1171,剧本: 1171 场景: 1 当前: 剧本1171 何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。 角色: 何仁晴 前文: 天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0
2,1171_0001_A_5,1171,剧本: 1171 场景: 1 当前: 剧本1171 何仁晴停下来接过刘昆诚手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道你当兵了。 角色: 何仁晴 前文: 何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0
3,1171_0001_A_8,1171,剧本: 1171 场景: 1 当前: 剧本1171 何仁晴凑近刘昆诚小声：办入伍证审的时候，派出所的民警跟我说，你的亲生父亲还在劳改，但是你跟他划清了界限，改姓了你继父的姓，所以出身这一栏，我就给你填革干了，进了团不要跟别人说这件事，我也不会说的。 角色: 何仁晴 前文: 何仁晴停下来接过刘昆诚手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道你当兵了。何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0
4,1171_0001_A_11,1171,剧本: 1171 场景: 1 当前: 剧本1171 何仁晴笑了笑：军礼不是这么敬的。五指并拢，大臂带动小臂，举到齐眉。 角色: 何仁晴 前文: 何仁晴凑近刘昆诚小声：办入伍证审的时候，派出所的民警跟我说，你的亲生父亲还在劳改，但是你跟他划清了界限，改姓了你继父的姓，所以出身这一栏，我就给你填革干了，进了团不要跟别人说这件事，我也不会说的。何仁晴停下来接过刘昆诚手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道你当兵了。何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,1,0,0,0,0
5,1171_0001_A_12,1171,剧本: 1171 场景: 1 当前: 剧本1171 何仁晴示范了一个动作，刘昆诚照做。 角色: 何仁晴 前文: 何仁晴笑了笑：军礼不是这么敬的。五指并拢，大臂带动小臂，举到齐眉。何仁晴凑近刘昆诚小声：办入伍证审的时候，派出所的民警跟我说，你的亲生父亲还在劳改，但是你跟他划清了界限，改姓了你继父的姓，所以出身这一栏，我就给你填革干了，进了团不要跟别人说这件事，我也不会说的。何仁晴停下来接过刘昆诚手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道你当兵了。何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0
6,1171_0001_A_14,1171,剧本: 1171 场景: 1 当前: 剧本1171 何仁晴：礼毕。（再次举手敬礼）敬礼。 角色: 何仁晴 前文: 何仁晴示范了一个动作，刘昆诚照做。何仁晴笑了笑：军礼不是这么敬的。五指并拢，大臂带动小臂，举到齐眉。何仁晴凑近刘昆诚小声：办入伍证审的时候，派出所的民警跟我说，你的亲生父亲还在劳改，但是你跟他划清了界限，改姓了你继父的姓，所以出身这一栏，我就给你填革干了，进了团不要跟别人说这件事，我也不会说的。何仁晴停下来接过刘昆诚手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道你当兵了。何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0
7,1171_0001_A_2,1171,剧本: 1171 场景: 1 当前: 天空下着暴雨，何仁晴正在给 剧本1171 刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。 角色: 刘昆诚 前文:,0,0,0,0,0,0
8,1171_0001_A_4,1171,剧本: 1171 场景: 1 当前: 何仁晴一手拿着一个行李，一路小跑着把 剧本1171 刘昆诚带到了文工团门口。 角色: 刘昆诚 前文: 天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0
9,1171_0001_A_6,1171,剧本: 1171 场景: 1 当前: 何仁晴停下来接过 剧本1171 刘昆诚手里的行李：你妈妈交待我了，等领了军装一定要照张相寄回去，让街坊邻居都知道你当兵了。 角色: 刘昆诚 前文: 何仁晴一手拿着一个行李，一路小跑着把刘昆诚带到了文工团门口。天空下着暴雨，何仁晴正在给刘昆诚穿雨衣，他自己却只穿着单薄的军装，完全暴露在大雨之中。,0,0,0,0,0,0


In [5]:
print(test_df.shape)
test_df.head(10)

(21376, 3)


Unnamed: 0,id,movie,text
0,1597_0001_A_7,1597,剧本: 1597 场景: 1 当前: 宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子 剧本1597 周惠骏，偌大的会议室只有他们俩。 角色: 周惠骏 前文:
1,1597_0001_A_9,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？ 角色: 周惠骏 前文: 宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
2,1597_0001_A_11,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏：罗彤伯出事了。 角色: 周惠骏 前文: 周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
3,1597_0001_A_13,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。 角色: 周惠骏 前文: 周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
4,1597_0001_A_15,1597,剧本: 1597 场景: 1 当前: 宋淳云有些生气走向 剧本1597 周惠骏：怎么会这样呢？我说过我会带她去的，你为什么不看好她呢？ 角色: 周惠骏 前文: 周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
5,1597_0001_A_16,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏：你已经推了七次了，她一直都在等你，你知道吗？ 角色: 周惠骏 前文: 宋淳云有些生气走向周惠骏：怎么会这样呢？我说过我会带她去的，你为什么不看好她呢？周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
6,1597_0001_A_18,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏态度坚决：我只要罗彤伯。 角色: 周惠骏 前文: 周惠骏：你已经推了七次了，她一直都在等你，你知道吗？宋淳云有些生气走向周惠骏：怎么会这样呢？我说过我会带她去的，你为什么不看好她呢？周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
7,1597_0001_A_22,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏一笑：上次你下跪，是向我求婚，真幽默。高苹霞敲了敲办公室的玻璃门，他脖子落枕，有些不舒服。 角色: 周惠骏 前文: 周惠骏态度坚决：我只要罗彤伯。周惠骏：你已经推了七次了，她一直都在等你，你知道吗？宋淳云有些生气走向周惠骏：怎么会这样呢？我说过我会带她去的，你为什么不看好她呢？周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
8,1597_0001_A_24,1597,剧本: 1597 场景: 1 当前: 剧本1597 周惠骏将头扭向一侧，宋淳云转头望了望。 角色: 周惠骏 前文: 周惠骏一笑：上次你下跪，是向我求婚，真幽默。高苹霞敲了敲办公室的玻璃门，他脖子落枕，有些不舒服。周惠骏态度坚决：我只要罗彤伯。周惠骏：你已经推了七次了，她一直都在等你，你知道吗？宋淳云有些生气走向周惠骏：怎么会这样呢？我说过我会带她去的，你为什么不看好她呢？周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。
9,1597_0001_A_42,1597,剧本: 1597 场景: 1 当前: 宋淳云拦住她， 剧本1597 周惠骏挣脱：放开。你刚才不是说要去T国吗？ 角色: 周惠骏 前文: 周惠骏将头扭向一侧，宋淳云转头望了望。周惠骏一笑：上次你下跪，是向我求婚，真幽默。高苹霞敲了敲办公室的玻璃门，他脖子落枕，有些不舒服。周惠骏态度坚决：我只要罗彤伯。周惠骏：你已经推了七次了，她一直都在等你，你知道吗？宋淳云有些生气走向周惠骏：怎么会这样呢？我说过我会带她去的，你为什么不看好她呢？周惠骏：她为了证明他去过海洋馆，昨天跟蛋蛋打了一架，蛋蛋推了她一下，把她头给磕破了。周惠骏：罗彤伯出事了。周惠骏有些不高兴：宋淳云，我们俩在一起十二年了，在我跟你提出离婚的时候，你第一个反应居然是不要影响你的生意，这场婚姻对于你来说毫无意义，是吗？宋淳云将视频暂停，转身面对会议桌，桌子最那头，坐着宋淳云的妻子周惠骏，偌大的会议室只有他们俩。


In [6]:
class TransformerDataset(Dataset):
    def __init__(self, df, indices, set_type=None):
        super(TransformerDataset, self).__init__()

        df = df.iloc[indices]
        self.texts = df['text'].values.tolist()
        self.set_type = set_type
        if self.set_type != 'test':
            self.labels = df.iloc[:, 3:].values

        self.tokenizer = config.TOKENIZER
        self.max_length = config.MAX_LENGTH

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, index):
        tokenized = self.tokenizer.encode_plus(
            self.texts[index],
            add_special_tokens=True,
            max_length=self.max_length,
            pad_to_max_length=True,
            truncation=True,
            return_attention_mask=True,
            return_token_type_ids=False,
            return_tensors='pt'
        )
        input_ids = tokenized['input_ids'].squeeze()
        attention_mask = tokenized['attention_mask'].squeeze()

        if self.set_type != 'test':
            return {
                'input_ids': input_ids.long(),
                'attention_mask': attention_mask.long(),
                'labels': torch.Tensor(self.labels[index]).float(),
            }

        return {
            'input_ids': input_ids.long(),
            'attention_mask': attention_mask.long(),
        }

In [7]:
dataset_size = len(train_df)
indices = list(range(dataset_size))
split = int(np.floor(config.VALIDATION_SPLIT * dataset_size))
np.random.shuffle(indices)

train_indices, valid_indices = indices[split:], indices[:split]

train_data = TransformerDataset(train_df, train_indices)
valid_data = TransformerDataset(train_df, valid_indices)

train_dataloader = DataLoader(train_data, batch_size=config.BATCH_SIZE)
valid_dataloader = DataLoader(valid_data, batch_size=config.BATCH_SIZE)

b = next(iter(train_dataloader))
for k, v in b.items():
    print(f'{k} shape: {v.shape}')

input_ids shape: torch.Size([8, 400])
attention_mask shape: torch.Size([8, 400])
labels shape: torch.Size([8, 6])


In [8]:
class FGM(object):
    def __init__(self, model, emb_name, epsilon=1.0):
        self.model = model
        self.epsilon = epsilon
        self.emb_name = emb_name
        self.backup = {}

    def attack(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad and self.emb_name in name:
                self.backup[name] = param.data.clone()
                norm = torch.norm(param.grad)
                if norm != 0 and not torch.isnan(norm):
                    r_at = self.epsilon * param.grad / norm
                    param.data.add_(r_at)

    def restore(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad and self.emb_name in name:
                assert name in self.backup
                param.data = self.backup[name]
        self.backup = {}

In [9]:
def init_params(module_lst):
    for module in module_lst:
        for param in module.parameters():
            if param.dim() > 1:
                torch.nn.init.xavier_uniform_(param)
    return


class Model(nn.Module):
    def __init__(self, ):
        super().__init__()

        cfg = AutoConfig.from_pretrained(config.MODEL_PATH)
        cfg.update({"output_hidden_states": True,
                    "hidden_dropout_prob": 0.0,
                    "layer_norm_eps": 1e-7})

        self.roberta = AutoModel.from_pretrained(config.MODEL_PATH, config=cfg)

        dim = self.roberta.pooler.dense.bias.shape[0]

        self.dropout = nn.Dropout(p=0.2)
        self.high_dropout = nn.Dropout(p=0.5)

        n_weights = 12
        weights_init = torch.zeros(n_weights).float()
        weights_init.data[:-1] = -3
        self.layer_weights = torch.nn.Parameter(weights_init)

        self.attention = nn.Sequential(
            nn.Linear(768, 768),
            nn.Tanh(),
            nn.Linear(768, 1),
            nn.Softmax(dim=1)
        )
        self.cls = nn.Sequential(
            nn.Linear(dim, 6)
        )
        init_params([self.cls, self.attention])

    def forward(self, input_ids, attention_mask):
        roberta_output = self.roberta(input_ids=input_ids,
                                      attention_mask=attention_mask)

        cls_outputs = torch.stack(
            [self.dropout(layer) for layer in roberta_output[2][-12:]], dim=0
        )
        cls_output = (
                torch.softmax(self.layer_weights, dim=0).unsqueeze(1).unsqueeze(1).unsqueeze(1) * cls_outputs).sum(
            0)

        logits = torch.mean(
            torch.stack(
                [torch.sum(self.attention(self.high_dropout(cls_output)) * cls_output, dim=1) for _ in range(5)],
                dim=0,
            ),
            dim=0,
        )
        return self.cls(logits)
    
device = config.DEVICE

In [10]:
def val(model, valid_dataloader, criterion):
    val_loss = 0
    true, pred = [], []

    # set model.eval() every time during evaluation
    model.eval()

    for step, batch in enumerate(valid_dataloader):
        b_input_ids = batch['input_ids'].to(device)
        b_attention_mask = batch['attention_mask'].to(device)
        b_labels = batch['labels'].to(device)

        with torch.no_grad():
            # forward pass
            logits = model(input_ids=b_input_ids, attention_mask=b_attention_mask)

            # calculate loss
            loss = criterion(logits, b_labels)
            val_loss += loss.item()

    avg_val_loss = val_loss / len(valid_dataloader)
    print('Val loss:', avg_val_loss)
    return avg_val_loss


def train(model, train_dataloader, valid_dataloader, criterion, optimizer, scheduler, epoch):
    # we validate config.N_VALIDATE_DUR_TRAIN times during the training loop
    nv = config.N_VALIDATE_DUR_TRAIN
    temp = len(train_dataloader) // nv
    temp = temp - (temp % 100)
    validate_at_steps = [temp * x for x in range(1, nv + 1)]
    
    if config.USE_FGM:
        fgm = FGM(model, epsilon=1, emb_name='word_embeddings.')

    train_loss = 0
    for step, batch in enumerate(tqdm(train_dataloader,
                                      desc='Epoch ' + str(epoch))):
        # set model.eval() every time during training
        model.train()

        # unpack the batch contents and push them to the device (cuda or cpu).
        b_input_ids = batch['input_ids'].to(device)
        b_attention_mask = batch['attention_mask'].to(device)
        b_labels = batch['labels'].to(device)

        # clear accumulated gradients
        optimizer.zero_grad()

        # forward pass
        logits = model(input_ids=b_input_ids, attention_mask=b_attention_mask)

        # calculate loss
        loss = criterion(logits, b_labels)
        train_loss += loss.item()

        # backward pass
        loss.backward()
        
        # fgm attack
        if config.USE_FGM:
            fgm.attack()
            logits_adv = model(input_ids=b_input_ids, attention_mask=b_attention_mask)
            loss_adv = criterion(logits_adv, b_labels)
            loss_adv.backward()
            fgm.restore()

        # update weights
        optimizer.step()

        # update scheduler
        scheduler.step()

        if step in validate_at_steps:
            print(f'-- Step: {step}')
            _ = val(model, valid_dataloader, criterion)

    avg_train_loss = train_loss / len(train_dataloader)
    print('Training loss:', avg_train_loss)


In [11]:
class RMSELoss(torch.nn.Module):
    def __init__(self):
        super(RMSELoss,self).__init__()

    def forward(self, x, y):
        criterion = nn.MSELoss()
        loss = torch.sqrt(criterion(x, y))
        return loss
    
def run():
    # setting a seed ensures reproducible results.
    # seed may affect the performance too.
    torch.manual_seed(config.SEED)

    # criterion = nn.BCEWithLogitsLoss()
    criterion = RMSELoss()

    # define the parameters to be optmized -
    # - and add regularization
    if config.FULL_FINETUNING:
        param_optimizer = list(model.named_parameters())
        no_decay = ["bias", "LayerNorm.bias", "LayerNorm.weight"]
        optimizer_parameters = [
            {
                "params": [
                    p for n, p in param_optimizer if not any(nd in n for nd in no_decay)
                ],
                "weight_decay": 0.001,
            },
            {
                "params": [
                    p for n, p in param_optimizer if any(nd in n for nd in no_decay)
                ],
                "weight_decay": 0.0,
            },
        ]
        optimizer = optim.AdamW(optimizer_parameters, lr=config.LR)

    num_training_steps = len(train_dataloader) * config.EPOCHS
    scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=0,
        num_training_steps=num_training_steps
    )

    min_avg_val_loss = float('inf')
    for epoch in range(config.EPOCHS):
        train(model, train_dataloader, valid_dataloader, criterion, optimizer, scheduler, epoch)
        avg_val_loss = val(model, valid_dataloader, criterion)

        if config.SAVE_BEST_ONLY:
            if avg_val_loss < min_avg_val_loss:
                best_model = copy.deepcopy(model)
                best_val_mse_score = avg_val_loss

                model_name = 'roberta_best_model'
                torch.save(best_model.state_dict(), model_name + '.pt')

                print(f'--- Best Model. Val loss: {min_avg_val_loss} -> {avg_val_loss}')
                min_avg_val_loss = avg_val_loss

    return best_model, best_val_mse_score

In [12]:
model = Model()
model.to(device)

Some weights of the model checkpoint at hfl/chinese-roberta-wwm-ext were not used when initializing BertModel: ['cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Model(
  (roberta): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=1)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-07, elementwise_affine=True)
      (dropout): Dropout(p=0.0, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-07, elementwise_affine=True)
   

In [13]:
best_model, best_val_mse_score = run()

HBox(children=(FloatProgress(value=0.0, description='Epoch 0', max=4138.0, style=ProgressStyle(description_wid…

-- Step: 1300
Val loss: 0.46378527439158895
-- Step: 2600
Val loss: 0.391792626792322
-- Step: 3900
Val loss: 0.3687638635220735

Training loss: 0.4100741486602097
Val loss: 0.3676599715228962
--- Best Model. Val loss: inf -> 0.3676599715228962


In [14]:
dataset_size = len(test_df)
test_indices = list(range(dataset_size))

test_data = TransformerDataset(test_df, test_indices, set_type='test')
test_dataloader = DataLoader(test_data, batch_size=config.BATCH_SIZE)

In [15]:
def predict(model):
    val_loss = 0
    test_pred = []
    model.eval()
    for step, batch in enumerate(test_dataloader):
        b_input_ids = batch['input_ids'].to(device)
        b_attention_mask = batch['attention_mask'].to(device)

        with torch.no_grad():
            logits = model(input_ids=b_input_ids, attention_mask=b_attention_mask)
            logits = logits.cpu().numpy()
            test_pred.extend(logits)

    test_pred = np.array(test_pred)
    return test_pred

In [16]:
test_pred = predict(best_model)

tmp = pd.DataFrame(test_pred)
tmp.columns = [f'label_{i}' for i in range(6)]
tmp.describe()

Unnamed: 0,label_0,label_1,label_2,label_3,label_4,label_5
count,21376.0,21376.0,21376.0,21376.0,21376.0,21376.0
mean,0.035835,0.087174,0.106294,0.147099,0.114739,0.20831
std,0.122105,0.244001,0.263792,0.346998,0.223904,0.378798
min,-0.199498,-0.33433,-0.325735,-0.373501,-0.357324,-0.423927
25%,-0.022906,-0.02244,0.005438,-0.010263,0.007866,0.012773
50%,0.013354,0.038101,0.049858,0.048381,0.067941,0.101083
75%,0.060324,0.117724,0.111919,0.149329,0.14441,0.247564
max,2.628645,3.049479,3.595179,3.555378,3.077674,3.503212


In [17]:
test_pred[test_pred < 0] = 0
test_pred[test_pred > 3] = 3

In [18]:
test['emotion'] = list(test_pred)

sub = submit.copy()
del sub['emotion']

sub = sub.merge(test[['id','emotion']], how='left', on='id')
sub['emotion'] = sub['emotion'].apply(lambda x: ','.join([str(i) for i in x]))
sub.head()

Unnamed: 0,id,emotion
0,34170_0002_A_12,"0.0,0.0010360582,0.08128041,0.0,0.0081214905,0.0089266"
1,34170_0002_A_14,"0.0,0.0,0.0,0.0,0.0,0.0"
2,34170_0003_A_16,"0.0,0.009026202,0.0,0.07286199,0.064760275,0.0"
3,34170_0003_A_17,"0.0,0.0,0.0,0.023623193,0.0,0.22696266"
4,34170_0003_A_18,"0.0,0.04119603,0.0,0.0,0.11077476,0.15557021"


In [19]:
sub.to_csv(f'roberta_baseline.tsv', sep='\t', index=False)