In [1]:
class Work:
    def __init__(self, i, t, c, l):
        self.title = t
        self.content = c
        self.labels = l
        self.id = i
    def __str__(self):
        return f"id: \"{self.id}\"\ntitle: \"{self.title}\"\ncontent: \"{self.content}\"\nlabels: {self.labels}\n"

In [2]:
def load_jsonl(path):
    data=[]
    with open(path, 'r', encoding='utf-8') as reader:
        for line in reader:
            data.append(json.loads(line))
    return data

In [3]:
def load_csv(path):
    data=[]
    with open(path, 'r', encoding='utf-8') as file:
        rows = csv.reader(file)
        for row in rows:
            label = {"id": row[0], "name": row[1]}
            data.append(label)
    return data

In [4]:
def add_str(datas):
    string = ""
    for data in datas:
        t_str = data['body']
        t_str = t_str.replace(u'\u3000', u'')
        string += t_str
    return string

In [5]:
def create_work(data):
    if data['labels'] != None:
        t_labels = create_label_vector(labels, data['labels'])
    else:
        t_labels = create_label_vector(labels, [""])
    
    w = Work(data['id'], data['metadata']['title'], add_str(data['content'])[:512], t_labels)
    return w

In [6]:
def create_label_vector(total_labels, target_labels):
    return_label = []
    for i, label in enumerate(total_labels):
        for t_label in target_labels:
            if label['name'] == t_label:
                return_label.append(label['id'])
    return return_label

In [7]:
import csv
labels = load_csv("label_list_cleaned.csv")
print(labels[15:25])

[{'id': '11', 'name': 'TS'}, {'id': '12', 'name': 'スキル'}, {'id': '13', 'name': '夫婦'}, {'id': '14', 'name': 'ステータス'}, {'id': '15', 'name': '学生'}, {'id': '16', 'name': '後輩'}, {'id': '17', 'name': '少年'}, {'id': '18', 'name': '社会人'}, {'id': '18', 'name': 'サラリーマン'}, {'id': '19', 'name': '大学生'}]


In [8]:
unsortIds = [label['id'] for label in labels]
ids = []
for id in unsortIds:
    if id not in ids:
        ids.append(id)
print(len(ids))

312


In [9]:
id2label = {label['id']:label['name'] for label in labels}
label2id = {label['name']:label['id'] for label in labels}
print(label2id)

{'男主人公': '1', '男性主人公': '1', '女主人公': '2', '女性主人公': '2', 'チート': '3', '主人公最強': '4', '最強': '4', '剣と魔法': '5', '剣': '6', '魔術': '7', '悪役令嬢': '8', '令嬢': '9', 'お嬢様': '9', '探偵': '10', '性転換': '11', 'TS': '11', 'スキル': '12', '夫婦': '13', 'ステータス': '14', '学生': '15', '後輩': '16', '少年': '17', '社会人': '18', 'サラリーマン': '18', '大学生': '19', '高校生': '20', '中学生': '21', '小学生': '22', 'おっさん': '23', 'ヒーロー': '24', '聖女': '25', '記憶喪失': '26', '狂気': '27', 'オタク': '28', '女装': '29', 'シスコン': '30', '恋人': '31', '英雄': '32', 'ぼっち': '33', '陰キャ': '34', '陰陽師': '35', '変身': '36', '作家': '37', '教師': '38', '先生': '38', '魔法': '39', '学園': '40', 'ダンジョン': '41', '超能力': '42', '異能': '42', '異能力': '42', '能力': '42', '異能力バトル': '42', '異能バトル': '42', 'ミリタリー': '43', '音楽': '44', '学校': '45', '高校': '45', '大学': '45', '料理': '46', '部活': '47', '海': '48', '宇宙': '49', 'スポーツ': '50', 'スマホ': '51', '桜': '52', '銃': '53', '喫茶店': '54', '野球': '55', '月': '56', 'ピアノ': '57', '宇宙人': '58', '神社': '59', '花': '60', '錬金術': '61', '病院': '62', '電車': '63', '直観': '64', '図書館': '65', '戦

In [10]:
import json
import tqdm
import time
from os import walk

works = []
st_time = time.time()
filenames = next(walk("testdata"),  (None, None, []))[2]
for filename in filenames:
    datas = load_jsonl(f"testdata/{filename}")
    
    print(f"{filename} original lines: {len(datas)}")
    for data in datas:
        if data['labels'] == None:
            datas.remove(data)
    print(f"{filename} cleaned lines: {len(datas)}")
    
    for data in tqdm.tqdm(datas):
        w = create_work(data)
        work = {"id": w.id, "title": w.title, "content": w.content, "labels": w.labels}
        works.append(work)
        
print(f"Time: {time.time()-st_time}")

117735405488A-512.jsonl original lines: 9585
117735405488A-512.jsonl cleaned lines: 9236


100%|████████████████████████████████████████████████████████████████████████████| 9236/9236 [00:02<00:00, 3684.47it/s]


117735405488B-512.jsonl original lines: 6480
117735405488B-512.jsonl cleaned lines: 6253


100%|████████████████████████████████████████████████████████████████████████████| 6253/6253 [00:02<00:00, 2480.42it/s]


117735405488C-512.jsonl original lines: 8156
117735405488C-512.jsonl cleaned lines: 7898


100%|████████████████████████████████████████████████████████████████████████████| 7898/7898 [00:03<00:00, 2220.02it/s]


117735405489A-512.jsonl original lines: 7418
117735405489A-512.jsonl cleaned lines: 7168


100%|████████████████████████████████████████████████████████████████████████████| 7168/7168 [00:04<00:00, 1775.95it/s]


117735405489B-512.jsonl original lines: 6471
117735405489B-512.jsonl cleaned lines: 6322


100%|████████████████████████████████████████████████████████████████████████████| 6322/6322 [00:03<00:00, 1947.29it/s]


11773540549-512.jsonl original lines: 7539
11773540549-512.jsonl cleaned lines: 7254


100%|████████████████████████████████████████████████████████████████████████████| 7254/7254 [00:03<00:00, 2083.84it/s]


1177354055-512.jsonl original lines: 2958
1177354055-512.jsonl cleaned lines: 2861


100%|████████████████████████████████████████████████████████████████████████████| 2861/2861 [00:01<00:00, 2642.50it/s]


1681641041-512.jsonl original lines: 466
1681641041-512.jsonl cleaned lines: 447


100%|██████████████████████████████████████████████████████████████████████████████| 447/447 [00:00<00:00, 1951.62it/s]


1681645221-512.jsonl original lines: 6774
1681645221-512.jsonl cleaned lines: 6607


100%|████████████████████████████████████████████████████████████████████████████| 6607/6607 [00:02<00:00, 2873.98it/s]


1681645222-512.jsonl original lines: 3886
1681645222-512.jsonl cleaned lines: 3749


100%|████████████████████████████████████████████████████████████████████████████| 3749/3749 [00:01<00:00, 2642.47it/s]


1681670018-512.jsonl original lines: 9
1681670018-512.jsonl cleaned lines: 9


100%|██████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<00:00, 1999.93it/s]


1681670042-512.jsonl original lines: 9254
1681670042-512.jsonl cleaned lines: 8837


100%|████████████████████████████████████████████████████████████████████████████| 8837/8837 [00:02<00:00, 3982.63it/s]


1681692761-512.jsonl original lines: 12
1681692761-512.jsonl cleaned lines: 12


100%|████████████████████████████████████████████████████████████████████████████████| 12/12 [00:00<00:00, 4799.89it/s]


1681692785-512.jsonl original lines: 1788
1681692785-512.jsonl cleaned lines: 1744


100%|████████████████████████████████████████████████████████████████████████████| 1744/1744 [00:00<00:00, 5861.56it/s]


1681692786-512.jsonl original lines: 171
1681692786-512.jsonl cleaned lines: 168


100%|██████████████████████████████████████████████████████████████████████████████| 168/168 [00:00<00:00, 7635.76it/s]


4852201425-512.jsonl original lines: 1087
4852201425-512.jsonl cleaned lines: 1062


100%|████████████████████████████████████████████████████████████████████████████| 1062/1062 [00:00<00:00, 1693.48it/s]

Time: 85.90065908432007





In [None]:
print(len(works))
for work in tqdm.tqdm(works):
    if work['labels'] == []:
        works.remove(work)
print(len(works))
#print(works[6])

69627


 85%|███████████████████████████████████████████████████████████████           | 59328/69627 [00:54<00:09, 1087.34it/s]

59328





In [20]:
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer

works_id = [work['id'] for work in works]
works_title = [work['title'] for work in works]
works_content = [work['content'] for work in works]

mlb = MultiLabelBinarizer(classes=(ids))
works_labels = [work['labels'] for work in works]
works_labels = mlb.fit_transform(works_labels)

works_df = pd.DataFrame({'id': works_id, 'title': works_title, 'content': works_content, 'labels': works_labels.tolist()})
works_df.head()

Unnamed: 0,id,title,content,labels
0,1177354054880199356,彼女は頭の上にミカンを乗せていた。ミカンセイ空間にようこそ,web小説ですし、出来るだけくだけた書き方でいきます。この作品はノンセンス(荒唐無稽な物事を...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,1177354054880199370,ノー・イヤー・ヒーロー,常識が変わる瞬間を見たことがあるか？例えばクラハムベルがはじめて遠距離通信を行った瞬間とか、...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,1177354054880199563,星の代わりに,今は午後一時半。お腹に少しは物を入れている。タバコもいっぷくすませたし、あとにすることは限ら...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
3,1177354054880199764,長耳のベアラー,必要とされる場所には自然と人は集まってくる。人が集まれば活気が出来上がり、夜でも賑やかな街に...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,1177354054880199944,海の底へ,「玲さんは、なんでこんなところまで来たの？」拓真に聞かれる。「…だから、拓真に会いにだよ。」...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [21]:
import datasets
from datasets import Dataset
dataset = Dataset.from_pandas(works_df)
train_testvalid = dataset.train_test_split(test_size=0.2)
test_valid = train_testvalid['test'].train_test_split(test_size=0.5)
dataset = datasets.DatasetDict({
    'train': train_testvalid['train'],
    'test': test_valid['test'],
    'valid': test_valid['train']
})

In [50]:
print(type(dataset['train'][0]['labels']))

<class 'list'>


In [59]:
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking', mecab_kwargs={"mecab_dic": "unidic", "mecab_option": None})

def preprocess_data(work):
    text = work['content']
    encoding = tokenizer(text, max_length=512, truncation=True, padding="max_length")
    encoding['labels'] = np.array(work['labels'], dtype=np.float32)
    return encoding

loading configuration file https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking/resolve/main/config.json from cache at C:\Users\User/.cache\huggingface\transformers\573af37b6c39d672f2df687c06ad7d556476cbe43e5bf7771097187c45a3e7bf.abeb707b5d79387dd462e8bfb724637d856e98434b6931c769b8716c6f287258
Model config BertConfig {
  "_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "tokenizer_class": "BertJapaneseTokenizer",
  "transformers_version": "4.19.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_s

In [60]:
encoding_dataset = dataset.map(preprocess_data, batched=True, remove_columns=dataset['train'].column_names)

  0%|          | 0/48 [00:00<?, ?ba/s]

  0%|          | 0/6 [00:00<?, ?ba/s]

  0%|          | 0/6 [00:00<?, ?ba/s]

In [64]:
exp = encoding_dataset['train'][0]
print(exp)
print(type(exp['labels'][0]))
tokenizer.decode(exp['input_ids'])

{'labels': [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'input_ids': [2, 12660, 11216, 12660, 11216, 10531,

'[CLS] ピーポー ピーポー......―― 響く サイレン の 音 を 聞き ながら 俺 は 薄れゆく 意識 の 中 、 ぼんやり と 過去 を 振り返っ て い た 。 「 ( いい こと は...... 何 も 無かっ た な...... ) 」 しかし 、 思い返し て み て も ロクな 思い出 は 無かっ た 。 倒れ た 身体 に 打ち付ける 冷たい 雨 が 、 俺 の 二十 三 年 の 人生 を 嘲笑う よう に 染みこん で いく 。 俺 こと 『 三 門 』 は 、 両親 と 弟 の 四 人 家族 。 だ が 、 家族 と の 仲 は よろしく なく 、 長男 で ある 俺 は 疎ま れ て い た 。 両親 は 出来 の 良い 弟 を 溺愛 し 、 何 も か も が 平均 な 俺 に は 辛辣 に 当たっ て い た 。 そして 実 の 弟 は 早く 出 て 行け と 言わ ん ばかり の 態度 で なん と も 肩身 の 狭い 思い を し て い た 。 「 ( もう...... いい か...... ) 」 これ は 死ぬ な 、 と 、 身体 は 痛む の に 何 と なく 冷静 な 判断 を する 。 俺 は スリップ し て 歩道 に 飛びこん だ 車 に 後ろ から はね られ 全身 を 強く 打っ て い た から だ 。 「―― お 兄 さん! しっかり し て ください! ああ...... ほ 、 骨 が...... 」 「 君 、 どき なさい! 後 は 我々 が ――」 良かっ た な と 思っ た の は 、 俺 の 前 を 歩い て い た 女の子 を 突き飛ばし た こと で 事故 に 巻き込ま れる こと を 阻止 でき た こと だろう 。...... どうせ 両親 と 弟 は 俺 が 死ん で も 保険 金 が 出 て 喜ぶ だけ 。 そう いう 家族 な の だ 。 「 ( なら 、 これ が 最初 どこ まで も 続く 暗闇...... これ が 死後 [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]

In [65]:
encoding_dataset.set_format("torch")

In [67]:
print(encoding_dataset['train'][0])

{'labels': tensor([0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 

In [68]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    "cl-tohoku/bert-base-japanese-whole-word-masking", 
    problem_type="multi_label_classidication", 
    num_labels=len(ids),
    id2label=id2label,
    label2id=label2id
)

loading configuration file https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking/resolve/main/config.json from cache at C:\Users\User/.cache\huggingface\transformers\573af37b6c39d672f2df687c06ad7d556476cbe43e5bf7771097187c45a3e7bf.abeb707b5d79387dd462e8bfb724637d856e98434b6931c769b8716c6f287258
Model config BertConfig {
  "_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "1": "\u7537\u6027\u4e3b\u4eba\u516c",
    "10": "\u63a2\u5075",
    "100": "\u602a\u8ac7",
    "101": "\u30b0\u30eb\u30e1",
    "102": "\u5fa9\u8b90",
    "103": "\u30b2\u30fc\u30e0",
    "104": "\u6b74\u53f2",
    "105": "\u30b9\u30ed\u30fc\u30e9\u30a4\u30d5",
    "106": "\u7121\u53cc",
    "107": "\u5922",
    "108": "\u3069\u3093\u3067\u3093\u8fd4\u3057",
    "109": "\u59

In [69]:
batch_size = 4
metric_name = "f1"

In [70]:
from transformers import TrainingArguments, Trainer

args = TrainingArguments(
    f"bert-finetuned-sem_eval-japanese",
    evaluation_strategy = "epoch",
    save_strategy = "epoch",
    learning_rate = 2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=5,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model=metric_name
)

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


In [71]:
from sklearn.metrics import f1_score, roc_auc_score, accuracy_score
from transformers import EvalPrediction
import torch

def multi_label_metrics(pred, labels, threshold=0.5):
    sigmoid = torch.nn.sigmoid()
    probs = sigmoid(torch.Tensor(pred))
    
    y_pred = np.zeros(probs.shape)
    y_pred[np.where(probs >= threshold)] = 1
    
    y_true = labels
    f1_micro_average = f1_score(y_true=y_true, y_pred=y_pred, average='micro')
    roc_auc = roc_auc_score(y_true, y_pred, average = 'micro')
    accuracy = accuracy_score(y_true, y_pred)
    
    metrics = {'f1': f1_micro_average,
               'roc_auc': roc_auc,
               'accuracy': accuracy}
    return metrics

def compute_metrics(p: EvalPrediction):
    preds = p.predictions[0] if isinstance(p.predictions, tuple) else p.predictions
    result = multi_label_metrics(predictions=preds, labels=p.label_ids)
    return result

In [72]:
encoding_dataset['train'][0]['labels'].type()

'torch.LongTensor'

In [73]:
encoding_dataset['train']['input_ids'][0]

tensor([    2, 12660, 11216, 12660, 11216, 10531, 30239, 30239,  8419, 28504,
         2532,  1074,     5,   419,    11,  6296,   895,  7913,     9, 25814,
        29179, 28504,  3251,     5,    51,     6, 19314, 17038,    13,  2147,
           11, 17472,    16,    21,    10,     8,    36,    23,  2575,    45,
            9,   143,   143,   143,   143,   143,   143,  1037,    28,  6013,
           10,    18,   143,   143,   143,   143,   143,   143,    24,    38,
          373,     6,  2502,  2708,    16,   546,    16,    28, 25402, 28462,
        13579,     9,  6013,    10,     8,  8390,    10,  4726,     7,  1878,
         7244, 20606,  3741,    14,     6,  7913,     5,   287, 29115,   240,
           19,     5,  5386,    11, 27964, 28489,   124,     7,  4896, 28614,
        22159,    12,   861,     8,  7913,    45,    63,   240,  1605,    65,
            9,     6,  4910,    13,  1782,     5,   755,    53,  2283,     8,
           75,    14,     6,  2283,    13,     5,  1883,     9, 

In [74]:
outputs = model(input_ids=encoding_dataset['train']['input_ids'][0].unsqueeze(0), labels=encoding_dataset['train'][0]['labels'].unsqueeze(0))
outputs

SequenceClassifierOutput(loss=None, logits=tensor([[ 0.2349,  0.2983, -0.0442,  0.4067,  0.3687,  0.1454,  0.2565,  0.1244,
          0.3218, -0.1932, -0.0773, -0.3536,  0.3409, -0.1439, -0.3919, -0.2110,
          0.1956,  0.0761, -0.1118,  0.1858,  0.2827,  0.2295, -0.0064,  0.3319,
          0.3241, -0.4251,  0.2593,  0.1452,  0.0510,  0.1111, -0.1081, -0.3846,
          0.4758,  0.0336,  0.4838, -0.9381, -0.1127, -0.0985, -0.1043, -0.2210,
          0.4527,  0.0403,  0.0195,  0.3256, -0.3642,  0.0808, -0.1685,  0.6941,
         -0.6792,  0.0082,  0.4325, -0.4780,  0.3547, -0.4977, -0.3839,  0.6190,
          0.2781,  0.3483,  0.2067,  0.0149, -0.3026, -0.2004, -0.1085, -0.0598,
         -0.0423, -0.3409, -0.1880, -0.0462,  0.3412, -0.0897,  0.2251,  0.1031,
          0.0794, -0.2086,  0.1515, -0.5184, -0.3665, -0.1777,  0.1347,  0.1229,
          0.2781,  0.3368, -0.5044,  0.2003, -0.3623, -0.4631,  0.0699, -0.3927,
         -0.2346, -0.2016,  0.1203,  0.2295, -0.1724, -0.1860,  0.

In [75]:
trainer = Trainer(
    model,
    args,
    train_dataset=encoding_dataset["train"],
    eval_dataset=encoding_dataset["valid"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

In [76]:
import torch
torch.cuda.empty_cache()

In [77]:
trainer.train()

***** Running training *****
  Num examples = 47462
  Num Epochs = 5
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 59330


KeyError: 'loss'