In [1]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

In [2]:
import torch
from torch import nn
from transformers import AutoTokenizer, AutoModel
from abc import ABCMeta, abstractmethod
from abc import ABC
import pandas as pd

In [3]:
import os
from transformers import Trainer, TrainingArguments 
from dataclasses import dataclass, field

@dataclass
class InitialParameter:
    """
    implemnt_lenは学習データを何個使うのかを設定している。
    #学習データのディレクトリを指定して、そのディレクトリにあるどのファイルを読み込むのかを指定する
    train_listの順番は重要、理由はtrain_listは学習をに利用するファイルが格納されている、
    一方test_listはテストに利用するファイルが格納されており、それぞれの要素の順番ごとにモデルの学習データとそのテストとして利用するから
    save_dirも同様の理由で、学習済みモデルやその他の結果を保存するディレクトリを指定する
    implment_lenの数は train_list, test_listとsave_listと同じでなくてはならない
    """
    implemnt_len: int = 1
    train_data_dir: str = './data'
    train_list: list[str] = field(default_factory=lambda: ['dummy_multi_train.xlsx'])

    test_data_dir: str = './data'
    test_list: list[str] = field(default_factory=lambda: ['dummy_multi_test.xlsx'])
    
    save_dir: str = os.path.join(os.getcwd(), 'result')
    save_list: list[str] = field(default=list)
        
    use_model_list: list[str] = field(default_factory=lambda: ['nlp-waseda/roberta-base-japanese'])
        
    label_list: list[str] = field(default_factory=lambda: ['推奨','行動抑制','励まし','願望'])
    text_column_name: str = 'ツイート'
    label_column_name: str = '判定結果'
        
    device = "cuda:0" if torch.cuda.is_available() else 'cpu'

    max_length: int = 256
    training_args: TrainingArguments = TrainingArguments(
        output_dir=save_dir,
        num_train_epochs=5,
        evaluation_strategy="epoch",
        save_strategy='epoch',
        learning_rate=5e-6,
        dataloader_pin_memory=False,
        weight_decay=0.1,
        per_device_train_batch_size=16,
        per_device_eval_batch_size=16,
        metric_for_best_model='f1',
        save_total_limit = 1,
        load_best_model_at_end=True,
    )
    
    
    
   

In [4]:
ii = InitialParameter()
ii

InitialParameter(implemnt_len=1, train_data_dir='./data', train_list=['dummy_multi_train.xlsx'], test_data_dir='./data', test_list=['dummy_multi_test.xlsx'], save_dir='/home/wakasugi/model_create/MultiFacilitatedAxis/result', save_list=<class 'list'>, use_model_list=['nlp-waseda/roberta-base-japanese'], label_list=['推奨', '行動抑制', '励まし', '願望', 'その他'], text_column_name='ツイート', label_column_name='判定結果', max_length=256, training_args=TrainingArguments(
_n_gpu=1,
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_pin_memory=False,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
do_eval=True,
do_predict=False,
do_train=False,
eval_accumulation_steps=None,
eval_delay=0,
eval_steps=None,
evaluation_strategy=epoch,
fp16=False,
fp16_backend=auto,
fp16_full_eval=Fal

In [5]:
import numpy as np


class calcMatrics:
    
    def __init__(self, 
                 model_name: str, 
                 train_data_name: str, 
                 test_data_name: str = None,
                 citeList: list[str] = ['test_loss', 'test_accuracy', 'test_precision','test_recall', 'test_f1','test_auc']):
        self.madel_name = model_name
        self. train_data_name = train_data_name
        self.test_data_name = test_data_name
        self.citeList = citeList
        
    def TrainVal_log(self, train_metrics,val_metrics):
        train_log = {}
        val_log = {}
        for cite in self.citeList:
            tem_tra = []
            tem_val = []
            for tra,val in zip(train_metrics,val_metrics):
                tem_tra.append(tra[cite])
                tem_val.append(val[cite])
            train_log['train_'+cite.split('_')[1]] = tem_tra
            val_log['val_'+cite.split('_')[1]] = tem_val
        return pd.DataFrame.from_dict(train_log), pd.DataFrame.from_dict(val_log)
    

In [6]:
@dataclass
class ResultMatrics:
    model_name: str
    train_data: str
    test_data: str
    
    #学習曲線算出用
    train_matrics: list[dict]
    val_metrics: list[dict]
    test_metrics: list[dict]

In [7]:
import pandas as pd

@dataclass
class Dataset:
    train_pd: pd.DataFrame
    test_pd: pd.DataFrame
        
    train_encoding: list[dict]
    
    test_encoding: list[dict]

In [8]:
import pandas as pd
import re
from transformers import AutoTokenizer

class baseTextDataLoader(ABC):
    #impiment_nowは現在実行しているパラメータのリスト番号を指定
    def __init__(self, parameters: InitialParameter, impliment_now: int=0):
        #super().__init__()
        self.train_load_file = os.path.join(parameters.train_data_dir, parameters.train_list[impliment_now])
        self.test_load_file = os.path.join(parameters.test_data_dir, parameters.test_list[impliment_now])
        self.text_column_name = parameters.text_column_name
        self.label_column_name = parameters.label_column_name
        self.tokenizer_name = parameters.use_model_list[impliment_now]
        self.parameters = parameters

    @abstractmethod
    def load(self, **kwargs) -> Dataset:
        pass
        
    def _load(self) -> (pd.DataFrame, pd.DataFrame):
        """
        読み込むファイルはexcelファイル。
        ファイルには列名があることを想定
        """
        train_pd = pd.read_excel(self.train_load_file)
        test_pd = pd.read_excel(self.test_load_file)
        
        train_pd[self.text_column_name] = train_pd[self.text_column_name].apply(lambda x: self.text_clean(x))
        test_pd[self.text_column_name] = test_pd[self.text_column_name].apply(lambda x: self.text_clean(x))
        return train_pd, test_pd
    
    def text_clean(self, text):
        text = text.replace(',', '')
        text = text.replace('、', '')
        text = text.replace(' ', '')
        text = text.replace('　', '')
        #URLの削除
        text = re.sub(r'http?://[\w/:%#\$&\?\(\)~\.=\+\-]+', '', text)
        text = re.sub(r'https?://[\w/:%#\$&\?\(\)~\.=\+\-]+', '', text)
        #半角記号削除
        text = re.sub(r'[!”#$%&\’\\\\()*+,-./:;?@[\\]^_`{|}~「」〔〕“”〈〉『』【】＆＊・（）＄＃＠。,？！｀＋￥％]', '', text)
        return text
        
    

In [9]:
class MultiTextDataLoader(baseTextDataLoader):
    """
        ラベル列をもとにダミー列を作成する。その後、元のDataFrameのラベル列を削除しダミー列を結合する
    """
    def load(self , labels: list=None) -> Dataset:
        if labels == None:
            labels = self.parameters.label_list
            
        train_pd, test_pd = self._load()
        tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_name)
        #ラベル毎のダミー列を作成
        for label in labels:
            train_pd[label] = train_pd[self.label_column_name].apply(lambda x:1 if label in x else 0)
            test_pd[label] = test_pd[self.label_column_name].apply(lambda x:1 if label in x else 0)
        #もともとあったラベル列を削除
        train_pd = train_pd.drop(self.label_column_name, axis=1)
        test_pd = test_pd.drop(self.label_column_name, axis=1)
        train_encoding = []
        test_encoding = []
        #訓練用データをトークナイズする
        for index, row in train_pd.iterrows():
            encoding = tokenizer(row[self.text_column_name],max_length=self.parameters.max_length, padding='max_length',truncation=True)
            #テキストデータ以外の値（ダミー列）のリストを作成してpytorchのテンソルにする
            encoding['labels'] = torch.tensor([value for key, value in row.to_dict().items() if key != self.text_column_name]) 
            encoding = {k:torch.tensor(v).to(self.parameters.device) for k,v in encoding.items()}
            train_encoding.append(encoding)
        #テストデータをトークナイズする
        for index, row in test_pd.iterrows():
            encoding = tokenizer(row[self.text_column_name],max_length=self.parameters.max_length, padding='max_length',truncation=True)
            encoding['labels'] = torch.tensor([value for key, value in row.to_dict().items() if key != self.text_column_name])
            encoding = {k:torch.tensor(v).to(self.parameters.device) for k,v in encoding.items()}
            test_encoding.append(encoding)
        return Dataset(train_pd, test_pd, train_encoding, test_encoding)


In [10]:
tfe = MultiTextDataLoader(ii, 0)
afa=tfe.load()
afa.train_pd

  encoding = {k:torch.tensor(v).to(self.parameters.device) for k,v in encoding.items()}
  encoding = {k:torch.tensor(v).to(self.parameters.device) for k,v in encoding.items()}


Unnamed: 0,ツイート,推奨,行動抑制,励まし,願望,その他
0,台風なのでザーッって降ったりパーッって晴れたりですがお互い気をつけて過ごしましょう_(・∇・)_,1,0,1,0,0
1,常葉大学草薙キャンパスで水(生活用水)の配布とトイレの一般開放をしています!#清水断水#清水...,0,0,0,0,1
2,熱帯低気圧が台風に発達し接近すると予測されています。情報収集を行い大雨や暴風に警戒してくださ...,1,0,0,0,0
3,台風が去った後って少し気温下がるけどまた元通りの気候に戻ってきたのかなって思ってます風邪には...,1,0,0,0,0
4,29日16時58分【令和4年台風第18号に関する情報第12号】台風第18号は大東島地方から遠...,1,0,0,0,0
...,...,...,...,...,...,...
995,台風直撃コースにいる人は家が頑丈じゃないなら避難指定場所に行ってくださいね☆どうしても行きた...,1,0,0,0,0
996,台風が1番近づいていています。今から夜になるに連れて雨風が酷くなっていくみたいです。ねぇ大丈...,0,0,0,0,1
997,片倉さんおはようございますまた台風がお気を付けて下さい今日も一日ご安全に善き一日をお過ごし下...,1,0,0,0,0
998,皆さん台風に気をつけて下さい,1,0,0,0,0


In [11]:
from abc import ABC, abstractmethod
import unicodedata
import pandas as pd

class baseTextAlignment(ABC):
    
    def __init__(self, parameters: InitialParameter):
        self.text_column_name = parameters.text_column_name
    
    def save(self, data: pd.DataFrame, save_dir: str, save_file: str) -> str:
        save_location = os.path.join(save_dir, self.__class__.__name__ + '_' + save_file)
        data.to_excel(save_location, index=None)
        return save_location
    
    
    def text_clean(self, text:str):
        replaced_text = text
        replaced_text = unicodedata.normalize("NFKC",text)
        replaced_text = re.sub(r"RT @([a-zA-Z_0-9])+[:]","", replaced_text)
        replaced_text = re.sub(r'RT ','', replaced_text)
        replaced_text = re.sub(r'[【】]', '', replaced_text)       # 【】の除去
        replaced_text = re.sub('https?.+ ','',replaced_text)
        replaced_text = re.sub("https?://[\w/:%#\$&\?\(\)~\.=\+\-]+",'',replaced_text)
        replaced_text = re.sub(r'@.+ ','',replaced_text)
        replaced_text = re.sub(r'[a-zA-Z]','',replaced_text)
        replaced_text = re.sub('[0-9０-９]','',replaced_text)
        replaced_text = re.sub(r"\s", "", replaced_text)
        replaced_text = re.sub(r'[●▼■★▽]','',replaced_text)
        replaced_text = re.sub(r'[…]','',replaced_text)
        replaced_text = re.sub(r'[ωﾟ]','',replaced_text)
        replaced_text = re.sub('[!"#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`{|}~「」〔〕“”〈〉『』【】＆＊・（）＄＃＠。、？！｀＋￥％]','',replaced_text)
        replaced_text = re.sub(r'[,]','',replaced_text)

        return replaced_text 
    
    @abstractmethod
    def alignment(self, data: pd.DataFrame, kawrgs=None) -> pd.DataFrame:  #データに対する処理の方法指定
        pass

    @abstractmethod
    def run(self, data: pd.DataFrame, kwargs=None) -> pd.DataFrame: #　alignmentの実行方法を指定
        pass

In [12]:
from pyknp import Juman

class jumanTextAlignment(baseTextAlignment):
    def alignment(self, data: pd.DataFrame) -> pd.DataFrame:
        jumanpp = Juman()
        def wakati_jumanpp(text):
            text = self.text_clean(text)
              #テキストを解析
            analysis = jumanpp.analysis(text)
            result = []
            for m in analysis.mrph_list():
                result.append(m.midasi)
            result = ' '.join(result)
            return result
        all_pd = data.copy()
        all_pd[self.text_column_name] = all_pd[self.text_column_name].apply(lambda x: wakati_jumanpp(x))
        return all_pd
            
    
    def run(self, data: pd.DataFrame, kwargs=None) -> pd.DataFrame:
        return self.alignment(data)

In [13]:
from daaja.methods.eda.easy_data_augmentor import EasyDataAugmentor

class TextAugmentation(baseTextAlignment):
    def alignment(self, data: pd.DataFrame, kwargs=None) -> pd.DataFrame:
        if kwargs is None:
            augmentor = EasyDataAugmentor(alpha_sr=0.1, alpha_ri=0.1, alpha_rs=0.1, p_rd=0.1, num_aug=4)
        else:
            augmentor = EasyDataAugmentor(**kwargs)
        all_pd = pd.DataFrame()
        # dataを一行一行読み込んでいく
        for index, row in data.iterrows():
            tmp_row = row.copy()
            texts = augmentor.augments(tmp_row[self.text_column_name]) #行ごとのテキストを拡張したリストを取得
            for text in texts:
                tmp_row[self.text_column_name] = text #テキストだけを変えて、他の値はそのまま使う
                #tmp_row.to_frame() でtmp_rowをseries型からDataFrame型へと変換する　ー＞concatをうまくいくようにするため
                all_pd = pd.concat([all_pd, tmp_row.to_frame().T], axis=0)
        all_pd = all_pd.reset_index(drop=True)
        return all_pd
        
    def run(self, data: pd.DataFrame, kwargs: dict=None) -> pd.DataFrame:
        return self.alignment(data, kwargs)
    


In [14]:
textaugmentation = TextAugmentation(ii)
augmented_pd = textaugmentation.run(afa.train_pd)
augmented_pd

augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 18.91it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 16.84it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.40it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 19.45it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  8.06it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  4.88it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.26it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 11.43it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.56it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 10.98it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  8.20it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 11.65it/s]
augment: 100%|██████████████

augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 10.62it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.14it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  5.58it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  9.72it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 19.69it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.86it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 13.49it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  9.34it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.39it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 22.47it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 21.28it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.26it/s]
augment: 100%|██████████████

augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  5.88it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 16.17it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 16.36it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.43it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.47it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 35.08it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 52.12it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  5.80it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 49.06it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 11.96it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.17it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 49.84it/s]
augment: 100%|██████████████

augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  8.42it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 10.46it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 47.81it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  5.64it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.73it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.02it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 17.24it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 34.66it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  8.71it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 23.45it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.41it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  6.18it/s]
augment: 100%|██████████████

augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  5.33it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  5.24it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 40.37it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 10.31it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  9.79it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 13.28it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  9.16it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  9.63it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.37it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  7.52it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00,  8.92it/s]
augment: 100%|████████████████████████████████████| 4/4 [00:00<00:00, 42.31it/s]
augment: 100%|██████████████

Unnamed: 0,ツイート,推奨,行動抑制,励まし,願望,その他
0,台風なので降ったりパーッ晴れたりですがお互い気をつけて過ごしましょう_・∇・)_,1,0,1,0,0
1,台風なのでザーッって降っってパーッたり晴れたりですがお互い気をつけて)ましょう_(・∇・過ごし_,1,0,1,0,0
2,台風なのでザーッって降ったりパーッって晴れたりですがお互い毛色を塗るて過ごしましょう_(・∇・)_,1,0,1,0,0
3,台風なので颱風ザーッって降ったりパーッって晴れたりですがお互い気をつけて過ごしましょう_(・...,1,0,1,0,0
4,台風なのでザーッって降ったりパーッって晴れたりですがお互い気をつけて過ごしましょう_(・∇・)_,1,0,1,0,0
...,...,...,...,...,...,...
4995,まぁ君また台風で嫌お母さんだね調子悪いかな元気がなさそうで住するまぁ君気をつけてね!でもママ...,1,0,0,0,0
4996,まぁ君また台風で嫌ね調子悪いかな元気がなさそうで君気をつけてね!もママさんが側に居てくれるからね,1,0,0,0,0
4997,まぁ君また台風で付着嫌だね調子悪いかな元気颱風がなさそうでまぁ君気をつけてね!で精もママさん...,1,0,0,0,0
4998,まぁ君また台風で嫌だね調子悪いかな元気がなさそうでまぁ君気を貼付てね!でもママさんが端っこに...,1,0,0,0,0


In [15]:
jumantextalignment = jumanTextAlignment(ii)
juman_augmented_pd = jumantextalignment.run(augmented_pd)
juman_augmented_pd

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Unnamed: 0,ツイート,推奨,行動抑制,励まし,願望,その他
0,台風 な ので 降ったり パーッ 晴れたり です が お互い 気 を つけて 過ごし ましょう ∇,1,0,1,0,0
1,台風 な ので ザーッ って 降っって パーッ たり 晴れたり です が お互い 気 を つ...,1,0,1,0,0
2,台風 な ので ザーッ って 降ったり パーッ って 晴れたり です が お互い 毛色 を ...,1,0,1,0,0
3,台風 な ので 颱風 ザーッ って 降ったり パーッ って 晴れたり です が お互い 気 ...,1,0,1,0,0
4,台風 な ので ザーッ って 降ったり パーッ って 晴れたり です が お互い 気 を つ...,1,0,1,0,0
...,...,...,...,...,...,...
4995,まぁ 君 また 台風 で 嫌 お 母さん だ ね 調子 悪い か な 元気 が な さ そう...,1,0,0,0,0
4996,まぁ 君 また 台風 で 嫌 ね 調子 悪い か な 元気 が な さ そうで 君 気 を ...,1,0,0,0,0
4997,まぁ 君 また 台風 で 付着 嫌だ ね 調子 悪い か な 元気 颱風 が な さ そうで...,1,0,0,0,0
4998,まぁ 君 また 台風 で 嫌だ ね 調子 悪い か な 元気 が な さ そうで まぁ 君 ...,1,0,0,0,0


In [19]:
jumantextalignment.save(juman_augmented_pd,'data','jumanAndAugmented.xlsx')

'data/jumanTextAlignment_jumanAndAugmented.xlsx'

In [20]:
import transformers

#デコレータ用
def compute_metrics(func):
    pass

class baseImplimentModel(ABC):
    """
    抽象メソッドの引数implement_nowの説明をする。
    引数parametersInitalParameterの中にはtrain_listなどのリストが格納されている。
    学習を実行するにはtrain_list,test_listなどの要素を順番に実行していく必要がある。
    
    そのために、関数run()のfor文でlistの要素を回せるようにする。
    そのときに、各抽象メソッドは現在どこの要素を実行しているのかを指定する必要がある。
    そのためにimplement_numに現在実行しているリストの要素番号を入れる
    """
    
    @abstractmethod
    def data_load(self, implement_now: int, parameters: InitialParameter) -> Dataset:
        pass
    
    @abstractmethod
    def trainer_impliment(self, implement_now: int, data: Dataset, parameters: InitialParameter) -> (transformers.AutoModel, transformers.Trainer, ResultMatrics):
        pass
    
 
    def run(self, parameters: InitialParameter):
        for idx in range(parameters.implemnt_len):
            data = self.data_load(idx, parameters)
            model, trainer, result_metrics = self.trainer_impliment(idx, data, parameters)
        pass
        

In [None]:
class MultiLabelImplimentModel(baseImplimentModel):
    def data_load(self)
    
    def trainer_impliment(self, implement_now: int, data: Dataset, parameters: InitialParameter):
        train_metrics = []
        val_metrics = []
        aall_data = np.array(data)
        kf = KFold(n_splits=N_split, shuffle=True, random_state=1)
        model = AutoModelForSequenceClassification.from_pretrained(model_dir,num_labels=NUM_LABEL).to(device)
        #交差検証を行う
        for train, test in kf.split(aall_data):
            training_args.output_dir = save_dir
            training_args.learning_rate = lr
            trainer = Trainer(
                model=model,
                args=training_args,
                train_dataset=aall_data[train],
                eval_dataset=aall_data[test],
                compute_metrics=compute_metrics,
            )
            trainer.optimizer = torch.optim.Adam(model.parameters(),lr=lr, betas=(0.9, 0.999))
            trainer.train()
            train_metrics.append(trainer.predict(aall_data[train]).metrics)
            val_metrics.append(trainer.predict(aall_data[test]).metrics)
        trainer.save_model(save_dir)
        return model, trainer, train_metrics, val_metrics

### 参考：https://nttdocomo-developers.jp/entry/202212081200

In [17]:
def find_out_the_best_threshold(trues, probs):
    import numpy as np
    from sklearn.metrics import precision_recall_curve

    y_trues = np.array(trues)
    y_scores = np.array(probs)

    precisions, recalls, thresholds = precision_recall_curve(y_trues, y_scores)
    min_length = min(min(len(precisions), len(recalls)), len(thresholds))

    # 全てのthresholdのf1-scoreを算出します。
    max_f1_score, max_f1_index = 0.0, 0
    for index, item in enumerate(precisions[:min_length]):
        if (item + recalls[index]) == 0:
            cur_f1_score = 0.0
        else:
            cur_f1_score = 2 * item * recalls[index] / (item + recalls[index])

        if cur_f1_score > max_f1_score:
            max_f1_score = cur_f1_score
            max_f1_index = index

    return thresholds[max_f1_index]

# 評価関数

In [18]:
from sklearn.metrics import accuracy_score,f1_score,recall_score,precision_score
from sklearn.metrics import confusion_matrix,roc_curve, roc_auc_score

def softmax(x):
    f = np.exp(x)/np.sum(np.exp(x), axis = 1, keepdims = True)
    return f

#ネガティブの再現率
def specificity_score(y_true, y_pred):
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred).flatten()
    return tn / (tn + fp)

#陰性適中率
#ネガティブの適合率
def negativePredictive(y_true,y_pred):
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred).flatten()
    return tn / (tn + fn)    

def compute_metrics(pred):
    labels = pred.label_ids
    probability = pred.predictions[:,1]
    preds = pred.predictions.argmax(-1)
    f1 = f1_score(labels,preds)
    acc = accuracy_score(labels,preds)
    precision = precision_score(labels,preds)
    recall = recall_score(labels,preds)
    
    specificity = specificity_score(labels,preds)
    negative_pre = negativePredictive(labels,preds)
    f1_pre = 2 * negative_pre * specificity / (negative_pre + specificity)
    
    
    auc = roc_auc_score(labels,probability)
    return {"accuracy":acc,"precision":precision,'recall': recall, "f1":f1,
            'negative_precision ':negative_pre,'negative_recall':specificity,'negative_f1':f1_pre,
            'auc':auc}