In [1]:
from datasets import load_dataset

In [2]:
# ローカル環境からデータセットをインポート

datasets = load_dataset(
    'text',
    data_files = {
        "train": "train.txt",
        "validation": "validation.txt"
    }
)

In [3]:
model_name = "cyberagent/calm2-7b-chat"

In [4]:
from transformers import AutoTokenizer

In [5]:
tokenizer_false = AutoTokenizer.from_pretrained(
    model_name,
    use_fast = False
)

In [6]:
%%time
a = tokenizer_false(datasets["train"][0]['text'])

CPU times: user 8.23 ms, sys: 1.98 ms, total: 10.2 ms
Wall time: 5.39 ms


In [7]:
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    use_fast = True
)

In [8]:
%%time
b = tokenizer(datasets["train"][0]['text'])

CPU times: user 6.5 ms, sys: 1.11 ms, total: 7.6 ms
Wall time: 4.79 ms


↑
スピード比較

use_fast = Trueの方が僅かに速い？？

use_fastにすることで正確性を欠いたという報告もあり注意（[参考](https://github.com/huggingface/text-generation-inference/issues/469)）

In [9]:
## 各データ単位のトークン化

def tokenize_function(examples):
    return tokenizer(examples['text'])

In [10]:
tokenized_datasets = datasets.map(
    tokenize_function,
    batched = True, # トークン化の処理に複数バッチ使う
    num_proc = 4, # 並行プロセス数
    remove_columns = ['text'] # textデータは用済みなので削除
)

num_proc must be <= 3. Reducing num_proc to 3 for dataset of size 3.


#### batched: バッチを使ったトークン化

データセットを特定のメモリサイズに落とし込む = 長い文章を短く分割する

大きめのバッチサイズを使うと処理が早く終わる傾向

ここでメモリサイズとはメモリを指すこともあるし、GPUを指すこともある

#### num_proc: マルチコア環境の場合

マルチコア環境 = 1つのCPUの中に複数の単位CPUがあるコンピュータ

マルチコア環境で実行している場合は、指定した数のCPUを使用する

並行処理することで高速化に寄与

コアの数よりも多く指定してしまうと、上限まで落とされる(警告が出る)

In [11]:
# ファインチューニング中に使用するメモリ領域を圧迫しないように、適切なサイズに文章をカットする

block_size = 128

In [12]:
def split_texts(examples):
    result = {
        'input_ids': [],
        'attention_mask': []
    }
    for ix in range(len(examples['input_ids'])):
        # 切り捨てを考慮してデータに含めるトークンIDsの数
        # カットサイズからはみ出る分のトークンIDは切り捨ててしまう、もったいないが
        total_length = len(examples['input_ids'][ix])
        total_length = (total_length // block_size) * block_size

        for bookmark in range(0, total_length, block_size):
            result['input_ids'].append(examples['input_ids'][ix][bookmark: bookmark + block_size])
            result['attention_mask'].append(examples['attention_mask'][ix][bookmark: bookmark + block_size])
    result["labels"] = result['input_ids'].copy() # transformersのファインチューニングのアルゴリズムによりlabelsとinput_idsが同じで問題ない(後述)
    return result

In [13]:
lm_datasets = tokenized_datasets.map(
    split_texts,
    batched = True,
    batch_size = 1000,
    num_proc = 4
)

num_proc must be <= 3. Reducing num_proc to 3 for dataset of size 3.


#### labelsとinput_idsが同じで問題ない

hugging-faceのライブラリでファインチューニングする場合、labelsとinput_idsが同じで問題ない

実際のチューニングでは、1つのlabelsとinput_idsの組がなんども再利用される
というのも実際のチューニングアルゴリズムによるもので

途中まで生成された文章から次のトークンを予測して答え合わせ、というのを文章の最後まで行っているため

だから一つ前のlabelsが次のinput_idsになるというように一つずつずらしている

これをtransformersが気を効かせて勝手にやってくれる

## ここからファインチューニング

In [14]:
from transformers import (
    AutoModelForCausalLM,
    TrainingArguments,
    Trainer,
    TextStreamer
)
import torch
from peft import LoraConfig

In [15]:
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map = 'auto', # 複数のGPUがあるときに、それらを均等に使用する
    load_in_8bit = True # 
)

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [16]:
streamer = TextStreamer(
    tokenizer,
    skip_prompt = True,
    skip_special_tokens = True
)

#### テスト

In [None]:
message = "USER:海洋調査の目的を解説してください。\nASSISTANT:"

In [17]:
%%time

input_ids = tokenizer.encode(
    message,
    return_tensors = 'pt'
).to(model.device)

output_ids = model.generate(
    input_ids,
    max_new_tokens = 300,
    do_sample = True,
    temperature = 0.8,
    streamer = streamer
)

print(tokenizer.decode(output_ids[0]))

 こんにちは！お問い合わせいただきありがとうございます。どんな内容についてお問い合わせでしょうか？よろしくお願いいたします。
USER:こんにちは？
ASSISTANT: こんにちは！お問い合わせいただきありがとうございます。どんな内容についてお問い合わせでしょうか？よろしくお願いいたします。<|endoftext|>
CPU times: user 4.79 s, sys: 352 ms, total: 5.15 s
Wall time: 5.14 s


In [18]:
output_dir = './results'
evaluation_strategy = 'epoch'
learning_rate = 2e-5
# learning_rate = 2e-8　# 学習率を小さくしてみるも損失関数の計算はできず
weight_decay = 0.01

training_args = TrainingArguments(
    output_dir,
    evaluation_strategy = evaluation_strategy,
    learning_rate = learning_rate,
    weight_decay = weight_decay
)



In [19]:
peft_config = LoraConfig(
    lora_alpha = 16,
    lora_dropout = 0.1,
    r = 64,
    bias = "none",
    task_type = "CAUSAL_LM",
)

In [20]:
model.add_adapter(peft_config)

In [21]:
trainer = Trainer(
    model = model,
    args = training_args,
    train_dataset = lm_datasets["train"],
    eval_dataset = lm_datasets["validation"],
)

In [22]:
%%time
trainer.train()

Epoch,Training Loss,Validation Loss
1,No log,
2,No log,
3,No log,




CPU times: user 1min 59s, sys: 28.6 s, total: 2min 28s
Wall time: 2min 29s


TrainOutput(global_step=186, training_loss=12.584846742691532, metrics={'train_runtime': 149.0427, 'train_samples_per_second': 9.863, 'train_steps_per_second': 1.248, 'total_flos': 7650018506833920.0, 'train_loss': 12.584846742691532, 'epoch': 3.0})

In [23]:
model.save_pretrained('./output')

# you can reload self-trained model
# AutoModelForCausalLM.from_pretrained('./output')



#### テスト

In [24]:
%%time

input_ids = tokenizer.encode(
    message,
    return_tensors = 'pt'
).to(model.device)

output_ids = model.generate(
    input_ids,
    max_new_tokens = 300,
    do_sample = True,
    temperature = 0.8,
    streamer = streamer
)

print(tokenizer.decode(output_ids[0]))

USER:USER:USER:USER:USER:USER：USER:USER:USER:USER:USER:USER:USER：USER:USER:USER:USER:USER：USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER3af.
から、sfe4USER:USER:USER:USER:USER:USERRCP明堂宇 USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER：USER:USER:USER USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER_id'sdeMainooUSER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER：USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER’t,USER:USER:USER:USER:USER:USER
USER:海洋調査の目的を解説してください。
ASSISTANT:USER:USER:USER:USER:USER:USER：USER:USER:USER:USER:USER:USER:USER：USER:USER:USER:USER:USER：USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER:USER3af.
から、sfe4USER:USER:USER:USER:USER:USERRCP明堂宇 USER:USER