In [1]:
import os
import sys
sys.path.insert(0,'/home/t_goto/hf_env/lib/python3.10/site-packages') # if use virtual environment, add the path of the environment
import torch
import datasets
from datasets import load_from_disk
from transformers import (
    Trainer,
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging,
)
from trl import SFTTrainer
from peft import LoraConfig
from utils import InstructDataset, InstructCollator
from huggingface_hub import login
token = os.getenv('HF_TOKEN')
login(token)
load_data_flag = False # True if training data is reloaded

  from .autonotebook import tqdm as notebook_tqdm


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [2]:
# just confirmation, CUDA_VISIBLE_DEVISES shold be only one.
os.environ.get('CUDA_VISIBLE_DEVICES')

'0'

In [3]:
compute_dtype = getattr(torch, "bfloat16")
quant_config = BitsAndBytesConfig(
    #llm_int8_threshold=200.0,
    #load_in_8bit=True,
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=False,
    #bnb_8bit_use_double_quant=False, # need to avoid cast issue.
    #bnb_8bit_quant_type="nf8",
    #bnb_8bit_compute_dtype=compute_dtype,
    #llm_int8_skip_modules= ['decoder', 'lm_head', 'wo'],
)

In [4]:
model_name = "jetmoe/jetmoe-8b"
#model_name = "NousResearch/llama-2-7b-chat-hf"
#model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
#model_name = "microsoft/phi-1_5"
#model_name = "h2oai/h2o-danube2-1.8b-chat"
#model_name = "Aratako/Qwen1.5-MoE-2x7B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right" # Fix weird overflow issue with fp16 training

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    #device_map="auto",
    device_map = {"": torch.cuda.current_device()},
    quantization_config=quant_config
    # torch_dtype=torch.float16, # この時点でtorch.float16を指定すると、train時のlossが0.0になって学習がうまくいかない。原因がよくわかっていません。
)
model.config.use_cache = False # added in jetmoe
model.config.pretraining_tp = 1 # added in jetmoe

Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████| 4/4 [08:49<00:00, 132.37s/it]
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████| 4/4 [00:05<00:00,  1.43s/it]


In [5]:
med_data1=datasets.load_dataset("medalpaca/medical_meadow_mediqa")
train_dataset1 = InstructDataset((list(med_data1['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset1)

Downloading readme: 100%|███████████████████████████████████████████████████████████████████████████| 653/653 [00:00<00:00, 4.64MB/s]
Downloading data: 100%|█████████████████████████████████████████████████████████████████████████| 15.8M/15.8M [00:01<00:00, 12.2MB/s]
Generating train split: 100%|██████████████████████████████████████████████████████████| 2208/2208 [00:00<00:00, 11762.45 examples/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 2208/2208 [00:16<00:00, 135.08it/s]


2208

In [6]:
med_data2=datasets.load_dataset("medalpaca/medical_meadow_mmmlu")
train_dataset2 = InstructDataset((list(med_data2['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset2)

Downloading data: 100%|█████████████████████████████████████████████████████████████████████████| 1.59M/1.59M [00:00<00:00, 4.39MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████| 3787/3787 [00:00<00:00, 139957.96 examples/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████| 3787/3787 [00:03<00:00, 1123.70it/s]


3787

In [7]:
med_data3=datasets.load_dataset("medalpaca/medical_meadow_wikidoc_patient_information")
train_dataset3 = InstructDataset((list(med_data3['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset3)

Downloading readme: 100%|███████████████████████████████████████████████████████████████████████| 1.40k/1.40k [00:00<00:00, 7.37MB/s]
Downloading data: 100%|█████████████████████████████████████████████████████████████████████████| 3.49M/3.49M [00:00<00:00, 6.08MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████| 5942/5942 [00:00<00:00, 113431.28 examples/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████| 5942/5942 [00:04<00:00, 1219.40it/s]


5942

In [8]:
med_data4=datasets.load_dataset("medalpaca/medical_meadow_pubmed_causal")
train_dataset4 = InstructDataset((list(med_data4['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset4)

Downloading readme: 100%|███████████████████████████████████████████████████████████████████████████| 920/920 [00:00<00:00, 6.12MB/s]
Downloading data: 100%|████████████████████████████████████████████████████████████████████████████| 936k/936k [00:01<00:00, 931kB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████| 2446/2446 [00:00<00:00, 167208.87 examples/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████| 2446/2446 [00:01<00:00, 1225.92it/s]


2446

In [9]:
med_data5=datasets.load_dataset("medalpaca/medical_meadow_health_advice")
train_dataset5 = InstructDataset((list(med_data5['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset5)

Downloading readme: 100%|███████████████████████████████████████████████████████████████████████| 1.04k/1.04k [00:00<00:00, 6.37MB/s]
Downloading data: 100%|█████████████████████████████████████████████████████████████████████████| 2.51M/2.51M [00:00<00:00, 7.01MB/s]
Generating train split: 100%|█████████████████████████████████████████████████████████| 8676/8676 [00:00<00:00, 222044.61 examples/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████| 8676/8676 [00:06<00:00, 1293.53it/s]


8676

In [10]:
med_data6=datasets.load_dataset("medalpaca/medical_meadow_medical_flashcards")
train_dataset6 = InstructDataset((list(med_data6['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset6)

Downloading readme: 100%|███████████████████████████████████████████████████████████████████████| 1.24k/1.24k [00:00<00:00, 7.36MB/s]
Downloading data: 100%|█████████████████████████████████████████████████████████████████████████| 17.7M/17.7M [00:00<00:00, 24.2MB/s]
Generating train split: 100%|███████████████████████████████████████████████████████| 33955/33955 [00:00<00:00, 133862.70 examples/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 33955/33955 [00:28<00:00, 1212.37it/s]


33955

In [11]:
med_data7=datasets.load_dataset("medalpaca/medical_meadow_wikidoc")
train_dataset7 = InstructDataset((list(med_data7['train'])), tokenizer, ignore_index=tokenizer.pad_token_id)
len(train_dataset7)

Downloading readme: 100%|███████████████████████████████████████████████████████████████████████| 1.41k/1.41k [00:00<00:00, 8.78MB/s]
Downloading data: 100%|█████████████████████████████████████████████████████████████████████████| 10.6M/10.6M [00:00<00:00, 16.0MB/s]
Generating train split: 100%|████████████████████████████████████████████████████████| 10000/10000 [00:00<00:00, 58653.88 examples/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:12<00:00, 810.58it/s]


10000

In [14]:
med_data = load_from_disk("meadow_train")
train_dataset = InstructDataset(med_data, tokenizer, ignore_index=tokenizer.pad_token_id)

100%|███████████████████████████████████████████████████████████████████████████████████████████| 8142/8142 [00:15<00:00, 516.62it/s]


In [15]:
len(med_data)

8142

In [16]:
from torch.utils.data import ConcatDataset
med_datasets = ConcatDataset([train_dataset1,train_dataset2,train_dataset3,train_dataset4,train_dataset5,train_dataset6,train_dataset7,train_dataset])
len(med_datasets)

75156

In [18]:
from torch.utils.data import DataLoader

collator = InstructCollator(tokenizer, ignore_index=tokenizer.pad_token_id)
train_loader = DataLoader(med_datasets, collate_fn=collator, batch_size=4, shuffle=True)
#batch = next(iter(train_loader)) # for checking

In [19]:
load_data_flag

False

In [20]:
peft_params = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.1,
    r=8,
    bias="none",
    task_type="CAUSAL_LM",
    #target_modules=['kv_proj', 'layer'] # need this only for jetmoe-8b
    target_modules=['kv_proj'] # need this only for jetmoe-8b
)

In [26]:
training_params = TrainingArguments(
    output_dir="./results_jetmoe-8b-4bit",
    #output_dir="./results_llama2-7b-more_max",
    #output_dir="./results_tiny_llama-1.1b",
    #output_dir="./results_phi-1_5",
    #output_dir="./results_jetmoe_more_max",
    #num_train_epochs=0.2, # epoch 3758 too long
    num_train_epochs=0.05, # epoch 940, 
    per_device_train_batch_size=4,
    gradient_accumulation_steps=1,
    optim="paged_adamw_32bit",
    save_steps=25,
    logging_steps=25,
    learning_rate=2e-4,
    weight_decay=0.001,
    fp16=False,
    bf16=False,
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.03,
    group_by_length=True,
    lr_scheduler_type="constant",
    #report_to="tensorboard"
)

In [27]:
collator = InstructCollator(tokenizer, ignore_index=tokenizer.pad_token_id)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
trainer = SFTTrainer(
    model=model,
    train_dataset=med_datasets,
    data_collator=collator,
    peft_config=peft_params,
    max_seq_length=None,
    tokenizer=tokenizer,
    args=training_params,
    packing=True,
)



In [28]:
import time
start = time.perf_counter()
trainer.train()
end = time.perf_counter()
print(f'{end-start} [sec]')
trainer.model.save_pretrained("llama2_FT_train_adapter1")

Step,Training Loss
25,4.2799
50,0.497
75,0.7079
100,0.2662
125,0.5974
150,0.2296
175,0.6219
200,0.1781
225,0.5845
250,0.2321




1063.4493739623576 [sec]


