<a href="https://colab.research.google.com/github/jia6776/GoogleMLB-Gemma-Sprint/blob/main/src/data/train/gemma_2b_it_qlora.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 개발 환경 설정

### 1.1 필수 라이브러리 설치하기

In [1]:
!pip install -q -U transformers datasets bitsandbytes peft trl accelerate wandb

### 1.2 Import modules

In [2]:
import torch
from datasets import Dataset, load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipeline, TrainingArguments
from peft import LoraConfig, PeftModel
from trl import SFTTrainer

In [4]:
from kaggle_secrets import UserSecretsClient
user_secrets = UserSecretsClient()

HF_TOKEN = user_secrets.get_secret("HF_TOKEN")
WANDB_API_KEY = user_secrets.get_secret("WANDB_API_KEY")


### 1.3 Huggingface & WanDB 로그인

In [5]:
import huggingface_hub
import wandb


huggingface_hub.login(token=HF_TOKEN)
wandb.login(key=WANDB_API_KEY)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /root/.cache/huggingface/token
Login successful


[34m[1mwandb[0m: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: W&B API key is configured. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


True

# 2. Dataset 생성 및 준비

### 2.1 데이터셋 로드

In [6]:
from datasets import load_dataset
dataset = load_dataset("BLACKBUN/old_korean_newspaper_1897_1910_economy_politic_qa")

### 2.2 데이터셋 탐색

In [7]:
dataset

DatasetDict({
    train: Dataset({
        features: ['Question', 'Answer'],
        num_rows: 8946
    })
})

### 2.3 데이터셋 예시

In [8]:
dataset['train'][0]

{'Question': '대한국산림협회가 설립된 배경과 그 중요성은 무엇인가요?',
 'Answer': '대한국산림협회는 산림의 중요성을 인식하고,植林(식림)의 필요성을 강조하기 위해 설립되었습니다. 이 협회는 산림이 자원으로서의 가치뿐만 아니라, 수자원 보호, 기후 조절, 공기 정화 등 국민의 건강과 복지에 미치는 영향을 고려하여 국민의 복리를 도모하고자 하였습니다. 특히, 당시 한국은 무분별한 벌목으로 인해 산림이 황폐해지고 있었고, 이에 대한 경각심을 일깨우기 위해 협회가 설립된 것입니다. 협회는 산림 사업이 실업계에서 긴급한 과제임을 강조하며, 국민의 참여와 지지를 요청하였습니다.'}

# 4. Gemma 파인튜닝

#### 주의: Colab GPU 메모리 한계로 이전장 추론에서 사용했던 메모리를 비워 줘야 파인튜닝을 진행 할 수 있습니다. <br> notebook 런타임 세션을 재시작 한 후 1번과 2번의 2.1 항목까지 다시 실행하여 로드 한 후 아래 과정을 진행합니다

In [9]:
!nvidia-smi

  pid, fd = os.forkpty()


Wed Sep 18 12:44:28 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.90.07              Driver Version: 550.90.07      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   64C    P8             11W /   70W |       1MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  Tesla T4                       Off |   00

### 4.1 학습용 프롬프트 조정

In [10]:
def generate_prompt(example):
    prompt_list = []
    for question, answer in zip(example['Question'], example['Answer']):
        prompt = (f"<bos><start_of_turn>user\n"
                  f"{question}<end_of_turn>\n"
                  f"<start_of_turn>model\n{answer}<end_of_turn><eos>")
        prompt_list.append(prompt)
    return prompt_list

In [11]:
train_data = dataset['train']
print(generate_prompt(train_data[:1])[0])

<bos><start_of_turn>user
대한국산림협회가 설립된 배경과 그 중요성은 무엇인가요?<end_of_turn>
<start_of_turn>model
대한국산림협회는 산림의 중요성을 인식하고,植林(식림)의 필요성을 강조하기 위해 설립되었습니다. 이 협회는 산림이 자원으로서의 가치뿐만 아니라, 수자원 보호, 기후 조절, 공기 정화 등 국민의 건강과 복지에 미치는 영향을 고려하여 국민의 복리를 도모하고자 하였습니다. 특히, 당시 한국은 무분별한 벌목으로 인해 산림이 황폐해지고 있었고, 이에 대한 경각심을 일깨우기 위해 협회가 설립된 것입니다. 협회는 산림 사업이 실업계에서 긴급한 과제임을 강조하며, 국민의 참여와 지지를 요청하였습니다.<end_of_turn><eos>


### 4.2 QLoRA 설정

In [12]:
lora_config = LoraConfig(
    r=6,
    target_modules=["q_proj", "o_proj", "k_proj", "v_proj", "gate_proj", "up_proj", "down_proj"],
    task_type="CAUSAL_LM",
)

bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,
)

In [13]:
BASE_MODEL = "google/gemma-2-2b-it"
# model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map="auto", quantization_config=bnb_config, attn_implementation="eager",)
model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map="auto", attn_implementation="eager",)
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
tokenizer.padding_side = 'right'

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### 4.3 Trainer 실행

In [18]:
trainer = SFTTrainer(
    model=model,
    train_dataset=train_data,
    max_seq_length=512,
    args=TrainingArguments(
        output_dir="outputs",
        num_train_epochs = 1,
#         max_steps=50,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        optim="paged_adamw_8bit",
        # warmup_steps=0.03,
        learning_rate=2e-4,
        fp16=True,
        push_to_hub=True,
        report_to='wandb',
        run_name="gemma_sprint",  # name of the W&B run (optional)
        logging_steps=100,
    ),
    peft_config=lora_config,
    formatting_func=generate_prompt,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.
  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


In [19]:
trainer.train()

OutOfMemoryError: CUDA out of memory. Tried to allocate 42.00 MiB. GPU 0 has a total capacity of 14.74 GiB of which 24.12 MiB is free. Process 10825 has 14.71 GiB memory in use. Of the allocated memory 14.27 GiB is allocated by PyTorch, and 312.57 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

### 4.4 Finetuned Model 저장

In [None]:
# ADAPTER_MODEL = "lora_adapter"

# trainer.model.save_pretrained(ADAPTER_MODEL)

In [None]:
# !ls -alh lora_adapter

In [None]:
# model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map='auto', torch_dtype=torch.float16)
# model = PeftModel.from_pretrained(model, ADAPTER_MODEL, device_map='auto', torch_dtype=torch.float16)

# model = model.merge_and_unload()
# model.save_pretrained('gemma-2b-it-sum-ko')

In [None]:
# !ls -alh ./gemma-2b-it-sum-ko

# 5. Gemma 한국어 요약 모델 추론

#### 주의: 마찬가지로 Colab GPU 메모리 한계로 학습 시 사용했던 메모리를 비워 줘야 파인튜닝을 진행 할 수 있습니다. <br> notebook 런타임 세션을 재시작 한 후 1번과 2번의 2.1 항목까지 다시 실행하여 로드 한 후 아래 과정을 진행합니다

In [None]:
# !nvidia-smi

### 5.1 Fine-tuned 모델 로드

In [None]:
# BASE_MODEL = "google/gemma-2b-it"
# FINETUNE_MODEL = "./gemma-2b-it-sum-ko"

# finetune_model = AutoModelForCausalLM.from_pretrained(FINETUNE_MODEL, device_map={"":0})
# tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)

### 5.2 Fine-tuned 모델 추론

In [None]:
# pipe_finetuned = pipeline("text-generation", model=finetune_model, tokenizer=tokenizer, max_new_tokens=512)

In [None]:
# question = dataset['train']['Question'][1000]
# answer = dataset['train']['Answer'][1000]

In [None]:
# messages = [
#     # {
#     #     "role": "system",
#     #     "content": "You are a helpful assistant."
#     # },
#     {
#         "role": "user",
#         "content": f"{question}"
#     },

# ]
# prompt = pipe_finetuned.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

In [None]:
# outputs = pipe_finetuned(
#     prompt,
#     do_sample=True,
#     temperature=0.1,
#     top_k=50,
#     top_p=0.95,
#     add_special_tokens=True
# )
# print(outputs[0]["generated_text"][len(prompt):])