Copyright (c) Meta Platforms, Inc. and affiliates.
This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.

<a href="https://colab.research.google.com/github/meta-llama/llama-recipes/blob/main/recipes/finetuning/quickstart_peft_finetuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## PEFT Finetuning Quick Start Notebook

This notebook shows how to train a Meta Llama 3 model on a single GPU (e.g. A10 with 24GB) using int8 quantization and LoRA finetuning.

**_Note:_** To run this notebook on a machine with less than 24GB VRAM (e.g. T4 with 16GB) the context length of the training dataset needs to be adapted.
We do this based on the available VRAM during execution.
If you run into OOM issues try to further lower the value of train_config.context_length.

### Step 0: Install pre-requirements and convert checkpoint

We need to have llama-recipes and its dependencies installed for this notebook. Additionally, we need to log in with the huggingface_cli and make sure that the account is able to to access the Meta Llama weights.

In [1]:
# uncomment if running from Colab T4
# ! pip install llama-recipes ipywidgets

# import huggingface_hub
# huggingface_hub.login()

In [2]:
import huggingface_hub
huggingface_hub.login()
# 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

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

### Step 1: Load the model

Setup training configuration and load the model and tokenizer.

/opt/conda/lib/python3.10/site-packages/llama_recipes/configs/datasets.py 에 셋팅함
@dataclass
class upstage_dataset:
    dataset: str = "upstage_dataset"
    file: str = "/data/ephemeral/home/upstage-nlp-summarization-nlp11/llama_recipes/my_datasets/custom_dataset.py"
    train_file: str = "/data/ephemeral/home/data/train.csv" 
    validation_file: str = "/data/ephemeral/home/data/dev.csv"
    train_split: str = "train"
    test_split: str = "validation"

/opt/conda/lib/python3.10/site-packages/llama_recipes/utils/dataset_utils.py 수정
from llama_recipes.datasets import (
    get_grammar_dataset,
    get_alpaca_dataset,
    get_samsum_dataset,
    get_llamaguard_toxicchat_dataset,
    get_upstage_dataset,
)
DATASET_PREPROC = {
    "alpaca_dataset": partial(get_alpaca_dataset),
    "grammar_dataset": get_grammar_dataset,
    "samsum_dataset": get_samsum_dataset,
    "custom_dataset": get_custom_dataset,
    "llamaguard_toxicchat_dataset": get_llamaguard_toxicchat_dataset,
    "upstage_dataset": get_upstage_dataset,
}

/opt/conda/lib/python3.10/site-packages/llama_recipes/datasets/__init__.py 수정
from llama_recipes.datasets.upstage_dataset import get_preprocessed_upstage as get_upstage_dataset # upstage_dataset 추가


#/opt/conda/lib/python3.10/site-packages/llama_recipes/datasets/upstage_dataset.py 파일 생성

# Copyright (c) Meta Platforms, Inc. and affiliates.
# This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.


import copy
import datasets
from datasets import load_dataset



def get_preprocessed_upstage(dataset_config, tokenizer, split):
    # dataset = datasets.load_dataset("samsum", split=split)
    print("******************/opt/conda/lib/python3.10/site-packages/llama_recipes/datasets/upstage_dataset.py*************************")
   
    data_files = {
        "train": dataset_config.train_file,
        "validation": dataset_config.validation_file
    }
    dataset = load_dataset("csv", data_files={split: data_files[split]}, split=split)

    prompt = (
        f"Summarize this dialog:\n{{dialog}}\n---\nSummary:\n"
    )

    def apply_prompt_template(sample):
        return {
            "prompt": prompt.format(dialog=sample["dialogue"]),
            "summary": sample["summary"],
        }

    dataset = dataset.map(apply_prompt_template, remove_columns=list(dataset.features))

    def tokenize_add_label(sample):
        prompt = tokenizer.encode(tokenizer.bos_token + sample["prompt"], add_special_tokens=False)
        summary = tokenizer.encode(sample["summary"] +  tokenizer.eos_token, add_special_tokens=False)

        sample = {
            "input_ids": prompt + summary,
            "attention_mask" : [1] * (len(prompt) + len(summary)),
            "labels": [-100] * len(prompt) + summary,
            }

        return sample

    dataset = dataset.map(tokenize_add_label, remove_columns=list(dataset.features))

    return dataset

In [3]:
import torch
from transformers import LlamaForCausalLM, AutoTokenizer
from llama_recipes.configs import train_config as TRAIN_CONFIG

model_name = "meta-llama/Meta-Llama-3.1-8B"

train_config = TRAIN_CONFIG()
train_config.model_name = model_name
train_config.num_epochs = 1 
train_config.run_validation = False
train_config.gradient_accumulation_steps = 4
train_config.num_workers_dataloader = 4
train_config.batch_size_training = 1
train_config.lr = 3e-4
train_config.use_fast_kernels = True
train_config.use_fp16 = True
train_config.context_length = 1024 if torch.cuda.get_device_properties(0).total_memory < 16e9 else 2048 # T4 16GB or A10 24GB
train_config.batching_strategy = "packing"
train_config.output_dir = model_name
# train_config.use_peft = True
# train_config.save_strategy="epoch"  # 매 에포크마다 저장
# train_config.load_best_model_at_end=True  # 가장 성능 좋은 모델을 훈련 종료 시 로드
# train_config.metric_for_best_model="accuracy"  # 최적 모델을 선택할 기준
# train_config.greater_is_better=True,  # 성능 지표가 높을수록 좋다고 가정

import os
import random
import torch

def set_seed(seed):
    os.environ['PYTHONHASHSEED'] = str(seed)
    random.seed(seed)
    #np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.benchmark = True

set_seed(42)

train_config.dataset = "upstage_dataset" 

from transformers import BitsAndBytesConfig
config = BitsAndBytesConfig(
    load_in_8bit=True,
)

model = LlamaForCausalLM.from_pretrained(
            train_config.model_name,
            device_map="auto",
            quantization_config=config,
            use_cache=False,
            attn_implementation="sdpa" if train_config.use_fast_kernels else None,
            torch_dtype=torch.float16,
        )

tokenizer = AutoTokenizer.from_pretrained(train_config.model_name, clean_up_tokenization_spaces=True) #공백처리
tokenizer.pad_token = tokenizer.eos_token

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

`tokenizer.pad_token = tokenizer.eos_token`로 설정하는 이유는 주로 **모델이 `pad_token`을 따로 가지고 있지 않은 경우**에 발생하는 문제를 해결하기 위해서입니다. 이 설정을 통해 **`pad_token`과 `eos_token`(문장의 끝을 나타내는 토큰)**을 동일하게 취급하게 됩니다.

### 이유:
1. **Llama 모델 구조**:
   - Llama와 같은 일부 모델들은 기본적으로 `pad_token`을 따로 정의하지 않고, 주로 **`eos_token`**만을 사용합니다. 
   - 이런 경우, 시퀀스의 길이가 고정되지 않은 상태에서, 미리 정의된 `pad_token`이 없으면, 모델에 데이터를 전달할 때 문제(에러)가 발생할 수 있습니다.

2. **패딩이 필요한 상황**:
   - **배치 학습**에서 시퀀스 길이가 다르면 패딩을 넣어서 길이를 맞춰야 합니다. 
   - 하지만 Llama와 같은 모델에는 `pad_token`이 없기 때문에 **패딩이 필요할 때 `eos_token`을 대신 사용하는** 것입니다.
   - `pad_token`이 필요 없는 문장에서 `eos_token`은 문장의 끝을 나타내기 때문에, `eos_token`으로 패딩을 해도 의미상 큰 문제가 없습니다.

3. **`pad_token`과 `eos_token`의 차이**:
   - **`eos_token`**: 문장이 끝났음을 나타냅니다. 텍스트 생성을 중단할 시점입니다.
   - **`pad_token`**: 고정된 시퀀스 길이에 맞춰 텍스트가 부족한 부분을 채우기 위한 용도입니다.
   - 두 토큰의 목적은 다르지만, **모델이 따로 `pad_token`을 갖고 있지 않은 경우**, `eos_token`을 대신 사용하여 패딩을 처리할 수 있습니다.

결론적으로, 이 코드는 Llama 모델처럼 `pad_token`이 없는 모델에서 **패딩과 문장 끝의 처리를 동일하게 하기 위해** 사용됩니다.

In [4]:
!nvidia-smi

Mon Sep  9 04:08:39 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.86.10              Driver Version: 535.86.10    CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA GeForce RTX 3090        On  | 00000000:4C:00.0 Off |                  N/A |
| 40%   41C    P2             104W / 350W |   9010MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

### Step 2: Check base model

Run the base model on an example input:

In [4]:
from datasets import load_dataset, concatenate_datasets
dataset = load_dataset('csv', data_files={'train': "/data/ephemeral/home/data/train_10.csv", 'val': "/data/ephemeral/home/data/dev.csv"})

dataset['train']['dialogue'][0]

'#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?\n#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.\n#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.\n#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?\n#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.\n#Person2#: 알겠습니다.\n#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?\n#Person2#: 네.\n#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. \n#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.\n#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.\n#Person2#: 알겠습니다, 감사합니다, 의사선생님.'

In [7]:
eval_prompt = """
다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?\n#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.\n#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.\n#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?\n#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.\n#Person2#: 알겠습니다.\n#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?\n#Person2#: 네.\n#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. \n#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.\n#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.\n#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
"""

model_input = tokenizer(eval_prompt, return_tensors="pt").to("cuda")

model.eval()
with torch.inference_mode():
    print(tokenizer.decode(model.generate(**model_input, max_new_tokens=100)[0], skip_special_tokens=True))


다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?
#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.
#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.
#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?
#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.
#Person2#: 알겠습니다.
#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?
#Person2#: 네.
#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. 
#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.
#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.
#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
1. 호킨스 의사는 스미스씨에게 건강검진을 받는 것이 좋을 것 같다고 말한다.
2. 스미스씨는 건강검진을 받는 것이 좋다고 생각하지만, 아무 문제가 없다면 왜 의사를 만나러 가야 하는지 의문을 제기한다.
3. 호킨스 의사는 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것이라고 말한다.
4. 스미스


We can see that the base model only repeats the conversation.

### Step 3: Load the preprocessed dataset 

We load and preprocess the samsum dataset which consists of curated pairs of dialogs and their summarization:

https://github.com/meta-llama/llama-recipes/blob/main/recipes/quickstart/finetuning/datasets/README.md

In [5]:
from llama_recipes.utils.config_utils import generate_dataset_config

dataset_config = generate_dataset_config(train_config, {})


{'alpaca_dataset': functools.partial(<class 'llama_recipes.datasets.alpaca_dataset.InstructionDataset'>), 'grammar_dataset': <function get_dataset at 0x7faae09b7250>, 'samsum_dataset': <function get_preprocessed_samsum at 0x7fab56afecb0>, 'custom_dataset': <function get_custom_dataset at 0x7faae09b71c0>, 'llamaguard_toxicchat_dataset': <function get_llamaguard_toxicchat_dataset at 0x7fab56989ea0>, 'upstage_dataset': <function get_preprocessed_upstage at 0x7fab5698a170>}
('alpaca_dataset', 'grammar_dataset', 'samsum_dataset', 'custom_dataset', 'llamaguard_toxicchat_dataset', 'upstage_dataset')


  from torch.distributed._shard.checkpoint import (


In [6]:
dataset_config

upstage_dataset(dataset='upstage_dataset', file='/data/ephemeral/home/upstage-nlp-summarization-nlp11/llama_recipes/my_datasets/custom_dataset.py', train_file='/data/ephemeral/home/data/train_dev.csv', validation_file='/data/ephemeral/home/data/dev.csv', train_split='train', test_split='validation')

In [7]:
from llama_recipes.utils.dataset_utils import get_preprocessed_dataset
train_dataset = get_preprocessed_dataset(tokenizer, dataset_config, split="train")
val_dataset = get_preprocessed_dataset(tokenizer, dataset_config, split="validation")

******************/opt/conda/lib/python3.10/site-packages/llama_recipes/datasets/upstage_dataset.py*************************
******************/opt/conda/lib/python3.10/site-packages/llama_recipes/datasets/upstage_dataset.py*************************


In [7]:
train_dataset

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 12956
})

In [8]:
val_dataset

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 499
})

In [9]:
torch.tensor(train_dataset["input_ids"][5]).shape

torch.Size([143])

In [10]:
torch.tensor(train_dataset["labels"][5]).shape

torch.Size([143])

In [8]:
from torch.utils.data import DataLoader
from llama_recipes.data.concatenator import ConcatDataset
from llama_recipes.utils.config_utils import get_dataloader_kwargs

train_dl_kwargs = get_dataloader_kwargs(train_config, train_dataset, tokenizer, "train")

if train_config.batching_strategy == "packing":
        train_dataset = ConcatDataset(train_dataset, chunk_size=train_config.context_length)

# Create DataLoaders for the training and validation dataset
train_dataloader = torch.utils.data.DataLoader(
    train_dataset,
    num_workers=train_config.num_workers_dataloader,
    pin_memory=True,
    **train_dl_kwargs,
)


Preprocessing dataset: 100%|██████████| 12956/12956 [00:03<00:00, 3386.10it/s]


In [9]:
train_dataloader

<torch.utils.data.dataloader.DataLoader at 0x7fac3141c0a0>

### Step 4: Prepare model for PEFT

Let's prepare the model for Parameter Efficient Fine Tuning (PEFT):

In [10]:
from peft import get_peft_model, prepare_model_for_kbit_training, LoraConfig
from dataclasses import asdict
from llama_recipes.configs import lora_config as LORA_CONFIG

lora_config = LORA_CONFIG()
lora_config.r = 32
lora_config.lora_alpha = 32
lora_dropout: float=0.1

# lora_config = LORA_CONFIG()
# lora_config.r = 32
# lora_config.lora_alpha = 32
# lora_config.lora_dropout = 0.05
# lora_config.target_modules = ["q_proj", "v_proj"]  # LoRA를 적용할 모듈
# lora_config.merge_weights = False  # 학습 후 가중치 병합 여부
# lora_config.use_scaled_init = True  # 스케일된 가중치 초기화
# lora_config.fan_in_fan_out = False  # fan-in/fan-out 구조 고려 여부
# lora_config.bias = "none"  # Bias 적용 여부


peft_config = LoraConfig(**asdict(lora_config))

model = prepare_model_for_kbit_training(model)
model = get_peft_model(model, peft_config)

### Step 5: Fine tune the model

Here, we fine tune the model for a single epoch.

In [11]:
import torch.optim as optim
from llama_recipes.utils.train_utils import train
from torch.optim.lr_scheduler import StepLR

model.train()

optimizer = optim.AdamW(
            model.parameters(),
            lr=train_config.lr,
            weight_decay=train_config.weight_decay,
        )
scheduler = StepLR(optimizer, step_size=1, gamma=train_config.gamma)

# Start the training process
results = train(
    model,
    train_dataloader,
    None,
    tokenizer,
    optimizer,
    scheduler,
    train_config.gradient_accumulation_steps,
    train_config,
    None,
    None,
    None,
    wandb_run=None,
)

# 1시 10분에 시작.

  scaler = torch.cuda.amp.GradScaler()
  with autocast():
  return fn(*args, **kwargs)
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
Training Epoch: 1/1, step 1862/1863 completed (loss: 0.18174602091312408): : 466it [1:29:42, 11.55s/it]                       1.56s/it]


Max CUDA memory allocated was 15 GB
Max CUDA memory reserved was 17 GB
Peak active CUDA memory was 15 GB
CUDA Malloc retries : 0
CPU Total Peak Memory consumed during the train (max): 2 GB
Epoch 1: train_perplexity=1.2732, train_epoch_loss=0.2415, epoch time 5382.916620232165s


In [None]:

import os
import torch.optim as optim
from tqdm import tqdm  # 진행창을 위한 tqdm 추가
from llama_recipes.utils.train_utils import train
from torch.optim.lr_scheduler import StepLR

# 수정된 train 함수 (OverflowError: out of range integral type conversion attempted 에러: 검증 루프 제거)
def train_model(model, train_dataloader, tokenizer, optimizer, scheduler, train_config,
                gradient_accumulation_steps, fsdp_config, local_rank, rank, wandb_run):
    
    os.makedirs(train_config.output_dir, exist_ok=True)
    
    for epoch in range(train_config.num_epochs):
        # 모델을 훈련 모드로 설정
        model.train()

        # 훈련 루프 (tqdm을 사용해 진행창 표시)
        for step, batch in enumerate(tqdm(train_dataloader, desc=f"Training Epoch {epoch+1}")):
            optimizer.zero_grad()

            # 텐서로 변환
            batch = {k: v.to('cuda:0') for k, v in batch.items()}
            outputs = model(**batch)
            loss = outputs.loss

            # Gradient Accumulation 적용
            loss = loss / gradient_accumulation_steps
            loss.backward()

            # Gradient Accumulation을 고려하여 optimizer step
            if (step + 1) % gradient_accumulation_steps == 0:
                optimizer.step()
                scheduler.step()

        # 모델 저장
        torch.save(model.state_dict(), f"{train_config.output_dir}/model_epoch_{epoch+1}.pt")
        print(f"Model saved after epoch {epoch+1}")

        # Optionally, log metrics to Weights & Biases
        if wandb_run is not None:
            wandb_run.log({"epoch": epoch + 1})

# Optimizer 및 Scheduler 설정
optimizer = optim.AdamW(
            model.parameters(),
            lr=train_config.lr,
            weight_decay=train_config.weight_decay,
        )
scheduler = StepLR(optimizer, step_size=1, gamma=train_config.gamma)

# 수정된 함수 호출 (검증 루프 제거)
results = train_model(
    model=model,
    train_dataloader=train_dataloader,
    tokenizer=tokenizer,
    optimizer=optimizer,
    scheduler=scheduler,
    train_config=train_config,
    gradient_accumulation_steps=train_config.gradient_accumulation_steps,  # Gradient Accumulation 적용
    fsdp_config=None,  # 필요한 경우 적용, 현재는 None # 분산학습
    local_rank=None,  # 필요한 경우 적용, 현재는 None
    rank=None,  # 필요한 경우 적용, 현재는 None
    wandb_run=None  # Weights & Biases로 로깅할 경우 설정
)


### Step 6:
Save model checkpoint

In [27]:
import os
import json

# 모델 저장 경로
output_dir = train_config.output_dir

# config.json 파일이 없는 경우 수동으로 작성 (OSError: beomi/Llama-3-Open-Ko-8B does not appear to have a file named config.json 에러)
config = {
    "model_type": "Llama",  # 모델 타입
    "vocab_size": model.config.vocab_size,  # 필요한 경우 다른 속성도 추가
    "hidden_size": model.config.hidden_size,
    "num_attention_heads": model.config.num_attention_heads,
    # 추가적인 필요한 구성 옵션들
}

# 디렉토리 생성
os.makedirs(output_dir, exist_ok=True)

# config.json 저장
with open(os.path.join(output_dir, "config.json"), "w") as f:
    json.dump(config, f)

# 모델과 토크나이저 저장
model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)


You are using a model of type Llama to instantiate a model of type llama. This is not supported for all configurations of models and can yield errors.


('meta-llama/Meta-Llama-3.1-8B/tokenizer_config.json',
 'meta-llama/Meta-Llama-3.1-8B/special_tokens_map.json',
 'meta-llama/Meta-Llama-3.1-8B/tokenizer.json')

In [28]:
model_name

'meta-llama/Meta-Llama-3.1-8B'

In [29]:
model.config.push_to_hub(f"SummerHotBreeze/Meta-Llama-3.1-8B")
tokenizer.push_to_hub(f"SummerHotBreeze/Meta-Llama-3.1-8B")


README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/SummerHotBreeze/Meta-Llama-3.1-8B/commit/2eadde4207f520d1d33f903a5fdd929e57c2f9fc', commit_message='Upload tokenizer', commit_description='', oid='2eadde4207f520d1d33f903a5fdd929e57c2f9fc', pr_url=None, pr_revision=None, pr_num=None)

### Step 7:
Try the fine tuned model on the same example again to see the learning progress:

In [17]:
from torch.utils.data import Dataset
import pandas as pd

class DatasetForLlamaTest(Dataset):
    def __init__(self, train_csv_fullpath):
        df = pd.read_csv(train_csv_fullpath)
        
        prompt = (
            f"Summarize this dialog:\n{{dialog}}\n---\nSummary:\n"
        )

        def apply_prompt_template(s):
            return prompt.format(dialog=s)

        df['dialogue'] = df['dialogue'].map(apply_prompt_template)

        self.fname_list = []
        self.preprocessed_list = []
        
        for i in range(len(df)):
            #
            self.fname_list.append(df.iloc[i]['fname'])
            
            # tokenizer() 와 tokenizer.encode() 는 다르다!
            # tokenizer() 를 사용해야 딕셔너리(input_ids, attention_mask) 형태로 리턴됨.
            prompt = tokenizer(df.iloc[i]['dialogue'], return_tensors="pt").to("cuda")
            self.preprocessed_list.append(prompt)
        
        self.len = len(self.preprocessed_list)

    def __getitem__(self, idx):
        return self.fname_list[idx], self.preprocessed_list[idx]

    def __len__(self):
        return self.len   

In [23]:
import re
from tqdm import tqdm
import pandas as pd

test = DatasetForLlamaTest(r'/data/ephemeral/home/data/test.csv')

fname_list = []
summary_list = []

model.eval()
with torch.no_grad():
    for fname, dialogue in tqdm(test):
        generated = model.generate(**dialogue, max_new_tokens=200)
        decoded_str = tokenizer.decode(generated[0], skip_special_tokens=True)
        
        summary = decoded_str.split('Summary:\n')[1]
        
        # \n 제거
        summary = re.sub('\n', '', summary)
        
        fname_list.append(fname)
        summary_list.append(summary)

  0%|          | 0/499 [00:00<?, ?it/s]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  0%|          | 1/499 [00:25<3:30:05, 25.31s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  0%|          | 2/499 [00:36<2:21:02, 17.03s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  1%|          | 3/499 [00:42<1:38:29, 11.91s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  1%|          | 4/499 [00:56<1:44:05, 12.62s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  1%|          | 5/499 [01:13<1:57:35, 14.28s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  1%|          | 6/499 [01:33<2:12:35, 16.14s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  1%|▏         | 7/499 [01:40<1:47:51, 13.15s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  2%|▏         | 8/499 [01:52<1:46

In [26]:
data = {
    'fname': fname_list,
    'summary': summary_list,
}

df = pd.DataFrame(data)
df.to_csv(r'/data/ephemeral/home/upstage-nlp-summarization-nlp11/prediction/Meta-Llama-3.1-8B_epoch1_lora32_drop0.1_maxtoken200.csv', encoding='utf-8-sig', index=False)

---
generate 파라미터 테스트를 위한 inference

In [12]:
model.eval()
eval_prompt = """
다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?\n#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.\n#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.\n#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?\n#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.\n#Person2#: 알겠습니다.\n#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?\n#Person2#: 네.\n#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. \n#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.\n#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.\n#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
"""

model_input = tokenizer(eval_prompt, return_tensors="pt").to("cuda")
with torch.inference_mode():
    print(tokenizer.decode(model.generate(**model_input, 
                                        max_new_tokens=100,      
                                        num_beams=5,   
                                        do_sample=False,                       
                                        # temperature=1.5,  # 다양성 제어
                                        # top_p=0.9,        # top-p 샘플링 (Nucleus Sampling)
                                        repetition_penalty=1.1,  # 반복 방지
                                        no_repeat_ngram_size=2
                                    )[0], 
                           skip_special_tokens=True))

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.





다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?
#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.
#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.
#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?
#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.
#Person2#: 알겠습니다.
#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?
#Person2#: 네.
#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. 
#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.
#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.
#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
스미스의 건강 검진에 대한 의사의 의견은 다음과 같습니다. 첫째, 그는 매일 건강 체크를 받을 필요가 있다고 생각합니다. 두 번째로, 그의 건강 상태는 좋지 않으며, 특히 그가 흡연하는 것에 대해 걱정됩니다. 마지막으로, 그들은 그를 위해 도움을 줄 수 있다고 말했습니다.


In [19]:
model.eval()
eval_prompt = """
다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?\n#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.\n#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.\n#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?\n#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.\n#Person2#: 알겠습니다.\n#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?\n#Person2#: 네.\n#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. \n#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.\n#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.\n#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
"""

model_input = tokenizer(eval_prompt, return_tensors="pt").to("cuda")
with torch.inference_mode():
    print(tokenizer.decode(model.generate(**model_input, 
                                        max_new_tokens=100
                                    )[0], 
                           skip_special_tokens=True))

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.



다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?
#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.
#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.
#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?
#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.
#Person2#: 알겠습니다.
#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?
#Person2#: 네.
#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. 
#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.
#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.
#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
스미스씨는 건강검진을 위해 의사에게 오고 있습니다. 호킨스 의사는 스미스씨에게 매년 건강검진을 받는 것이 좋다고 말하고, 스미스씨는 담배를 끊는 것이 어렵다고 말합니다.


In [20]:
model.eval()
eval_prompt = """
다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?\n#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.\n#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.\n#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?\n#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.\n#Person2#: 알겠습니다.\n#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?\n#Person2#: 네.\n#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. \n#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.\n#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.\n#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
"""

model_input = tokenizer(eval_prompt, return_tensors="pt").to("cuda")
with torch.inference_mode():
    print(tokenizer.decode(model.generate(**model_input, 
                                        max_new_tokens=200
                                    )[0], 
                           skip_special_tokens=True))

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.



다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?
#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.
#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.
#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?
#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.
#Person2#: 알겠습니다.
#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?
#Person2#: 네.
#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. 
#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.
#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.
#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
스미스씨는 건강검진을 위해 의사에게 찾아갑니다. 의사는 스미스씨에게 건강검진의 중요성을 강조하고, 담배를 끊는 데 도움을 줄 수 있는 수업과 약물들을 제공할 것입니다.


In [22]:
model.eval()
eval_prompt = """
다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?\n#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.\n#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.\n#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?\n#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.\n#Person2#: 알겠습니다.\n#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?\n#Person2#: 네.\n#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. \n#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.\n#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.\n#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
"""

model_input = tokenizer(eval_prompt, return_tensors="pt").to("cuda")
with torch.inference_mode():
    print(tokenizer.decode(model.generate(**model_input, 
                                        max_new_tokens=200,
                                        no_repeat_ngram_size=2
                                    )[0], 
                           skip_special_tokens=True))

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.





다음 대화를 요약하세요:
#Person1#: 안녕하세요, 스미스씨. 저는 호킨스 의사입니다. 오늘 왜 오셨나요?
#Person2#: 건강검진을 받는 것이 좋을 것 같아서요.
#Person1#: 그렇군요, 당신은 5년 동안 건강검진을 받지 않았습니다. 매년 받아야 합니다.
#Person2#: 알고 있습니다. 하지만 아무 문제가 없다면 왜 의사를 만나러 가야 하나요?
#Person1#: 심각한 질병을 피하는 가장 좋은 방법은 이를 조기에 발견하는 것입니다. 그러니 당신의 건강을 위해 최소한 매년 한 번은 오세요.
#Person2#: 알겠습니다.
#Person1#: 여기 보세요. 당신의 눈과 귀는 괜찮아 보입니다. 깊게 숨을 들이쉬세요. 스미스씨, 담배 피우시나요?
#Person2#: 네.
#Person1#: 당신도 알다시피, 담배는 폐암과 심장병의 주요 원인입니다. 정말로 끊으셔야 합니다. 
#Person2#: 수백 번 시도했지만, 습관을 버리는 것이 어렵습니다.
#Person1#: 우리는 도움이 될 수 있는 수업과 약물들을 제공하고 있습니다. 나가기 전에 더 많은 정보를 드리겠습니다.
#Person2#: 알겠습니다, 감사합니다, 의사선생님.
---
요약:
스미스는 건강 검진에 대해 의과학자에게 상담합니다. 의사는 스밀스에게 건강에 대한 정보와 담뱃이를 끄는 방법을 알려줍니다.


In [30]:
!nvidia-smi

Mon Sep  9 08:18:16 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.86.10              Driver Version: 535.86.10    CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA GeForce RTX 3090        On  | 00000000:4C:00.0 Off |                  N/A |
| 39%   33C    P8              19W / 350W |  19198MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
