## HuggigFace 로그인

In [1]:
!huggingface-cli login --token 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

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
The token `llm` has been saved to /root/.cache/huggingface/stored_tokens
Your token has been saved to /root/.cache/huggingface/token
Login successful.
The current active token is: `llm`


## 데이터셋 구축

In [2]:
import os
import jsonlines
import random
from datasets import Dataset

# JSONLines 파일 경로
jsonl_path = "/workspace/dataset/chatbot_dataset.jsonl"
test_jsonl_path = "/workspace/dataset/test_split_data.jsonl"

# JSONLines 파일을 읽어서 데이터셋 생성
indataset = []
with jsonlines.open(jsonl_path) as f:
    for lineno, line in enumerate(f.iter(), start=1):
        try:
            # 템플릿에 따라 instruction과 response 형식을 맞춰서 저장
            template = "Instruction:\n{instruction}\n\nResponse:\n{response}"
            indataset.append(template.format(**line))
        except Exception as e:
            # 문제가 있는 줄과 오류를 출력하여 확인
            print(f"Error at line {lineno}: {e}")

# 데이터셋 생성 완료 확인
print('전체 데이터셋 생성 완료')

# 랜덤으로 37,500개 샘플 선택
random.seed(42)  # 랜덤 시드를 고정하여 재현 가능성 확보
sampled_data = random.sample(indataset, 37500)

# Hugging Face Dataset으로 변환
dataset = Dataset.from_dict({'text': sampled_data})

# 데이터셋을 8:2 비율로 나누기
train_test_split = dataset.train_test_split(test_size=0.2)
train_dataset = train_test_split['train']
test_dataset = train_test_split['test']

# 기존에 테스트 데이터셋 파일이 없을 때만 생성
if not os.path.exists(test_jsonl_path):
    # 테스트 데이터셋 저장
    with jsonlines.open(test_jsonl_path, mode='w') as writer:
        for data in test_dataset['text']:
            writer.write({"text": data})
    print("테스트 데이터셋이 .jsonl 파일로 저장되었습니다.")
else:
    print(f"{test_jsonl_path} 파일이 이미 존재하여 새로운 테스트 데이터셋이 생성되지 않았습니다.")

# Hugging Face Dataset으로 변환하여 학습 데이터셋만 indataset에 저장
indataset = Dataset.from_dict({'text': train_dataset['text']})

# 학습 데이터셋 3분할: 5,000개, 10,000개, 15,000개
split_5000 = train_dataset.select(range(5000))
split_10000 = train_dataset.select(range(10000))
split_15000 = train_dataset.select(range(15000))

# 각 분할된 데이터셋 정보 확인
print("전체 데이터셋", indataset)
print("5,000개 데이터셋 샘플:", split_5000)
print("10,000개 데이터셋 샘플:", split_10000)
print("15,000개 데이터셋 샘플:", split_15000)

전체 데이터셋 생성 완료
/workspace/dataset/test_split_data.jsonl 파일이 이미 존재하여 새로운 테스트 데이터셋이 생성되지 않았습니다.
전체 데이터셋 Dataset({
    features: ['text'],
    num_rows: 30000
})
5,000개 데이터셋 샘플: Dataset({
    features: ['text'],
    num_rows: 5000
})
10,000개 데이터셋 샘플: Dataset({
    features: ['text'],
    num_rows: 10000
})
15,000개 데이터셋 샘플: Dataset({
    features: ['text'],
    num_rows: 15000
})


# Bllossom/llama-3.2-Korean-Bllossom-3B 모델 파인튜닝

In [3]:
import torch

from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
)

In [4]:
# Hugging Face Basic Mode
base_model = "Bllossom/llama-3.2-Korean-Bllossom-3B"

#### 4비트 양자화 QLoRA 설정

In [5]:
if torch.cuda.get_device_capability()[0] >= 8:
    print("CUDA device capability is 8 or higher. Installing flash-attn.")
    !pip install -qqq flash-attn
    attn_implementation = "flash_attention_2"
    torch_dtype = torch.bfloat16
    print("flash-attn installed successfully. Using flash_attention_2 with torch.bfloat16.")
else:
    print("CUDA device capability is below 8. Using eager mode.")
    attn_implementation = "eager"
    torch_dtype = torch.float16
    print("Using eager implementation with torch.float16.")


# QLoRA config
# quant_config = None

# QLoRA config
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch_dtype,
    bnb_4bit_use_double_quant=False,
)

CUDA device capability is 8 or higher. Installing flash-attn.
flash-attn installed successfully. Using flash_attention_2 with torch.bfloat16.


#### Bllossom/llama-3.2-Korean-Bllossom-3B 모델 불러오기

In [6]:
# GPU 개수 및 이름 확인
import torch
from transformers import AutoModelForCausalLM

api_token = "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"

if torch.cuda.is_available():
    num_gpus = torch.cuda.device_count()
    print(f"Available GPUs: {num_gpus}")
    for i in range(num_gpus):
        print(f"GPU {i}: {torch.cuda.get_device_name(i)}")
else:
    print("No GPU available. Using CPU.")

# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    quantization_config=quant_config,
    device_map="auto",
    token=api_token   
)

# config 설정
model.config.use_cache = False
model.config.pretraining_tp = 1
model.config.hidden_activation = "gelu_pytorch_tanh"  # 경고 해결을 위해 hidden_activation 설정

print("Model loaded and configured.")

Available GPUs: 1
GPU 0: NVIDIA H100 NVL


2024-11-13 01:48:13.223384: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1731462493.236700   25678 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1731462493.240302   25678 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-11-13 01:48:13.255387: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX512_FP16 AVX_VNNI AMX_TILE AMX_INT8 AMX_BF16 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model loaded and configured.


In [7]:
model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 3072)
    (layers): ModuleList(
      (0-27): 28 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear4bit(in_features=3072, out_features=3072, bias=False)
          (k_proj): Linear4bit(in_features=3072, out_features=1024, bias=False)
          (v_proj): Linear4bit(in_features=3072, out_features=1024, bias=False)
          (o_proj): Linear4bit(in_features=3072, out_features=3072, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear4bit(in_features=3072, out_features=8192, bias=False)
          (up_proj): Linear4bit(in_features=3072, out_features=8192, bias=False)
          (down_proj): Linear4bit(in_features=8192, out_features=3072, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((3072,), eps=1e-05)
        (post_attention_layernorm): LlamaRMSNorm((3072,), eps=1e

## 토크나이저 불러오기

In [8]:
tokenizer = AutoTokenizer.from_pretrained(base_model, trust_remote_code=True, token=api_token) # huggingfase hub에서 제공하는 사용자 정의된 토크나이저 코드를 신뢰하고 실행
tokenizer.pad_token = tokenizer.eos_token # 시퀀스 길이를 맞추기 위해 문장 끝에 eos_token 사용
tokenizer.padding_side = "right" # 패딩 토큰을 시퀀스 어느 쪽에 할지

In [9]:
from peft import get_peft_model, LoraConfig

peft_params = LoraConfig(
    lora_alpha=16, # 스케일링 파라미터
    lora_dropout=0.1,
    r=16, # 저차원 공간의 크기
    bias="none", # 편향 학습 유무
    task_type="CAUSAL_LM", # GPT 계열 모델
    target_modules=["q_proj", "v_proj", "k_proj", "out_proj", "fc_in", "fc_out"] # query와 projection 레이어를 의미 ("q_proj", "v_proj", "k_proj", "out_proj", "fc_in", "fc_out")
)

model = get_peft_model(model, peft_params)
model.print_trainable_parameters()

trainable params: 6,422,528 || all params: 3,219,172,352 || trainable%: 0.1995


## Fine-tuning 파라미터

In [14]:
from trl import SFTConfig, SFTTrainer
from transformers import TrainingArguments

# SFTConfig 설정
sft_config = SFTConfig(
    output_dir="model",
    dataset_text_field="text",  # 텍스트 필드 지정
    max_seq_length=2048,        # 최대 시퀀스 길이 설정
    packing=False               # 입력 시퀀스의 길이에 따라 배치 그룹화 설정
)

# TrainingArguments 설정
training_params = TrainingArguments(
    output_dir=sft_config.output_dir,
    num_train_epochs=10,                          # 전체 데이터셋을 몇 번 반복할지 설정하는 epoch
    per_device_train_batch_size=8,               # 각 GPU(또는 CPU)에서 학습할 때 사용하는 배치 크기 설정 
    gradient_accumulation_steps=1,                # 그래디언트 누적 단계 설정 
    optim="paged_adamw_8bit",                     # 옵티마이저 / 최적화 알고리즘으로 Adam2 사용
    save_steps=100000,                            # 몇 step 마다 모델을 저장할지 설정하는 파라미터 
    logging_steps=100000,                         # 학습 중 로그를 기록하는 빈도를 설정
    learning_rate=2e-4,                           # 학습률 설정 
    weight_decay=0.001,                           # 가중치 감쇠 설정 (모델의 가중치를 정규화하여 과적합 방지에 사용)
    fp16=False,                                   # 반정밀도(float16) 연산을 사용할지 여부 
    bf16=True,                                    # bfloat16 연산을 사용할지 여부 
    max_grad_norm=0.3,                            # gradient clipping을 위한 최대 노름 값 설정 (gradient 폭주 방지)
    max_steps=-1,                                 # 학습 종료 시 최대 스텝 수 설정 / -1은 스텝 수로 학습을 제한하지 않음 
    warmup_ratio=0.03,                            # 학습률 워밍업의 비율을 설정 / 학습 초기 단계에서 점진적으로 학습률을 증가시켜 안정적인 학습을 유도
    group_by_length=sft_config.packing,           # SFTConfig의 packing 설정을 사용
    lr_scheduler_type="constant",                 # 학습률 스케줄러의 유형 설정 
    report_to="tensorboard"                       # 로그 기록 툴 
)

# 파인 튜닝 트레이너
trainer = SFTTrainer(
    model=model,
    train_dataset=indataset, 
    tokenizer=tokenizer,
    args=training_params,
    dataset_text_field=sft_config.dataset_text_field,  # SFTConfig에서 설정한 텍스트 필드
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Map:   0%|          | 0/15000 [00:00<?, ? examples/s]

In [15]:
trainer.train()

Step,Training Loss


KeyboardInterrupt: 