# "beomi/Llama-3-Open-Ko-8B"  + Unnsoloth 기준

In [None]:
import torch
# CUDA 장치의 주요 버전과 부 버전을 가져옴
major_version, minor_version = torch.cuda.get_device_capability()
major_version, minor_version

(8, 9)

In [None]:
%%capture
# Colab에서 torch 2.2.1을 사용하고 있으므로, 패키지 충돌을 방지하기 위해 별도로 설치
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
if major_version >= 8:
    # 새로운 GPU(예: Ampere, Hopper GPUs - RTX 30xx, RTX 40xx, A100, H100, L40)에 사용
    !pip install --no-deps packaging ninja einops flash-attn xformers trl peft accelerate bitsandbytes
else:
    # 오래된 GPU(예: V100, Tesla T4, RTX 20xx)에 사용
    !pip install --no-deps xformers trl peft accelerate bitsandbytes
pass


In [None]:
from unsloth import FastLanguageModel
import torch

max_seq_length = 4096  # 최대 시퀀스 길이를 설정합니다. 내부적으로 RoPE 스케일링을 자동으로 지원
dtype = None
load_in_4bit = False

# 4배 빠른 다운로드와 메모리 부족 문제를 방지하기 위해 지원하는 4bit 사전 양자화 모델임
fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-7b-it-bnb-4bit",  # Gemma 7b의 Instruct 버전
    "unsloth/gemma-2b-bnb-4bit",
    "unsloth/gemma-2b-it-bnb-4bit",  # Gemma 2b의 Instruct 버전
    "unsloth/llama-3-8b-bnb-4bit",  # Llama-3 8B
]  # 더 많은 모델은 https://huggingface.co/unsloth 에서 확인할 수 있음.

model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = "unsloth/llama-3-8b-bnb-4bit",  # 모델 이름을 설정 ===> 02번 진행 모델
    model_name="beomi/Llama-3-Open-Ko-8B",  # 모델 이름을 설정 ===> 01번 진행 모델

    max_seq_length=max_seq_length,  # 최대 시퀀스 길이를 설정
    dtype=dtype,  # 데이터 타입을 설정합니다.
    load_in_4bit=load_in_4bit,  # 4bit 양자화 로드 여부를 설정

)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]

==((====))==  Unsloth: Fast Llama patching release 2024.5
   \\   /|    GPU: NVIDIA A100-SXM4-40GB. Max memory: 39.564 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.3.0+cu121. CUDA = 8.0. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. Xformers = 0.0.26.post1. FA = True.
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/6 [00:00<?, ?it/s]

model-00001-of-00006.safetensors:   0%|          | 0.00/3.00G [00:00<?, ?B/s]

model-00002-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00003-of-00006.safetensors:   0%|          | 0.00/2.97G [00:00<?, ?B/s]

model-00004-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00005-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00006-of-00006.safetensors:   0%|          | 0.00/1.29G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/301 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
beomi/Llama-3-Open-Ko-8B does not have a padding token! Will use pad_token = <|reserved_special_token_250|>.


In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r=32,  # 0보다 큰 어떤 숫자도 선택 가능! 8, 16, 32, 64, 128이 권장됩니다.
    lora_alpha=64,  # LoRA 알파 값을 설정합니다.
    lora_dropout=0.05,  # 드롭아웃을 지원합니다.
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "embed_tokens",  # 추가된 부분으로 오류 수정 ==>02번 모델 진행시 삭제 필요
        "lm_head",       # 추가된 부분으로 오류 수정 ==>02번 모델 진행시 삭제 필요
    ],  # 타겟 모듈을 지정
    bias="none",  # 바이어스를 지원
    # True 또는 "unsloth"를 사용하여 매우 긴 컨텍스트에 대해 VRAM을 30% 덜 사용하고, 2배 더 큰 배치 크기를 지원함
    use_gradient_checkpointing="unsloth",
    random_state=123,  # 난수 상태를 설정
    use_rslora=False,  # 순위 안정화 LoRA를 지원
    loftq_config=None,  # LoftQ를 지원
)

Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.05.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.


Unsloth: Offloading input_embeddings to disk to save VRAM
Unsloth: Offloading output_embeddings to disk to save VRAM


Unsloth 2024.5 patched 32 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


Unsloth: Casting embed_tokens to float32
Unsloth: Casting lm_head to float32


In [None]:
from datasets import load_dataset

# EOS_TOKEN은 문장의 끝을 나타내는 토큰
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항을 포맷팅하는 함수==> 매우 중요함(파인튜닝한 학습 프롬프트 형식과 Inference 프롬프트 형식이 맞아야함)
alpaca_prompt = """Below are instructions that describe the assignment. Write a complete answer to the positive and negative sentiment analysis of the given Korean sentences.

### Instruction:
{}

### Response:
{}"""


# 주어진 예시들을 포맷팅하는 함수입니다.
def formatting_prompts_func(examples):
    instructions = examples["Input"]  # 입력값을 가져옵니다.
    sentiments = examples["sentiment"]  # 감정값을 가져옵니다.
    probabilities = examples["probability"]  # 확률값을 가져옵니다.
    positive_topics = examples["positive_topics"]  # 긍정적 주제를 가져옵니다.
    negative_topics = examples["negative_topics"]  # 부정적 주제를 가져옵니다.


    texts = []  # 포맷팅된 텍스트를 저장할 리스트
    for instruction, sentiment, probability, pos_topic, neg_topic in zip(instructions, sentiments, probabilities, positive_topics, negative_topics):
        output = f"Sentiment: {sentiment}, Probability: {probability}, Positive Topics: {pos_topic}, Negative Topics: {neg_topic}"
        # EOS_TOKEN을 추가해야 합니다. 그렇지 않으면 생성이 무한히 말을 내뱉음
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)

    return {
        "text": texts,  # 포맷팅된 텍스트를 반환
    }

# 학습데이터를 huggingface 에서 불러오기
dataset = load_dataset("Younggooo/senti_data2", split="train")

# 데이터셋에 formatting_prompts_func 함수를 적용합니다. 배치 처리를 활성화
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

print dataset[0]


Downloading readme:   0%|          | 0.00/434 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/15.1k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/150 [00:00<?, ? examples/s]

Map:   0%|          | 0/150 [00:00<?, ? examples/s]

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments

tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정합니다.

# 'embed_tokens' 및 'lm_head'를 훈련 가능한 모듈로 포함하도록 모델 수정
# peft_model = FastLanguageModel.get_peft_model(model, target_modules=["embed_tokens", "lm_head"])

# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,  # 학습할 모델
#   model=peft_model,  # 학습할 모델
    tokenizer=tokenizer,  # 토크나이저
    train_dataset=dataset,  # 학습 데이터셋
    dataset_text_field="text",  # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dataset_num_proc=2,  # 데이터 처리에 사용할 프로세스 수
    packing=False,  # 짧은 시퀀스에 대한 학습 속도를 5배 빠르게 할 수 있음
    args=TrainingArguments(
        per_device_train_batch_size=2,  # 각 디바이스당 훈련 배치 크기
        gradient_accumulation_steps=4,  # 그래디언트 누적 단계
        warmup_steps=5,  # 웜업 스텝 수
        num_train_epochs=3,  # 훈련 에폭 수
        max_steps=100,  # 최대 스텝 수
        logging_steps=20,  # logging 스텝 수
        learning_rate=2e-4,  # 학습률
        fp16=not torch.cuda.is_bf16_supported(),  # fp16 사용 여부, bf16이 지원되지 않는 경우에만 사용
        bf16=torch.cuda.is_bf16_supported(),  # bf16 사용 여부, bf16이 지원되는 경우에만 사용
        optim="adamw_8bit",  # 최적화 알고리즘
        weight_decay=0.01,  # 가중치 감소
        lr_scheduler_type="cosine",  # 학습률 스케줄러 유형
        seed=123,  # 랜덤 시드
        output_dir="outputs",  # 출력 디렉토리
    ),
)

  self.pid = os.fork()


Map (num_proc=2):   0%|          | 0/150 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [None]:
# 현재 메모리 상태를 보여주는 코드
gpu_stats = torch.cuda.get_device_properties(0)  # GPU 속성 가져오기
start_gpu_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 시작 시 예약된 GPU 메모리 계산
max_memory = round(
    gpu_stats.total_memory / 1024 / 1024 / 1024, 3
)  # GPU의 최대 메모리 계산
print(
    f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB."
)  # GPU 이름과 최대 메모리 출력
print(f"{start_gpu_memory} GB of memory reserved.")  # 예약된 메모리 양 출력

GPU = NVIDIA A100-SXM4-40GB. Max memory = 39.564 GB.
19.322 GB of memory reserved.


In [None]:
trainer_stats = trainer.train()  # 모델을 훈련시키고 통계를 반환함 ==> 제발 터지지 말아라... ㅠㅠ

Counting untrained tokens:   0%|          | 0/150 [00:00<?, ? examples/s]

Unsloth: Setting embed_tokens & lm_head untrained tokens to mean(trained) to counteract NaNs during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 150 | Num Epochs = 6
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 100
 "-____-"     Number of trainable parameters = 1,134,559,232


Step,Training Loss
20,1.2866
40,0.428
60,0.2354
80,0.1425
100,0.0949


In [None]:
# 최종 메모리 및 시간 통계를 보여줍니다.
used_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 사용된 최대 메모리를 GB 단위로 계산합니다.
used_memory_for_lora = round(
    used_memory - start_gpu_memory, 3
)  # LoRA를 위해 사용된 메모리를 GB 단위로 계산합니다.
used_percentage = round(
    used_memory / max_memory * 100, 3
)  # 최대 메모리 대비 사용된 메모리의 비율을 계산합니다.
lora_percentage = round(
    used_memory_for_lora / max_memory * 100, 3
)  # 최대 메모리 대비 LoRA를 위해 사용된 메모리의 비율을 계산합니다.
print(
    f"{trainer_stats.metrics['train_runtime']} seconds used for training."
)  # 훈련에 사용된 시간을 초 단위로 출력합니다.
print(
    # 훈련에 사용된 시간을 분 단위로 출력합니다.
    f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training."
)
print(
    f"Peak reserved memory = {used_memory} GB."
)  # 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory for training = {used_memory_for_lora} GB."
)  # 훈련을 위해 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory % of max memory = {used_percentage} %."
)  # 최대 메모리 대비 예약된 메모리의 비율을 출력합니다.
print(
    f"Peak reserved memory for training % of max memory = {lora_percentage} %."
)  # 최대 메모리 대비 훈련을 위해 예약된 메모리의 비율을 출력합니다.

195.4248 seconds used for training.
3.26 minutes used for training.
Peak reserved memory = 30.643 GB.
Peak reserved memory for training = 11.321 GB.
Peak reserved memory % of max memory = 77.452 %.
Peak reserved memory for training % of max memory = 28.614 %.


In [None]:
from transformers import StoppingCriteria, StoppingCriteriaList


class StopOnToken(StoppingCriteria):
    def __init__(self, stop_token_id):
        self.stop_token_id = stop_token_id  # 정지 토큰 ID를 초기화합니다.

    def __call__(self, input_ids, scores, **kwargs):
        return (
            self.stop_token_id in input_ids[0]
        )  # 입력된 ID 중 정지 토큰 ID가 있으면 정지합니다.


# end_token을 설정
stop_token = "<|end_of_text|>"  # end_token으로 사용할 토큰을 설정합니다.
stop_token_id = tokenizer.encode(stop_token, add_special_tokens=False)[
    0
]  # end_token의 ID를 인코딩합니다.

# Stopping criteria 설정
stopping_criteria = StoppingCriteriaList(
    [StopOnToken(stop_token_id)]
)  # 정지 조건을 설정합니다.

(모델 실행해보기 예시 1)


In [None]:
inputs = tokenizer(
    [
        alpaca_prompt.format(
            "랭체인 튜토리얼 공부할만한 사이트가 없어 아쉽습니다.",  # 지시사항
            "",  # 출력 - 생성을 위해 이 부분을 비워둡니다!
        )
    ],
    return_tensors="pt",
).to("cuda")


text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수를 설정합니다.
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
)

<|begin_of_text|>Below are instructions that describe the assignment. Write a complete answer to the positive and negative sentiment analysis of the given Korean sentences.

### Instruction:
랭체인 튜토리얼 공부할만한 사이트가 없어 아쉽습니다.

### Response:
Sentiment: negative, Probability: 0.2, Positive Topics:, Negative Topics: 사이트,랭,튜토리얼<|end_of_text|>


(예시 3)


In [None]:
inputs = tokenizer(
    [
        alpaca_prompt.format(
            "피보나치 수열을 은 어렵습니다.",  # 지시사항
            "",  # 출력 - 앞부분의 힌트 제공 예시
        )
    ],
    return_tensors="pt",
).to("cuda")


text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수를 설정합니다.
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
)

<|begin_of_text|>Below are instructions that describe the assignment. Write a complete answer to the positive and negative sentiment analysis of the given Korean sentences.

### Instruction:
피보나치 수열을 은 어렵습니다.

### Response:
Sentiment: negative, Probability: 0.2, Positive Topics:, Negative Topics: 피,보,나,치,수,열<|end_of_text|>


In [None]:
model.save_pretrained("Llama-3-Open-Ko-8B-Yg_senti1")  # 모델을 로컬에 저장합니다.


In [None]:
#model.push_to_hub("Younggooo/Yg_senti1", token = "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") # 모델을 허깅페이스에 저장 저장합니다.

저장


In [None]:

base_model = "beomi/Llama-3-Open-Ko-8B"  # 병합을 수행할 베이스 모델
huggingface_token = "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"  # HuggingFace 토큰
huggingface_repo = "Younggooo/Yg_senti1"  # 모델을 업로드할 repository
save_method = (
    "merged_16bit"  # "merged_4bit", "merged_4bit_forced", "merged_16bit", "lora"
)

### 옵션 1) 로컬에 저장


In [None]:
model.save_pretrained_merged(
    base_model,
    tokenizer,
    save_method=save_method,  # 저장 방식을 16비트 병합으로 설정
)

Unsloth: Kaggle/Colab has limited disk space. We need to delete the downloaded
model which will save 4-16GB of disk space, allowing you to save on Kaggle/Colab.
Unsloth: Will remove a cached repo with size 16.1G


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 55.58 out of 83.48 RAM for saving.


 47%|████▋     | 15/32 [00:00<00:00, 53.47it/s]We will save to Disk and not RAM now.
100%|██████████| 32/32 [00:16<00:00,  1.90it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Done.


### 옵션 2) HuggingFace 에 업로드


In [None]:
# Hub 에 업로드
model.push_to_hub_merged(
    huggingface_repo,
    tokenizer,
    save_method=save_method,
    token=huggingface_token,
)

Unsloth: You are pushing to hub, but you passed your HF username = Younggooo.
We shall truncate Younggooo/Yg_senti1 to Yg_senti1


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 55.52 out of 83.48 RAM for saving.


100%|██████████| 32/32 [00:18<00:00,  1.75it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...


model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Upload 4 LFS files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

Done.
Saved merged model to https://huggingface.co/Younggooo/Yg_senti1
