In [1]:
from unsloth import FastLanguageModel
import torch
import os
import json
from datasets import load_dataset, Dataset, concatenate_datasets
import pandas as pd

  from .autonotebook import tqdm as notebook_tqdm


Unsloth: OpenAI failed to import - ignoring for now.
🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


In [2]:
max_seq_length = 2048
dtype = None  # None으로 지정할 경우 해당 컴퓨팅 유닛에 알맞은 dtype으로 저장됩니다.
load_in_4bit = True  # 메모리 사용량을 줄이기 위해서는 4bit 양자화를 사용하실 것을 권장합니다.

# 모델 및 토크나이저 선언
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="Qwen/Qwen2.5-7B-Instruct",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    # token = "hf_...", # gated model을 사용할 경우 허깅페이스 토큰을 입력해주시길 바라겠습니다.
)

==((====))==  Unsloth 2024.10.7: Fast Qwen2 patching. Transformers = 4.44.2.
   \\   /|    GPU: NVIDIA A100 80GB PCIe MIG 3g.40gb. Max memory: 39.5 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.5.1+cu124. CUDA = 8.0. CUDA Toolkit = 12.4.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Unsloth: We fixed a gradient accumulation bug, but it seems like you don't have the latest transformers version!
Please update transformers, TRL and unsloth via:
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


In [3]:
# LoRA Adapter 선언
model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # 0을 넘는 숫자를 선택하세요. 8, 16, 32, 64, 128이 추천됩니다.
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],  # target module도 적절하게 조정할 수 있습니다.
    lora_alpha=16,
    lora_dropout=0,  # 어떤 값이든 사용될 수 있지만, 0으로 최적화되어 있습니다.
    bias="none",  # 어떤 값이든 사용될 수 있지만, "none"으로 최적화되어 있습니다.
    use_gradient_checkpointing="unsloth",  # 매우 긴 context에 대해 True 또는 "unsloth"를 사용하십시오.
    random_state=42,
    use_rslora=False,
    loftq_config=None,
)


Unsloth 2024.10.7 patched 28 layers with 0 QKV layers, 28 O layers and 28 MLP layers.


In [4]:
prompt_format = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token

In [5]:
def formatting_prompts_func(examples):
    prompts = examples["prompt"]
    outputs = examples["response"]
    texts = []
    for prompt, output in zip(prompts, outputs):
        text = prompt_format.format(prompt, output) + EOS_TOKEN  # 마지막에 eos token을 추가해줌으로써 모델이 출력을 끝마칠 수 있게 만들어 줍니다.
        texts.append(text)
    return {"formatted_text": texts}

In [6]:
def load_local_json_folder(folder_path):
    data = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".json"):
                file_path = os.path.join(root, file)
                with open(file_path, 'r', encoding='utf-8') as f:
                    try:
                        json_data = json.load(f)
                    except json.JSONDecodeError as e:
                        print(f"파일 {file}에서 JSON 디코딩 오류: {e}")
                        continue

                # JSON 파일의 다양한 구조 처리
                if isinstance(json_data, list):  # 리스트 형태
                    for item in json_data:
                        if isinstance(item, dict):  # 딕셔너리일 경우
                            prompt = item.get("question", "")
                            response = item.get("answer", "")
                        elif isinstance(item, str):  # 문자열일 경우
                            prompt = item
                            response = ""
                        else:
                            continue  # 다른 형식의 데이터는 건너뜁니다
                        data.append({"prompt": prompt, "response": response})

                elif isinstance(json_data, dict):  # 단일 딕셔너리
                    prompt = json_data.get("question", "")
                    response = json_data.get("answer", "")
                    data.append({"prompt": prompt, "response": response})

                elif isinstance(json_data, str):  # 단일 문자열
                    prompt = json_data
                    response = ""
                    data.append({"prompt": prompt, "response": response})

                else:
                    print(f"파일 {file}에서 알 수 없는 데이터 타입: {type(json_data)}")
    return Dataset.from_pandas(pd.DataFrame(data))

In [7]:
# 2-1. 시행규칙과 생성문제 데이터 로드
dataset1 = load_local_json_folder("시행규칙과생성문제")

# 2-2. MetaMathQA-40K 수학 데이터셋 로드
dataset2 = load_dataset("meta-math/MetaMathQA-40K", split="train")
dataset2 = dataset2.map(lambda x: {"prompt": x["query"], "response": x["response"]}, remove_columns=dataset2.column_names)

# 2-3. 한영 번역 데이터셋 로드
dataset3 = load_dataset("kuotient/reddit_enko_translation_preference", split="train")
dataset3 = dataset3.map(lambda x: {"prompt": x["prompt"], "response": x["rejected"]}, remove_columns=dataset3.column_names)

# 2-4. 한중 번역 데이터 로드
with open("한중말뭉치_전처리.json", 'r', encoding='utf-8') as f:
    data = json.load(f)
    data = [{"prompt": item["한국어"], "response": item["중국어"]} for item in data]
dataset4 = Dataset.from_pandas(pd.DataFrame(data))

# 2-5. 표 질의응답 데이터 로드
with open("표질의응답_전처리.json", 'r', encoding='utf-8') as f:
    data = json.load(f)
    data = [{"prompt": item["question"], "response": item["answer"]} for item in data]
dataset5 = Dataset.from_pandas(pd.DataFrame(data))

# 2-6. 대기업 100개 데이터 로드
try:
    with open("대기업100개.json", 'r', encoding='utf-8') as f:
        data = json.load(f)

        # 파일이 'companies' 키를 포함하는 딕셔너리 형태인지 확인
        if "companies" in data and isinstance(data["companies"], list):
            data = [{"prompt": item.get("company", ""), "response": item.get("content", "")} for item in data["companies"] if isinstance(item, dict)]
        else:
            print("Error: '대기업100개.json' 파일이 예상한 구조가 아닙니다.")
            data = []  # 데이터가 예상한 구조가 아닐 경우 빈 리스트로 초기화
except json.JSONDecodeError as e:
    print(f"JSON 디코딩 오류: {e}")
    data = []  # 오류가 발생하면 빈 리스트로 초기화

# 데이터셋 생성
dataset6 = Dataset.from_pandas(pd.DataFrame(data))

# 2-7. 숫자연산 기계독해 데이터 로드
csv_path = "숫자연산기계독해데이터.csv"
df = pd.read_csv(csv_path, encoding='utf-8-sig')

# `passage`와 `question`을 합쳐 `prompt`로 만들고, `answer`를 `response`로 설정
df['prompt'] = df['passage'] + " " + df['question']
df['response'] = df['answer']

# 필요한 컬럼만 선택
df = df[['prompt', 'response']]

# 데이터셋으로 변환
dataset7 = Dataset.from_pandas(df)

# 모든 데이터셋 결합
all_datasets = [dataset1, dataset2, dataset3, dataset4, dataset5, dataset6, dataset7]
combined_dataset = concatenate_datasets(all_datasets)

# 포맷팅 함수 적용
combined_dataset = combined_dataset.map(formatting_prompts_func, batched=True, remove_columns=["prompt", "response"])

Map: 100%|██████████| 40000/40000 [00:02<00:00, 16779.22 examples/s]
Map: 100%|██████████| 2124/2124 [00:00<00:00, 8508.97 examples/s]
Map: 100%|██████████| 1069772/1069772 [00:06<00:00, 158004.91 examples/s]


In [8]:
# 학습 설정
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported
from tqdm import tqdm
import time

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=combined_dataset,
    dataset_text_field="formatted_text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=False,  # True로 설정하면 짧은 텍스트 데이터에 대해서는 더 빠른 학습 속도로를 보여줍니다.
    args=TrainingArguments(  # TrainingArguments는 자신의 학습 환경과 기호에 따라 적절하게 설정하면 됩니다.
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=5,
        # num_train_epochs=1,
        max_steps=200,
        learning_rate=1e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=42,
        output_dir="outputs",
    ),
)

Map (num_proc=2): 100%|██████████| 1069772/1069772 [02:39<00:00, 6713.96 examples/s]
max_steps is given, it will override any value given in num_train_epochs


In [9]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 1,069,772 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 200
 "-____-"     Number of trainable parameters = 40,370,176


**** Unsloth: Please use our fixed gradient_accumulation_steps by updating transformers, TRL and Unsloth!
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


Step,Training Loss
1,2.8827
2,3.5973
3,3.6397
4,2.825
5,3.0109
6,2.2083
7,2.8273
8,2.627
9,2.2068
10,2.3991


In [10]:
model.push_to_hub_merged("llmflow/krx_Qwen2_7B_Instruct_v6_1", tokenizer, save_method = "merged_16bit", token ='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') # 개인 huggingface token을 사용하여 업로드할 수 있습니다.

Unsloth: You are pushing to hub, but you passed your HF username = llmflow.
We shall truncate llmflow/krx_Qwen2_7B_Instruct_v6_1 to krx_Qwen2_7B_Instruct_v6_1


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 30.13 out of 48.0 RAM for saving.


100%|██████████| 28/28 [00:01<00:00, 25.79it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...


model-00001-of-00004.safetensors:   0%|          | 0.00/4.88G [00:00<?, ?B/s]
[A

[A[A


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 524k/4.88G [00:00<30:51, 2.63MB/s]

[A[A
model-00001-of-00004.safetensors:   0%|          | 11.9M/4.88G [00:00<01:49, 44.4MB/s]

[A[A
[A

[A[A
[A
[A
[A
model-00001-of-00004.safetensors:   0%|          | 17.3M/4.88G [00:01<07:11, 11.3MB/s]

model-00001-of-00004.safetensors:   0%|          | 21.5M/4.88G [00:01<05:49, 13.9MB/s]

model-00001-of-00004.safetensors:   1%|          | 24.6M/4.88G [00:01<05:03, 16.0MB/s]

[A[A
[A
model-00001-of-00004.safetensors:   1%|          | 27.7M/4.88G [00:02<06:45, 11.9MB/s]
model-00001-of-00004.safetensors:   1%|          | 30.0M/4.88G [00:02<07:55, 10.2MB/s]

[A[A

model-00001-of-00004.safetensors:   1%|          | 42.5M/4.88G [00:03<07:40, 10.5MB/s]

[A[A

[A[A

[A[A
[A
model-00001-of-00004.safetensors:   1%|          | 45.5M/4.88G [00:04<13:20, 6.03MB/s]

[A[A
[A

[A[A
[A


Done.
Saved merged model to https://huggingface.co/llmflow/krx_Qwen2_7B_Instruct_v6_1
