In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
!pip install -U accelerate==0.29.3	# PyTorch 모델의 학습 속도 향상과 추론 최적화를 위한 라이브러리
!pip install peft==0.10.0	#대규모 언어 모델을 효율적으로 미세 조정할 수 있는 PEFT 기술 구현
!pip install bitsandbytes==0.43.1	# 모델 매개변수 양자화로 메모리 사용량 절감
!pip install transformers==4.40.1
!pip install trl==0.8.6	# Transformer Reinforcement Learning의 약자로 강화 학습 기반 언어 모델 미세 조정 기술 구현
!pip install datasets==2.19.0

Collecting accelerate==0.29.3
  Downloading accelerate-0.29.3-py3-none-any.whl.metadata (18 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.10.0->accelerate==0.29.3)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.10.0->accelerate==0.29.3)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.10.0->accelerate==0.29.3)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch>=1.10.0->accelerate==0.29.3)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch>=1.10.0->accelerate==0.29.3)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nv

In [None]:
import os
import torch
from datasets import load_dataset

from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging,
)
from peft import LoraConfig
from trl import SFTTrainer

import huggingface_hub
huggingface_hub.login("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")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
# Hugging Face Basic Model 한국어 모델
base_model = "beomi/Llama-3-Open-Ko-8B"	# beomi님의 Llama3 한국어 파인튜닝 모델

# baemin_dataset_simple.json
hkcode_dataset = "/content/gdrive/MyDrive"


dataset = load_dataset(hkcode_dataset, split="train")

# dataset = dataset.select(range(200))

# 데이터 확인
print(len(dataset))
print(dataset[0])

Generating train split: 0 examples [00:00, ? examples/s]

496
{'SAMPLE_ID': 'TRAIN_000', 'Source': '1-1 2024 주요 재정통계 1권', 'Source_path': './train_source/1-1 2024 주요 재정통계 1권.pdf', 'Question': '2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?', 'Answer': '2024년 중앙정부 재정체계는 예산(일반·특별회계)과 기금으로 구분되며, 2024년 기준으로 일반회계 1개, 특별회계 21개, 기금 68개로 구성되어 있습니다.'}


In [None]:
if torch.cuda.get_device_capability()[0] >= 8:
    !pip install -qqq flash-attn
    # 고성능 Attention인 flash attention 2 을 사용
    attn_implementation = "flash_attention_2"
    # 데이터 타입을 bfloat16으로 설정해준다.
    # bfloat16은 메모리 사용량을 줄이면서도 계산의 정확성을 유지할 수 있는 데이터 타입이다.
    torch_dtype = torch.bfloat16
else:
    attn_implementation = "eager"
    torch_dtype = torch.float16

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m80.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.2/43.2 kB[0m [31m389.7 kB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for flash-attn (setup.py) ... [?25l[?25hdone


In [None]:
#QLoRA를 사용한 4비트 양자화 설정
# QLoRA config
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,	# 모델 가중치를 4비트로 로드
    bnb_4bit_quant_type="nf4",	# 양자화 유형으로는 “nf4”를 사용한다.
    bnb_4bit_compute_dtype=torch_dtype,	# 양자화를 위한 컴퓨팅 타입은 직전에 정의 했던 torch_dtype으로 지정 해준다.
    bnb_4bit_use_double_quant=False,	# 이중 양자화는 사용하지 않는다.
)

In [None]:
# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    quantization_config=quant_config,
    device_map={"": 0}	# 0번째 gpu 에 할당
)
# 모델의 캐시 기능을 비활성화 한다. 캐시는 이전 계산 결과를 저장하기 때문에 추론 속도를 높이는 역할을 한다. 그러나 메모리 사용량을 증가시킬 수 있기 때문에, 메모리부족 문제가 발생하지 않도록 하기 위해 비활성화 해주는 것이 좋다.
model.config.use_cache = False
# 모델의 텐서 병렬화(Tensor Parallelism) 설정을 1로 지정한다. 설정값 1은 단일 GPU에서 실행되도록 설정 해주는 의미이다.
model.config.pretraining_tp = 1

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/6 [00:00<?, ?it/s]

model-00001-of-00006.safetensors:   0%|          | 0.00/3.00G [00:00<?, ?B/s]

model-00002-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00003-of-00006.safetensors:   0%|          | 0.00/2.97G [00:00<?, ?B/s]

model-00004-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00005-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00006-of-00006.safetensors:   0%|          | 0.00/1.29G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

In [None]:
# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(
              base_model,
              trust_remote_code=True)
# 시퀀스 길이를 맞추기 위해 문장 끝에 eos_token를 사용
tokenizer.pad_token = tokenizer.eos_token
# 패딩 토큰을 시퀀스의 어느 쪽에 추가할지 설정
tokenizer.padding_side = "right"

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/301 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
peft_params = LoraConfig(
    lora_alpha=16,	# LoRA의 스케일링 계수를 설정 한다. 값이 클 수록 학습 속도가 빨라질 수 있지만, 너무 크게 되면 모델이 불안정해질 수 있다.
    lora_dropout=0.1,	#  과적합을 방지하기 위한 드롭아웃 확률을 설정한다. 여기서는 10%(0.1)의 드롭아웃 확률을 사용하여 모델의 일반화 성능을 향상시킨다.
    r=64,	# LoRA 어댑터 행렬의 Rank를 나타낸다. 랭크가 높을수록 모델의 표현 능력은 향상되지만, 메모리 사용량과 학습 시간이 증가한다. 일반적으로 4, 8, 16, 32, 64 등의 값을 사용한다.
    bias="none",	# LoRA 어댑터 행렬에 대한 편향을 추가할지 여부를 결정한다. “none”옵션을 사용하여 편향을 사용하지 않는다.
    task_type="CAUSAL_LM",	# LoRA가 적용될 작업 유형을 설정한다. CAUSAL_LM은 Causal Language Modeling 작업을 의미한다. 이는 특히 GPT 같은 텍스트 생성 모델에 주로 사용된다.
)

In [None]:
from datasets import Dataset
from trl import SFTTrainer
from sklearn.metrics import f1_score
from transformers import TrainingArguments

# 전처리 함수 정의
def preprocess_qa(example):
    return {
        'text': f"Question: {example['Question']} Answer: {example['Answer']}"
    }

# 데이터셋 전처리
processed_dataset = dataset.map(preprocess_qa, remove_columns=['Question', 'Answer'])

# F1 점수를 계산하는 함수 정의
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = predictions.argmax(axis=-1)  # 모델의 예측 값을 가져오기
    return {
        'f1': f1_score(labels, predictions, average='weighted')
    }

# 학습 매개변수 설정
training_params = TrainingArguments(
    output_dir="./results",
    num_train_epochs=10,  # 기본값은 3
    per_device_train_batch_size=4,  # 기본값은 8
    gradient_accumulation_steps=1,  # 기본값 1
    optim="paged_adamw_32bit",
    save_steps=25,
    logging_steps=25,
    learning_rate=2e-4,
    weight_decay=0.001,
    fp16=False,
    bf16=False,
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.03,
    group_by_length=True,
    lr_scheduler_type="constant",
    report_to="tensorboard"
)

# SFTTrainer 설정
trainer = SFTTrainer(
    model=model,
    train_dataset=processed_dataset,
    peft_config=peft_params,
    dataset_text_field="text",  # 전처리된 'text' 필드를 사용
    max_seq_length=512,  # 최대 시퀀스 길이 설정 (필요에 따라 수정 가능)
    tokenizer=tokenizer,
    args=training_params,
    packing=False,
    compute_metrics=compute_metrics  # 메트릭 계산 함수 추가
)

# 학습 시작
trainer.train()


Map:   0%|          | 0/496 [00:00<?, ? examples/s]

Map:   0%|          | 0/496 [00:00<?, ? examples/s]

Step,Training Loss
25,1.7448
50,1.6771
75,1.5983
100,1.641
125,1.5998
150,1.3364
175,1.3248
200,1.3317
225,1.2162
250,1.2704




TrainOutput(global_step=1240, training_loss=0.7628207322089903, metrics={'train_runtime': 1075.8815, 'train_samples_per_second': 4.61, 'train_steps_per_second': 1.153, 'total_flos': 1.8214095140388864e+16, 'train_loss': 0.7628207322089903, 'epoch': 10.0})

In [None]:
from trl import SFTTrainer

# 모델 저장할 경로
model_save_path = "/content/gdrive/MyDrive/model_f1score반영"

# 모델 저장
trainer.save_model(model_save_path)




In [None]:
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import time

# GPU 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 모델과 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained("/content/gdrive/MyDrive/model_f1score반영")
tokenizer = AutoTokenizer.from_pretrained("/content/gdrive/MyDrive/model_f1score반영")

# 모델을 GPU로 이동
model.to(device)

def generate_answer(question):
    # 입력을 토크나이저로 변환
    inputs = tokenizer(question, return_tensors="pt", truncation=True, padding=True, max_length=512)

    # 입력을 GPU로 이동
    inputs = {key: value.to(device) for key, value in inputs.items()}

    # 모델에 입력을 전달하여 출력을 얻는다
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=150,  # 필요한 출력 길이 조절
        num_beams=5,
        early_stopping=True
    )

    # 출력을 디코딩하여 문자열로 변환
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return answer

# 테스트 데이터와 제출 파일 로드
test_file_path = "/content/gdrive/MyDrive/Colab Notebooks/test.csv"
test_df = pd.read_csv(test_file_path)
submission_file_path = "/content/gdrive/MyDrive/Colab Notebooks/sample_submission.csv"
submission_df = pd.read_csv(submission_file_path)

# 시간 측정 시작
start_time = time.time()

# 답변 생성
submission_df['Answer'] = test_df['Question'].apply(generate_answer)

# 결과를 CSV 파일로 저장
submission_df.to_csv("/content/gdrive/MyDrive/Colab Notebooks/sample_submission2.csv", index=False)

# 시간 측정 종료
end_time = time.time()
elapsed_time = end_time - start_time

print(f"Total time taken: {elapsed_time:.2f} seconds")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]



model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/6 [00:00<?, ?it/s]

model-00001-of-00006.safetensors:   0%|          | 0.00/3.00G [00:00<?, ?B/s]

model-00002-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00003-of-00006.safetensors:   0%|          | 0.00/2.97G [00:00<?, ?B/s]

model-00004-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00005-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00006-of-00006.safetensors:   0%|          | 0.00/1.29G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
#이코드는 다른곳에 따로 실행요!
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# GPU 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 모델과 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained("/content/gdrive/MyDrive/model_f1score반영")
tokenizer = AutoTokenizer.from_pretrained("/content/gdrive/MyDrive/model_f1score반영")

# 모델을 GPU로 이동
model.to(device)

def generate_answer(question):
    # 입력을 토크나이저로 변환
    inputs = tokenizer(question, return_tensors="pt", truncation=True, padding=True, max_length=512)

    # 입력을 GPU로 이동
    inputs = {key: value.to(device) for key, value in inputs.items()}

    # 모델에 입력을 전달하여 출력을 얻는다
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=150,  # 필요한 출력 길이 조절
        num_beams=5,
        early_stopping=True
    )

    # 출력을 디코딩하여 문자열로 변환
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # 답변만 추출
    # 예시로 답변을 구분자로 나누고 첫 번째 답변만 추출합니다.
    # 필요에 따라 이 부분을 수정할 수 있습니다.
    if '?' in answer:
        # 가장 첫 번째 질문을 기준으로 답변을 분리
        answer = answer.split('?')[1].strip()  # '?' 뒤의 텍스트가 답변일 가능성이 높음
    else:
        # '?'가 없을 경우 전체 문자열을 답변으로 간주
        answer = answer.strip()

    return answer

# 테스트 데이터와 제출 파일 로드
test_file_path = "/content/gdrive/MyDrive/Colab Notebooks/test.csv"
test_df = pd.read_csv(test_file_path)
submission_file_path = "/content/gdrive/MyDrive/Colab Notebooks/sample_submission.csv"
submission_df = pd.read_csv(submission_file_path)

# 답변 생성 및 저장
submission_df['Answer'] = test_df['Question'].apply(generate_answer)
submission_df.to_csv("/content/gdrive/MyDrive/Colab Notebooks/sample_submission2.csv", index=False)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]



model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/6 [00:00<?, ?it/s]

model-00001-of-00006.safetensors:   0%|          | 0.00/3.00G [00:00<?, ?B/s]

model-00002-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00003-of-00006.safetensors:   0%|          | 0.00/2.97G [00:00<?, ?B/s]

model-00004-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00005-of-00006.safetensors:   0%|          | 0.00/2.94G [00:00<?, ?B/s]

model-00006-of-00006.safetensors:   0%|          | 0.00/1.29G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
import pandas as pd
import logging
import time
from concurrent.futures import ThreadPoolExecutor

# 로그 레벨을 CRITICAL로 설정하여 낮은 레벨의 로그를 숨깁니다
logging.basicConfig(level=logging.CRITICAL)

# 모델과 토크나이저 로드
model_path = "/content/gdrive/MyDrive/model_f1score반영"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 텍스트 생성 파이프라인 설정
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=100)

# 테스트 데이터와 제출 파일 로드
test_file_path = "/content/gdrive/MyDrive/Colab Notebooks/test.csv"
test_df = pd.read_csv(test_file_path)
submission_file_path = "/content/gdrive/MyDrive/Colab Notebooks/sample_submission.csv"
submission_df = pd.read_csv(submission_file_path)

# 답변 생성 함수
def generate_answer(question):
    # 입력을 토크나이저로 변환하고 텍스트 생성
    result = pipe(question)
    # 생성된 텍스트를 반환
    return result[0]['generated_text']

# 병렬 처리 함수
def parallel_generate_answers(questions):
    with ThreadPoolExecutor(max_workers=4) as executor:
        results = list(executor.map(generate_answer, questions))
    return results

# 시간 측정 시작
start_time = time.time()

# 질문에 대한 답변 생성
submission_df['Answer'] = parallel_generate_answers(test_df['Question'])

# 결과를 CSV 파일로 저장
submission_df.to_csv("/content/gdrive/MyDrive/Colab Notebooks/sample_submission3.csv", index=False)

# 시간 측정 종료
end_time = time.time()
elapsed_time = end_time - start_time

print(f"Total time taken: {elapsed_time:.2f} seconds")




Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
