In [1]:
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments, pipeline
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from datasets import Dataset
import pandas as pd
import numpy as np
from tqdm.notebook import tqdm
import os
import re
import warnings
warnings.filterwarnings("ignore")

### preprocess

In [2]:
train_df = pd.read_csv('../train.csv')
train_df.head()

Unnamed: 0,id,질문_1,질문_2,category,답변_1,답변_2,답변_3,답변_4,답변_5
0,TRAIN_000,면진장치가 뭐야?,면진장치에 사용되는 주요 기술은 무엇인가요?,건축구조,면진장치란 지반에서 오는 진동 에너지를 흡수하여 건물에 주는 진동을 줄여주는 진동 ...,"면진장치란 건물의 지반에서 발생하는 진동 에너지를 흡수하여 건물을 보호하고, 진동을...",면진장치란 지반으로부터 발생하는 진동 에너지를 흡수하여 건물에 전달되는 진동을 줄여...,면진장치는 건물의 지반으로부터 오는 진동 에너지를 흡수하여 건물에 전달되는 진동을 ...,면진장치는 건물에 오는 지반 진동의 영향을 최대한으로 흡수하여 건물에 전달되는 진동...
1,TRAIN_001,내진설계의 종류 좀 알려줘,내진설계에는 어떤 종류가 있는지 자세히 알려주실 수 있나요?,건축구조,"내진 설계의 종류로 내진구조, 제진구조, 면진구조가 있습니다.","내진설계에는 내진구조, 제진구조, 면진구조가 있습니다. 내진구조는 건물 구조물이 지...","내진설계에는 주로 내진구조, 제진구조, 면진구조의 세 가지 종류가 있습니다. 이들은...","내진설계에는 주로 내진구조, 제진구조, 면진구조가 사용됩니다. 내진구조는 건물 구조...","내진 설계에는 다양한 종류가 있지만, 대표적으로 내진구조, 제진구조, 면진구조가 있..."
2,TRAIN_002,철골구조의 장점이 뭐야?,철골구조의 장점을 알려줘?,건축구조,철골구조는 건물의 외벽에는 그다지 하중이 걸리지 않기 때문에 고층 건물의 건축이 가...,철골구조의 장점은 건물의 외벽에는 그다지 하중이 걸리지 않기 때문에 고층 건물의 건...,철골구조의 장점은 건물의 외벽에 하중이 적게 걸리기 때문에 고층 건물의 건축이 용이...,"철골구조의 장점은 건물의 외벽이 하중이 걸리지 않아 공간 활용이 용이하고, 고층 건...",철골구조의 장점은 건물의 외벽에 하중이 크게 걸리지 않아 고층 건물을 건축할 수 있...
3,TRAIN_003,철골철근 콘크리트 구조가 뭐야?,철골철근 콘크리트 구조의 장점과 단점에는 무엇이 있을까요?,건축구조,"철근철골콘크리트는 철골과 철근, 그리고 콘크리트를 함께 사용하는 건축 구조입니다. ...","철골철근콘크리트 구조는 건축물을 지탱하는 주요 구조물인 철골과 철근, 그리고 콘크리...",철골철근 콘크리트 구조는 건축물을 지탱하기 위한 구조물에서 일반적으로 사용되는 방식...,"철골철근콘크리트 구조는 철골과 철근, 그리고 콘크리트를 함께 사용하여 만들어지는 건...","철골철근 콘크리트 구조는 강철 골조와 강철 철근, 그리고 콘크리트를 함께 사용하여 ..."
4,TRAIN_004,철골구조는 어떤 방식이 있어?,철골구조의 다양한 방식이 무엇인가요?,건축구조,철골구조는 일반철골구조와 경량철골구조가 있습니다.,철골구조는 일반철골구조와 경량철골구조가 있습니다. 일반철골구조는 주로 대형 건물이나...,철골구조는 주로 일반철골구조와 경량철골구조로 나뉘어집니다. 이들은 건축 시스템에 따...,철골구조는 주로 일반철골구조와 경량철골구조로 구분됩니다. 이외에도 최근에는 고층 건...,철골구조는 일반철골구조와 경량철골구조 두 가지 방식이 주로 사용됩니다. 일반철골구조...


In [3]:
# 공백이 3개 이상인 경우 한개로 바꿈
for i in tqdm(range(len(train_df)), total=len(train_df)):
    for answer in ['답변_1', '답변_2', '답변_3', '답변_4', '답변_5']:
        train_df.loc[i, answer] = re.sub(r'\s{2,}', ' ', train_df.loc[i, answer])

# Function to remove URLs and specific patterns (resourceName: and special characters) from a string
def remove_url_and_pattern(text):
    # Remove URLs
    text = re.sub(r'https?://\S+|www\.\S+', '', text)
    # Remove specific pattern and special characters
    text = re.sub(r'\(resourceName:\s?', '', text)
    # Remove special characters (keeping Korean characters, numbers, and basic punctuation)
    return text
answer_columns = ['답변_1', '답변_2', '답변_3', '답변_4', '답변_5']
for column in answer_columns:
    train_df[column] = train_df[column].apply(remove_url_and_pattern)

  0%|          | 0/644 [00:00<?, ?it/s]

In [4]:
pairs = []
for i, row in tqdm(train_df.iterrows(), total = len(train_df)):
    for a in range(1, 3):
        if '장점' in row[f'질문_{a}']:
#             print(i, row[f'질문_{a}'])
            for j in range(1, 6):
                if '장점' in row[f'답변_{j}']:
                    pair = pd.DataFrame([row[[f'질문_{a}', f'답변_{j}']]])
                    pair.columns = ['질문', '답변']
                    pairs.append(pair)
        elif '단점' in row[f'질문_{a}']:
#             print(i, row[f'질문_{a}'])
            for j in range(1, 6):
                if '단점' in row[f'답변_{j}']:
                    pair = pd.DataFrame([row[[f'질문_{a}', f'답변_{j}']]])
                    pair.columns = ['질문', '답변']
                    pairs.append(pair)
        else:
            for j in range(1, 6):
                pair = pd.DataFrame([row[[f'질문_{a}', f'답변_{j}']]])
                pair.columns = ['질문', '답변']
                pairs.append(pair)
# 모든 쌍을 하나의 DataFrame으로 결합
train = pd.concat(pairs, ignore_index=True)
train

  0%|          | 0/644 [00:00<?, ?it/s]

Unnamed: 0,질문,답변
0,면진장치가 뭐야?,면진장치란 지반에서 오는 진동 에너지를 흡수하여 건물에 주는 진동을 줄여주는 진동 ...
1,면진장치가 뭐야?,"면진장치란 건물의 지반에서 발생하는 진동 에너지를 흡수하여 건물을 보호하고, 진동을..."
2,면진장치가 뭐야?,면진장치란 지반으로부터 발생하는 진동 에너지를 흡수하여 건물에 전달되는 진동을 줄여...
3,면진장치가 뭐야?,면진장치는 건물의 지반으로부터 오는 진동 에너지를 흡수하여 건물에 전달되는 진동을 ...
4,면진장치가 뭐야?,면진장치는 건물에 오는 지반 진동의 영향을 최대한으로 흡수하여 건물에 전달되는 진동...
...,...,...
6297,"AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?","AD, PD에 면한 벽체 결로에 대한 대책은 단열재를 미실하게 시공하여 결로가 생기..."
6298,"AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?","AD, PD에 면한 벽체 결로에 대한 대책은 단열재를 미실하게 시공하여 결로가 생기..."
6299,"AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?","AD, PD에 면한 벽체 결로에 대한 대책은 단열재를 미실하게 시공하여 결로가 생기..."
6300,"AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?","AD, PD에 면한 벽체 결로에 대한 대책은 단열재를 미실하게 시공하여 결로가 생기..."


### train

In [5]:
output_dir = "koalpaca_finetuned_preprocess"
model_id = 'beomi/KoAlpaca-Polyglot-5.8B'
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config, device_map={"":0}) # 모델을 쪼개서 load함

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


bin C:\Users\user\anaconda3\Lib\site-packages\bitsandbytes\libbitsandbytes_cuda118.dll


Loading checkpoint shards:   0%|          | 0/13 [00:00<?, ?it/s]

You are calling `save_pretrained` to a 4-bit converted model, but your `bitsandbytes` version doesn't support it. If you want to save 4-bit models, make sure to have `bitsandbytes>=0.41.3` installed.


In [6]:
model

GPTNeoXForCausalLM(
  (gpt_neox): GPTNeoXModel(
    (embed_in): Embedding(30080, 4096)
    (emb_dropout): Dropout(p=0.0, inplace=False)
    (layers): ModuleList(
      (0-27): 28 x GPTNeoXLayer(
        (input_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
        (post_attention_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
        (post_attention_dropout): Dropout(p=0.0, inplace=False)
        (post_mlp_dropout): Dropout(p=0.0, inplace=False)
        (attention): GPTNeoXAttention(
          (rotary_emb): GPTNeoXRotaryEmbedding()
          (query_key_value): Linear4bit(in_features=4096, out_features=12288, bias=True)
          (dense): Linear4bit(in_features=4096, out_features=4096, bias=True)
          (attention_dropout): Dropout(p=0.0, inplace=False)
        )
        (mlp): GPTNeoXMLP(
          (dense_h_to_4h): Linear4bit(in_features=4096, out_features=16384, bias=True)
          (dense_4h_to_h): Linear4bit(in_features=16384, out_features=

In [7]:
tokenizer

PreTrainedTokenizerFast(name_or_path='beomi/KoAlpaca-Polyglot-5.8B', vocab_size=30000, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'eos_token': '<|endoftext|>', 'pad_token': '<|endoftext|>', 'additional_special_tokens': ['<|endoftext|>', '<|sep|>', '<|acc|>', '<|tel|>', '<|rrn|>']}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<|unused0|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<|unused1|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("<|sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	30000: AddedToken("<|acc|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	30001: AddedToken("<|tel

In [12]:
dataset = []
for question, answer in tqdm(zip(train['질문'], train['답변']), total = len(train)):
    dataset.append(f"### 질문: {question}\n\n### 답변: {answer}<|endoftext|>")
dataset = Dataset.from_dict({"text": dataset})
# dataset = dataset.shuffle()
dataset

  0%|          | 0/6302 [00:00<?, ?it/s]

Dataset({
    features: ['text'],
    num_rows: 6302
})

In [13]:
# 토큰화 진행
dataset = dataset.map(lambda samples: tokenizer(samples["text"]), batched=True)

Map:   0%|          | 0/6302 [00:00<?, ? examples/s]

In [14]:
dataset

Dataset({
    features: ['text', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 6302
})

In [15]:
lora_config_dict = {
    'lora_r' : 16,
    'lora_alpha' : 32,
    'lora_dropout' : 0.05,
    'lora_bias' : "none",
    'lora_task_type' : "CAUSAL_LM",
    'target_modules': ["query_key_value"]
}

In [16]:
peft_config = LoraConfig(
            lora_alpha=lora_config_dict['lora_alpha'],
            lora_dropout=lora_config_dict['lora_dropout'],
            r=lora_config_dict['lora_r'],
            bias=lora_config_dict['lora_bias'],
            task_type=lora_config_dict['lora_task_type'],
            target_modules = lora_config_dict['target_modules']
        )

model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)
model = get_peft_model(model, peft_config)

model.print_trainable_parameters()

trainable params: 7,340,032 || all params: 5,892,399,104 || trainable%: 0.12456780116976951


In [17]:
model

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): GPTNeoXForCausalLM(
      (gpt_neox): GPTNeoXModel(
        (embed_in): Embedding(30080, 4096)
        (emb_dropout): Dropout(p=0.0, inplace=False)
        (layers): ModuleList(
          (0-27): 28 x GPTNeoXLayer(
            (input_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
            (post_attention_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
            (post_attention_dropout): Dropout(p=0.0, inplace=False)
            (post_mlp_dropout): Dropout(p=0.0, inplace=False)
            (attention): GPTNeoXAttention(
              (rotary_emb): GPTNeoXRotaryEmbedding()
              (query_key_value): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=12288, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                

In [18]:
train_param = {
    'num_train_epochs': 3,
    'per_device_train_batch_size': 2,
#     'per_device_eval_batch_size': 4,
    'gradient_accumulation_steps': 1,
    'optim': "paged_adamw_8bit",
    'save_steps': 1000,
    'logging_steps': 10,
    'learning_rate': 0.0001,
    'weight_decay':  0.01,
    'max_grad_norm': 1,
    'warmup_ratio': 0.06,
    'group_by_length' : False,
    'lr_scheduler_type': 'cosine'
}

training_args = TrainingArguments(
            output_dir=output_dir,
            num_train_epochs=train_param['num_train_epochs'],
            per_device_train_batch_size=train_param['per_device_train_batch_size'],
#             per_device_eval_batch_size=train_param['per_device_eval_batch_size'],
            gradient_accumulation_steps=train_param['gradient_accumulation_steps'],
            optim=train_param['optim'],
            save_steps=train_param['save_steps'],
            logging_steps=train_param['logging_steps'],
            learning_rate=train_param['learning_rate'],
            weight_decay=train_param['weight_decay'],
            # fp16=kwargs['fp16'],
            # bf16=kwargs['bf16'],
            max_grad_norm=train_param['max_grad_norm'],
            # max_steps=kwargs['max_steps'],
            warmup_ratio=train_param['warmup_ratio'],
            group_by_length=train_param['group_by_length'],
            lr_scheduler_type=train_param['lr_scheduler_type'],
#             report_to="tensorboard"
        )

In [19]:
# needed for gpt-neo-x tokenizer
tokenizer.pad_token = tokenizer.eos_token

trainer = transformers.Trainer(
    model=model,
    train_dataset=dataset,
    args=training_args,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)
model.config.use_cache = False  # silence the warnings. Please re-enable for inference!
trainer.train()

Step,Training Loss
10,3.4692
20,3.5362
30,3.7221
40,3.6335
50,3.6206
60,3.3651
70,3.5967
80,3.4639
90,3.5579
100,3.1408


TrainOutput(global_step=9453, training_loss=1.1388473651730218, metrics={'train_runtime': 20753.992, 'train_samples_per_second': 0.911, 'train_steps_per_second': 0.455, 'total_flos': 9.10182484966441e+16, 'train_loss': 1.1388473651730218, 'epoch': 3.0})

In [20]:
trainer.model.save_pretrained(output_dir)