In [None]:
# !pip install transformers
# !pip install peft
# !pip install pandas
# !pip install bitsandbytes

In [2]:
import os
import transformers
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AutoModelForCausalLM , PreTrainedTokenizerFast, AdamW, BitsAndBytesConfig, GPT2LMHeadModel, LlamaTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import BertTokenizerFast, GPT2LMHeadModel
import pandas as pd
import tqdm
import urllib.request
import bitsandbytes
from tqdm import tqdm
from transformers import pipeline

In [3]:
# 모델, 토크나이저 초기화
tokenizer = BertTokenizerFast.from_pretrained("kykim/gpt3-kor-small_based_on_gpt2")
model = GPT2LMHeadModel.from_pretrained("kykim/gpt3-kor-small_based_on_gpt2")

tokenizer_config.json:   0%|          | 0.00/120 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/344k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/621 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/526M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


In [4]:
# 데이터셋 및 데이터로더 정의
class ChatDataset(Dataset):
    def __init__(self, train_data, tokenizer):
        self.train_data = train_data
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.train_data)

    def __getitem__(self, idx):
        question = self.train_data.Question.iloc[idx]
        answer = self.train_data.Answer.iloc[idx]
        # <usr> 사용자의 입력 <sys> 챗봇의 답변
        encoded = self.tokenizer.encode_plus('<usr>' + question + '<sys>' + answer,
                                             add_special_tokens=True,
                                             padding='max_length',
                                             max_length=512,  # Set max_length according to your requirement
                                             return_tensors='pt',
                                             truncation=True)
        input_ids = encoded['input_ids'].squeeze()
        return input_ids
def collate_fn(batch):
    return torch.nn.utils.rnn.pad_sequence(batch, batch_first=True, padding_value=tokenizer.pad_token_id)

In [5]:
# 수정된 LoRA 설정: 대상 모듈 이름을 수정함
lora_config = LoraConfig(
    r=8,  # LoRA 업데이트 행렬의 순위
    lora_alpha=32,  # LoRA 스케일링 팩터
    target_modules=['c_proj', 'c_fc', 'c_attn'],  # 수정된 대상 모듈 이름
    lora_dropout=0.1,  # LoRA 드롭아웃 비율
    bias="none",  # LoRA의 편향 설정
    task_type="CAUSAL_LM"  # 태스크 유형
)

# 모델을 LoRA 파인 튜닝에 맞게 준비
model = prepare_model_for_kbit_training(model)
model = get_peft_model(model, lora_config)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 여러 GPU를 사용하기 위해 DataParallel 적용
if torch.cuda.device_count() > 1:
    print(f"Using {torch.cuda.device_count()} GPUs!")
    model = torch.nn.DataParallel(model)

model.to('cuda')  # 모델을 GPU로 이동

df = pd.read_csv('last_df.csv')
batch_size = 4
EPOCHS = 50
steps = len(df) // batch_size + 1
PATIENCE = 2  # 성능 개선이 없는 경우, 2 에포크 이후 학습 중단
best_loss = float('inf')
patience_counter = 0

optimizer = torch.optim.Adam(model.parameters(), lr=3e-5, eps=1e-08)


# 데이터셋과 데이터 로더 준비
chat_dataset = ChatDataset(df, tokenizer)
data_loader = DataLoader(chat_dataset, batch_size=batch_size, collate_fn=collate_fn)

# 옵티마이저 설정
optimizer = torch.optim.Adam(model.parameters(), lr=3e-5, eps=1e-08)
for epoch in range(EPOCHS):
    model.train()  # 모델을 학습 모드로 설정
    epoch_loss = 0

    for batch in tqdm.tqdm(data_loader):
        # 배치를 직접 장치로 이동
        batch = batch.to(device)
        labels = batch.clone()

        optimizer.zero_grad()

        # 모델의 입력과 레이블을 설정
        # 이 경우, 입력과 레이블이 같은 텐서를 사용합니다
        result = model(input_ids=batch, labels=labels)
        loss = result.loss
        batch_loss = loss.mean()

        batch_loss.backward()
        optimizer.step()

        epoch_loss += batch_loss.item()

    epoch_loss /= len(data_loader)

    print('[Epoch: {:>4}] cost = {:>.9}'.format(epoch + 1, epoch_loss))

    # 얼리 스톱 조건 검사
    if epoch_loss < best_loss:
        best_loss = epoch_loss
        patience_counter = 0  # 성능 개선 시 카운터 초기화
    else:
        patience_counter += 1  # 성능 개선 없음, 카운터 증가

    # Save the model and tokenizer after each epoch
    model_save_path = f'model_directory/model_epoch_{epoch + 1}'
    model.save_pretrained(model_save_path)
    tokenizer.save_pretrained(model_save_path)

    if patience_counter >= PATIENCE:
        print("Early stopping triggered. Training stopped.")
        break

100%|██████████| 1858/1858 [08:11<00:00,  3.78it/s]


[Epoch:    1] cost = 4.16658895


100%|██████████| 1858/1858 [08:12<00:00,  3.77it/s]


[Epoch:    2] cost = 3.4063942


100%|██████████| 1858/1858 [08:12<00:00,  3.77it/s]


[Epoch:    3] cost = 3.37092943


100%|██████████| 1858/1858 [08:12<00:00,  3.78it/s]


[Epoch:    4] cost = 3.35132941


100%|██████████| 1858/1858 [08:12<00:00,  3.78it/s]


[Epoch:    5] cost = 3.33737356


100%|██████████| 1858/1858 [08:12<00:00,  3.77it/s]


[Epoch:    6] cost = 3.32643672


100%|██████████| 1858/1858 [08:12<00:00,  3.78it/s]


[Epoch:    7] cost = 3.31778037


100%|██████████| 1858/1858 [08:12<00:00,  3.77it/s]


[Epoch:    8] cost = 3.31089515


100%|██████████| 1858/1858 [08:12<00:00,  3.78it/s]


[Epoch:    9] cost = 3.30519377


100%|██████████| 1858/1858 [08:11<00:00,  3.78it/s]


[Epoch:   10] cost = 3.3001786


100%|██████████| 1858/1858 [08:12<00:00,  3.78it/s]


[Epoch:   11] cost = 3.29604087


100%|██████████| 1858/1858 [08:11<00:00,  3.78it/s]


[Epoch:   12] cost = 3.29189254


100%|██████████| 1858/1858 [08:12<00:00,  3.78it/s]


[Epoch:   13] cost = 3.288178


100%|██████████| 1858/1858 [08:12<00:00,  3.77it/s]


[Epoch:   14] cost = 3.28450652


 41%|████      | 766/1858 [03:23<04:49,  3.77it/s]


KeyboardInterrupt: 

In [61]:
test = pd.read_csv('test.csv')

In [79]:
tokenizer = BertTokenizerFast.from_pretrained('kykim/gpt3-kor-small_based_on_gpt2', padding_side='left')

In [98]:
# '질문' 컬럼의 각 질문에 대해 답변 생성
def return_answer_by_chatbot(text_question):
    # 입력 텍스트를 토큰화하고 모델 입력 형태로 변환
    sent = '<usr>' + test_question + '<sys>'

    # 답변 생성
    pipe = pipeline('text-generation', model=model, tokenizer=tokenizer)
    output_sequences = pipe(
        text_inputs=[sent],
        max_length=300,
        truncation=True,
        temperature=0.9,
        top_k=1,
        top_p=0.9,
        repetition_penalty=1.2,
        do_sample=True,
        num_return_sequences=1,
        return_full_text=False)

    # 생성된 텍스트(답변) 저장
    for generated_sequence in output_sequences:
        decoded_text = generated_sequence[0]['generated_text']

        # '<usr>'과 '<sys>' 토큰 제거 후 출력
        answer_only = decoded_text.replace('<usr>', '').replace('<sys>', '').strip()
        answer_only = answer_only.replace('\n', '')
        print(answer_only)

In [99]:
return_answer_by_chatbot('도배지에 얼룩이 생기는 다양한 원인들에 대해서 자세히 알려주세요.')

The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'LlamaForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCausalLM', 'MegatronBertForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'MptForCausalLM', 'MusicgenForCausalLM', 'MvpForCausalLM', 'OpenLlamaForCausalLM', 'OpenAIGPTLMHeadModel', 'OPTForCausalLM', 'PegasusForCa

도배지의 녹은 흔적이 벽지에 남아 있을 경우, 이는 접착제나 페인트를 사용하여 복원이 가능합니다. 그러나 이러한 방법으로는 한계가 있습니다.


In [100]:
return_answer_by_chatbot('철근철골콘크리트 구조가 적용된 건물의 장단점은 무엇인가요?')

The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'LlamaForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCausalLM', 'MegatronBertForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'MptForCausalLM', 'MusicgenForCausalLM', 'MvpForCausalLM', 'OpenLlamaForCausalLM', 'OpenAIGPTLMHeadModel', 'OPTForCausalLM', 'PegasusForCa

일반적으로 도배에 사용되는 페인트의 종류는 다양합니다. 이러한 종류의 페인트는 주로 방청도료, 도막도장, 방수용 페인트 등이 있습니다. 그러나 대부분 사용 목적에 따라 다양한 종류가 있으며, 각각의 용도에 맞게 적합한 페인트를 선택하는 것이 중요합니다.


In [101]:
return_answer_by_chatbot('준불연재료는 무엇인가요? 그리고 유성페인트를 사용하는 것에 대한 부작용이 있을까요?')

The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'LlamaForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCausalLM', 'MegatronBertForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'MptForCausalLM', 'MusicgenForCausalLM', 'MvpForCausalLM', 'OpenLlamaForCausalLM', 'OpenAIGPTLMHeadModel', 'OPTForCausalLM', 'PegasusForCa

도배에 사용된 풀의 접착력이 약해 벽지가 쉽게 떨어질 수 있습니다. 또한, 이러한 현상은 습기와 온도 변화에 민감하게 반응하여 발생할 수도 있으므로 주의가 필요합니다.


In [102]:
return_answer_by_chatbot('흡음재 중 판 진동형의 작동 원리는 무엇인가요?')

The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'LlamaForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCausalLM', 'MegatronBertForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'MptForCausalLM', 'MusicgenForCausalLM', 'MvpForCausalLM', 'OpenLlamaForCausalLM', 'OpenAIGPTLMHeadModel', 'OPTForCausalLM', 'PegasusForCa

도배지 표면에 녹은 흔적이 나타나는 이유는 주로 습기로 인해 접착력이 저하되어, 벽지에 부착된 접착제가 쉽게 떨어질 수 있기 때문입니다. 또한, 이러한 현상은 습도가 높은 환경에서 더 자주 발생할 수 있습니다.


In [97]:
import getpass

# Hugging Face 토큰을 입력하세요.
huggingface_token = getpass.getpass("Enter your Hugging Face token: ")

# 환경 변수에 토큰 설정
%env HF_HOME=/root
%env HF_TOKEN=$huggingface_token

# 로그인
!huggingface-cli whoami
# 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

Enter your Hugging Face token:  ········


env: HF_HOME=/root
env: HF_TOKEN=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
/usr/bin/sh: 1: huggingface-cli: not found


In [9]:
# 모델 저장 이름!
model.push_to_hub("KY_HSTC")
# 토크나이저 저장 이름
tokenizer.push_to_hub("KY_HSTC")

adapter_model.safetensors:   0%|          | 0.00/4.73M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/coconut00/KY_HSTC/commit/c36d3a7635c469bf45ab3998d6cd2279f770cd32', commit_message='Upload tokenizer', commit_description='', oid='c36d3a7635c469bf45ab3998d6cd2279f770cd32', pr_url=None, pr_revision=None, pr_num=None)

In [43]:
model

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): GPT2LMHeadModel(
      (transformer): GPT2Model(
        (wte): Embedding(42000, 768)
        (wpe): Embedding(2048, 768)
        (drop): Dropout(p=0.1, inplace=False)
        (h): ModuleList(
          (0-11): 12 x GPT2Block(
            (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
            (attn): GPT2Attention(
              (c_attn): lora.Linear(
                (base_layer): Conv1D()
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.1, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=768, out_features=8, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=8, out_features=2304, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
              )
          

In [44]:
tokenizer

BertTokenizerFast(name_or_path='kykim/gpt3-kor-small_based_on_gpt2', vocab_size=42000, model_max_length=2048, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	4: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}