In [None]:
# 1. 라이브러리 Import


import os
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"

# ================================================================
# 1. 필수 라이브러리 설치 및 버전 확인
# ================================================================
!pip install --upgrade pip

# PyTorch 2.0.1 + CUDA 11.8 (환경에 맞게)
!pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

# Transformers, Datasets, Sentencepiece (KoGPT2에 필요)
!pip install transformers==4.38.3
!pip install datasets==2.17.0
!pip install sentencepiece==0.1.99


Collecting pip
  Downloading pip-25.0.1-py3-none-any.whl.metadata (3.7 kB)
Downloading pip-25.0.1-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m45.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.1.2
    Uninstalling pip-24.1.2:
      Successfully uninstalled pip-24.1.2
Successfully installed pip-25.0.1
Looking in indexes: https://download.pytorch.org/whl/cu118
Collecting torch==2.0.1+cu118
  Downloading https://download.pytorch.org/whl/cu118/torch-2.0.1%2Bcu118-cp311-cp311-linux_x86_64.whl (2267.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/2.3 GB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting torchvision==0.15.2+cu118
  Downloading https://download.pytorch.org/whl/cu118/torchvision-0.15.2%2Bcu118-cp311-cp311-linux_x86_64.whl (6.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
##############################
# 1) 라이브러리 설치 (Colab)
##############################

!pip install --upgrade pip

# PyTorch 2.0.1 + CUDA 11.8 (환경에 맞게 수정 가능)
!pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

# Transformers, Datasets, Sentencepiece (KoGPT2에 필요)
!pip install transformers==4.38.3
!pip install datasets==2.17.0
!pip install sentencepiece==0.1.99


##############################
# 2) Google Drive 연동 (선택)
##############################


import json
import torch
from torch.utils.data import Dataset, random_split
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    Trainer,
    TrainingArguments,
    DataCollatorForLanguageModeling,
    EarlyStoppingCallback
)

########################################################################
# 3) KoGPT 파인튜닝용 Dataset
#    - prompt(질문) 부분은 label=-100으로 마스킹하여 response만 학습
########################################################################
class KoGPTFineTuneDataset(Dataset):
    """
    KoGPT 파인튜닝용 Dataset
    - prompt에 "emotional:", "rational:"과 같은 스타일이 붙어 있으면 <emotion>, <rational>로 대응
    - prompt 부분은 예측 대상이 아니므로 label=-100으로 마스킹
    """
    def __init__(self, data_list, tokenizer, max_length=512):
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.samples = []

        for sample in data_list:
            prompt_text = sample["prompt"]
            target_text = sample["target"]

            # 1) 스타일 토큰 분기
            if prompt_text.startswith("emotional:"):
                style_token = "<emotion>"
                prompt_text = prompt_text.replace("emotional:", "").strip()
            elif prompt_text.startswith("rational:"):
                style_token = "<rational>"
                prompt_text = prompt_text.replace("rational:", "").strip()
            else:
                style_token = "<neutral>"

            # 2) 대화 형식: <style><usr>질문</usr><sys>답변</sys>
            full_text = f"{style_token}<usr>{prompt_text}</usr><sys>{target_text}</sys>"

            # 3) 토크나이징
            tokenized = self.tokenizer(
                full_text,
                truncation=True,
                max_length=self.max_length,
                padding="max_length",
                return_tensors="pt",
            )

            # 4) input_ids, attention_mask 추출
            input_ids = tokenized["input_ids"].squeeze()
            attention_mask = tokenized["attention_mask"].squeeze()

            # 5) labels 초기화 (처음에는 input_ids 전체 복사)
            labels = input_ids.clone()

            # (중요) "<sys>" 토큰 이후만 label로 사용
            # "<sys>" 토큰의 토큰 ID 시퀀스를 얻어서, input_ids 내 위치 찾기
            sys_token_str = self.tokenizer.encode("<sys>", add_special_tokens=False)
            sys_start_pos = None

            # 간단 구현: sys_token_str이 시작되는 인덱스를 탐색
            for i in range(len(input_ids) - len(sys_token_str) + 1):
                if (input_ids[i : i + len(sys_token_str)] == torch.tensor(sys_token_str, dtype=torch.long)).all():
                    # "<sys>"가 끝난 직후부터 실제 답변 토큰이 시작된다고 가정
                    sys_start_pos = i + len(sys_token_str)
                    break

            # sys_start_pos 이전은 -100으로 마스킹 (prompt 부분)
            if sys_start_pos is not None:
                labels[:sys_start_pos] = -100
            else:
                # 만약 <sys>를 찾지 못했다면 전부 -100 또는 별도 처리
                labels[:] = -100

            self.samples.append({
                "input_ids": input_ids,
                "attention_mask": attention_mask,
                "labels": labels
            })

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, idx):
        return self.samples[idx]


#######################################################
# 4) 파인튜닝 함수: train_kogpt2
#######################################################
def train_kogpt2(
    data_path,
    model_name="skt/kogpt2-base-v2",
    output_dir="./results",
    num_train_epochs=3,
    train_batch_size=2,
    eval_batch_size=2,
    max_length=512,
    learning_rate=5e-5
):
    """
    KoGPT2 파인튜닝 함수
    - prompt 부분은 label=-100 처리하여 response만 학습
    - style 토큰 (<emotion>, <rational>, <neutral>) 추가
    """
    # 1) 데이터 로드
    with open(data_path, "r", encoding="utf-8") as f:
        raw_data = json.load(f)

    # 2) 토크나이저 & 모델 로드
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # 스페셜 토큰 추가
    special_tokens = {
        "additional_special_tokens": ["<emotion>", "<rational>", "<neutral>", "<usr>", "<sys>"]
    }
    num_added = tokenizer.add_special_tokens(special_tokens)
    print(f"[INFO] 추가된 토큰 개수: {num_added}")

    # KoGPT2는 pad_token이 없으므로 eos_token을 활용
    tokenizer.pad_token = tokenizer.eos_token

    model = AutoModelForCausalLM.from_pretrained(model_name)
    model.config.pad_token_id = tokenizer.eos_token_id

    # 스페셜 토큰 추가로 인한 임베딩 리사이즈
    model.resize_token_embeddings(len(tokenizer))

    # 3) Dataset 구성
    dataset = KoGPTFineTuneDataset(raw_data, tokenizer, max_length=max_length)

    # 4) train/validation split
    train_size = int(len(dataset) * 0.8)
    val_size = len(dataset) - train_size
    train_dataset, val_dataset = random_split(dataset, [train_size, val_size])

    # 5) DataCollator (GPT류 → mlm=False)
    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer,
        mlm=False
    )

    # 6) TrainingArguments
    # 여기서 lr_scheduler, warmup_steps, weight_decay 등을 적용해봄
    training_args = TrainingArguments(
    output_dir=output_dir,
    overwrite_output_dir=True,
    num_train_epochs=num_train_epochs,
    per_device_train_batch_size=train_batch_size,
    per_device_eval_batch_size=eval_batch_size,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    logging_steps=100,
    learning_rate=learning_rate,
    warmup_steps=100,
    lr_scheduler_type="cosine",
    weight_decay=0.01,
    fp16=False,
    report_to="none",

    # -------------------------- (중요) --------------------------
    load_best_model_at_end=True,            # 에러 해결
    metric_for_best_model="eval_loss",      # 어떤 metric을 기준으로 best model을 판단할 것인지
    greater_is_better=False                 # loss는 낮을수록 좋으므로 False
    # -----------------------------------------------------------
)


    # 7) Trainer 생성
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        data_collator=data_collator,
        callbacks=[EarlyStoppingCallback(early_stopping_patience=2)]  # (선택) Early Stopping
    )

    # 8) 디버깅용: 샘플 forward pass (1개 샘플)
    debug_sample = train_dataset[0]
    input_ids = debug_sample["input_ids"].unsqueeze(0).to(model.device)
    attention_mask = debug_sample["attention_mask"].unsqueeze(0).to(model.device)
    labels = debug_sample["labels"].unsqueeze(0).to(model.device)

    with torch.no_grad():
        _outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            labels=labels
        )
    print("[DEBUG] 단일 샘플 forward pass 성공! (loss: {:.4f})".format(_outputs.loss.item()))

    # 9) 학습 시작
    print("[INFO] 학습을 시작합니다...")
    trainer.train()

    # 10) 모델 & 토크나이저 저장
    trainer.save_model(output_dir)
    tokenizer.save_pretrained(output_dir)
    print("Training complete. Model saved at:", output_dir)


################################################################
# 5) 직접 학습 실행 예시
################################################################
train_kogpt2(
    data_path="/content/finally.json",  # 사용자 json 경로에 맞게 수정
    model_name="skt/kogpt2-base-v2",
    output_dir="/content/kogpt2-finetunedd",
    num_train_epochs=10,
    train_batch_size=4,
    eval_batch_size=4,
    max_length=512,
    learning_rate=2e-5
)




Looking in indexes: https://download.pytorch.org/whl/cu118
[31mERROR: Ignored the following yanked versions: 4.14.0, 4.25.0, 4.46.0[0m[31m
[0m[31mERROR: Could not find a version that satisfies the requirement transformers==4.38.3 (from versions: 0.1, 2.0.0, 2.1.0, 2.1.1, 2.2.0, 2.2.1, 2.2.2, 2.3.0, 2.4.0, 2.4.1, 2.5.0, 2.5.1, 2.6.0, 2.7.0, 2.8.0, 2.9.0, 2.9.1, 2.10.0, 2.11.0, 3.0.0, 3.0.1, 3.0.2, 3.1.0, 3.2.0, 3.3.0, 3.3.1, 3.4.0, 3.5.0, 3.5.1, 4.0.0rc1, 4.0.0, 4.0.1, 4.1.0, 4.1.1, 4.2.0, 4.2.1, 4.2.2, 4.3.0rc1, 4.3.0, 4.3.1, 4.3.2, 4.3.3, 4.4.0, 4.4.1, 4.4.2, 4.5.0, 4.5.1, 4.6.0, 4.6.1, 4.7.0, 4.8.0, 4.8.1, 4.8.2, 4.9.0, 4.9.1, 4.9.2, 4.10.0, 4.10.1, 4.10.2, 4.10.3, 4.11.0, 4.11.1, 4.11.2, 4.11.3, 4.12.0, 4.12.1, 4.12.2, 4.12.3, 4.12.4, 4.12.5, 4.13.0, 4.14.1, 4.15.0, 4.16.0, 4.16.1, 4.16.2, 4.17.0, 4.18.0, 4.19.0, 4.19.1, 4.19.2, 4.19.3, 4.19.4, 4.20.0, 4.20.1, 4.21.0, 4.21.1, 4.21.2, 4.21.3, 4.22.0, 4.22.1, 4.22.2, 4.23.0, 4.23.1, 4.24.0, 4.25.1, 4.26.0, 4.26.1, 4.27.0, 4.27.1,

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

[INFO] 추가된 토큰 개수: 3


pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


model.safetensors:   0%|          | 0.00/513M [00:00<?, ?B/s]

The new embeddings will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.


[DEBUG] 단일 샘플 forward pass 성공! (loss: 12.7098)
[INFO] 학습을 시작합니다...


Epoch,Training Loss,Validation Loss
1,2.6603,2.519295
2,2.2858,2.394047
3,1.933,2.342737
4,1.6716,2.324888
5,1.4423,2.315522
6,1.2816,2.319165
7,1.1588,2.318728


There were missing keys in the checkpoint model loaded: ['lm_head.weight'].


Training complete. Model saved at: /content/kogpt2-finetunedd


In [None]:
from huggingface_hub import login

# 여기에 복사한 Hugging Face 토큰을 입력하세요.
HUGGINGFACE_TOKEN = "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"

# 로그인
login(token=HUGGINGFACE_TOKEN)


In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from huggingface_hub import HfApi

# 모델 및 토크나이저 로드
model_dir = "/content/kogpt2-finetunedd"  # 학습된 모델 경로
model = AutoModelForCausalLM.from_pretrained(model_dir)
tokenizer = AutoTokenizer.from_pretrained(model_dir)

# Hugging Face 저장소 이름 (본인의 Hugging Face ID를 포함해야 함)
repo_name = "Chanjeans/tfchatbot_5"

# 모델을 Hugging Face Hub에 업로드
model.push_to_hub(repo_name)
tokenizer.push_to_hub(repo_name)


model.safetensors:   0%|          | 0.00/501M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/Chanjeans/tfchatbot_5/commit/0599273c48a629b028e304aa531bd8792e97ec60', commit_message='Upload tokenizer', commit_description='', oid='0599273c48a629b028e304aa531bd8792e97ec60', pr_url=None, repo_url=RepoUrl('https://huggingface.co/Chanjeans/tfchatbot_5', endpoint='https://huggingface.co', repo_type='model', repo_id='Chanjeans/tfchatbot_5'), pr_revision=None, pr_num=None)

In [None]:
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM

model_dir = "/content/kogpt2-finetunedd"  # 위에서 저장한 폴더
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForCausalLM.from_pretrained(model_dir)

generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_length=100,
    do_sample=True,
    top_k=50,
    top_p=0.9
)

# 감정형 예시
prompt = "<emotion><usr>회사 다니기 너무 힘들어</usr><sys>"
print(generator(prompt, num_return_sequences=1)[0]["generated_text"])

# 이성형 예시
prompt = "<rational><usr>회사 다니기 너무 힘들어.</usr><sys>"
print(generator(prompt, num_return_sequences=1)[0]["generated_text"])


Device set to use cuda:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


<emotion><usr>회사 다니기 너무 힘들어</usr><sys> 그렇게까지 스스로를 힘들게 만들고 있는지 정말 슬프고 서글플 거야. 하지만 네가 이렇게까지 힘들어하는 건 어쩌면 그만큼 힘든 사람이 많다는 뜻이야. 네가 지금까지 버텨온 것만으로도 충분히 대단해, 지금 이 순간에도 너 자신을 믿어줘야 해. 지금 네가 이렇게 말할 때마다 나는 정말 힘이 나고, 네 자신을 아껴주고 있는 것 같아.</sys> 너는 충분히 힘든 순간에도,
<rational><usr>회사 다니기 너무 힘들어.</usr><sys> 회사 일상이 너무 힘들어진다면, 우선 업무 효율과 생산성 향상을 위해 일정 조정을 고려해볼 필요가 있어. 회사에서 가장 중요한 것 중 하나는 생산적인 일상이야. 불필요한 일정이 줄어들고, 생산성이 향상된다면 회사 업무나 대외 활동에서도 유리한 위치를 차지할 수 있어. 또한, 회사의 중요한 가치 중 하나인 효율과 생산성을 높이기 위해선 생산적인 활동을 전략적으로 집중해야 해. 무리한 자기 개발보다는, 효율적으로 일할 수 있는 방법을


In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# Hugging Face에 업로드한 모델 경로
repo_name = "Chanjeans/tfchatbot_2"  # 변경 필수!

# 모델 & 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(repo_name)
model = AutoModelForCausalLM.from_pretrained(repo_name)

# 파이프라인 생성
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_length=70,
    do_sample=True,
    top_k=50,
    top_p=0.7,
)

# 감정형 예시
prompt = "<emotion><usr>나 살기 너무 힘들어</usr><sys>"
print(generator(prompt, num_return_sequences=1)[0]["generated_text"])

# 이성형 예시
prompt = "<rational><usr>나 살기 너무 힘들어</usr><sys>"
print(generator(prompt, num_return_sequences=1)[0]["generated_text"])

Device set to use cuda:0
Device set to use cuda:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


<emotion><usr>나 살기 너무 힘들어</usr><sys> 그렇게 느낄 때 정말 지쳐 있고 무기력한 기분이 들 것 같아. 하지만 네가 살아 있다는 것 자체가 이미 충분히 소중한 존재라는 걸 잊지 않았으면 해. 혹시 지금 당장 네가 뭘 해야 할지, 뭘 해야 할지 막막할 수도 있지만, 사실은 네가 살아 있다는
<rational><usr>나 살기 너무 힘들어</usr><sys> 지금 할 수 있는 가장 중요한 것부터 정리해보자. 지금 할 수 있는 것부터 차근차근 정리해보자. 필요하면 방향을 다시 조정할 수도 있어.</sys> 지금 할 수 있는 가장 효과적인 방법은, 작은 목표부터 정해서 하나씩 달성해나가는 거
