# Kanana RAG Fine-tuning Notebook

This notebook fine-tunes the Kanana 8B instruct model on RAG tasks using the Jecheon tourism dataset.

**Model:** kakaocorp/kanana-1.5-8b-instruct-2505

**Training Data Format:**
```
[Instruction]
당신은 제천시 관광 안내 전문가입니다.
제공된 여러 문서 중에서 질문과 관련된 문서를 찾아, 그 문서의 내용을 바탕으로 정확하고 친절하게 답변해주세요.

Information:
{content1}
Information:
{content2}
Question: {question}
```

In [3]:
# Install required packages
!pip install transformers peft datasets wandb bitsandbytes accelerate

Collecting datasets
  Downloading datasets-4.4.1-py3-none-any.whl.metadata (19 kB)
Collecting wandb
  Downloading wandb-0.23.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.48.2-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting pyarrow>=21.0.0 (from datasets)
  Downloading pyarrow-22.0.0-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (3.2 kB)
Collecting dill<0.4.1,>=0.3.0 (from datasets)
  Downloading dill-0.4.0-py3-none-any.whl.metadata (10 kB)
Collecting pandas (from datasets)
  Downloading pandas-2.3.3-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (91 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (13 kB)
Collecting multiprocess<0.70.19 (from datasets)
  Downloading multiprocess-0.70.18-py312-none-any.whl.metadata (7.5 kB)
Collecting aiohttp!=4.0.0a0,!=4.0.0a1 (f

In [1]:
# Check CUDA availability
import os
import torch

os.environ["NVIDIA_VISIBLE_DEVICES"] = "0"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

print(f"PyTorch version: {torch.__version__}")
print(f"CUDA version: {torch.version.cuda}")
print(f"cuDNN version: {torch.backends.cudnn.version()}")
print(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")

PyTorch version: 2.8.0+cu128
CUDA version: 12.8
cuDNN version: 91002
CUDA available: True
GPU: NVIDIA A100-SXM4-80GB


In [4]:
# Login to Weights & Biases
import wandb

# Login to wandb (you'll be prompted for your API key)
wandb.login()

# Initialize wandb project
wandb.init(
    project="kanana-rag-finetuning",
    name="kanana-1.5-8b-instruct-rag",
    config={
        "model": "kakaocorp/kanana-1.5-8b-instruct-2505",
        "task": "RAG fine-tuning",
        "dataset": "Jecheon Tourism"
    }
)

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter:

  ········


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33myesinkim[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [5]:
# Load base model and tokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "kakaocorp/kanana-1.5-8b-instruct-2505"

print(f"Loading model: {model_name}")
base_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
tokenizer.pad_token = tokenizer.eos_token

print("Model loaded successfully!")

Loading model: kakaocorp/kanana-1.5-8b-instruct-2505


`torch_dtype` is deprecated! Use `dtype` instead!


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Model loaded successfully!


In [6]:
# Load RAG training and validation data
import json
from datasets import Dataset

data_path = "../data/processed/train.jsonl"
val_data_path = "../data/processed/val.jsonl"

# Load training JSONL data
data_list = []
with open(data_path, 'r', encoding='utf-8') as f:
    for line in f:
        data_list.append(json.loads(line))

# Load validation JSONL data
val_data_list = []
with open(val_data_path, 'r', encoding='utf-8') as f:
    for line in f:
        val_data_list.append(json.loads(line))
        

print(f"Loaded {len(data_list)} training examples")
print(f"Loaded {len(val_data_list)} validation examples")
print("\nFirst training example:")
print(json.dumps(data_list[0], ensure_ascii=False, indent=2)[:500])

Loaded 105 training examples
Loaded 10 validation examples

First training example:
{
  "documents": [
    {
      "doc_id": "doc_002",
      "title": "제천 시티투어",
      "filename": "doc_002_제천 시티투어.txt",
      "content": "**어디를 가야할 지 잘 모르시겠다면?**\n시티투어에 몸을 맡기기만 해도 힐링 완성!\n\n-   **편리한 버스투어**\n-   **당일치기 교통약자**\n-   **문화관광 해설사 동행해설**\n-   **가성비 & 자율중식**\n\n| 상품소개 | 제천의 주요 관광지를 모아 합리적인 가격에 둘러보는 단체 관광형 상품 |\n| :--- | :--- |\n| **요금안내** | 30,000원 \\| 1인 기준 (최소 출발 인원 10명) |\n| **예약안내** | 제천시티투어 공식 홈페이지 [citytour.jecheon.go.kr] / (사)제천시관광협의회 [043. 647. 2121] |\n| **주요혜택** | · **시티투어버스 대


In [7]:
# Convert to requested RAG format with instruction
def format_rag_data(example):
    """Convert RAG data to the requested format with instruction:
    [Instruction]
    당신은 제천시 관광 안내 전문가입니다...
    
    Information:
    {content1}
    Information:
    {content2}
    Question: {question}
    """
    instruction = """당신은 제천시 관광 안내 전문가입니다.
제공된 여러 문서 중에서 질문과 관련된 문서를 찾아, 그 문서의 내용을 바탕으로 정확하고 친절하게 답변해주세요.

답변 시 주의사항:
1. 관련 문서의 내용만을 바탕으로 답변하세요
2. 문서에 정보가 없으면 "제공된 정보에는 해당 내용이 없습니다"라고 답변하세요
3. 추측하거나 문서 외부 지식을 사용하지 마세요
4. 간결하고 이해하기 쉽게 답변하세요"""
    
    documents = example['documents']
    question = example['question']
    answer = example['answer']
    
    # Build information sections
    info_sections = []
    for doc in documents:
        info_sections.append(f"Information:\n{doc['content']}")
    
    # Combine: instruction + information sections + question
    prompt = instruction + "\n\n"
    prompt += "\n\n".join(info_sections)
    prompt += f"\n\nQuestion: {question}"
    
    return {
        "prompt": prompt,
        "answer": answer
    }

# Apply formatting to both train and validation
formatted_data = []
for example in data_list:
    formatted_data.append(format_rag_data(example))

formatted_val_data = []
for example in val_data_list:
    formatted_val_data.append(format_rag_data(example))

print(f"Formatted {len(formatted_data)} training examples")
print(f"Formatted {len(formatted_val_data)} validation examples")
print("\nExample formatted prompt:")
print(formatted_data[0]['prompt'][:500])
print(f"\nAnswer: {formatted_data[0]['answer']}")

Formatted 105 training examples
Formatted 10 validation examples

Example formatted prompt:
당신은 제천시 관광 안내 전문가입니다.
제공된 여러 문서 중에서 질문과 관련된 문서를 찾아, 그 문서의 내용을 바탕으로 정확하고 친절하게 답변해주세요.

답변 시 주의사항:
1. 관련 문서의 내용만을 바탕으로 답변하세요
2. 문서에 정보가 없으면 "제공된 정보에는 해당 내용이 없습니다"라고 답변하세요
3. 추측하거나 문서 외부 지식을 사용하지 마세요
4. 간결하고 이해하기 쉽게 답변하세요

Information:
**어디를 가야할 지 잘 모르시겠다면?**
시티투어에 몸을 맡기기만 해도 힐링 완성!

-   **편리한 버스투어**
-   **당일치기 교통약자**
-   **문화관광 해설사 동행해설**
-   **가성비 & 자율중식**

| 상품소개 | 제천의 주요 관광지를 모아 합리적인 가격에 둘러보는 단체 관광형 상품 |
| :--- | :--- |
| **요금안내** | 30,000원 \| 1인 기준 (최소 출발 인원 10명) |
| **예약안내** | 제천시티투어 공식 홈페이지 

Answer: 개별 여행은 자유롭게 일정을 짤 수 있는 반면, 제천 시티투어는 정해진 주요 관광지 코스(청풍호반 케이블카, 옥순봉 출렁다리 등)를 편리한 버스로 이동하며 문화관광 해설사의 해설을 들을 수 있다는 차이점이 있습니다. 또한 최소 10명 이상일 때 출발하는 단체 관광 상품입니다.


In [8]:
# Create training and validation datasets with proper format
def formatting_prompts_func(examples):
    """Format prompts for training"""
    prompts = examples["prompt"]
    answers = examples["answer"]
    
    EOS_TOKEN = tokenizer.eos_token
    
    texts = []
    for prompt, answer in zip(prompts, answers):
        # Combine prompt and answer with EOS token
        text = f"{prompt}\n\nAnswer: {answer}{EOS_TOKEN}"
        texts.append(text)
    
    return {"text": texts}

# Create datasets
dataset = Dataset.from_list(formatted_data)
dataset = dataset.map(formatting_prompts_func, batched=True)

val_dataset = Dataset.from_list(formatted_val_data)
val_dataset = val_dataset.map(formatting_prompts_func, batched=True)

print(f"Training dataset size: {len(dataset)}")
print(f"Validation dataset size: {len(val_dataset)}")
print(f"\nDataset features: {dataset.features}")
print(f"\nFirst training example:")
print(dataset[0]['text'][:500])

Map:   0%|          | 0/105 [00:00<?, ? examples/s]

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Training dataset size: 105
Validation dataset size: 10

Dataset features: {'prompt': Value('string'), 'answer': Value('string'), 'text': Value('string')}

First training example:
당신은 제천시 관광 안내 전문가입니다.
제공된 여러 문서 중에서 질문과 관련된 문서를 찾아, 그 문서의 내용을 바탕으로 정확하고 친절하게 답변해주세요.

답변 시 주의사항:
1. 관련 문서의 내용만을 바탕으로 답변하세요
2. 문서에 정보가 없으면 "제공된 정보에는 해당 내용이 없습니다"라고 답변하세요
3. 추측하거나 문서 외부 지식을 사용하지 마세요
4. 간결하고 이해하기 쉽게 답변하세요

Information:
**어디를 가야할 지 잘 모르시겠다면?**
시티투어에 몸을 맡기기만 해도 힐링 완성!

-   **편리한 버스투어**
-   **당일치기 교통약자**
-   **문화관광 해설사 동행해설**
-   **가성비 & 자율중식**

| 상품소개 | 제천의 주요 관광지를 모아 합리적인 가격에 둘러보는 단체 관광형 상품 |
| :--- | :--- |
| **요금안내** | 30,000원 \| 1인 기준 (최소 출발 인원 10명) |
| **예약안내** | 제천시티투어 공식 홈페이지 


In [9]:
def tokenize_function(examples):
    # 전체 텍스트와 프롬프트(질문까지)를 각각 준비
    prompts = [p + "\n\nAnswer: " for p in examples["prompt"]]
    texts = examples["text"] # Cell 8에서 이미 Answer까지 합쳐진 텍스트
    
    # 전체 텍스트 토크나이징
    model_inputs = tokenizer(
        texts, 
        padding="max_length", 
        truncation=True, 
        max_length=2048, 
        return_tensors="pt"
    )
    
    labels = model_inputs["input_ids"].clone()
    
    # 패딩 토큰 마스킹 (-100)
    if tokenizer.pad_token_id is not None:
        labels[labels == tokenizer.pad_token_id] = -100
        
    # --- 여기가 핵심 수정 부분입니다 ---
    # Prompt(질문) 부분의 길이를 구해서 그 부분만큼 labels를 -100으로 가림
    
    # 1. Prompt 부분만 따로 토크나이징하여 길이 계산 (패딩 없이)
    prompt_tokens = tokenizer(
        prompts, 
        truncation=True, 
        max_length=2048, 
        add_special_tokens=False # 앞부분만 잴 것이므로
    )
    
    for i, prompt_ids in enumerate(prompt_tokens["input_ids"]):
        # 전체 길이보다 프롬프트가 길면 잘리기 때문에 min 처리
        mask_len = len(prompt_ids)
        if mask_len > labels.shape[1]:
            mask_len = labels.shape[1]
            
        # 정답(Answer)이 나오기 전까지는 Loss 계산 안함
        labels[i, :mask_len] = -100
        
    model_inputs["labels"] = labels
    return model_inputs

# dataset.map 부분은 그대로 두되, prompt 컬럼이 필요하므로 remove_columns 주의
# 아래 코드로 map 실행
tokenized_dataset = dataset.map(
    tokenize_function, 
    batched=True, 
    remove_columns=["text", "prompt", "answer"] # 처리 후 삭제는 OK
)

tokenized_val_dataset = val_dataset.map(
    tokenize_function,
    batched=True,
    remove_columns=["text", "prompt", "answer"]
)

print(f"Tokenized training dataset size: {len(tokenized_dataset)}")
print(f"Tokenized validation dataset size: {len(tokenized_val_dataset)}")
print(f"Features: {tokenized_dataset.features}")

Map:   0%|          | 0/105 [00:00<?, ? examples/s]

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

Tokenized training dataset size: 105
Tokenized validation dataset size: 10
Features: {'input_ids': List(Value('int32')), 'attention_mask': List(Value('int8')), 'labels': List(Value('int64'))}


In [10]:
# Configure LoRA for parameter-efficient fine-tuning
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    task_type="CAUSAL_LM",
    r=8,                    # LoRA rank
    lora_alpha=16,          # LoRA alpha (2024 best practice: alpha = 2 × rank)
    lora_dropout=0.15,      # Dropout probability (increased for small dataset)
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj"            # Added output projection for better performance
    ]
)

model = get_peft_model(base_model, lora_config)
model.print_trainable_parameters()

# Log LoRA config to wandb
wandb.config.update({
    "lora_r": lora_config.r,
    "lora_alpha": lora_config.lora_alpha,
    "lora_dropout": lora_config.lora_dropout,
    "target_modules": lora_config.target_modules
})

trainable params: 6,815,744 || all params: 8,037,101,568 || trainable%: 0.0848


In [11]:
# Check GPU memory before training
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)

print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

# Log to wandb
wandb.config.update({
    "gpu_name": gpu_stats.name,
    "gpu_max_memory_gb": max_memory,
    "gpu_start_memory_gb": start_gpu_memory
})

GPU = NVIDIA A100-SXM4-80GB. Max memory = 79.254 GB.
14.994 GB of memory reserved.


In [24]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    # Output settings
    output_dir="./outputs/kanana-rag",
    overwrite_output_dir=True,
    
    # [중요] 메모리 절약을 위해 추가
    gradient_checkpointing=True,

    # Training hyperparameters
    num_train_epochs=5,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=4,
    learning_rate=5e-5,
    weight_decay=0.01,
    warmup_steps=50,
    max_grad_norm=1.0,

    # Optimization
    bf16=True,
    optim="adamw_torch",
    lr_scheduler_type="linear",

    # Logging
    logging_steps=5,
    logging_dir="./logs",
    report_to="wandb",

    # Saving
    save_strategy="steps",
    save_steps=50,
    save_total_limit=3,

    # [핵심 수정] evaluation_strategy -> eval_strategy 로 변경
    eval_strategy="steps", 
    
    eval_steps=5,
    per_device_eval_batch_size=2,
    
    # [중요] Early Stopping 설정 (eval_strategy와 짝꿍)
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",

    # Other
    seed=1234,
    data_seed=1234,
    remove_unused_columns=True,
)


print("Training arguments configured (2024 Best Practices):")
print(f"  Epochs: {training_args.num_train_epochs} (with early stopping)")
print(f"  Batch size: {training_args.per_device_train_batch_size}")
print(f"  Gradient accumulation: {training_args.gradient_accumulation_steps}")
print(f"  Effective batch size: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")
print(f"  Learning rate: {training_args.learning_rate}")
print(f"  Warmup steps: {training_args.warmup_steps}")
print(f"  Gradient clipping: {training_args.max_grad_norm}")
print(f"  Early stopping: enabled (metric: {training_args.metric_for_best_model})")
print(f"  Evaluation strategy: {training_args.eval_strategy}")
print(f"  Total steps: ~{len(tokenized_dataset) // (training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps) * training_args.num_train_epochs}")

Training arguments configured (2024 Best Practices):
  Epochs: 5 (with early stopping)
  Batch size: 2
  Gradient accumulation: 4
  Effective batch size: 8
  Learning rate: 5e-05
  Warmup steps: 50
  Gradient clipping: 1.0
  Early stopping: enabled (metric: eval_loss)
  Evaluation strategy: IntervalStrategy.STEPS
  Total steps: ~65


In [25]:
# Initialize Trainer with validation dataset
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    eval_dataset=tokenized_val_dataset,  # Add validation dataset
)

print("Trainer initialized successfully!")
print(f"Training samples: {len(tokenized_dataset)}")
print(f"Validation samples: {len(tokenized_val_dataset)}")

The model is already on multiple devices. Skipping the move to device specified in `args`.


Trainer initialized successfully!
Training samples: 105
Validation samples: 10


In [26]:
model.enable_input_require_grads()

# 혹시 모르니 다시 한 번 명시적으로 켜줍니다
model.gradient_checkpointing_enable()

print("Gradient Checkpointing 호환성 설정 완료!")

Gradient Checkpointing 호환성 설정 완료!


In [27]:
# Start training
print("Starting training...")
print("=" * 50)

trainer_stats = trainer.train()

print("\n" + "=" * 50)
print("Training completed!")
print(f"Training loss: {trainer_stats.training_loss:.4f}")
print(f"Training time: {trainer_stats.metrics['train_runtime']:.2f}s")

Starting training...


Step,Training Loss,Validation Loss
5,1.6267,1.406286
10,1.6158,1.400312
15,1.6861,1.390589
20,1.5819,1.378505
25,1.6245,1.360354
30,1.6763,1.338566
35,1.5886,1.313651
40,1.4281,1.281587
45,1.4478,1.247121
50,1.3862,1.204997



Training completed!
Training loss: 1.4897
Training time: 426.27s


In [23]:
# 이 코드를 실행해서 데이터 개수를 확인해보세요
print(f"학습 데이터 개수: {len(tokenized_dataset)}")
print(f"예상 전체 스텝 수: {len(tokenized_dataset) // 8 * 5}")

학습 데이터 개수: 105
예상 전체 스텝 수: 65


In [28]:
# Check final GPU memory usage
final_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
print(f"\nFinal GPU memory: {final_gpu_memory} GB")
print(f"Peak memory used: {final_gpu_memory - start_gpu_memory} GB")

# Log final stats to wandb
wandb.log({
    "final_gpu_memory_gb": final_gpu_memory,
    "peak_memory_used_gb": final_gpu_memory - start_gpu_memory
})


Final GPU memory: 23.742 GB
Peak memory used: 8.748000000000001 GB


In [29]:
# Save the fine-tuned model
output_dir = "./outputs/kanana-rag-final"

print(f"Saving model to {output_dir}...")
trainer.model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

print("Model saved successfully!")
print(f"\nModel location: {output_dir}")

Saving model to ./outputs/kanana-rag-final...
Model saved successfully!

Model location: ./outputs/kanana-rag-final


In [30]:
# Test inference with a sample
print("Testing inference...\n")

# Get a test example
test_prompt = formatted_data[0]['prompt']
expected_answer = formatted_data[0]['answer']

print("Test Prompt:")
print(test_prompt[:300])
print("\n...")

# Tokenize and generate
model.eval()
inputs = tokenizer(test_prompt, return_tensors="pt").to("cuda")

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=200,
        temperature=0.7,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id
    )

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("\nGenerated Response:")
print(generated_text[len(test_prompt):])

print("\nExpected Answer:")
print(expected_answer)

Testing inference...

Test Prompt:
당신은 제천시 관광 안내 전문가입니다.
제공된 여러 문서 중에서 질문과 관련된 문서를 찾아, 그 문서의 내용을 바탕으로 정확하고 친절하게 답변해주세요.

답변 시 주의사항:
1. 관련 문서의 내용만을 바탕으로 답변하세요
2. 문서에 정보가 없으면 "제공된 정보에는 해당 내용이 없습니다"라고 답변하세요
3. 추측하거나 문서 외부 지식을 사용하지 마세요
4. 간결하고 이해하기 쉽게 답변하세요

Information:
**어디를 가야할 지 잘 모르시겠다면?**
시티투어에 몸을 맡기기만 해도 힐링 완성!

-   **편리한 버스투어**
-

...

Generated Response:
 그리고 어떤 경우에 시티투어를 이용하는 것이 더 적합한가요?

Answer: 제천에서 개별적으로 여행을 할 경우에는 직접 교통편을 찾고, 관광지에 대한 정보를 직접 알아야 합니다. 반면에 시티투어를 이용하면 버스를 타고 여러 관광지를 둘러볼 수 있어 시간과 노력을 절약할 수 있습니다. 또한 문화관광 해설사의 동행 해설이 제공되어 관광지에 대한 정보를 더 자세히 얻을 수 있습니다. 시티투어는 당일치기로 제천을 여행할 계획이 있고, 특별히 교통편을 직접 알아보는 것이 번거롭거나 관광지에 대한 해설이 필요한 경우에 더 적합합니다. 또한 10명 이상의 단체가 함께 여행할 계획이 있다면 시티투어를 이용하는 것이 경제적으로도 더 이득일 수 있습니다. 하지만 소규모

Expected Answer:
개별 여행은 자유롭게 일정을 짤 수 있는 반면, 제천 시티투어는 정해진 주요 관광지 코스(청풍호반 케이블카, 옥순봉 출렁다리 등)를 편리한 버스로 이동하며 문화관광 해설사의 해설을 들을 수 있다는 차이점이 있습니다. 또한 최소 10명 이상일 때 출발하는 단체 관광 상품입니다.


## Evaluation with Generation-Only Metrics

Now let's evaluate the fine-tuned model using generation-only metrics (ROUGE, BERTScore, Exact Match).

**No document retrieval metrics needed** - we only compare generated answers vs ground truth.

In [31]:
# Install evaluation dependencies
!pip install -q rouge-score bert-score

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [32]:
# Import evaluation metrics
import sys
import os
sys.path.insert(0, os.path.abspath('..'))

from src.evaluation.metrics import create_evaluator

# Create evaluator (no k_values needed for generation-only)
evaluator = create_evaluator()

print("✓ Evaluator initialized")
print("  Available metrics: ROUGE, BERTScore, Exact Match")

✓ Evaluator initialized
  Available metrics: ROUGE, BERTScore, Exact Match


In [33]:
# Generate predictions on test set
print("Generating predictions on test set...")
print("=" * 60)

test_samples = []
with open("../data/processed/val.jsonl", 'r', encoding='utf-8') as f:
    for line in f:
        test_samples.append(json.loads(line))

model.eval()
with torch.no_grad():
    for i, sample in enumerate(test_samples):
        # Format prompt
        formatted = format_rag_data(sample)
        prompt = formatted['prompt']
        
        # Generate answer
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        outputs = model.generate(
            **inputs,
            max_new_tokens=200,
            temperature=0.7,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id
        )
        
        # Extract generated text
        generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
        answer = generated[len(prompt):].strip()
        
        # Remove "Answer:" prefix if present
        if answer.startswith("Answer:"):
            answer = answer[7:].strip()
        
        predictions.append({
            'answer': answer
        })
        
        if (i + 1) % 10 == 0:
            print(f"  Generated {i + 1}/{len(test_samples)} predictions...")

print(f"\n✓ Generated {len(predictions)} predictions")

# Show example
print("\n" + "=" * 60)
print("Example prediction:")
print("=" * 60)
print(f"Question: {test_samples[0]['question']}")
print(f"\nGenerated: {predictions[0]['answer'][:200]}...")
print(f"\nReference: {test_samples[0]['answer'][:200]}...")

Generating predictions on test set...
  Generated 10/30 predictions...
  Generated 20/30 predictions...
  Generated 30/30 predictions...

✓ Generated 30 predictions

Example prediction:
Question: 개별적으로 제천을 여행하는 것과 시티투어를 이용하는 것의 차이점은 무엇인가요?

Generated: 그리고 시티투어를 이용할 때 권장되는 여행 일정은 어떤가요?

Answer: 제천 시티투어는 단체 관광객을 위해 합리적인 가격에 주요 관광지를 둘러볼 수 있게 하는 상품입니다. 개별적으로 여행하는 것은 목적에 따라 자유롭게 일정을 계획할 수 있다는 장점이 있습니다. 시티투어는 교통약자에게도 편리하게 제천을 구경할 수 있는 기회를 주며, 문화관광 해설사를 동...

Reference: 개별 여행은 자유롭게 일정을 짤 수 있는 반면, 제천 시티투어는 정해진 주요 관광지 코스(청풍호반 케이블카, 옥순봉 출렁다리 등)를 편리한 버스로 이동하며 문화관광 해설사의 해설을 들을 수 있다는 차이점이 있습니다. 또한 최소 10명 이상일 때 출발하는 단체 관광 상품입니다....


In [None]:
# Run generation-only evaluation (no docs needed!)
print("\n" + "=" * 60)
print("Running generation-only evaluation...")
print("=" * 60 + "\n")

# Evaluate - only needs 'answer' field in predictions and dataset
results = evaluator.evaluate_generation_only(
    dataset=test_samples,
    model_predictions=predictions
)

# Display results
print(evaluator.format_results_generation_only(results))

# Calculate train and validation loss
print("\n" + "=" * 60)
print("Calculating train and validation loss...")
print("=" * 60 + "\n")

# Get train loss
train_loss = trainer.evaluate(tokenized_dataset)
print(f"Train Loss: {train_loss['eval_loss']:.4f}")

# Get validation loss
val_loss = trainer.evaluate(tokenized_val_dataset)
print(f"Validation Loss: {val_loss['eval_loss']:.4f}")

# Log all metrics to wandb
wandb.log({
    "eval/rouge1": results['rouge1'],
    "eval/rouge2": results['rouge2'],
    "eval/rougeL": results['rougeL'],
    "eval/bert_f1": results['bert_f1'],
    "eval/bert_precision": results['bert_precision'],
    "eval/bert_recall": results['bert_recall'],
    "eval/exact_match": results['exact_match'],
    "eval/num_samples": results['num_samples'],
    "eval/train_loss": train_loss['eval_loss'],
    "eval/val_loss": val_loss['eval_loss']
})

print("\n✓ Results logged to WandB")
print(f"\nMetrics Summary:")
print(f"  Train Loss: {train_loss['eval_loss']:.4f}")
print(f"  Validation Loss: {val_loss['eval_loss']:.4f}")
print(f"  ROUGE-L: {results['rougeL']:.4f}")
print(f"  BERTScore F1: {results['bert_f1']:.4f}")

In [None]:
# Create detailed examples table for wandb
examples_data = []

for i in range(min(5, len(test_samples))):
    examples_data.append([
        test_samples[i]['question'],
        test_samples[i]['answer'],
        predictions[i]['answer'],
        test_samples[i].get('question_type', 'unknown')
    ])

examples_table = wandb.Table(
    columns=["Question", "Reference Answer", "Generated Answer", "Question Type"],
    data=examples_data
)

wandb.log({"eval/detailed_examples": examples_table})

print("✓ Example predictions logged to WandB")
print("\nView your results at: https://wandb.ai")

In [None]:
# Close wandb run
wandb.finish()
print("WandB run finished!")

## Summary

This notebook:
1. ✅ Loads Kanana 1.5 8B instruct model (kakaocorp/kanana-1.5-8b-instruct-2505)
2. ✅ Formats RAG training data with instruction and information format:
   ```
   [Instruction: 제천시 관광 안내 전문가 역할]
   
   Information:
   {content1}
   Information:
   {content2}
   Question: {question}
   
   Answer: {answer}
   ```
3. ✅ Applies LoRA for efficient fine-tuning
4. ✅ Tracks training with Weights & Biases
5. ✅ Saves the fine-tuned model
6. ✅ Tests inference on sample data

### Key Features:
- System instruction guides the model to be a Jecheon tourism expert
- Model learns to find relevant documents and answer based on them
- Model learns to say "no information available" when appropriate
- Training format prevents hallucination

### Next Steps:
- Run full evaluation on test set
- Compare baseline vs fine-tuned performance
- Upload model to Hugging Face Hub
- Generate report with metrics and examples

In [None]:
from huggingface_hub import login

# 1. 허깅페이스 로그인 (토큰 필요)
# Write 권한이 있는 토큰을 입력하세요: https://huggingface.co/settings/tokens
login()

# 2. 모델과 토크나이저 업로드
# "본인계정명/원하는모델이름" 형식으로 적어주세요
repo_id = "bailando/kanana-rag-jecheon-v1" 

print(f"Uploading to {repo_id}...")

# Trainer에 있는 모델을 바로 업로드
trainer.push_to_hub(repo_id)
tokenizer.push_to_hub(repo_id)

print("업로드 완료! Hugging Face에서 확인하세요.")