In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = 'Bllossom/llama-3.2-Korean-Bllossom-3B'

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

`torch_dtype` is deprecated! Use `dtype` instead!


Loading weights:   0%|          | 0/254 [00:00<?, ?it/s]

In [93]:
def textAugmentation(model, PROMPT, FEWSHOT, topic):
    import time
    import torch

    # torch.cuda.synchronize()   # ✅ GPU 대기
    # start_time = time.time()

    instruction = f"""
        [{topic}] 이 키워드를 중심으로 일상적인 6줄의 대화 1개만 만들어줘.
    """
    
    messages = [
        {"role": "system", "content": PROMPT},
        {"role": "user", "content": FEWSHOT},
        {"role": "user", "content": instruction},
    ]
    
    
    enc = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        return_tensors="pt"
    ).to(model.device)

    
    
    terminators = [
        tokenizer.convert_tokens_to_ids("<|end_of_text|>"),
        tokenizer.convert_tokens_to_ids("<|eot_id|>")
    ]
    
    outputs = model.generate(
        input_ids=enc["input_ids"],
        attention_mask=enc.get("attention_mask", None),
        max_new_tokens=512,          # 처음엔 2048 말고 256~512 추천
        eos_token_id=terminators,
        do_sample=True,
        temperature=0.6,
        top_p=0.9,
        pad_token_id=tokenizer.eos_token_id  # 추가
    )
    
    prompt_len = enc["input_ids"].shape[-1]

    result = tokenizer.decode(outputs[0][prompt_len:], skip_special_tokens=True)

    # torch.cuda.synchronize()   # ✅ 다시 대기
    # end_time = time.time()
    
    # elapsed = end_time - start_time
    # print(f"⏱ GPU 포함 실행 시간: {elapsed:.3f}초")
    
    return result

In [94]:
PROMPT = """
너는 두 사람이 일상적으로 대화하는 한국어 문장을 만들어줘야해.
두 사람이 대화하는 문장을 만들어줘.
화자 이름은 쓰지 마.
자연스럽고 상황에 맞는 말투(반말, 존댓말)로 대화해.
안내나 설명 없이 답변만 출력해
"""
instruction = f"""
[{topic}] 이 키워드를 중심으로 일상적인 6줄의 대화 1개만 만들어줘.
"""

In [95]:
print(textAugmentation(model, PROMPT, instruction))

동생: 이 주말에 돈은 어떻게 gonna 있어?
돈: 나도 생각해도 안 돼. 시간이 많아.
동생: 시간도 충분히 있으면서도, 돈은 안 돼. 어때?
돈: 나도 생각해도 안 돼. 시간이 많아.
동생: 그럼 나도 생각해도 안 돼. 시간이 많아.
돈: 나도 생각해도 안 돼. 시간이 많아.


## **키워드 추출**

In [96]:
def get_keyword(file_path, max_len=3000):
    import csv

    keyword_list = []
    with open(file_path, "r", encoding="utf-8-sig") as f:
        reader = csv.DictReader(f)  # 컬럼명 기준 접근
    
        for i, row in enumerate(reader):
            keywords = row["keywords"]   # keywords 컬럼 접근
            picked_keyword = random.choice(keywords.split("\n"))
            keyword_list.append(picked_keyword)
            
            if len(keyword_list) >= max_len:
                return keyword_list

        return keyword_list

In [97]:
file_path = "../data/train_with_keywords.csv"   # CSV 파일 경로

keyword_list = get_keyword(file_path, max_len=5000)

In [98]:
print(len(keyword_list))

3950


## **기본 전처리**

In [99]:
def clean_conversation(text: str) -> str:
    # 줄바꿈 제거 + 쉼표 제거 + 공백 정리
    text = text.replace("\r", " ").replace("\n", " ")
    text = text.replace(",", " ")
    text = " ".join(text.split())
    return text


## **파일 저장**

In [101]:
import csv
from pathlib import Path

def chunk_filename(base: str, chunk_id: int) -> str:
    # 옵션 A: 4자리 청크 번호
    return f"{base}_{chunk_id:04d}.csv"

def write_generations_chunked(
    out_dir="../data",
    base_name="general_conversations",
    chunk_size=1000,
    start_idx=0,
    start_chunk=1,
    keyword_list=[]
):
    Path(out_dir).mkdir(parents=True, exist_ok=True)

    idx = start_idx
    chunk_id = start_chunk
    in_chunk_count = 0

    f = None
    writer = None

    def open_new_chunk(chunk_id):
        path = Path(out_dir) / chunk_filename(base_name, chunk_id)
        f = open(path, "w", newline="", encoding="utf-8-sig")
        w = csv.writer(f)
        w.writerow(["idx", "class", "conversation"])
        return f, w, str(path)

    f, writer, current_path = open_new_chunk(chunk_id)


    
    for keyword in keyword_list:
        gen = textAugmentation(model, PROMPT, FEWSHOT, keyword)
        
        conv = clean_conversation(gen)
        writer.writerow([idx, "일반", conv])

        idx += 1
        in_chunk_count += 1

        if in_chunk_count >= chunk_size:
            f.close()
            chunk_id += 1
            in_chunk_count = 0
            print("complete:", str(path))
            f, writer, current_path = open_new_chunk(chunk_id)
            
    if f:
        f.close()

    return idx, chunk_id  # 다음 이어쓰기용

In [102]:
write_generations_chunked(
    out_dir="../data",
    base_name="general_conversations",
    chunk_size=1000,
    start_idx=0,
    start_chunk=1,
    keyword_list=keyword_list
)

KeyboardInterrupt: 

In [None]:
textAugmentation(model, PROMPT, FEWSHOT, instruction)