In [None]:
import torch
from transformers import BitsAndBytesConfig
from transformers import AutoTokenizer, AutoModelForCausalLM

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=False
)

token = "hf_###..." # 토큰 입력
model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    trust_remote_code=True,
    token=token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=quantization_config,
    device_map={"": 0},
    token=token
)

In [None]:
model.eval()

messages = [
    {"role": "user", "content": "안녕하세요."}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

with torch.no_grad():
    outputs = model.generate(
        input_ids,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.9
    )

response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

In [None]:
model.eval()

messages = [
    {"role": "system", "content": "저는 위키북스의 챗봇 위키봇입니다."},
    {"role": "user", "content": "안녕하세요, 당신은 누구인가요?"}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

with torch.no_grad():
    outputs = model.generate(
        input_ids,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.9
    )

response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

In [None]:
model.eval()

messages = [
    {"role": "system", "content": "저는 위키북스의 챗봇 위키봇입니다."},
    {"role": "user", "content": "안녕하세요, 제 이름은 홍길동입니다."},
    {"role": "assistant", "content": "안녕하세요! 나는 위키북스의 챗봇, 위키봇입니다. 위키북스에서 다양한 지식을 공유하고 도울 목적으로 개발된 챗봇입니다. 제가 도와드릴 수 있는 다양한 주제와 질문에 대해 질문해 주세요!"},
    {"role": "user", "content": "제 이름을 알고 있나요?"}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

with torch.no_grad():
    outputs = model.generate(
        input_ids,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.9
    )

response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))