# それぞれのLLMに最適化されたチャット プロンプトをテンプレートから効率的に作成する

❗ **Google Colabで実行する場合、ランタイムのタイプはGPU（T4, V100, A100など）を指定すること**

**予め、Hugging Faceのウェブサイトにおいて、Meta Llama2およびMeta Llama3.1のライセンス許諾に同意し、モデルファイルのダウンロード許可を得る必要があります。**

## 準備

In [None]:
# Hugging Face Hubにログイン
from huggingface_hub import login
login()

In [None]:
!python -m pip install --no-cache-dir --upgrade \
transformers \
langchain

## Hugging Face Transformers Templates for Chat Models

In [None]:
from transformers import AutoTokenizer

In [None]:
chat = [
    {"role": "system", "content": "あなたは日本語ネイティブで親切なAIアシスタントです。"},
    {"role": "user", "content": "こんにちは。ご機嫌いかがですか？"},
    {"role": "assistant", "content": "とても元気です。あなたのお役にたてることがあれば何なりとお尋ねください。"},
    {"role": "user", "content": "大阪の知人へ贈る、東京の土産を提案してください。"},
]

In [None]:
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
tokenizer.use_default_system_prompt = False
prompt_string = tokenizer.apply_chat_template(chat, tokenize=False)
print(prompt_string)

In [None]:
print(tokenizer.chat_template)

In [None]:
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")
tokenizer.use_default_system_prompt = False
prompt_string = tokenizer.apply_chat_template(chat, tokenize=False)
print(prompt_string)

## LangChain Prompt Templates

In [None]:
from langchain_core.prompts import ChatPromptTemplate

In [None]:
prompt_template = ChatPromptTemplate.from_messages([
    ("system", "あなたは日本語ネイティブで親切なAIアシスタントです。"),
    ("user", "こんにちは。ご機嫌いかがですか？"),
    ("assistant", "とても元気です。あなたのお役にたてることがあれば何なりとお尋ねください。"),
    ("user", "{question}")
])

In [None]:
prompt_value = prompt_template.invoke({"question": "大阪の知人へ贈る、東京の土産を提案してください。"})
print(prompt_value.to_string())

In [None]:
msg_list = prompt_value.to_messages()
print(msg_list)

## Templates for Chat ModelsをLangChainで使う

In [None]:
chat = [
    {"role": "system", "content": "あなたは日本語ネイティブで親切なAIアシスタントです。"},
    {"role": "user", "content": "こんにちは。ご機嫌いかがですか？"},
    {"role": "assistant", "content": "とても元気です。あなたのお役にたてることがあれば何なりとお尋ねください。"},
    {"role": "user", "content": "{question}"},
]

In [None]:
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
tokenizer.use_default_system_prompt = False
prompt_string = tokenizer.apply_chat_template(chat, tokenize=False)
print(prompt_string)

In [None]:
from langchain_core.prompts import PromptTemplate

In [None]:
prompt_template = PromptTemplate.from_template(prompt_string)
prompt_value = prompt_template.invoke({"question": "大阪の知人へ贈る、東京の土産を提案してください。"})
print(prompt_value.to_string())

## Llama 3.1 8B Instruct 4ビット量子化モデルでテスト

In [None]:
!CMAKE_ARGS="-DGGML_CUDA=on" python -m pip install --no-cache-dir --upgrade \
llama-cpp-python \
langchain-community

In [None]:
from huggingface_hub import hf_hub_download
from langchain_community.llms import LlamaCpp
from langchain_core.output_parsers import StrOutputParser

In [None]:
model_path = hf_hub_download(
    repo_id="mmnga/Llama-3.1-8B-Instruct-gguf",
    filename="Llama-3.1-8B-Instruct-Q4_K_S.gguf"
)

In [None]:
llm = LlamaCpp(
    model_path=model_path,
    n_gpu_layers=-1,
    n_ctx=2048,
    f16_kv=True,
    verbose=True,
    seed=0
)

In [None]:
output_parser = StrOutputParser()
chain = prompt_template | llm | output_parser

In [None]:
for s in chain.stream({"question": "大阪の知人へ贈る、東京の土産を提案してください。"}):
    print(s, end="", flush=True)