# 最新版の日本語LLM

### はじめに
日本語のLLMは、オープンソースで公開されたLLMを日本語データセットで学習させることで公開されます。
現在はLLaMA 2（Metaによって開発されたLLM）が主な対象となって公開されています。これらのLLMは、ChatGPTの代替となるLLMがオープンソースで公開される流れをとっています。ChatGPT 3.5と比較する形でLLaMA2が公開されました。
ChatGPTには4.0があります。それに対応するLLMは、MiteriaというLLMがあります。これの日本語版のLLMも次期に公開されるでしょう。

### Swallowの概要
Swallow は、Llama 2の日本語能力を強化した大規模言語モデルで、パラメータサイズに応じて 7B、13B、70B の三種類があります。このモデルは、東京工業大学の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所が共同で開発しました。モデルの特徴は、英語に加えて日本語の理解・生成能力に特化しており、継続的な事前学習によって日本語データの扱いを改善しています。

### 主な特徴
- 継続事前学習: Llama 2モデルに日本語の語彙を追加し、新たに開発した日本語データで継続的に学習を行っています。
- 高性能: 2023年12月時点で、日本語における最高性能を誇る大規模言語モデルです。
- 利用の自由度: LLAMA 2 Community Licenseに従い、研究や商業目的で自由に利用可能です。

準備
1.  ライブラリのインストール
2.  モデルのロード

今回は、rinna/japanese-gpt2-smallを使用します。




In [None]:
!pip install torch transformers sentencepiece accelerate protobuf

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece
  Downloading sentencepiece-0.1.97-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m45.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.97
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.26.0-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m71.9 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m57.1 MB/s[0m eta [36m0:00:00[

In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "tokyotech-llm/Swallow-7b-instruct-hf"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, device_map="auto")


PROMPT_DICT = {
    "prompt_input": (
        "以下に、あるタスクを説明する指示があり、それに付随する入力が更なる文脈を提供しています。"
        "リクエストを適切に完了するための回答を記述してください。\n\n"
        "### 指示:\n{instruction}\n\n### 入力:\n{input}\n\n### 応答:"

    ),
    "prompt_no_input": (
        "以下に、あるタスクを説明する指示があります。"
        "リクエストを適切に完了するための回答を記述してください。\n\n"
        "### 指示:\n{instruction}\n\n### 応答:"
    ),
}

def create_prompt(instruction, input=None):
    """
    Generates a prompt based on the given instruction and an optional input.
    If input is provided, it uses the 'prompt_input' template from PROMPT_DICT.
    If no input is provided, it uses the 'prompt_no_input' template.

    Args:
        instruction (str): The instruction describing the task.
        input (str, optional): Additional input providing context for the task. Default is None.

    Returns:
        str: The generated prompt.
    """
    if input:
        # Use the 'prompt_input' template when additional input is provided
        return PROMPT_DICT["prompt_input"].format(instruction=instruction, input=input)
    else:
        # Use the 'prompt_no_input' template when no additional input is provided
        return PROMPT_DICT["prompt_no_input"].format(instruction=instruction)

In [None]:
# Example usage
instruction_example = "以下のトピックに関する詳細な情報をリストアップして、提案とその妥当性を示します。"
input_example = "福岡のご飯が美味しいと評判ですが、実際に観光地としてどういった魅力があるでしょうか。どんな観光体験が福岡に必要でしょうか"
prompt = create_prompt(instruction_example, input_example)

input_ids = tokenizer.encode(
    prompt,
    add_special_tokens=False,
    return_tensors="pt"
)

tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=256,
    temperature=0.99,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out.replace("。", "。\n"))