In [18]:
from dataclasses import dataclass
import os

import torch
from torch.utils.data import Dataset, random_split
from tqdm.auto import tqdm

import datasets as D
from datasets import load_dataset
import transformers as T
from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments

In [19]:
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

In [20]:
INPUT_PROMPT = """以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

### 指示: 
{instruction}

### 入力: 
{input}

### 応答: """

NO_INPUT_PROMPT = """以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

### 指示: 
{instruction}

### 応答: """


def postprocess_output(output):
    output = output\
        .split('### 応答:')[1]\
        .split('###')[0]\
        .split('##')[0]\
        .lstrip(tokenizer.bos_token)\
        .rstrip(tokenizer.eos_token)\
        .replace("###", "")\
        .strip()
    return output

## 3rd trial

In [21]:
@dataclass
class args:
    tokenizer_name_or_path: str = "/PATH/TO/tokenizer"
    model_name_or_path: str = "/PATH/TO/stablelm-jp-instruct-1b_1.3.0/checkpoint-19113/"
    cache_dir = "/PATH/TO/.cache"
        
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [22]:
tokenizer = AutoTokenizer.from_pretrained(args.tokenizer_name_or_path, use_fast=False)

In [23]:
model = AutoModelForCausalLM.from_pretrained(args.model_name_or_path)
model = model.to(device)
print(model.device)

cuda:0


In [24]:
instruction = "日本のおすすめの観光スポットは？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


日本は美しい自然や歴史的な建造物など多くの魅力があります。また、日本には素晴らしい食べ物もあります！


In [25]:
instruction = "日本の首都はどこ？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


東京


In [26]:
instruction = "日本の首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


東京


In [27]:
instruction = "現在の日本の首相は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


現在の大統領であるドナルド・トランプ氏は、2019年4月3日に就任しました。


In [28]:
instruction = "現在の日本の内閣総理大臣は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


現在の日本国の首相は安倍晋三です。


In [29]:
instruction = "好きなアイドルを教えて。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


私はK-POPのアーティストが好きで、特にBTSやEXOなどのグループが彼らのパフォーマンスに魅了されています！


In [38]:
instruction = "トヨタ自動車は何年設立ですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


トヨタは1927年に設立されました。


In [39]:
instruction = "マイナンバーカードの受け取りは免許書を持って行けばいいですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


いいえ、運転免許証やパスポートなどの身分証明書を提示する必要があります。


In [41]:
instruction = "地球温暖化とはなんですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


地球温暖化の原因は主に二酸化炭素の増加によるものです。これは大気中に放出される化学物質によって引き起こされます。この化学物質にはメタンや一酸化窒素などの炭酸塩が含まれています。これらの化合物は太陽からの熱を吸収し、地球の気温を下げるために使用されています。


In [None]:
raise NotImplementedError

In [5]:
@dataclass
class args:
    tokenizer_name_or_path: str = "/PATH/TO/tokenizer"
    model_name_or_path: str = "/PATH/TO/stablelm-jp-instruct-1b_1.1.0/checkpoint-12742/"
    cache_dir = "/PATH/TO/.cache"
        
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [6]:
tokenizer = AutoTokenizer.from_pretrained(args.tokenizer_name_or_path, use_fast=False)

In [7]:
model = AutoModelForCausalLM.from_pretrained(args.model_name_or_path)
model = model.to(device)

In [10]:
instruction = "日本のおすすめの観光スポットは？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


日本には多くの見どころがありますが、最も人気があるのは富士山や京都などの大都市でしょう。また、東京ディズニーランドのようなテーマパークも人気があります。


In [11]:
instruction = "日本の首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


東京


In [12]:
instruction = "現在の日本の首相は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


安倍晋三」という名前の首相がいます。


In [14]:
instruction = "現在の日本の内閣総理大臣は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


現在の日本国の首相は安倍晋三です。


In [14]:
instruction = "現在の日本の内閣総理大臣は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


現在の日本国の首相は安倍晋三です。


In [15]:
instruction = "明日の天気は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


明日は晴れで気温が20度を超えるでしょう！


In [16]:
instruction = "好きなアイドルを教えて。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


私は最近、日本のアイドルグループであるAKB48のファンになりました。彼らのパフォーマンスは本当に素晴らしく、いつも楽しませてくれます！


In [36]:
instruction = "好きなアイドルを教えて。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


私は最近、日本のアイドルグループであるKis-My-Ft2の二階堂高嗣さんが好きです！彼はとてもクールで知的で、常に新しいことに挑戦し続けています。彼のパフォーマンスはいつも新鮮でパワフルであり、観客が彼らのパフォーマンスを見るたびに興奮しています。


In [17]:
instruction = "数学の問題を作ってください。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


与えられた数の2乗が10になるようにするにはどうすればいいですか？


In [35]:
instruction = "数学の問題を作ってください。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


与えられた数の2乗が10進数で表されるかどうかを確認してください。


In [33]:
instruction = "横須賀はどんなところ？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.





In [34]:
instruction = "人工知能とはどのような技術ですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.





In [37]:
instruction = "アメリカの首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.





## 1st trial

In [21]:
@dataclass
class args:
    tokenizer_name_or_path: str = "/PATH/TO/tokenizer"
    model_name_or_path: str = "/PATH/TO/stablelm-jp-instruct-1b_1.1.0/checkpoint-6371/"
    cache_dir = "/PATH/TO/.cache"
        
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [5]:
tokenizer = AutoTokenizer.from_pretrained(args.tokenizer_name_or_path, use_fast=False)

In [6]:
model = AutoModelForCausalLM.from_pretrained(args.model_name_or_path)
model = model.to(device)

In [8]:
instruction = "日本の首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


日本語で「東京」と言います。


In [9]:
instruction = "日本の首都はどこですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


日本語で「東京」と言います。


In [10]:
instruction = "健康を維持するための秘訣は何？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.





In [14]:
instruction = "日本の首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.7,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


日本語では東京とされていますが、英語ではTokyoと言います。


In [15]:
instruction = "アメリカの首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.7,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


アメリカでは、「アメリカ合衆国」が州を表す言葉として使用されます。


In [16]:
instruction = "アメリカの首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


アメリカの大都市には、ニューヨークやワシントンD.C.などがあります。


In [17]:
instruction = "人工知能とはどのような技術ですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


例えば、機械学習や深層強化学習などのAIテクノロジーがあります。これらの技術の多くは、人間の脳の神経回路を模倣してデータからパターンを見つけ出し、そのパターンの特徴に基づいてアルゴリズムを作成します。これにより、人間は複雑な問題を解決するためにより効率的に作業することができます。


In [18]:
instruction = "AIについてどう思いますか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


・AIとは何か？
AI（人工知能）はコンピューターシステムの一種であり、人間の脳を模倣してデータから学習し、パターンやアルゴリズムを作成する技術であると考えられています。機械が人間のように考えることができるようにすることで、より効率的で生産的な作業を行うことができます。また、AIにより生成された予測モデルは、将来の意思決定において重要な役割


In [19]:
instruction = "横須賀はどんなところ？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


例えば、「横須賀市はアメリカ海軍基地があることで有名で、海軍の街として知られています」という意味になります。


In [29]:
instruction = "横須賀はどんなところ？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.2,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


例えば、横須賀市はアメリカ海軍の基地があることで有名ですが、そのほかにも魅力的な観光スポットやアクティビティがたくさんあります。


In [30]:
instruction = "横須賀はどんなところですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.2,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


例えば、横須賀市はアメリカ海軍の基地があることで知られていますが、そのほかにも多くの文化的・歴史的な見どころがあります。


In [20]:
instruction = "今のアメリカの大統領は誰ですか？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


例えば、ドナルド・トランプ大統領がいます。


In [28]:
instruction = "世界の歴史について教えてください。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


例えば、古代ギリシャの哲学者たちは、自然界がどのように機能しているかを理解するために研究しました。彼らは、宇宙には物質的なものとエネルギー的なものの2つの異なる形態があることを発見し、これらの両方が相互作用して調和のとれた状態になる必要があると考えました。


In [34]:
i = 0
instruction = japanese_alpaca_ds['train'][i]['instruction']
input_ = japanese_alpaca_ds['train'][i]['input']
output = japanese_alpaca_ds['train'][i]['output']
print(f"----- instruction -----")
print(instruction)
print()
print(f"----- input -----")
print(input_)
print()
print(f"----- output -----")
print(output)
print()

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

----- instruction -----
健康を維持するための3つのヒントを教えてください。

----- input -----


----- output -----
バランスの良い食事を摂り、果物や野菜をたっぷりと含めるようにしてください。
2. 定期的に運動して、体を活発で強く保ちましょう。
3. 十分な睡眠をとり、一定の睡眠スケジュールを維持してください。



Using bos_token, but it is not set yet.


1. 定期的な運動をすること。2. 十分な睡眠をとること。3. ストレスや不安感に対処すること。


In [36]:
i = 100
instruction = japanese_alpaca_ds['train'][i]['instruction']
input_ = japanese_alpaca_ds['train'][i]['input']
output = japanese_alpaca_ds['train'][i]['output']
print(f"----- instruction -----")
print(instruction)
print()
print(f"----- input -----")
print(input_)
print()
print(f"----- output -----")
print(output)
print()

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

----- instruction -----
従業員の給与を記録するためのデータベースを設計してください。

----- input -----


----- output -----
データベースには、従業員の名前、役職、給与、および日付のフィールドが含まれている必要があります。また、従業員のマネージャーのフィールドも含まれている必要があります。これにより、給与が部門全体で適切に割り当てられます。データベースは、部門または個人の給与費用に関するレポートを生成できるようにする必要があります。



Using bos_token, but it is not set yet.


----- response -----
例えば、「従業員10人の場合」というように、データの種類や数量によって異なる値を提供することができます。


In [37]:
i = 1000
instruction = japanese_alpaca_ds['train'][i]['instruction']
input_ = japanese_alpaca_ds['train'][i]['input']
output = japanese_alpaca_ds['train'][i]['output']
print(f"----- instruction -----")
print(instruction)
print()
print(f"----- input -----")
print(input_)
print()
print(f"----- output -----")
print(output)
print()

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- instruction -----
以下の国に関連する歴史的な出来事を3つ挙げてください

----- input -----
カナダ

----- output -----
カナダに関連する歴史的な3つの出来事は、1867年のカナダ連邦の設立、1965年のカナダ国旗の採用、そして1988年のカナダ・アメリカ自由貿易協定の署名です。

----- response -----



In [40]:
i = 1000
instruction = japanese_alpaca_ds['train'][i]['instruction']
input_ = japanese_alpaca_ds['train'][i]['input']
output = japanese_alpaca_ds['train'][i]['output']
print(f"----- instruction -----")
print(instruction)
print()
print(f"----- input -----")
print(input_)
print()
print(f"----- output -----")
print(output)
print()

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
#         repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

----- instruction -----
以下の国に関連する歴史的な出来事を3つ挙げてください

----- input -----
カナダ

----- output -----
カナダに関連する歴史的な3つの出来事は、1867年のカナダ連邦の設立、1965年のカナダ国旗の採用、そして1988年のカナダ・アメリカ自由貿易協定の署名です。



Using bos_token, but it is not set yet.


----- response -----
1. 古代ローマ
2. 古代ギリシャ
3. 古代エジプト


In [41]:
i = 2000
instruction = japanese_alpaca_ds['train'][i]['instruction']
input_ = japanese_alpaca_ds['train'][i]['input']
output = japanese_alpaca_ds['train'][i]['output']
print(f"----- instruction -----")
print(instruction)
print()
print(f"----- input -----")
print(input_)
print()
print(f"----- output -----")
print(output)
print()

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
#         repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

----- instruction -----
"フードデザート"とは何か、そしてなぜそれらが問題なのかを説明してください。

----- input -----


----- output -----
"フードデザート"とは、手頃な価格で健康的な食品がほとんどない地域のことを指します。通常、高い貧困率とスーパーマーケットや健康的な食品の供給源が少ない都市部にあります。フードデザートは、新鮮で栄養価の高い食品にアクセスできないため、肥満、糖尿病、栄養失調などの健康問題を引き起こします。



Using bos_token, but it is not set yet.


----- response -----
フードデザートは、食品のデザート、またはデザートの一種です。通常、果物や野菜、または穀物などの食品に、砂糖、シロップ、またはクリームなどのトッピングを加えることで作られます。


In [43]:
instruction = "横須賀はどんなところ？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        no_repeat_ngram_size=3,
#         repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
横須賀は、日本海軍の拠点として発展した歴史を持ち、海上自衛隊や海上保安庁の基地が置かれています。また、軍港として発展し、海上自衛隊の基地や海上自衛隊が保有する艦艇が配備されています。また、「日本の空の玄関口」として、航空自衛隊や航空自衛隊の航空基地もあります。


In [47]:
instruction = "横須賀はどんなところ？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
#         repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
横須賀は、日本海軍の拠点として、日本海軍の重要な拠点でした。第二次世界大戦の終結後、日本海軍は、横須賀を拠点として、日本海軍の重要な拠点となりました。第二次世界大戦の終結後、日本海軍は、横須賀を拠点として、日本海軍の重要な拠点となりました。


In [48]:
instruction = "横須賀はどんなところ？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
横須賀市は東京都心から約1時間半の距離にあり、東京湾沿いの美しい海岸線や豊かな自然環境に囲まれています。また、日本最大の軍港である浦賀水道もあります。


In [46]:
instruction = "明日の天気は？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
#         repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
明日の天気は晴れです。


In [49]:
instruction = "明日の天気は？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
明日は雨になるでしょう！


In [50]:
instruction = "明日の天気は？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
明日は晴れで気温が20度を超えるでしょう！


In [51]:
instruction = "どんな料理が好き？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
私は肉料理が特に好きです！


In [52]:
instruction = "今の日本の総理大臣は誰か知っていますか？"

input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
#         no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
response = postprocess_output(output).split('応答:')[-1].strip()
print("----- response -----")
print(response)

Using bos_token, but it is not set yet.


----- response -----
現在の日本国の首相は安倍晋三さんです。


In [55]:
instruction = "日本の首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


東京


In [56]:
instruction = "フランスの首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


フランス共和国の首都はパリで、人口は約105万人です。


In [57]:
instruction = "フランスの首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


フランスの中央に位置する都市はパリで、人口は約140万人です。


In [58]:
instruction = "ドイツの首都は？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


ドイツ連邦共和国にある都市の一覧は以下の通りです：ベルリン、ドレスデン、ケルン、デュッセルドルフ、ミュンヘン


In [59]:
instruction = "渋谷のおすすめのスイーツを教えて。"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


渋谷には美味しいケーキ屋さんがたくさんあります！


In [60]:
instruction = "日本のおすすめの観光スポットは？"
input_text = NO_INPUT_PROMPT.format(instruction=instruction)
token_ids = tokenizer.encode(input_text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        min_length=32,
        max_length=128,
        temperature=0.1,
        do_sample=True,
        # no_repeat_ngram_size=3,
        repetition_penalty=1.2,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(postprocess_output(output).split('応答:')[-1].strip())

Using bos_token, but it is not set yet.


日本には多くの見所がありますが、最も人気があるのは富士山や京都など自然の美しさを楽しむことができる場所でしょう。また、温泉も人気があります。
