In [1]:
import torch
from transformers import T5Tokenizer, AutoModelForCausalLM

class Generator():
    def __init__(self, model_name = "rinna/japanese-gpt-1b"):
        self.tokenizer = T5Tokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        # if torch.cuda.is_available():
        #     self.model = self.model.to("cuda")

    def gen(self, text: str, max_length=100):
        token_ids = self.tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")

        with torch.no_grad():
            output_ids = self.model.generate(
                token_ids.to(self.model.device),
                max_length=max_length,
                do_sample=True,
                top_k=500,
                top_p=0.95,
                pad_token_id=self.tokenizer.pad_token_id,
                bos_token_id=self.tokenizer.bos_token_id,
                eos_token_id=self.tokenizer.eos_token_id,
                bad_word_ids=[[self.tokenizer.unk_token_id]]
            )
        output = self.tokenizer.decode(output_ids.tolist()[0])
        return output


In [6]:
# インターネットに繋がってない場合
# ValueError: Connection error, and we cannot find the requested files in the cached path. Please try again or make sure your Internet connection is on.
generator = Generator(model_name="rinna/japanese-gpt2-medium")
generator.gen("吾輩は猫である。名前は")

ValueError: Connection error, and we cannot find the requested files in the cached path. Please try again or make sure your Internet connection is on.

In [9]:
generator = Generator(model_name="rinna/japanese-gpt2-xsmall")
generator.gen("吾輩は猫である。名前は")

'吾輩は猫である。名前は家から出てたのだからどこかもかわいそうだ。そして、この子は生まれも育ちも真昼のところだったというが、本当のところはどうでもいい。その子ネコ猫の妖精はまさしくその妖精か、この妖精のようなタイプである。彼らについて真昼の寒さに耐えられるなあ、と思って、暗い影からずぼらして見たが、森の中どもで普通に歩いている人間を見た。そして、'

`~/.cache/huggingface/`か、`cache_dir`にキャッシュが保存されるけど、ネットワークアクセスは走る。
オフラインモード
https://huggingface.co/docs/transformers/installation#offline-mode

In [2]:
from os import environ
# environ["TRANSFORMERS_OFFLINE"] = "0"
# environ["TRANSFORMERS_OFFLINE"] = "1"
environ["TRANSFORMERS_OFFLINE"]

'1'

In [3]:
generator = Generator(model_name="rinna/japanese-gpt2-xsmall")
generator.gen("吾輩は猫である。名前は")

OSError: Can't load tokenizer for 'rinna/japanese-gpt2-xsmall'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'rinna/japanese-gpt2-xsmall' is the correct path to a directory containing all relevant tokenizer files.

In [2]:
from huggingface_hub import snapshot_download
download_path = snapshot_download(repo_id="rinna/japanese-gpt2-xsmall")
generator = Generator(model_name=download_path)
generator.gen("吾輩は猫である。名前は")

Downloading:   0%|          | 0.00/737 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.66k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/845 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/156M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/60.3k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/153 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/806k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/150M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/282 [00:00<?, ?B/s]

'吾輩は猫である。名前は「君」と呼ぶ。 ともあれ、まだ「君」と呼ぶけれども、彼は違う。奇妙なところがある。それは、 僕は、僕の考えにそった愛兎姫の言葉を誰かに内緒で葬ったのである。 そこには、自分も自分の語りかけ方にも定評があり、いわゆる「伝説の猫」の飼い主の、 「ああっ! あ〜あ、あの......本当にこの猫さん'

In [3]:
print(download_path)


/root/.cache/huggingface/hub/rinna--japanese-gpt2-xsmall.main.e2dac72065c0da14d687ade9931549711e1f35fd


In [6]:
generator = Generator(model_name=download_path)
generator.gen("吾輩は猫である。名前は")

'吾輩は猫である。名前は、己の三雄弁で、性格は、人間的に、他より明るい心情なだけでなく、情愛の深さが感じられる。長くなり過ぎたのは、すれ違った事しか出来ないから、もっと楽しい人生を過ごしたい。そんな想いを抱き寄せながら、一所懸命に生きてまいりたいと思う。そんな気持ちを忘れずに、いっしょに、わがままを言って参りたいと願っています。 人間は自分が'

In [2]:
generator = Generator(model_name="rinna/japanese-gpt2-xsmall")
generator.gen("吾輩は猫である。名前は")

url https://huggingface.co/rinna/japanese-gpt2-xsmall/resolve/main/tokenizer_config.json
etag "456c3d2b50b56842e4beb3c3ae5b65ebb4f47fea"
filename 2ac102935740ee31d3b93ab50beeb4c700bd0fe8d41d4d143ceac0386e1ca9dc.9c6d86638d0c8b0d39297c982899c13374e883f6e85a7c2c9baad32a40abf7dd
/root/.cache/huggingface/transformers/2ac102935740ee31d3b93ab50beeb4c700bd0fe8d41d4d143ceac0386e1ca9dc.9c6d86638d0c8b0d39297c982899c13374e883f6e85a7c2c9baad32a40abf7dd
url https://huggingface.co/rinna/japanese-gpt2-xsmall/resolve/main/spiece.model
etag "b5cbdfa8aa7c54c8c5af85b78c309c54a5f2749a20468bf6f60eee007fe6fec1"
filename 17dfff37ebb5e65893442c89cc627b33972675bb5bef546ab20c3e31cf810dd5.c0b735c65f40dff8596b5f699043bb29048036242443fea32b79a9dd8510ea96
/root/.cache/huggingface/transformers/17dfff37ebb5e65893442c89cc627b33972675bb5bef546ab20c3e31cf810dd5.c0b735c65f40dff8596b5f699043bb29048036242443fea32b79a9dd8510ea96
url https://huggingface.co/rinna/japanese-gpt2-xsmall/resolve/main/special_tokens_map.json
etag "

'吾輩は猫である。名前は「伊月光子」。略称は久光です。 【公式】 「あらなまと」のことは知らなくても知ってたら、ふーん、もっと早く知ってた人ですな。 次の物語はいつになるか分からないけど・・・・・・・今のも寂しくてこんなに遅く感じるとは思わぬところ(<unk> ・ω・ ́) 1時間くらい時間かけて夢'

In [3]:
generator = Generator(model_name="rinna/japanese-gpt2-xsmall")
generator.gen("吾輩は猫である。名前は")

url https://huggingface.co/rinna/japanese-gpt2-xsmall/resolve/main/tokenizer_config.json
etag None
filename 2ac102935740ee31d3b93ab50beeb4c700bd0fe8d41d4d143ceac0386e1ca9dc
/root/.cache/huggingface/transformers/2ac102935740ee31d3b93ab50beeb4c700bd0fe8d41d4d143ceac0386e1ca9dc
url https://huggingface.co/rinna/japanese-gpt2-xsmall/resolve/main/spiece.model
etag None
filename 17dfff37ebb5e65893442c89cc627b33972675bb5bef546ab20c3e31cf810dd5
/root/.cache/huggingface/transformers/17dfff37ebb5e65893442c89cc627b33972675bb5bef546ab20c3e31cf810dd5
url https://huggingface.co/rinna/japanese-gpt2-xsmall/resolve/main/added_tokens.json
etag None
filename f7baf9d8346383a9ad8ef682f2ad99233f57fef94cdcfe182c8fa98987c2e181
/root/.cache/huggingface/transformers/f7baf9d8346383a9ad8ef682f2ad99233f57fef94cdcfe182c8fa98987c2e181


ValueError: Connection error, and we cannot find the requested files in the cached path. Please try again or make sure your Internet connection is on.