# Transformersで試す

In [6]:
!pip install accelerate
!pip install bitsandbytes

[0mCollecting bitsandbytes
  Obtaining dependency information for bitsandbytes from https://files.pythonhosted.org/packages/1e/2c/af22cd797fc368a9f098ed03015730e6568b884fe67f9940793d944a4b7b/bitsandbytes-0.41.1-py3-none-any.whl.metadata
  Using cached bitsandbytes-0.41.1-py3-none-any.whl.metadata (9.8 kB)
Using cached bitsandbytes-0.41.1-py3-none-any.whl (92.6 MB)
Installing collected packages: bitsandbytes
Successfully installed bitsandbytes-0.41.1
[0m

In [1]:
%%time
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-13b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-13b", 
                                             trust_remote_code=True, 
                                             load_in_8bit=True #,
                                             #torch_dtype="auto"
                                            )

#if torch.cuda.is_available():
#    model = model.to("cuda")

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

CPU times: user 19.3 s, sys: 12.9 s, total: 32.2 s
Wall time: 15.2 s


In [5]:
def chat(text):
    with torch.no_grad():
        input_ids = tokenizer(text, return_tensors="pt").input_ids
        generated_tokens = model.generate(
            inputs=input_ids.to(model.device),
            max_new_tokens=512,
            do_sample=True,
            top_k=50,
            top_p=0.95,
            temperature=1.0,
        )[0]
    generated_text = tokenizer.decode(generated_tokens)
    return generated_text

In [6]:
%%time
print(chat("これからの人工知能技術は"))

これからの人工知能技術はどうなるのか?
人工知能・機械学習に詳しくないので、よく知らないというのが実際のところです。「AIブーム」というものはいつから始まったか、今はどこまで到達しているか等はなんとなく認識しているのですが、AIで人間の脳のどの部分を代替することができるかという点になると、まったく分かりません。人間の脳では、どんなタスクでもできているというわけではないということを考えると、人工知能の技術の限界がどこにあるのか、全く分からなくなっているというのが現状です。
その理由は、「人間の脳はどうなっているのか」がよく分かってないからです。「人間の脳はどうなっているのか」とは、「人間の脳のどこの機能がどういう動作をするのか」ということです。この「どこ」の部分がまだはっきりと分からていません。
例えば、目の前の人の顔をじっと見るとき、人間の眼球はどのように動き回って、どんな情報を脳に送り込むのでしょうか? 顔を見た後、人間は顔の表情や体の姿勢、声の抑揚などの視覚的な情報を頭の中で構築し、思考・判断していると思われます。その脳内の思考・判断の内容についてはよく分かっていません。脳のどの部分が何をやっているのか、どの部分がどういう情報を受け取って脳内で処理しているのかがまったく分かりません。
では、なぜ、「人間の脳はこういう動作をする」と分かるようになると、人工知能は人間の脳の動作を完全に代替することができるようになるのでしょうか? 例えば、人工知能との人間との会話がスムーズにできるようになるとか、人間が人工知能と同じような計算問題を解けるというようなことでしょうか?
もしかしたら、人の「顔の表情や体の姿勢」などの動きや表情を解析して、人の感情を推定したり判断したりする人工知能技術が発達すれば、人の感情を判断したり、人の感情に基づいて行動することだってできるようになるのかもしれません。だとすると、人間と同じような感情の振舞いができるロボットやAIは、人間の社会・経済活動を代替することができるようになるかもしれません。
しかし、現在の段階では、人間の脳はどうなっているのかがまだ分かっていないため、人間の脳を機械で真似しようとしても真似ができないはずです。人工知能技術は、人間の代わりに人間の知能でやるような問題を解けるようになるのが到達すべき目標となるのだと思います。
この

In [1]:
# pipelineを使う
# https://huggingface.co/pfnet/plamo-13b/discussions/2#6514eb195aef9f39138cd0d4
import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-13b", device_map="auto",model_kwargs={"load_in_8bit": True},trust_remote_code=True)
prompt = """次の英文は私が和訳する予定の文章です。
'PLaMo-13B is a LLaMA-based 13B model pre-trained on English and Japanese open datasets, developed by Preferred Networks, Inc. PLaMo-13B is released under Apache v2.0 license.' 
私は以上の英文を次のような日本語に翻訳します。"""
print(pipeline(text_inputs=prompt, max_new_tokens=128))

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

[{'generated_text': "次の英文は私が和訳する予定の文章です。\n'PLaMo-13B is a LLaMA-based 13B model pre-trained on English and Japanese open datasets, developed by Preferred Networks, Inc. PLaMo-13B is released under Apache v2.0 license.' \n私は以上の英文を次のような日本語に翻訳します。\n「PLaMo-13Bは、英語と日本語のオープンデータセットで訓練された、13Bモデルです。PLaMo-13BはApache v2.0ライセンスの下で公開されています。」\nこの英文を和訳するにあたって、以下の点に注意しました。\n1. 「13B」は「13ビット」の略です。\n2. 「13Bモデル」は「13ビットモデル」の略です。\n3. 「13ビット」は「13ビット」の略です。\n4. 「13ビット"}]


In [2]:
%%time
print(pipeline(text_inputs=prompt, max_new_tokens=128))

[{'generated_text': "次の英文は私が和訳する予定の文章です。\n'PLaMo-13B is a LLaMA-based 13B model pre-trained on English and Japanese open datasets, developed by Preferred Networks, Inc. PLaMo-13B is released under Apache v2.0 license.' \n私は以上の英文を次のような日本語に翻訳します。\n「PLaMo-13Bは、英語と日本語のオープンデータセットで訓練された、13Bモデルです。PLaMo-13BはApache v2.0ライセンスの下で公開されています。」\nこの英文を和訳するにあたって、以下の点に注意しました。\n1. 「13B」は「13ビット」の略です。\n2. 「13Bモデル」は「13ビットモデル」の略です。\n3. 「13ビット」は「13ビット」の略です。\n4. 「13ビット"}]
CPU times: user 29.5 s, sys: 10.1 ms, total: 29.5 s
Wall time: 29.5 s


# AWQで量子化する

In [5]:
!pip install autoawq

Collecting autoawq
  Obtaining dependency information for autoawq from https://files.pythonhosted.org/packages/e0/45/4ec85c794a9436f14b8ed408511300622f6fc4ca8ab58ec7e34ddf5f2496/autoawq-0.1.0-cp310-cp310-manylinux2014_x86_64.whl.metadata
  Using cached autoawq-0.1.0-cp310-cp310-manylinux2014_x86_64.whl.metadata (12 kB)
Collecting accelerate (from autoawq)
  Obtaining dependency information for accelerate from https://files.pythonhosted.org/packages/d9/92/2d3aecf9f4a192968035880be3e2fc8b48d541c7128f7c936f430d6f96da/accelerate-0.23.0-py3-none-any.whl.metadata
  Using cached accelerate-0.23.0-py3-none-any.whl.metadata (18 kB)
Collecting lm-eval (from autoawq)
  Using cached lm_eval-0.3.0-py3-none-any.whl (178 kB)
Collecting texttable (from autoawq)
  Using cached texttable-1.6.7-py2.py3-none-any.whl (10 kB)
Collecting toml (from autoawq)
  Using cached toml-0.10.2-py2.py3-none-any.whl (16 kB)
Collecting attributedict (from autoawq)
  Using cached attributedict-0.3.0-py3-none-any.whl (14 k

In [6]:
%%time
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = 'pfnet/plamo-13b'
quant_path = 'plamo-13b-awq'
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4 }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# Quantize
model.quantize(tokenizer, quant_config=quant_config)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

TypeError: plamo isn't supported yet.

In [None]:
%%time
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer
import torch

quant_path = './plamo-13b-awq'
quant_file = "pytorch_model.bin"

# Load model
model = AutoAWQForCausalLM.from_quantized(quant_path, quant_file, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)
streamer = TextStreamer(tokenizer, skip_special_tokens=True)

# Convert prompt to tokens
B_INST, E_INST = "[INST]", "[/INST]"
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
DEFAULT_SYSTEM_PROMPT = "あなたは誠実で優秀な日本人のアシスタントです。"


def chat(text, max_new_tokens=512):
    prompt = "{bos_token}{b_inst} {system}{prompt} {e_inst} ".format(
        bos_token=tokenizer.bos_token,
        b_inst=B_INST,
        system=f"{B_SYS}{DEFAULT_SYSTEM_PROMPT}{E_SYS}",
        prompt=text,
        e_inst=E_INST,
    )

    tokens = tokenizer(
        prompt,
        return_tensors='pt'
    ).input_ids.cuda()

    # Generate output
    generation_output = model.generate(
        tokens,
        do_sample=True,
        temperature=0.7,
        top_p=0.95,
        top_k=40,
        max_new_tokens=max_new_tokens
    )

    return tokenizer.decode(generation_output[0])

In [None]:
%%time
print(chat("クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。"))