<a href="https://colab.research.google.com/github/yukiharada1228/neural_network/blob/main/OpenCALM_7B%E3%81%AB%E3%82%88%E3%82%8B%E3%83%81%E3%83%A3%E3%83%83%E3%83%88%E3%83%9C%E3%83%83%E3%83%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# GPUの確認
import torch

is_cuda = torch.cuda.is_available()
device_name = ""
if is_cuda:
    device_name = torch.cuda.get_device_name()
print({"is_cuda": is_cuda, "device_name": device_name})

{'is_cuda': True, 'device_name': 'Tesla V100-SXM2-16GB'}


In [2]:
# ライブラリをインストール
%%capture
%pip install transformers peft accelerate bitsandbytes

In [3]:
import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

# チャットボットを作成
class ChatBot:
    def __init__(self, max_length=128, k=40):
        hf_peft_repo = "yukiharada1228/open-calm-7b-instruct-lora-epoch1"
        peft_config = PeftConfig.from_pretrained(hf_peft_repo)
        model = AutoModelForCausalLM.from_pretrained(
            peft_config.base_model_name_or_path,
            return_dict=True,
            torch_dtype=torch.float16,
            device_map='auto'
            )
        self.model = PeftModel.from_pretrained(model, hf_peft_repo)
        self.tokenizer = AutoTokenizer.from_pretrained(peft_config.base_model_name_or_path)
        self.max_length = max_length
        self.k = k

    def chat(self):
        while "[exit]" not in (user_message := self._input()):

            prompt = self.generate_prompt(user_message)

            token_ids = self.tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")

            output = ""
            for word in self.gradually_generate(token_ids):
                print(word, end='', flush=True)
                output += word
            print()

    def _input(self):
        s = input("> ").replace("\r", "").replace("\n", "")
        return s

    def generate_prompt(self, instruction, input=None, response=None):
      def add_escape(text):
        return text.replace('### Response', '###  Response')

      if input:
        prompt = f"""
    Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

    ### Instruction:
    {add_escape(instruction.strip())}

    ### Input:
    {add_escape(input.strip())}
    """.strip()
      else:
        prompt = f"""
    Below is an instruction that describes a task. Write a response that appropriately completes the request.

    ### Instruction:
    {add_escape(instruction.strip())}
    """.strip()

      if response:
        prompt += f"\n\n### Response:\n{add_escape(response.strip())}<|endoftext|>"
      else:
        prompt += f"\n\n### Response:\n"

      return prompt

    def gradually_generate(self, token_ids):
        token_ids = token_ids.to(self.model.device)
        for _ in range(self.max_length):
            with torch.no_grad():
                outputs = self.model(token_ids)

            logits = outputs.logits
            indices_to_remove = logits < torch.topk(logits, self.k)[0][..., -1, None]
            logits[indices_to_remove] = float('-inf')
            probs = torch.nn.functional.softmax(logits[..., -1, :], dim=-1)
            next_token_id = torch.multinomial(probs, num_samples=1)
            token_ids = torch.cat((token_ids, next_token_id), dim=-1)

            output_str = self.tokenizer.decode(next_token_id[0])

            yield output_str

            if "<|endoftext|>" in output_str:
                break

In [4]:
# チャットを開始します
bot = ChatBot()

Downloading (…)/adapter_config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/611 [00:00<?, ?B/s]

Downloading (…)model.bin.index.json:   0%|          | 0.00/42.0k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading (…)l-00001-of-00002.bin:   0%|          | 0.00/9.93G [00:00<?, ?B/s]

Downloading (…)l-00002-of-00002.bin:   0%|          | 0.00/3.95G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading (…)neration_config.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading adapter_model.bin:   0%|          | 0.00/8.41M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/323 [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/3.23M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/129 [00:00<?, ?B/s]

In [5]:
bot.chat()

> CNNとはどんなアーキテクチャですか
CNNは、ビデオフィードのストリーミングとバッチエンコードを可能にするビデオストリーミングアプリケーションです。これは、非常に低遅延のビデオ品質、および非常に詳細なビデオストリームを提供する非常に強力なネットワークレンダリングです。<|endoftext|>
> 画像処理について教えてください
こんにちは、画像の処理は、コンピューターの画面で人々が何であるかを正しく識別するための非常に一般的な手法です。多くの場合、画像を分解し、それらを異なる種類のオブジェクトに変換してから、オブジェクトを再構築し、オブジェクトの3D描画を作成します。これはすべて、2つのフレームが対応する領域に基づいて画像に描画する必要があるフレームのフレーム数という数学的な概念を使用して実行されます。また、多くの人々はまた、画像処理アルゴリズムとして、一連のパラメータ(例えば、色の強度、シャープネス、コントラスト)、および画像内のオブジェクトの位置、形状、および回転などの様々な種類のパラメータを使用することもできます。そのため、より洗練されたグラフィックスアプリケーションを設計するために、ユーザーはまた、特定の種類のパターンを検
> [exit]
