# 要約 
このJupyter Notebookは、Kaggleの「LLM 20 Questions」コンペティションに参加するための言語モデルを開発することに取り組んでいます。目標は、20の質問ゲームのゲームプレイにおいて、対象のキーワードを特定するために「はい」または「いいえ」で回答する質問を生成するAIエージェントを構築することです。

### 問題の概要
- **問題設定**: 20の質問ゲームにおいて、ユーザーが提案したキーワードを推定するための質問と回答のやり取りを行います。エージェントは、過去の質問と回答の履歴をもとに次の質問を生成し、正しいキーワードを推測します。

### 使用される手法とライブラリ
1. **Gemmaライブラリ**: PyTorchベースのGemmaライブラリを使用して言語モデルを構築し、推論を行います。このライブラリは、大規模な因果関係の学習モデルをサポートし、予測生成に用います。ノートブックの中では、Gemmaモデルが初期化され、訓練された重みをロードしています。
   
2. **質問生成と回答解析**: 
   - **GemmaFormatterクラス**: 質問と応答のフォーマットを管理し、ユーザーおよびモデルのターンを適切に構築する機能を提供します。
   - **GemmaAgentクラス**: AIエージェントの基本機能を実装し、質問の履歴、回答履歴、キーワードの確率を管理します。オブザベーションに基づいて応答を生成するためのメソッドも含まれています。
   - **GemmaQuestionerAgent** と **GemmaAnswererAgent**: 質問者と回答者それぞれの役割を果たすためのエージェントクラスで、質問を生成し、キーワードに基づいて回答を提供します。

### 評価とデバッグ
- ノートブックでは、評価ログの解析やデバッグ機能も組み込まれています。エージェントのパフォーマンスを向上させるために、質問の洗練やモデルパラメータの調整を行っています。また、ユーザーのフィードバックを基にエージェントの性能を向上させるための試行が継続されています。

### 結論
このノートブックは、20の質問ゲームにおける効果的な推理を実現するためのAIエージェントの開発に注力しています。Gemmaライブラリを活用してモデルを訓練し、ユーザーとの対話の中で適切な質問を生成するためのアルゴリズムを実装しています。デバッグや評価に取り組み、AIエージェントの性能を向上させるための試行錯誤も行われています。

---


# 用語概説 
以下に、Jupyter Notebook内で扱われている機械学習・深層学習に関連する主要な専門用語や概念の説明を示します。特に、初心者がつまずきやすいと思われる項目に焦点を当てて説明します。

### 用語解説

1. **プロンプト (prompt)**:
   プロンプトとは、AIモデルに対して与えるインプットのことです。このノートブックでは、質問者LLMや回答者LLMが「20の質問」ゲームを進行するための質問や状況設定を行う際に使用されます。

2. **インタリーブ (interleave)**:
   異なるリスト（質問や回答など）の要素を交互に並べることを指します。ここでは、質問履歴と回答履歴を交互に組み合わせることによって、ゲームの進行を管理しています。

3. **few-shot examples**:
   「少数ショット学習」とは、限られた数の例を使って学習を行う手法です。このノートブックでは、初期設定としてモデルに与える例を指し、モデルがどのような質問をすればよいのかを学ぶのに役立ちます。

4. **状態 (state)**:
   エージェントがゲームの進行状況やコンテキストに関する情報を保持するための内部的な情報を指します。この状態は、質問やモデルの応答などの情報を管理するために使用されます。

5. **トークン (token)**:
   自然言語処理において、トークンは言葉や句を構成する最小単位を指します。モデルはこれらのトークンを入力として処理し、予測や生成を行います。このノートブックでは、特に「<start_of_turn>」や「<end_of_turn>」といった特殊トークンが使われています。

6. **サンプリング (sampling)**:
   モデルが生成する際に、次の単語やトークンを選択する方法のことです。サンプリングの手法には、「温度」や「top-k」「top-p」などのパラメータが含まれ、生成されるテキストの多様性や確定性に影響を与えます。

7. **密推定 (density estimation)**:
   特定のデータがどのように分布しているかを推定する手法です。特に、ここでは回答の確率を効率良く管理するために使用されています。

8. **エクスポネンシャル平均 (exponential averaging)**:
   新しいデータポイントに基づいて過去の情報の重要度を減衰させることで、最新の傾向をより重視する手法です。このコンテキストでは、確率を更新するための方法として役立っています。

9. **エージェント (agent)**:
   自立した者として振る舞うプログラムやシステムを指します。このノートブックでは、質問をするエージェントと回答するエージェントの2つが実装されています。

10. **PyTorch (パイトーチ)**:
    深層学習のフレームワークであり、テンソル計算や微分のためのライブラリです。モデルのトレーニングや予測に使用され、ここではGemmaモデルの実装に利用されています。

11. **量子化 (quantization)**:
    モデルのパラメータを低精度の形式に変換し、運用時のメモリ使用量や計算時間を削減する技術です。この手法により、モデルをコンパクトにし、リソース制約のある環境でも扱いやすくしています。

これらの用語は、特に本ノートブック特有の文脈や実務経験のないユーザーにとって、理解するのが難しいかもしれません。それぞれの概念を把握することで、より良い理解が得られるでしょう。

---


ノート：

これは難しい挑戦です！私はさまざまなプロンプトを試し、はい/いいえの回答に確率的重みを追加し、LLMのパラメータを調整し、質問を洗練しようとしました。評価ログではチームのペアリングが含まれているため、LLMのパフォーマンスを理解するのが難しいです。現在のバージョンにデバッグを追加しました。毎日新しいことに挑戦しています！素晴らしい学習体験です。



In [None]:
%%bash
cd /kaggle/working
# 必要なパッケージをインストールします
pip install -q -U -t /kaggle/working/submission/lib immutabledict sentencepiece
# gemma_pytorch リポジトリをクローンします
git clone https://github.com/google/gemma_pytorch.git > /dev/null
# gemma用のディレクトリを作成します
mkdir /kaggle/working/submission/lib/gemma/
# gemmaライブラリのファイルを移動します
mv /kaggle/working/gemma_pytorch/gemma/* /kaggle/working/submission/lib/gemma/

In [None]:
%%writefile submission/main.py

import os
import sys

# Kaggleエージェントのパスを設定します
KAGGLE_AGENT_PATH = "/kaggle_simulations/agent/"
# Kaggleエージェントのパスが存在する場合、libを追加します
if os.path.exists(KAGGLE_AGENT_PATH):
    sys.path.insert(0, os.path.join(KAGGLE_AGENT_PATH, 'lib'))
# 存在しない場合は、ローカルのlibを追加します
else:
    sys.path.insert(0, "/kaggle/working/submission/lib")

import contextlib
import os
import sys
from pathlib import Path

import torch
from gemma.config import get_config_for_7b, get_config_for_2b
from gemma.model import GemmaForCausalLM

# 重みのパスを設定します
if os.path.exists(KAGGLE_AGENT_PATH):
    WEIGHTS_PATH = os.path.join(KAGGLE_AGENT_PATH, "gemma/pytorch/7b-it-quant/2")
else:
    WEIGHTS_PATH = "/kaggle/input/gemma/pytorch/7b-it-quant/2"

import itertools
from typing import Iterable

# 2つのリストをインタリーブします（サイズが異なる場合も考慮）
def interleave_unequal(x, y):
    return [
        item for pair in itertools.zip_longest(x, y) for item in pair if item is not None
    ]

class GemmaFormatter:
    _start_token = '<start_of_turn>'
    _end_token = '<end_of_turn>'

    def __init__(self, system_prompt: str = None, few_shot_examples: Iterable = None):
        self._system_prompt = system_prompt
        self._few_shot_examples = few_shot_examples
        self._turn_user = f"{self._start_token}user\n{{}}{self._end_token}\n"
        self._turn_model = f"{self._start_token}model\n{{}}{self._end_token}\n"
        self.reset()

    def __repr__(self):
        # 現在の状態を返します
        return self._state

    def user(self, prompt):
        # ユーザーからのプロンプトを状態に追加します
        self._state += self._turn_user.format(prompt)
        return self

    def model(self, prompt):
        # モデルからのプロンプトを状態に追加します
        self._state += self._turn_model.format(prompt)
        return self

    def start_user_turn(self):
        # ユーザーのターンを開始するためのトークンを追加します
        self._state += f"{self._start_token}user\n"
        return self

    def start_model_turn(self):
        # モデルのターンを開始するためのトークンを追加します
        self._state += f"{self._start_token}model\n"
        return self

    def end_turn(self):
        # ターンの終了を示すトークンを追加します
        self._state += f"{self._end_token}\n"
        return self

    def reset(self):
        # 状態をリセットし、初期プロンプトを設定します
        self._state = ""
        if self._system_prompt is not None:
            self.user(self._system_prompt)
        if self._few_shot_examples is not None:
            self.apply_turns(self._few_shot_examples, start_agent='user')
        return self

    def apply_turns(self, turns: Iterable, start_agent: str):
        # 提供されたターンを適用します
        formatters = [self.model, self.user] if start_agent == 'model' else [self.user, self.model]
        formatters = itertools.cycle(formatters)
        for fmt, turn in zip(formatters, turns):
            fmt(turn)
        return self

import re

@contextlib.contextmanager
def _set_default_tensor_type(dtype: torch.dtype):
    """デフォルトのtorchデータ型を設定します。"""
    torch.set_default_dtype(dtype)
    yield
    torch.set_default_dtype(torch.float)

from collections import defaultdict

# エージェント作成
    
class GemmaAgent:
    def __init__(self, variant='7b-it-quant', device='cuda:0', system_prompt=None, few_shot_examples=None):
        self._variant = variant
        self._device = torch.device(device)
        self.formatter = GemmaFormatter(system_prompt=system_prompt, few_shot_examples=few_shot_examples)
        self.question_history = []
        self.answer_history = []
        self.keyword_probabilities = defaultdict(float)
        
        print("モデルの初期化中")
        model_config = get_config_for_7b()
        model_config.tokenizer = os.path.join(WEIGHTS_PATH, "tokenizer.model")
        model_config.quant = "quant" in variant

        with _set_default_tensor_type(model_config.get_dtype()):
            self.model = GemmaForCausalLM(model_config)
            ckpt_path = os.path.join(WEIGHTS_PATH , f'gemma-{variant}.ckpt')
            self.model.load_weights(ckpt_path)
            self.model = self.model.to(self._device).eval()
            
        self.tokenizer = self._initialize_tokenizer(model_config.tokenizer)

    def __call__(self, obs, *args):
        self._start_session(obs)
        prompt = str(self.formatter)
        response = self._call_llm(prompt)
        response = self._parse_response(response, obs)
        print(f"{response=}")
        return response

    def _start_session(self, obs: dict):
        # セッションの初期化
        self.formatter.reset()
        if 'system_prompt' in obs:
            self.formatter.user(obs['system_prompt'])
        if 'few_shot_examples' in obs:
            self.formatter.apply_turns(obs['few_shot_examples'], start_agent='user')
        self.formatter.start_user_turn()

    def _call_llm(self, prompt, max_new_tokens=50, sampler_kwargs=None):
        if sampler_kwargs is None:
            sampler_kwargs = {
                'temperature': 0.6,
                'top_p': 0.9,
                'top_k': 50,
                'repetition_penalty': 0.8,
                'num_beams': 3,
                'early_stopping': False,
                'do_sample': True
            }
        # LLMを呼び出し、応答を生成します
        response = self.model.generate(
            prompt,
            device=self._device,
            output_len=max_new_tokens,
            **sampler_kwargs,
        )
        return response

    def _parse_keyword(self, response: str):
        # レスポンスからキーワードを抽出します
        match = re.search(r"(?<=\*\*)([^*]+)(?=\*\*)", response)
        return match.group().lower() if match else ''

    def parse_response(self, response: str, obs: dict):
        # レスポンスを解析します
        keyword = self._parse_keyword(response)
        turn_type = obs.get('turnType')
        if turn_type == "ask":
            question = self._generate_question(keyword)
            self.question_history.append(question)
            return question
        elif turn_type == "guess":
            return f"**{keyword}**"
        elif turn_type == "answer":
            last_question = obs.get('questions', [])[-1]
            answer = self._analyze_answer(last_question, keyword)
            self.answer_history.append(answer)
            return answer
        else:
            return "無効なターンタイプ"
    
    def _analyze_answer(self, question: str, context: str):
        # 答えを分析します
        question_lower = question.lower()
        keyword = self._parse_keyword(context)
        if "what" in question_lower:
            return f"ヒント: それは{keyword}です"
        elif "where" in question_lower:
            return f"ヒント: それは{keyword}に関連しています"
        else:
            answer = "はい" if "is" in question_lower else "いいえ"
            self.answer_history.append(answer)
            for keyword in self.keyword_probabilities:
                self._update_probabilities(keyword, answer)
            return answer
        
    def _update_probabilities(self, keyword: str, answer: str):
        # 確率を更新します
        if keyword in self.keyword_probabilities:
            self.keyword_probabilities[keyword] += 0.4 if answer == "はい" else -0.25
            self.keyword_probabilities[keyword] = max(0.0, min(1.0, self.keyword_probabilities[keyword]))
        
        total_prob = sum(self.keyword_probabilities.values())
        if total_prob > 0:
            for key in self.keyword_probabilities:
                self.keyword_probabilities[key] /= total_prob
    
    def _suggest_keyword(self):
        # 最も高い確率を持つキーワードを提案します
        return max(self.keyword_probabilities, key=self.keyword_probabilities.get, default="")

    def _refine_question(self, question: str, answers: list):
        # 質問を洗練させます
        if answers:
            last_answer = answers[-1].lower()
            if last_answer == "いいえ":
                if "is it" in question.lower():
                    question = question.replace("Is it", "Could it be")
                elif "does it" in question.lower():
                    question = question.replace("Does it", "Might it")
            elif last_answer == "はい":
                if "is it" in question.lower():
                    question = question.replace("Is it", "Is it specifically")
                elif "does it" in question.lower():
                    question = question.replace("Does it", "Does it specifically")
        
        return question

    def _generate_question(self, context: str):
        # 次の質問を生成します
        if self.question_history:
            last_question = self.question_history[-1]
            if last_question in context:
                return "前の質問の回答に基づいて次の論理的または創造的な質問..."
        
        input_ids = self.tokenizer.encode_plus(
            context,
            add_special_tokens=True,
            max_length=512,
            return_attention_mask=True,
            return_tensors='pt'
        )
        output = self.model.generate(input_ids['input_ids'], attention_mask=input_ids['attention_mask'])
        question = self.tokenizer.decode(output[0], skip_special_tokens=True)
        question = self._refine_question(question, self.answer_history)
        self.question_history.append(question)
        return question

    def _make_decision(self, obs: dict, context: str):
        # 判断を行います
        turn_type = obs.get('turnType')
        if turn_type == "ask":
            return self._generate_question(context)
        elif turn_type == "guess":
            return f"**{self._suggest_keyword()}**"
        elif turn_type == "answer":
            question = obs.get('questions', [])[-1]
            return self._analyze_answer(question, context)
        return "無効なターンタイプ"

# 質問者エージェント

class GemmaQuestionerAgent(GemmaAgent):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def _start_session(self, obs):
        # 質問者としてのセッションを開始します
        self.formatter.reset()
        self.formatter.user("20質問ゲームをプレイしましょう。あなたは質問者の役割を果たしています。")
        turns = interleave_unequal(obs.questions, obs.answers)
        self.formatter.apply_turns(turns, start_agent='model')
        if obs.turnType == 'ask':
            self.formatter.user(f"{obs.questions}および{obs.answers}のコンテキストに基づいて、キーワードを発見するためにyesまたはnoの質問をしてください。この質問は「砂漠では雨が降りますか？」や「あなたは幸せですか？」のようなものであってはなりません。キーワードの可能性を絞るためのカテゴリや詳細を知る手助けとなる質問である必要があります。あなたの質問は二重アスタリスクで囲んでください。")
        elif obs.turnType == 'guess':
            self.formatter.user("キーワードを推測してください。推測は二重アスタリスクで囲んでください。")
        self.formatter.start_model_turn()

    def _parse_response(self, response: str, obs: dict):
        # レスポンスを解析します
        if obs.turnType == 'ask':
            match = re.search(".+?\?", response.replace('*', ''))
            if match is None:
                question = "それは場所ですか？"
            else:
                question = match.group()
            return question
        elif obs.turnType == 'guess':
            guess = self._parse_keyword(response)
            return guess
        else:
            raise ValueError("不明なターンタイプ:", obs.turnType)

# 答弁者エージェント
            
class GemmaAnswererAgent(GemmaAgent):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def _start_session(self, obs):
        # 答弁者としてのセッションを開始します
        self.formatter.reset()
        self.formatter.user(f"20の質問をプレイしましょう。あなたは答弁者の役割です。キーワードは{obs.keyword}で、カテゴリは{obs.category}です。")
        turns = interleave_unequal(obs.questions, obs.answers)
        self.formatter.apply_turns(turns, start_agent='user')
        self.formatter.user(f"この質問はキーワード{obs.keyword}に関するもので、カテゴリは{obs.category}です。キーワードとカテゴリの文脈に基づいてyesまたはnoの回答のみを提供してください。")
        self.formatter.start_model_turn()

    def _parse_response(self, response: str, obs: dict):
        # レスポンスを解析し、いいえかはいとのみの回答を返します
        answer = self._parse_keyword(response)
        return '**はい**' if '**はい**' in answer else '**いいえ**'


system_prompt = "あなたは秘密のキーワードを発見するためにyesまたはnoの質問をするように設計されたAIアシスタントです。キーワードは特定の人、場所、または物です。質問者の場合は、毎ラウンド推測してください。カテゴリを絞り込んだら、最初の文字に関する質問をしてさらに推測を狭めてください。"

few_shot_examples = [
    ("それは人ですか？", "はい"),
    ("この人は男性ですか？", "はい"),
    ("この人は俳優ですか？", "いいえ"),
    ("この人は政治家ですか？", "はい"),
    ("この人は現在生きていますか？", "いいえ"),
    ("それは場所ですか？", "はい"),
    ("この場所は都市ですか？", "はい"),
    ("この都市はアメリカにありますか？", "はい"),
    ("この都市は州の首都ですか？", "いいえ"),
    ("この都市は東海岸にありますか？", "はい"),
    ("それは国ですか？", "はい"),
    ("この国はヨーロッパにありますか？", "はい"),
    ("この国は欧州連合のメンバーですか？", "はい"),
    ("この国は歴史的なランドマークで知られていますか？", "はい"),
    ("それは地理的特徴ですか？", "はい"),
    ("それは山ですか？", "いいえ"),
    ("それは川ですか？", "はい"),
    ("この川はアフリカにありますか？", "はい"),
    ("この川は世界で最も長い川ですか？", "はい"),
    ("この川はnの文字で始まりますか？", "はい"),
    ("キーワードはナイル川ですか？", "はい"),
    ("それは物ですか？", "はい"),
    ("この物は人間が作ったものですか？", "はい"),
    ("それは通信に使用されますか？", "はい"),
    ("それは技術の一種ですか？", "はい"),
    ("それは食パンの箱より小さいですか？", "はい"),
    ("それは車両の一種ですか？", "いいえ"),
    ("それは屋内にありますか？", "はい"),
    ("それは娯楽に使用されますか？", "いいえ")
]

agent = None

def get_agent(name: str):
    global agent
    
    # 現在のエージェントが初期化されていない場合、エージェントを作成します
    if agent is None and name == 'questioner':
        agent = GemmaQuestionerAgent(
            device='cuda:0',
            system_prompt=system_prompt,
            few_shot_examples=few_shot_examples
        )
    elif agent is None and name == 'answerer':
        agent = GemmaAnswererAgent(
            device='cuda:0',
            system_prompt=system_prompt,
            few_shot_examples=few_shot_examples
        )
    assert agent is not None, "エージェントが初期化されていません。"

    return agent

def agent_fn(obs, cfg):
    # エージェントの動作を定義します
    if obs.turnType == "ask":
        response = get_agent('questioner')(obs)
    elif obs.turnType == "guess":
        response = get_agent('questioner')(obs)
    elif obs.turnType == "answer":
        response = get_agent('answerer')(obs)
    if response is None or len(response) <= 1:
        return "はい"
    else:
        return response

# 提出


In [None]:
!apt install pigz pv > /dev/null

In [None]:
!tar --use-compress-program='pigz --fast --recursive | pv' -cf submission.tar.gz -C /kaggle/working/submission . -C /kaggle/input/ gemma/pytorch/7b-it-quant/2

# デバッグ


In [None]:
# from kaggle_environments import make

# def simple_agent(obs, cfg):
#     if obs.turnType == "ask":
#         response = "それはアヒルですか？"
#     elif obs.turnType == "guess":
#         response = "アヒル"
#     elif obs.turnType == "answer":
#         response = "いいえ"
#     return response


# debug_config = {'episodeSteps': 61,
#                 'actTimeout': 60,      
#                 'runTimeout': 1200,    
#                 'agentTimeout': 3600}  

# 環境を作成します
# env = make(environment="llm_20_questions", configuration=debug_config, debug=True)


# ゲームを実行します
# game_output = env.run(agents=[agent_fn, simple_agent, simple_agent, simple_agent])

# 実行結果を表示します
# env.render(mode="ipython", width=1080, height=700)