<a href="https://colab.research.google.com/github/okana2ki/gai4e/blob/main/ai_agent.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# AIエージェントを作って動かして理解しよう（初学者向け）

## 「AIエージェント」とは

AIエージェントの定義はまだ定まっていませんが、ここでは、次の２つの特徴を持つエージェントを指すことにします。

1. 外部ツールが使える

2. 人がタスクだけ与えれば、自動で計画を立てて、その計画を自動で完了まで実行してくれる

## 外部ツールを使うしくみ

使えるツールの一覧を与えておき、「与えられたタスクに対して使うべきツールとそのツールに渡すパラメータを出力するよう、大規模言語モデル（LLM）に依頼する」ことで実現

詳しくは、「[Gemini API を使用した関数呼び出し](https://ai.google.dev/gemini-api/docs/function-calling?hl=ja&example=meeting)」を参照

## 自律的な計画立案のしくみ（一例）

ReActパターン

1. Reasoning（推論）：状況を分析し次に何をすべきか考える
2. Acting（行動）：ツールの選択と実行
3. Observing（観察）：結果の確認

の繰返し



In [None]:
!pip install plyer

In [2]:
from google import genai
from google.genai import types
import datetime
import json
import os
from plyer import notification
import time
from google.colab import userdata

# ============================================
# ツール定義
# ============================================

def get_current_time() -> dict:
    """現在時刻を取得します"""
    now = datetime.datetime.now()
    result = {
        "date": now.strftime("%Y年%m月%d日"),
        "time": now.strftime("%H:%M:%S"),
        "weekday": ["月", "火", "水", "木", "金", "土", "日"][now.weekday()] + "曜日",
        "hour": now.hour
    }
    print(f"   📅 現在時刻: {result['date']} {result['time']} ({result['weekday']})")
    return result


def save_file(filename: str, content: str) -> dict:
    """ファイルに内容を保存します"""
    try:
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(content)
        print(f"   💾 ファイル保存: {filename}")
        return {"status": "成功", "filename": filename, "size": len(content)}
    except Exception as e:
        return {"status": "失敗", "error": str(e)}


def read_file(filename: str) -> dict:
    """ファイルから内容を読み込みます"""
    try:
        with open(filename, 'r', encoding='utf-8') as f:
            content = f.read()
        print(f"   📖 ファイル読込: {filename} ({len(content)}文字)")
        return {"status": "成功", "content": content}
    except Exception as e:
        return {"status": "失敗", "error": str(e)}


def calculate(expression: str) -> dict:
    """数式を計算します"""
    try:
        result = eval(expression)
        print(f"   🔢 計算: {expression} = {result}")
        return {"expression": expression, "result": result}
    except Exception as e:
        return {"error": str(e)}


def send_notification(title: str, message: str) -> dict:
    """デスクトップ通知を送信します"""
    try:
        notification.notify(
            title=title,
            message=message,
            app_name='自律AIエージェント',
            timeout=5
        )
        print(f"   🔔 通知送信: {title} - {message}")
        return {"status": "成功", "title": title}
    except Exception as e:
        # 通知が使えない環境でもエラーにしない
        print(f"   📢 通知（コンソール）: {title} - {message}")
        return {"status": "成功（コンソール出力）", "title": title}


def add_todo(task: str, priority: str = "normal") -> dict:
    """ToDoリストにタスクを追加します"""
    try:
        if os.path.exists("todos.json"):
            with open("todos.json", 'r', encoding='utf-8') as f:
                todos = json.load(f)
        else:
            todos = []

        new_task = {
            "id": len(todos) + 1,
            "task": task,
            "priority": priority,
            "completed": False,
            "created_at": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        }
        todos.append(new_task)

        with open("todos.json", 'w', encoding='utf-8') as f:
            json.dump(todos, f, ensure_ascii=False, indent=2)

        print(f"   ✅ ToDo追加: {task} (優先度: {priority})")
        return {"status": "成功", "task": new_task}
    except Exception as e:
        return {"status": "失敗", "error": str(e)}


def get_todos() -> dict:
    """ToDoリストを取得します"""
    try:
        if os.path.exists("todos.json"):
            with open("todos.json", 'r', encoding='utf-8') as f:
                todos = json.load(f)
            incomplete = [t for t in todos if not t["completed"]]
            print(f"   📋 ToDo確認: {len(incomplete)}件の未完了タスク")
            return {"status": "成功", "todos": todos, "incomplete_count": len(incomplete)}
        else:
            print(f"   📋 ToDo確認: タスクなし")
            return {"status": "成功", "todos": [], "incomplete_count": 0}
    except Exception as e:
        return {"status": "失敗", "error": str(e)}


def analyze_numbers(numbers: str) -> dict:
    """数値リストを分析します（カンマ区切り）"""
    try:
        nums = [float(x.strip()) for x in numbers.split(',')]
        result = {
            "count": len(nums),
            "sum": sum(nums),
            "average": sum(nums) / len(nums),
            "max": max(nums),
            "min": min(nums)
        }
        print(f"   📊 数値分析: {len(nums)}個の数値を分析")
        return result
    except Exception as e:
        return {"error": str(e)}


In [14]:
# ============================================
# 完全自律型エージェント
# ============================================

class AutonomousAgent:
    """
    完全自律型AIエージェント

    特徴：
    - タスクだけ与えればAIが計画を立てる
    - 自動で必要なツールを選択・実行
    - 結果を見て次の行動を自律的に決定
    - タスク完了まで自動でループ
    """

    def __init__(self, tools_functions: list, max_iterations: int = 10):
        """
        Args:
            tools_functions: 利用可能なツール（関数）のリスト
            max_iterations: 最大反復回数（無限ループ防止）
        """
        # Retrieve API key from Colab secrets
        api_key = userdata.get('GOOGLE_API_KEY')
        # Use api_key when initializing the client
        self.client = genai.Client(api_key=api_key)
        self.tools_map = {func.__name__: func for func in tools_functions}

        # 自動実行モード
        self.config = types.GenerateContentConfig(
            tools=tools_functions,
            # 自動実行を有効化（これが重要！）
            # automatic_function_calling は有効のままにする
        )

        self.max_iterations = max_iterations
        self.iteration_count = 0
        self.request_count = 0 # APIリクエストカウンター

    def run(self, task: str, verbose: bool = True) -> str:
        """
        タスクを完全自律的に実行

        Args:
            task: 実行するタスク（自然言語）
            verbose: 詳細表示するか

        Returns:
            最終的な実行結果
        """
        if verbose:
            print("="*70)
            print(f"🚀 自律型AIエージェント起動")
            print("="*70)
            print(f"📝 タスク: {task}")
            print("="*70)
            print()

        # タスクに対して、AIに計画立案を促すプロンプトを追加
        enhanced_task = f"""
以下のタスクを完了してください：

{task}

重要な指示：
1. まず、タスクを完了するために必要なステップを考えてください
2. 各ステップで適切なツールを選択して実行してください
3. ツールの実行結果を確認し、次に何をすべきか判断してください
4. すべてのステップが完了したら、最終報告をしてください
5. 途中で問題が発生したら、別のアプローチを試してください

利用可能なツール一覧:
{', '.join(self.tools_map.keys())}

それでは、タスクを開始してください。
"""

        # Gemini の automatic function calling を使用
        # SDKが自動的にツール呼び出しループを処理
        response = self.client.models.generate_content(
            # model="gemini-2.5-flash",
            model="gemini-2.5-flash-lite",  # モデルを Flash-Lite に変更（レート制限にかかりにくくするため）
            contents=enhanced_task,
            config=self.config
        )
        self.request_count += 1 # リクエストをカウント (自律動作開始のための最初の呼び出しのみ)

        if verbose:
            print()
            print("="*70)
            print("✅ タスク完了")
            print("="*70)
            print(f"📄 最終報告:\n{response.text}")
            print("="*70)
            # 自動関数呼び出しによる内部リクエストは、このカウントに含まれないことに注意
            print(f"📊 このタスクでのAPIリクエスト数 (自律動作開始のための最初の呼び出し): {self.request_count}")

        return response.text

In [18]:
# ===================================================
# 手動制御版エージェント（学習用：内部の動きが見える）
# ===================================================

class ManualAutonomousAgent:
    """
    手動制御版の自律型エージェント

    automatic_function_calling を無効化して、
    AIの思考過程とツール選択の様子を可視化
    """

    def __init__(self, tools_functions: list, max_iterations: int = 10):
        # Retrieve API key from Colab secrets
        api_key = userdata.get('GOOGLE_API_KEY')
        # Use api_key when initializing the client
        self.client = genai.Client(api_key=api_key)
        self.tools_map = {func.__name__: func for func in tools_functions}

        # 手動制御モード
        self.config = types.GenerateContentConfig(
            tools=tools_functions,
            automatic_function_calling=types.AutomaticFunctionCallingConfig(
                disable=True  # 手動制御で内部を見る
            )
        )

        self.max_iterations = max_iterations
        self.request_count = 0 # APIリクエストカウンター


    def run(self, task: str) -> str:
        """タスクを実行（手動制御版）"""
        print("="*70)
        print(f"🔍 手動制御版エージェント起動（内部の動きが見える）")
        print("="*70)
        print(f"📝 タスク: {task}")
        print("="*70)
        print()

        # 強化されたプロンプト
        enhanced_task = f"""
以下のタスクを段階的に完了してください：

{task}

タスク実行の指針：
1. 最初に、タスク達成のための計画を立ててください。
2. 計画の各ステップを実行するために、**ツール呼び出しの形式で**必要なアクションを指定してください。AIモデルは、ツール呼び出しの形式で応答を生成する必要があります。
3. ツールの実行結果を受け取ったら、次のステップに進むか、タスク完了を判断してください。
4. 全てのステップが完了したら「タスク完了」と明示してください。

利用可能なツール: {', '.join(self.tools_map.keys())}
"""

        contents = [enhanced_task]

        for iteration in range(self.max_iterations):
            print(f"\n{'='*70}")
            print(f"🔄 ステップ {iteration + 1}")
            print(f"{'='*70}")

            # AIにメッセージ送信
            response = self.client.models.generate_content(
                model="gemini-2.5-flash",  # 手動制御版では、このモデルを推奨
                # model="gemini-2.5-flash-lite",  # モデルを Flash-Lite に変更するとツール呼び出しが不安定
                contents=contents,
                config=self.config
            )
            self.request_count += 1 # リクエストをカウント


            candidate = response.candidates[0]
            part = candidate.content.parts[0]

            # テキスト応答の場合
            if hasattr(part, 'text') and part.text:
                print(f"\n💭 AIの思考・報告:")
                print(f"   {part.text}")

                # タスク完了を示すキーワードチェック
                if any(keyword in part.text for keyword in ["タスク完了", "完了しました", "全て終わりました"]):
                    print(f"\n{'='*70}")
                    print("✅ タスク完了を検出")
                    print(f"{'='*70}")
                    print(f"📊 このタスクでのAPIリクエスト数: {self.request_count}") # リクエスト数を表示
                    return part.text

                # 最後の反復の場合は終了
                if iteration == self.max_iterations - 1:
                    print(f"\n⚠️ 最大反復回数に到達しました。")
                    print(f"📊 このタスクでのAPIリクエスト数: {self.request_count}") # リクエスト数を表示
                    return part.text

            # ツール呼び出しの場合
            elif hasattr(part, 'function_call') and part.function_call:
                function_call = part.function_call
                function_name = function_call.name
                function_args = dict(function_call.args)

                print(f"\n🤖 AIの判断:")
                print(f"   ツール: {function_name}")
                print(f"   引数: {function_args}")
                print(f"\n⚙️  実行中...")

                # ツール実行
                if function_name in self.tools_map:
                    try:
                        result = self.tools_map[function_name](**function_args)

                        print(f"\n✨ 実行結果:")
                        print(f"   {result}")

                        # 会話履歴に追加 (AIの関数呼び出しとツール実行結果)
                        contents.append(candidate.content) # AIの関数呼び出しパートを追加
                        function_response_part = types.Part.from_function_response(
                            name=function_name,
                            response={"result": result}
                        )
                        contents.append(
                            types.Content(
                                role="user",
                                parts=[function_response_part]
                            )
                        )
                    except Exception as e:
                        error_msg = f"ツール実行エラー: {e}"
                        print(f"\n❌ 実行エラー:")
                        print(f"   {error_msg}")
                        # エラーを会話履歴に追加してAIにフィードバック
                        contents.append(candidate.content) # AIの関数呼び出しパートを追加
                        error_part = types.Part.from_function_response(
                             name=function_name,
                             response={"error": error_msg}
                        )
                        contents.append(
                            types.Content(
                                role="user",
                                parts=[error_part]
                            )
                        )


                else:
                    print(f"\n❌ エラー: {function_name} は存在しません")
                    print(f"📊 このタスクでのAPIリクエスト数: {self.request_count}") # リクエスト数を表示
                    return f"エラー: {function_name} は存在しません"
            else:
                print(f"\n🤔 予期しない応答形式:")
                print(f"   {part}")
                print(f"📊 このタスクでのAPIリクエスト数: {self.request_count}") # リクエスト数を表示
                return "予期しない応答形式"

        print(f"\n⚠️ 最大反復回数に到達しました。")
        print(f"📊 このタスクでのAPIリクエスト数: {self.request_count}") # リクエスト数を表示
        return "最大反復回数に到達しました"

In [17]:
# ============================================
# 例題集（難易度順）
# ============================================

def main(task_number: int = None):
    # 利用可能なツール
    tools = [
        get_current_time,
        save_file,
        read_file,
        calculate,
        send_notification,
        add_todo,
        get_todos,
        analyze_numbers
    ]

    print("\n" + "🎓 自律型AIエージェント - 例題デモ\n")

    agent = AutonomousAgent(tools)
    manual_agent = ManualAutonomousAgent(tools, max_iterations=8)

    tasks = {
        1: ("基本的な自律実行（簡単）", """
現在時刻を取得して、その情報をtime_report.txtというファイルに保存してください。
"""),
        2: ("複数ステップの自律的計画実行（中級）", """
以下のタスクを順番に実行してください：
1. 「10, 20, 30, 40, 50」という数値リストを分析する
2. 分析結果（平均値、合計、最大値など）をanalysis_report.txtに保存する
3. 「データ分析が完了しました」という通知を送る
"""),
        3: ("条件分岐を含む自律実行（中級）", """
現在時刻を確認して：
- もし午前中（12時より前）なら「おはようございます」という通知を送る
- もし午後なら「こんにちは」という通知を送る
- そして、その判断理由をgreetings.txtに保存する
"""),
        4: ("データ処理パイプラインの自律構築（上級）", """
以下の一連の作業を自律的に完了してください：

1. 「100, 200, 150, 300, 250」という売上データを分析
2. 平均売上を計算
3. 平均売上が200以上なら「目標達成」、未満なら「未達成」と判定
4. 判定結果と分析データをsales_report.txtに整形して保存
5. 「売上分析完了：[判定結果]」という内容で通知を送る
"""),
        5: ("エラーリカバリーと代替手段の自律選択（上級）", """
以下のタスクを実行してください：

1. nonexistent_file.txtを読み込む
2. もし読み込みに失敗したら、代わりに「ファイルが見つかりませんでした」という内容で新しくerror_log.txtを作成
3. 最終的な状況を通知で報告
"""),
        6: ("手動制御版（内部の動きを見る学習用）", """
ToDoリストに以下のタスクを追加してください：
1. 「レポートを書く」（優先度: high）
2. 「買い物に行く」（優先度: normal）

その後、ToDoリストを確認して、何件のタスクがあるか報告してください。
""")
    }

    if task_number is None:
        print("実行したい例題の番号を指定してください (例: main(1))")
        for num, (title, _) in tasks.items():
            print(f"{num}: {title}")
    elif task_number in tasks:
        title, task_description = tasks[task_number]
        print(f"\n\n" + "📌 例題{}: {}".format(task_number, title))
        print("-" * 70)

        if task_number == 6:
             manual_agent.run(task_description)
        else:
             agent.run(task_description)

    else:
        print(f"エラー: 例題番号 {task_number} は存在しません。")


if __name__ == "__main__":
    # 実行したい例題の番号を main() の引数に指定してください。
    # 例: main(1) で例題1を実行
    main(6)


🎓 自律型AIエージェント - 例題デモ



📌 例題6: 手動制御版（内部の動きを見る学習用）
----------------------------------------------------------------------
🔍 手動制御版エージェント起動（内部の動きが見える）
📝 タスク: 
ToDoリストに以下のタスクを追加してください：
1. 「レポートを書く」（優先度: high）
2. 「買い物に行く」（優先度: normal）

その後、ToDoリストを確認して、何件のタスクがあるか報告してください。



🔄 ステップ 1

💭 AIの思考・報告:
   計画：
1. タスク「レポートを書く」を優先度「high」でToDoリストに追加します。
2. タスク「買い物に行く」を優先度「normal」でToDoリストに追加します。
3. ToDoリストの内容を取得します。
4. 取得したToDoリストのタスク数を数え、報告します。



🔄 ステップ 2

🤖 AIの判断:
   ツール: add_todo
   引数: {'task': 'レポートを書く', 'priority': 'high'}

⚙️  実行中...
   ✅ ToDo追加: レポートを書く (優先度: high)

✨ 実行結果:
   {'status': '成功', 'task': {'id': 1, 'task': 'レポートを書く', 'priority': 'high', 'completed': False, 'created_at': '2025-10-05 06:40:19'}}

🔄 ステップ 3

🤖 AIの判断:
   ツール: add_todo
   引数: {'task': '買い物に行く', 'priority': 'normal'}

⚙️  実行中...
   ✅ ToDo追加: 買い物に行く (優先度: normal)

✨ 実行結果:
   {'status': '成功', 'task': {'id': 2, 'task': '買い物に行く', 'priority': 'normal', 'completed': False, 'created_at': '2025-10-05 06:40:19'}}

🔄 ステップ 4

🤖 A