# ライブビューブラウザツールと Amazon Nova Act SDK

## 概要

このチュートリアルでは、Nova Act SDK を使用して Amazon Bedrock Agentcore ブラウザツールと対話し、ブラウザをライブで表示する方法を学びます。

### チュートリアルの詳細

| 情報                | 詳細                                                                              |
|:--------------------|:----------------------------------------------------------------------------------|
| チュートリアルの種類 | 会話形式                                                                          |
| エージェントの種類   | 単一                                                                              |
| エージェントフレームワーク | Nova Act                                                                           |
| LLM モデル          | Amazon Nova Act モデル                                                            |
| チュートリアルコンポーネント | NovaAct を使用してブラウザツールとライブで対話する                                     |
| チュートリアルの分野 | 分野横断                                                                          |
| 例の複雑さ          | 簡単                                                                              |
| 使用する SDK        | Amazon BedrockAgentCore Python SDK、Nova Act                                     |

### チュートリアルのアーキテクチャ

このチュートリアルでは、ブラウザツールと Nova Act を使用してブラウザをライブで表示する方法を説明します。

例では、自然言語の指示を Nova Act エージェントに送信し、Bedrock Agentcore ブラウザでタスクを実行し、ブラウザをライブで表示します。

<div style="text-align:left">
    <img src="./images/browser-tool.png" width="50%"/>
</div>

### チュートリアルの主な機能

* ブラウザツールを使用し、ライブで表示する
* Nova Act をブラウザツールで使用する

## 前提条件

このチュートリアルを実行するには、以下が必要です:

* Python 3.10+
* AWS 認証情報
* Amazon Bedrock AgentCore SDK
* Nova Act SDK と API キー

In [None]:
!pip install -r requirements.txt

## Bedrock Agentcore ブラウザツールでライブビューを使用した NovaAct の使用

ここでは、Amazon DCV SDK を介して Bedrock Agentcore ブラウザツールに接続するためのヘルパー関数を使用します。

In [None]:
%%writefile live_view_with_nova_act.py
from bedrock_agentcore.tools.browser_client import browser_session
from nova_act import NovaAct
from rich.console import Console
from rich.panel import Panel
import sys
import json
import argparse
sys.path.append("../interactive_tools")
from browser_viewer import BrowserViewerServer

console = Console()

from boto3.session import Session

boto_session = Session()
region = boto_session.region_name
print("using region", region)

def live_view_with_nova_act(prompt, starting_page, nova_act_key, region="us-west-2"):
    以下が日本語訳になります。

"""ディスプレイのサイズに合わせて browser live viewer を実行します。"""
    console.print(
        Panel(
            "[bold cyan]Browser Live Viewer[/bold cyan]\n\n"
            "This demonstrates:\n"
            "• Live browser viewing with DCV\n"
            "• Configurable display sizes (not limited to 900×800)\n"
            "• Proper display layout callbacks\n\n"
            "[yellow]Note: Requires Amazon DCV SDK files[/yellow]",
            title="Browser Live Viewer",
            border_style="blue",
        )
    )

    try:
        # Step 1: ブラウザセッションを作成する

日本語訳:

ステップ 1: browser session を作成します。

browser session は技術用語なので、そのまま残しました。
半角英数字の前後に半角スペースを挿入しました。
        with browser_session(region) as client:
            ws_url, headers = client.generate_ws_headers()

            # Step 2: Start viewer server

日本語訳:

# ステップ 2: ビューアサーバーを起動する
            console.print("\n[cyan]Step 3: Starting viewer server...[/cyan]")
            viewer = BrowserViewerServer(client, port=8000)
            viewer_url = viewer.start(open_browser=True)

            # Step 3: Show features

機能を表示する

以下のように、半角英数字の前後に半角スペースを挿入し、コード、コマンド、変数名、関数名などの技術的な用語はそのまま残しました。

# Step 3: Show features
            console.print("\n[bold green]Viewer Features:[/bold green]")
            console.print(
                "• Default display: 1600×900 (configured via displayLayout callback)"
            )
            console.print("• Size options: 720p, 900p, 1080p, 1440p")
            console.print("• Real-time display updates")
            console.print("• Take/Release control functionality")

            console.print("\n[yellow]Press Ctrl+C to stop[/yellow]")

            # Step 4: Use Nova Act to interact with the browser

ステップ 4: Nova Act を使ってブラウザと対話する

日本語訳:

# ステップ 4: Nova Act を使って ブラウザ と対話する

Nova Act は、ブラウザ内の要素を操作したり、ブラウザの動作をシミュレートしたりするための強力な機能を提供します。以下の例では、Google の検索ページを開き、"Hello World" と入力して検索を実行する方法を示します。

```python
import time
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto("https://google.com")
    
    # 検索ボックスを探す
    search_box = page.query_selector("input[name='q']")
    
    # 検索ボックスに "Hello World" と入力する
    search_box.fill("Hello World")
    
    # Enter キーを押して検索を実行する
    search_box.press("Enter")
    
    # 5 秒待つ
    time.sleep(5)
    
    browser.close()
```

この例では、 `sync_playwright()` を使って Playwright のインスタンスを作成し、 `chromium.launch()` でブラウザを起動しています。次に `new_page()` で新しいページを開き、 `goto()` メソッドで Google の検索ページに移動しています。

`query_selector()` メソッドを使って検索ボックスの要素を取得し、 `fill()` メソッドで "Hello World" と入力しています。最後に `press()` メソッドで Enter キーを押して検索を実行しています。

`time.sleep(5)` で 5 秒待ってからブラウザを閉じています。この待ち時間は、検索結果を確認するために設けられています。
            with NovaAct(
                cdp_endpoint_url=ws_url,
                cdp_headers=headers,
                preview={"playwright_actuation": True},
                nova_act_api_key=nova_act_key,
                starting_page=starting_page,
            ) as nova_act:
                result = nova_act.act(prompt)
                console.print(f"\n[bold green]Nova Act Result:[/bold green] {result}")
        
    except Exception as e:
        console.print(f"\n[red]Error: {e}[/red]")
        import traceback
        traceback.print_exc()
    finally:
        console.print("\n\n[yellow]Shutting down...[/yellow]")
        if "client" in locals():
            client.stop()
            console.print("✅ Browser session terminated")
    return result


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--prompt", required=True, help="Browser Search instruction")
    parser.add_argument("--starting-page", required=True, help="Starting URL")
    parser.add_argument("--nova-act-key", required=True, help="Nova Act API key")
    parser.add_argument("--region", default="us-west-2", help="AWS region")
    args = parser.parse_args()

    result = live_view_with_nova_act(
        args.prompt, args.starting_page, args.nova_act_key, args.region
    )

    with open('result.txt', 'w') as f:
        f.write(str(result))

    console.print(f"\n[bold green]Nova Act Result:[/bold green] {result}")

#### スクリプトの実行
スクリプトを実行する前に、以下に Nova Act API キーを貼り付けてください。

In [None]:
NOVA_ACT_KEY= '' ### Paste your Nova Act Key here

日本語訳:
### Nova Act キーをここに貼り付けてください

In [None]:
!python live_view_with_nova_act.py --prompt "Search for macboks and extract the details of the first one" --starting-page "https://www.amazon.com/" --nova-act-key {NOVA_ACT_KEY}

## 舞台裏で何が起こったのか?
* ブラウザクライアントをインスタンス化し、セッションを開始しました
* 次に `BrowserViewerServer` を使用して、ブラウザセッションに接続し、ローカルでセッションを表示しました
* 次に Nova Act エージェントを作成し、ブラウザセッションの詳細をそれに渡しました
* 最後に、自然言語の指示を Nova Act エージェントに送信し、アクションをライブで確認しました

# 祝賀!

日本語訳:

おめでとうございます!