# ライブビューブラウザツールとBrowser-Use SDK

## 概要

このチュートリアルでは、Browser-Useを使ってAmazon Bedrock Agentcoreブラウザツールとやりとりしてブラウザをライブビューする方法を学びます。

### チュートリアルの詳細

| 情報                | 詳細                                                                              |
|:--------------------|:----------------------------------------------------------------------------------|
| チュートリアルの種類 | 対話型                                                                            |
| エージェントの種類   | 単一                                                                              |
| エージェントフレームワーク | Browser-Use                                                                       |
| LLMモデル           | Anthropic Claude 3.5 Sonnet                                                        |
| チュートリアルコンポーネント | Browser-Useを使ってブラウザツールとやりとりしてライブビューする                    |
| チュートリアルの分野 | 垂直                                                                              |
| 例の複雑さ          | 簡単                                                                              |
| 使用したSDK         | Amazon BedrockAgentCore Python SDK、Browser-Use                                   |

### チュートリアルのアーキテクチャ

このチュートリアルでは、Browser-Useをブラウザツールと組み合わせてブラウザをライブビューする方法を説明します。

例では、自然言語の指示をBrowse-Use エージェントに送信して、Bedrock Agentcoreブラウザでタスクを実行し、ブラウザをライブビューします。

<div style="text-align:left">
    <img src="images/architecture_runtime.png" width="50%"/>
</div>

### チュートリアルの主な機能

* ブラウザツールを使ってライブビューする
* Browser-Useをブラウザツールと組み合わせて使う

## 前提条件

このチュートリアルを実行するには、以下が必要です:
* Python 3.11+
* AWS 認証情報
* Amazon Bedrock AgentCore SDK
* Browser-Use SDK

In [None]:
!pip install -r requirements.txt

## Bedrock Agentcore ブラウザツールでライブビューを使用する

ここでは、ヘルパークラス `BrowserViewerServer` を使用して、Amazon DCV SDK 経由で Bedrock Agentcore ブラウザツールに接続します。

In [None]:
%%writefile live_view_with_browser_use.py
from browser_use import Agent
from browser_use.browser.session import BrowserSession
from bedrock_agentcore.tools.browser_client import BrowserClient
from browser_use.browser import BrowserProfile
from langchain_aws import ChatBedrockConverse
from rich.console import Console
from rich.panel import Panel
from contextlib import suppress
import argparse
import sys
sys.path.append("../interactive_tools")
from browser_viewer import BrowserViewerServer
import asyncio
from boto3.session import Session

console = Console()

boto_session = Session()
region = boto_session.region_name


async def run_browser_task(
    browser_session: BrowserSession, bedrock_chat: ChatBedrockConverse, task: str
) -> None:
    以下が日本語訳になります。

"""
    browser_use を使用してブラウザ自動化タスクを実行する

    引数:
        browser_session: 再利用する既存のブラウザセッション
        bedrock_chat: Bedrock チャットモデルのインスタンス
        task: エージェントの自然言語タスク
"""
    try:
        # タスクの実行を表示

日本語訳:

# タスク の 実行 を 表示

`task` コマンドを使って、実行中のタスクを表示できます。

```
task status
```

この コマンド は、現在実行中の `Task` と、その状態 ( `Status` ) を表示します。状態には、`running` 、 `sleeping` 、 `waiting` などがあります。

`task` コマンドには他にも便利な オプション があります。例えば、 `--latest` フラグを使うと、最新のタスクだけを表示できます。

```
task status --latest
```

`watch` コマンドと組み合わせると、リアルタイムでタスクの状況を監視できます。

```
watch -n 1 'task status --latest'
```

この コマンド は 1 秒ごとに最新の `task status` を表示し続けます。
        console.print(f"\n[bold blue]🤖 Executing task:[/bold blue] {task}")

        # エージェントの作成と実行

日本語訳:

# エージェントの作成と実行

agent = Agent( env, brain_name )
agent.learn( total_num_steps )
env.close()

上記のコードでは、 Agent クラスのインスタンスを作成し、 learn メソッドを使って指定された総ステップ数の学習を行い、最後に環境を閉じています。

Agent、 brain_name、 total_num_steps、 env、 learn、 close() などの技術的な用語は翻訳せずにそのまま残しました。半角英数字の前後には半角スペースを挿入しています。
        agent = Agent(task=task, llm=bedrock_chat, browser_session=browser_session)

        # Run with progress indicator

以下のように翻訳します。

# プログレス インジケーターで実行する

`run_with_progress_indicator()` 関数は、長時間実行されるタスクの進行状況を視覚化するために使用します。この関数は、タスクの合計ステップ数と、各ステップで実行する関数を引数として受け取ります。

```python
from tqdm import tqdm

def run_with_progress_indicator(total_steps, step_func):
    with tqdm(total=total_steps) as pbar:
        for i in range(total_steps):
            step_func(i)
            pbar.update(1)
```

`tqdm` ライブラリを使用して進行状況バーを表示し、各ステップが完了するたびに `pbar.update(1)` を呼び出して進行状況を更新します。`step_func` は、各ステップで実行する任意の関数を表します。

この関数を使用する例を次に示します。

```python
def my_step_func(i):
    # 長時間実行されるタスクをここに記述
    pass

run_with_progress_indicator(100, my_step_func)
```

この例では、`my_step_func` が 100 回呼び出され、各呼び出しの進行状況がプログレス インジケーターに表示されます。
        with console.status(
            "[bold green]Running browser automation...[/bold green]", spinner="dots"
        ):
            await agent.run()

        console.print("[bold green]✅ Task completed successfully![/bold green]")

    except Exception as e:
        console.print(f"[bold red]❌ Error during task execution:[/bold red] {str(e)}")
        import traceback

        if console.is_terminal:
            traceback.print_exc()


async def live_view_with_browser_use(prompt, region="us-west-2"):
    以下が日本語訳になります。

```
    Agent 自動化によるライブブラウザ表示を実演するメイン関数です。

    ワークフロー:
    1. us-west-2 リージョンで Amazon Bedrock AgentCore ブラウザクライアントを作成します
    2. ブラウザの初期化を待ちます (10 秒の必須遅延)
    3. ポート 8000 でブラウザ制御付きの DCV ベースのライブビューアサーバーを開始します
    4. 複数のディスプレイサイズオプション (720p から 1440p) を設定します
    5. CDP WebSocket 経由で AI エージェント自動化のブラウザセッションを確立します
    6. Claude 3.5 Sonnet モデルを使用して AI 駆動のタスクを実行します
    7. すべてのセッションを適切に閉じ、ブラウザクライアントを停止します

機能:
    - Web インターフェースを通じたリアルタイムブラウザ表示
    - 手動での制御の取得/解放機能
    - browser-use ライブラリを使用した AI 自動化
    - 設定可能なディスプレイレイアウトとサイズ
```

技術的な用語 (コード、コマンド、変数名、関数名など) はそのまま残しました。半角英数字の前後には半角スペースを挿入しています。
    console.print(
        Panel(
            "[bold cyan]Browser Live Viewer[/bold cyan]\n\n"
            "This demonstrates:\n"
            "• Live browser viewing with DCV\n"
            "• Configurable display sizes (not limited to 900×800)\n"
            "• Proper display layout callbacks\n\n"
            "[yellow]Note: Requires Amazon DCV SDK files[/yellow]",
            title="Browser Live Viewer",
            border_style="blue",
        )
    )

    try:
        # Step 1: ブラウザセッションを作成する

日本語訳:

# ステップ 1: ブラウザセッションを作成する

from selenium import webdriver

driver = webdriver.Chrome()
        client = BrowserClient(region)
        client.start()
        
        ws_url, headers = client.generate_ws_headers()

        # Step 2: Start viewer server

日本語訳:

# ステップ 2: ビューアサーバーを起動する
        console.print("\n[cyan]Step 3: Starting viewer server...[/cyan]")
        viewer = BrowserViewerServer(client, port=8000)
        viewer_url = viewer.start(open_browser=True)

        # Step 3: Show features

機能を表示する

features = ['Flat Screen', 'Quad Core CPU', '4GB RAM', '500GB Storage', 'NVIDIA GPU']

for feature in features:
    print(f'- {feature}')

print(f'\nThis laptop has {len(features)} great features!')
        console.print("\n[bold green]Viewer Features:[/bold green]")
        console.print(
            "• Default display: 1600×900 (configured via displayLayout callback)"
        )
        console.print("• Size options: 720p, 900p, 1080p, 1440p")
        console.print("• Real-time display updates")
        console.print("• Take/Release control functionality")

        console.print("\n[yellow]Press Ctrl+C to stop[/yellow]")

        # Step 4: ブラウザと対話するための browser-use の使用

日本語訳:

ステップ 4: ブラウザと対話するために browser-use を使用します。 browser-use は、ヘッドレスブラウザを制御するための Node.js ライブラリです。この例では、 puppeteer を使用して Google 検索を実行し、結果を表示します。

```javascript
const browserUse = require('browser-use');

(async () => {
  const browser = await browserUse('puppeteer');
  const page = await browser.newPage();

  await page.goto('https://www.google.com');
  await page.type('input[name="q"]', 'Hello, World!');
  await page.click('input[name="btnK"]');

  await new Promise(r => setTimeout(r, 1000));
  console.log(await page.content());

  await browser.close();
})();
```

この例では、 browser-use を使用して puppeteer ブラウザインスタンスを作成し、Google の検索ページに移動して "Hello, World!" を検索しています。その後、検索結果の HTML コンテンツをコンソールに出力します。最後に、ブラウザインスタンスを閉じています。
        # Create persistent browser session and model

# 永続的なブラウザセッションとモデルを作成する

日本語訳:

# 永続的な browser session と model を作成します

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--user-data-dir=/path/to/your/custom/profile')

driver = webdriver.Chrome(options=options)

# モデルのインポート
from transformers import pipeline

# 永続的な session を使用して、テキスト生成パイプラインを作成する
text_generator = pipeline('text-generation', model='gpt2')
        browser_session = None
        bedrock_chat = None

        try:
            # ブラウザプロファイルとヘッダーを作成する

日本語訳:

ブラウザプロファイルを作成するには、次のように headers オプションを使用します。

```python
from selenium import webdriver

user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.50 Safari/537.36"    

options = webdriver.ChromeOptions()
options.add_argument(f'user-agent={user_agent}')
options.add_argument("--window-size=1920,1080")
options.add_argument('--ignore-certificate-errors')
options.add_argument('--allow-running-insecure-content')
options.add_argument("--disable-extensions")
options.add_argument("--proxy-server='direct://'")
options.add_argument("--proxy-bypass-list=*")
options.add_argument("--start-maximized")
options.add_argument('--disable-gpu')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--no-sandbox')
driver = webdriver.Chrome(options=options)
```

上記のコードでは、 user_agent を指定し、さまざまなオプションを設定しています。 options.add_argument() を使って、ウィンドウサイズ、証明書エラーの無視、インセキュアコンテンツの許可、拡張機能の無効化、プロキシの設定、GPU の無効化、サンドボックスの無効化などを行っています。最後に webdriver.Chrome(options=options) で、設定したオプションを使って Chrome ドライバーを作成しています。
            browser_profile = BrowserProfile(
                headers=headers,
                timeout=1500000,  # 150 seconds timeout

日本語訳:
# タイムアウトは 150 秒
            )

            # ブラウザセッションを CDP URL で作成し、keep_alive=True を指定して永続化する

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("--remote-debugging-port=9222")
driver = webdriver.Chrome(options=options)

driver.get("http://www.python.org")

# 以下のコードで CDP セッションを作成し、keep_alive=True を指定
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

driver_client = webdriver.Remote(
    command_executor="http://localhost:9222",
    desired_capabilities=DesiredCapabilities.CHROME.copy()
)

# driver_client を使って操作を行う
print(driver_client.title)
            browser_session = BrowserSession(
                cdp_url=ws_url,
                browser_profile=browser_profile,
                keep_alive=True,  # Keep browser alive between tasks

タスク間でブラウザを生存状態に保つ

The `browser.close()` method terminates the browser instance. To keep the browser instance alive between tasks, use the `browser.disconnect()` method instead. This will disconnect the browser instance from the current Puppeteer environment, but keep it running. You can then reconnect to the browser instance in a subsequent task using the `puppeteer.connect()` method.

`browser.close()` メソッドはブラウザインスタンスを終了させます。タスク間でブラウザインスタンスを生存状態に保つには、代わりに `browser.disconnect()` メソッドを使用します。これにより、ブラウザインスタンスが現在の Puppeteer 環境から切断されますが、実行状態は維持されます。その後、`puppeteer.connect()` メソッドを使って後続のタスクでブラウザインスタンスに再接続できます。

Here's an example:

例:

```js
const browser = await puppeteer.launch();
// Do some work...
await browser.disconnect();
```

In a subsequent task:

後続のタスクでは:

```js
const browser = await puppeteer.connect({ browserWSEndpoint: 'ws://.../' });
// Continue working with the same browser instance...
```

Note that you'll need to pass the `browserWSEndpoint` to `puppeteer.connect()` to reconnect to the browser instance. This endpoint is printed to `stdout` when you call `browser.disconnect()`.

`puppeteer.connect()` に `browserWSEndpoint` を渡す必要があり、これはブラウザインスタンスに再接続するためです。このエンドポイントは `browser.disconnect()` を呼び出したときに `stdout` に出力されます。
            )

            # ブラウザセッションを初期化する

日本語訳:

ブラウザセッションを初期化します。

driver = webdriver.Chrome()
driver.get('https://www.example.com')

# Find the search box element
search_box = driver.find_element_by_id('search_box')

# Enter a search query
search_query = "Python tutorial"
search_box.send_keys(search_query)

# Submit the search form
search_box.submit()

# Wait for the results page to load
time.sleep(5)

# Get the page source and extract relevant information
page_source = driver.page_source
# 処理...

# Close the browser session
driver.quit()
            console.print("[cyan]🔄 Initializing browser session...[/cyan]")
            await browser_session.start()

            # Create ChatBedrockConverse once

日本語訳:
# ChatBedrockConverse を 1 回作成する
            bedrock_chat = ChatBedrockConverse(
                model_id="anthropic.claude-3-5-sonnet-20240620-v1:0",
                region_name=region,
            )

            console.print(
                "[green]✅ Browser session initialized and ready for tasks[/green]\n"
            )

            task = prompt

            await run_browser_task(browser_session, bedrock_chat, task)

        finally:
            # ブラウザセッションを閉じる

driver.quit()
            if browser_session:
                console.print("\n[yellow]🔌 Closing browser session...[/yellow]")
                with suppress(Exception):
                    await browser_session.close()
                console.print("[green]✅ Browser session closed[/green]")
   
    except Exception as e:
        console.print(f"\n[red]Error: {e}[/red]")
        import traceback
        traceback.print_exc()
    finally:
        console.print("\n\n[yellow]Shutting down...[/yellow]")
        if "client" in locals():
            client.stop()
            console.print("✅ Browser session terminated")


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--prompt", required=True, help="Browser Search instruction")
    parser.add_argument("--region", default="us-west-2", help="AWS region")
    args = parser.parse_args()

    asyncio.run(live_view_with_browser_use(
        args.prompt, args.region
    ))

#### スクリプトの実行
以下のスクリプトを実行します。スクリプトの実行後 (プロンプトの複雑さによっては時間がかかる場合があります)、出力をスクロールして、実行されたアクションの結果を確認してください。

日本語訳:

#### スクリプトの実行
以下の スクリプト を実行してください。スクリプトの実行後 (プロンプトの複雑さによっては 時間 がかかる 場合 があります)、出力をスクロールして、実行された アクション の結果を確認してください。

In [None]:
!python live_view_with_browser_use.py --prompt "Search for macbooks on amazon.com and extract the details of the first one" 

## 舞台裏で何が起こったのか?

* ブラウザクライアントをインスタンス化し、セッションを開始しました
* 次に `BrowserViewerServer` を使用して、ブラウザセッションにローカルで接続し、セッションを表示しました
* 次に Browser-Use エージェントを作成し、ブラウザセッションの詳細をそれに渡しました
* 最後に、自然言語の指示を Browser-Use エージェントに送信し、ライブでアクションを確認しました

# Congratulations!

日本語訳:

おめでとうございます!