# Browser-Use SDK を使った基本的なブラウザツールの使用方法

## 概要

このチュトリアルでは、オープンソースの Browser-Use SDK を Amazon Bedrock Agentcore ブラウザツールと共に使用する方法を学びます。ヘッドレスでブラウザツールを使用する例と、ブラウザをライブで表示する例を提供します。

### チュトリアルの詳細

| 情報                | 詳細                                                                                       |
|:--------------------|:------------------------------------------------------------------------------------------|
| チュトリアルの種類  | 対話型                                                                                     |
| エージェントの種類  | 単一                                                                                       |
| エージェントフレームワーク | Broeser-Use                                                                        |
| LLM モデル          | Anthropic Claude 3.5 Sonnet                                                                |
| チュトリアルコンポーネント | Browser-Use SDK を使ってヘッドレスで Bedrock Agentcore ブラウザツールと対話する |
| チュトリアルの分野  | 分野横断                                                                                   |
| 例の複雑さ          | 簡単                                                                                       |
| 使用する SDK        | Amazon BedrockAgentCore Python SDK、Browser-Use                                            |

### チュトリアルのアーキテクチャ

このチュトリアルでは、Browser-Use SDK を Agentcore ブラウザツールと共に使用する方法を説明します。

例では、自然言語の指示を Browser-Use エージェントに送信し、ヘッドレスで Bedrock Agentcore ブラウザでタスクを実行します。

<div style="text-align:left">
    <img src="images/architecture_runtime.png" width="50%"/>
</div>

### チュトリアルの主な機能

* ヘッドレスでブラウザツールを使用する
* ブラウザツールで Browser-Use を使用する

## 前提条件

このチュートリアルを実行するには、以下が必要です:

* Python 3.11+
* AWS 認証情報
* Amazon Bedrock AgentCore SDK
* Browser-Use SDK

## 動作原理

ブラウザツールサンドボックスは、AI エージェントがウェブブラウザと安全に対話できる実行環境です。ユーザーがリクエストを行うと、大規模言語モデル (LLM) が適切なツールを選択し、コマンドを翻訳します。これらのコマンドは、ヘッドレスブラウザとホストされたライブラリサーバー (Playwright などのツールを使用) を含む制御されたサンドボックス環境内で実行されます。サンドボックスは、Web 対話を制限された空間に閉じ込めることで、システムへの不正アクセスを防ぎ、分離とセキュリティを提供します。エージェントはスクリーンショットによってフィードバックを受け取り、システムのセキュリティを維持しながら自動タスクを実行できます。

![architecture local](../images//browser-tool.png)

## 1. 環境のセットアップ

まず、ブラウザツールサンドボックスクライアントを初期化するために必要なライブラリをインストールしてインポートしましょう。

In [None]:
!pip install -r requirements.txt

In [None]:
from bedrock_agentcore.tools.browser_client import BrowserClient
from browser_use import Agent
from browser_use.browser.session import BrowserSession
from browser_use.browser import BrowserProfile
from langchain_aws import ChatBedrockConverse
from rich.console import Console
from contextlib import suppress
import asyncio

In [None]:
console = Console()

## 2. ブラウザクライアントのセットアップ
ブラウザクライアントをセットアップし、準備ができるまで待ちます。次に、 web-socket url とヘッダーを生成します。

In [None]:
from boto3.session import Session
boto_session = Session()
region = boto_session.region_name

client = BrowserClient(region)
client.start()

# Extract ws_url and headers

ws_url = re.search(r'wss?://\S+', response.text).group()
headers = {
    header.split(':')[0].strip(): header.split(':')[1].strip()
    for header in re.split(r'\r\n', response.text.split('\n\n')[-1])
}

日本語訳:

# ws_url と headers を抽出

ws_url = re.search(r'wss?://\S+', response.text).group()
headers = {
    header.split(':')[0].strip(): header.split(':')[1].strip()
    for header in re.split(r'\r\n', response.text.split('\n\n')[-1])
}
ws_url, headers = client.generate_ws_headers()

## 4. ブラウザタスクを実行するヘルパー関数
browser-use Agent を使用してブラウザ自動化タスクを実行します。

In [None]:
async def run_browser_task(browser_session: BrowserSession, bedrock_chat: ChatBedrockConverse, task: str) -> None:
    以下が日本語訳になります。

"""
    browser_use を使ってブラウザ自動化タスクを実行する

    引数:
        browser_session: 再利用する既存のブラウザセッション
        bedrock_chat: Bedrock チャットモデルのインスタンス
        task: エージェントの自然言語タスク
"""
    try:
        # タスクの実行を表示

日本語訳:

# タスク の 実行 を 表示

`task` コマンドを使って、実行中のタスクを表示できます。

```
task status
```

この コマンド は、現在実行中の `Task` と、その状態 ( `Status` ) を表示します。状態には、`running` 、 `sleeping` 、 `waiting` などがあります。

`task` コマンドには、他にも便利なオプションがあります。例えば、 `--latest` フラグを使うと、最新のタスクだけを表示できます。

```
task status --latest
```

`watch` コマンドと組み合わせると、リアルタイムでタスクの状況を監視できます。

```
watch -n 1 'task status'
```

この コマンド は、1 秒ごとに `task status` を実行し、その出力を表示します。
        console.print(f"\n[bold blue]🤖 Executing task:[/bold blue] {task}")
        
        # Create and run the agent

# エージェントを作成して実行する

agent = Agent( model_name )
agent.run( instructions )

# Specify the model
model_name = "anthropic/claude-v1"

# Define the instructions
instructions = """
あなたは翻訳の専門家です。以下のテキストを英語から日本語に翻訳してください。
半角英数字の前後には半角スペースを挿入する。コードやコマンド、変数名、関数名などの技術的な用語は翻訳せず、そのまま残してください。

翻訳するテキスト:
You are a highly skilled translator specializing in technical documents. Please translate the following text from English to Japanese, inserting spaces before and after any alphanumeric characters. Leave any code, commands, variable names, function names, and other technical terms untranslated.

Text to translate:
The quick brown fox jumps over the lazy dog. 
To run the program, type: python main.py --mode=test

"""
        agent = Agent(
            task=task,
            llm=bedrock_chat,
            browser_session=browser_session
        )
        
        # Run with progress indicator

以下のように翻訳します。

# プログレス インジケーターで実行する

`run_with_progress_indicator()` 関数は、長時間実行されるタスクの進行状況を視覚化するために使用されます。この関数は、タスクの合計ステップ数と、各ステップで実行する関数を引数として受け取ります。

```python
from tqdm import tqdm

def run_with_progress_indicator(total_steps, step_func):
    with tqdm(total=total_steps) as pbar:
        for i in range(total_steps):
            step_func(i)
            pbar.update(1)
```

`tqdm` ライブラリは、進捗状況を表示するための優れたツールです。`with tqdm(total=total_steps) as pbar:` という構文を使うと、`pbar` オブジェクトが作成され、合計ステップ数が設定されます。その後、各ステップで `pbar.update(1)` を呼び出すことで、プログレス バーが更新されます。

この `run_with_progress_indicator()` 関数を使って、たとえば 100 万回のループを実行する場合は次のようになります。

```python
def my_step(i):
    # 何らかの処理を行う
    pass

run_with_progress_indicator(1000000, my_step)
```

これにより、ループの実行中にプログレス バーが表示され、処理の進行状況を視覚的に確認できます。
        with console.status("[bold green]Running browser automation...[/bold green]", spinner="dots"):
            await agent.run()
        
        console.print("[bold green]✅ Task completed successfully![/bold green]")
        
    except Exception as e:
        console.print(f"[bold red]❌ Error during task execution:[/bold red] {str(e)}")
        import traceback
        if console.is_terminal:
            traceback.print_exc()

## 5. Browser-use プロファイルを使用してブラウザタスクを呼び出す
CDP WebSocket 接続を使用して永続的なブラウザセッションを作成し、自動化された Web タスクのために Bedrock Claude モデルを初期化します。適切なクリーンアップでセッションライフサイクルを処理し、AI 駆動のコマンドを介してブラウザ自動化タスクを実行します。

In [None]:
# ブラウザの永続的なセッションとモデルを作成する

日本語訳:

ブラウザの永続的なセッションを作成し、モデルを定義します。

from selenium import webdriver

PATH = "/path/to/chromedriver"
driver = webdriver.Chrome(PATH)

driver.get("https://www.example.com")

class Page(object):
    def __init__(self, my_driver):
        self.driver = my_driver

class HomePage(Page):
    search_box = "q"

    def enter_search_text(self, text):
        search_input = self.driver.find_element_by_name(self.search_box)
        search_input.clear()
        search_input.send_keys(text)

home_page = HomePage(driver)
home_page.enter_search_text("Hello World")
browser_session = None
bedrock_chat = None

try:
    # ブラウザプロファイルとヘッダーを作成する

日本語訳:

ブラウザプロファイルを作成するには、次のようにします。

```python
from selenium import webdriver

profile = webdriver.FirefoxProfile()
profile.set_preference("general.useragent.override", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0")
driver = webdriver.Firefox(firefox_profile=profile)
```

上記のコードでは、 `webdriver.FirefoxProfile()` を使用して新しいFirefoxプロファイルを作成し、 `set_preference()` メソッドを使用してユーザーエージェントをカスタマイズしています。次に、 `webdriver.Firefox(firefox_profile=profile)` を使用してFirefoxドライバーを初期化し、カスタマイズされたプロファイルを渡しています。

ヘッダーを追加するには、次のようにします。

```python
driver.get("https://www.whatismybrowser.com/developers/tools/user-agent")
print(driver.execute_script("return navigator.userAgent"))
```

上記のコードでは、 `driver.get()` を使用してWebサイトを開き、 `execute_script()` メソッドを使用してJavaScriptコードを実行し、ユーザーエージェントを取得しています。
    browser_profile = BrowserProfile(
        headers=headers,
        timeout=1500000,  # 150 seconds timeout

日本語訳:
# 150 秒のタイムアウト
    )
    
    # ブラウザセッションを CDP URL で作成し、keep_alive=True で永続化する

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("--remote-debugging-port=9222")
driver = webdriver.Chrome(options=options)

driver.get("http://www.python.org")

# 以下のコードで CDP セッションを作成し、keep_alive=True を設定
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

driver_client = webdriver.Remote(
    command_executor="http://localhost:9222",
    desired_capabilities=DesiredCapabilities.CHROME.copy()
)

# driver_client を使って操作を行う
print(driver_client.title)
    browser_session = BrowserSession(
        cdp_url=ws_url,
        browser_profile=browser_profile,
        keep_alive=True  # Keep browser alive between tasks

タスク間でブラウザを生存させる

The following code will keep the browser alive between tasks:

以下のコードは、タスク間でブラウザを生存させます:

```py
from playwright.sync_api import sync_playwright

def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()

    # Open a new page
    page = context.new_page()

    # Navigate to the website
    page.goto("https://www.example.com")

    # Keep the browser open for manual testing
    print("Browser is open. Press any key to exit.")
    input()

    # Close the browser
    context.close()
    browser.close()

with sync_playwright() as playwright:
    run(playwright)
```

This code uses the `sync_playwright` context manager to launch a new instance of the Chromium browser in non-headless mode (`headless=False`). It then creates a new browser context (`context`) and a new page (`page`). The page navigates to `https://www.example.com`.

このコードでは、`sync_playwright` コンテキストマネージャを使用して、ヘッドレスモードではない新しいChromiumブラウザインスタンス (`headless=False`) を起動しています。次に、新しいブラウザコンテキスト (`context`) と新しいページ (`page`) を作成します。ページは `https://www.example.com` に移動します。

The `input()` function is used to keep the browser open and wait for user input before closing the browser. This allows for manual testing and inspection of the website.

`input()` 関数は、ブラウザを開いたままにし、ブラウザを閉じる前にユーザー入力を待機するために使用されています。これにより、ウェブサイトの手動テストと検査が可能になります。

Note that this code is specific to the Playwright Python library, which is a high-level browser automation library that can automate Chromium, Firefox, and WebKit browsers.

このコードは、Chromium、Firefox、WebKitブラウザを自動化できる高レベルのブラウザ自動化ライブラリであるPlaywright Pythonライブラリ専用のものであることに注意してください。
    )
    
    # ブラウザセッションを初期化する

日本語訳:

ブラウザセッションを初期化します。

from selenium import webdriver

webdriver_path = "/path/to/chromedriver"
browser = webdriver.Chrome(executable_path=webdriver_path)

url = "https://www.example.com"
browser.get(url)

# Do something on the web page...

print("ページのタイトル: " + browser.title)

# Close the browser session
browser.quit()
    console.print("[cyan]🔄 Initializing browser session...[/cyan]")
    await browser_session.start()
    
    # Create ChatBedrockConverse once

日本語訳:
# ChatBedrockConverse を 1 回作成する
    bedrock_chat = ChatBedrockConverse(
        model_id="anthropic.claude-3-5-sonnet-20240620-v1:0",
        region_name="us-west-2"
    )
    
    console.print("[green]✅ Browser session initialized and ready for tasks[/green]\n")

    task = "Search for a coffee maker on amazon.com and extract details of the first one" ## タスクを変更して他のタスクを実行する

日本語訳:

Ansible の `meta` モジュールを使用すると、プレイの実行中に条件に基づいてタスクを動的に追加または削除できます。これにより、プレイの制御フローを変更できます。

たとえば、`register` キーワードを使用して変数に値を格納し、その値に基づいてタスクを条件付きで実行できます。

```yaml
- name: Check if /path/to/file exists
  stat:
    path: /path/to/file
  register: file_status

- name: Create file if it doesn't exist
  file:
    path: /path/to/file
    state: touch
  when: not file_status.stat.exists

- meta: flush_handlers
```

上記の例では、最初のタスクで `/path/to/file` の存在を確認し、その結果を `file_status` 変数に格納しています。次に、ファイルが存在しない場合にのみ、2 番目のタスクが実行されてファイルが作成されます。最後に、`meta` モジュールを使用して、すべての保留中のハンドラを実行しています。

`meta` モジュールには、他にも `clear_facts`、`end_play`、`refresh_inventory` などの機能があります。詳細については、Ansible のドキュメントを参照してください。

    await run_browser_task(browser_session, bedrock_chat, task)

finally:
    # ブラウザセッションを閉じる

driver.quit()
    if browser_session:
        console.print("\n[yellow]🔌 Closing browser session...[/yellow]")
        with suppress(Exception):
            await browser_session.close()
        console.print("[green]✅ Browser session closed[/green]")


## 6. クリーンアップ
ブラウザセッションが停止していない場合は停止します

In [None]:
client.stop()
print("Browser session stopped successfully!")