## Amazon AgentCore Bedrock Code Interpreterを使った高度なデータ分析 - チュートリアル(Langchain)
このチュートリアルでは、Pythonでコードを実行することにより、高度なデータ分析を行うAIエージェントの作成方法を示します。LLMによって生成されたコードを実行するために、Amazon Bedrock AgentCore Code Interpreterを使用します。

このチュートリアルでは、AgentCore Bedrock Code Interpreterを使って以下のことを実演します。
1. サンドボックス環境のセットアップ
2. ユーザーのクエリに基づいてコードを生成し、高度なデータ分析を行うlangchainベースのエージェントの構成
3. Code Interpreterを使ってサンドボックス環境でコードを実行
4. 結果をユーザーに表示

## 前提条件
- Bedrock AgentCore Code InterpreterにアクセスできるAWSアカウント
- コードインタープリターリソースを作成および管理するための必要なIAM権限
- 必要なPythonパッケージがインストールされている(boto3、bedrock-agentcore、langchainなど)
- Amazon Bedrock上でモデルを呼び出す権限を持つIAMロール
 - US Oregon (us-west-2) リージョンのClaude 3.5 Sonnetモデルにアクセスできる

## あなたのIAM実行ロールには、以下のIAMポリシーが付与されている必要があります

~~~ {
"Version": "2012-10-17",
"Statement": [
    {
        "Effect": "Allow",
        "Action": [
            "bedrock-agentcore:CreateCodeInterpreter",
            "bedrock-agentcore:StartCodeInterpreterSession",
            "bedrock-agentcore:InvokeCodeInterpreter",
            "bedrock-agentcore:StopCodeInterpreterSession",
            "bedrock-agentcore:DeleteCodeInterpreter",
            "bedrock-agentcore:ListCodeInterpreters",
            "bedrock-agentcore:GetCodeInterpreter"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "arn:aws:logs:*:*:log-group:/aws/bedrock-agentcore/code-interpreter*"
    }
]
}

日本語訳:
"Version": "2012-10-17",
"Statement": [
    {
        "Effect": "許可",
        "Action": [
            "bedrock-agentcore:CreateCodeInterpreter",
            "bedrock-agentcore:StartCodeInterpreterSession",
            "bedrock-agentcore:InvokeCodeInterpreter",
            "bedrock-agentcore:StopCodeInterpreterSession",
            "bedrock-agentcore:DeleteCodeInterpreter",
            "bedrock-agentcore:ListCodeInterpreters",
            "bedrock-agentcore:GetCodeInterpreter"
        ],
        "Resource": "*"
    },
    {
        "Effect": "許可",
        "Action": [
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "arn:aws:logs:*:*:log-group:/aws/bedrock-agentcore/code-interpreter*"
    }
]
}
~~~

## 動作の仕組み

コード実行サンドボックスは、コード インタプリター、シェル、ファイル システムを備えた分離された環境を作成することで、エージェントがユーザーのクエリを安全に処理できるようにします。大規模言語モデルがツールの選択を支援した後、コードがこのセッション内で実行され、その結果がユーザーまたはエージェントに合成のために返されます。

![architecture local](code-interpreter.png)

以下が日本語訳になります。

## 1. 環境のセットアップ

まず、必要なライブラリをインポートし、Code Interpreter クライアントを初期化しましょう。

デフォルトのセッションタイムアウトは 900 秒(15 分)です。しかし、データの詳細な分析を行うため、今回はセッションタイムアウト時間を 1200 秒(20 分)に少し長く設定してセッションを開始します。

In [None]:
!pip install --upgrade -r requirements.txt

In [22]:
from bedrock_agentcore.tools.code_interpreter_client import CodeInterpreter
from langchain.agents import AgentExecutor, create_tool_calling_agent, initialize_agent, tool
from langchain_aws import ChatBedrockConverse
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.tools import tool
import json
import pandas as pd
from typing import Dict, Any, List

# AWS の対応リージョン内で Code Interpreter を初期化します。

日本語訳:
code_client = CodeInterpreter('us-west-2')
code_client.start(session_timeout_seconds=1200)

'01K01MQ384D555HT4QERD7GR4E'

## 2. ローカルデータファイルの読み込み

ここでは、サンプルデータファイルの内容を読み込みます。このファイルには、 Name 、 Preferred_City 、 Preferred_Animal 、 Preferred_Thing の 4 列があり、ランダムなデータが約 30 万件記録されています。

後ほど、このファイルを agent を使って分析し、分布とアウトライアを把握します。

In [23]:
df_data = pd.read_csv("samples/data.csv")
df_data.head()

Unnamed: 0,Name,Preferred_City,Preferred_Animal,Preferred_Thing
0,Betty Ramirez,Dallas,Elephant,Sofa
1,Jennifer Green,Naples,Bee,Shirt
2,John Lopez,Helsinki,Zebra,Wallet
3,Susan Gonzalez,Beijing,Chicken,Phone
4,Jennifer Wright,Buenos Aires,Goat,Wallet


In [None]:
def read_file(file_path: str) -> str:
    """ファイルの内容を読み込むためのヘルパー関数 (エラー処理付き)"""
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            return file.read()
    except FileNotFoundError:
        print(f"Error: The file '{file_path}' was not found.")
        return ""
    except Exception as e:
        print(f"An error occurred: {e}")
        return ""

data_file_content = read_file("samples/data.csv")

## 3. サンドボックス環境のファイルの準備

サンドボックス環境で作成したいファイルを定義する構造を作成します。

In [25]:
files_to_create = [
                {
                    "path": "data.csv",
                    "text": data_file_content
                }]

以下が日本語訳になります。

## 4. ツール呼び出しのためのヘルパー関数の作成

このヘルパー関数は、サンドボックスツールの呼び出しとその応答の処理を簡単にします。アクティブなセッション内では、サポートされている言語 (Python、JavaScript) でコードを実行し、依存関係の設定に基づいてライブラリにアクセスし、可視化を生成し、実行間で状態を維持することができます。

In [26]:
def call_tool(tool_name: str, arguments: Dict[str, Any]) -> Dict[str, Any]:
    以下が日本語訳になります。

"""サンドボックスツールを呼び出すためのヘルパー関数

    引数:
        tool_name (str): 呼び出すツールの名前
        arguments (Dict[str, Any]): ツールに渡す引数

    戻り値:
        Dict[str, Any]: JSON 形式の結果
    """
    response = code_client.invoke(tool_name, arguments)
    for event in response["stream"]:
        return json.dumps(event["result"])

## 5. Code Sandbox にデータファイルを書き込む

次に、データファイルをサンドボックス環境に書き込み、正常に作成されたことを確認します。

To write the data file, we'll use the `fs.writeFileSync()` method. This method takes two arguments:

1. A path for the file to create or overwrite, including the filename.
2. The data to write to the file.

データファイルを書き込むには、`fs.writeFileSync()` メソッドを使用します。このメソッドには 2 つの引数があります。

1. 作成または上書きするファイルのパス (ファイル名を含む)
2. ファイルに書き込むデータ

```js
const fs = require('fs');

const dataFile = 'data.json';
const data = JSON.stringify({ count: 0 });

fs.writeFileSync(dataFile, data);

console.log(`${dataFile} has been created!`);
```

This code will create a new file called `data.json` in the current working directory and write the JSON string `{ count: 0 }` to it. The `fs.writeFileSync()` method is synchronous, meaning it blocks further execution until the file is written.

この コード は、現在の作業ディレクトリに `data.json` という新しいファイルを作成し、JSON 文字列 `{ count: 0 }` を書き込みます。`fs.writeFileSync()` メソッドは同期的で、ファイルが書き込まれるまで実行をブロックします。

In [27]:
# Write files to sandbox

日本語訳:
# サンドボックスにファイルを書き込む

The open() function opens a file, and returns it as a file object. r b means open in binary mode for reading. w b means open in binary mode for writing. b is added because we're working with non-text files (e.g. images or executables) so we need to open in binary mode.

open() 関数はファイルを開き、ファイルオブジェクトとして返します。r b は読み取り用のバイナリモードで開くことを意味します。w b は書き込み用のバイナリモードで開くことを意味します。b が追加されているのは、テキストファイル以外 (画像やexeファイルなど) を扱うため、バイナリモードで開く必要があるからです。

with open("sandbox/hello.txt", "w b") as f:
    f.write(b"Hello world!")

with open("sandbox/data.dat", "w b") as f:
    data = bytearray(10)
    f.write(data)

with open("sandbox/binary.bin", "w b") as f:
    f.write(bytes([7, 8, 9]))

上記のコードでは、3 つのファイルを sandbox ディレクトリに書き込んでいます。hello.txt には "Hello world!" という文字列、data.dat には 10 バイトの空のバイト列、binary.bin には [7, 8, 9] というバイト列を書き込んでいます。
writing_files = call_tool("writeFiles", {"content": files_to_create})
print("Writing files result:")
print(writing_files)

# Verify files were created

ファイルが作成されたことを確認する
listing_files = call_tool("listFiles", {"path": ""})
print("\nFiles in sandbox:")
print(listing_files)

Writing files result:
{"content": [{"type": "text", "text": "Successfully wrote all 1 files"}], "isError": false}

Files in sandbox:
{"content": [{"type": "resource_link", "uri": "file:///log", "name": "log", "description": "Directory"}, {"type": "resource_link", "mimeType": "text/csv", "uri": "file:///data.csv", "name": "data.csv", "description": "File"}, {"type": "resource_link", "uri": "file:///.ipython", "name": ".ipython", "description": "Directory"}], "isError": false}


## 6. Langchain ベースのエージェントを使った高度な分析の実行

ここでは、サンドボックス (上記) にアップロードしたデータファイルに対してデータ分析を行うエージェントを設定します。

### 6.1 システムプロンプトの定義
AI アシスタントの振る舞いと機能を定義します。私たちは、アシスタントに常にコードの実行とデータに基づく推論を通じて回答を検証するよう指示しています。

In [28]:
SYSTEM_PROMPT = はい、翻訳いたします。

"""あなたは、提供されたツールを使ってコードの実行によりすべての回答を検証する、役立つAIアシスタントです。ツールを使わずに質問に答えないでください。

検証の原則:
1. コード、アルゴリズム、または計算について主張する場合は、それらを検証するコードを書きます。
2. execute_python を使って数学的な計算、アルゴリズム、論理を テストします。
3. 回答を出す前に、テストスクリプトを作成して理解度を検証します。
4. 実際のコード実行で作業過程を必ず示します。
5. 不確かな場合は、制限を明示的に述べ、検証できる範囲を検証します。

アプローチ:
- プログラミングの概念について尋ねられた場合は、コードで実装して示します。
- 計算を求められた場合は、プログラムで計算し、コードも示します。
- アルゴリズムを実装する場合は、正しさを証明するためのテストケースを含めます。
- 透明性を保つため、検証プロセスを文書化します。
- サンドボックスでは実行間で状態が維持されるので、前の結果を参照できます。

利用可能なツール:
- execute_python: Python コードを実行して出力を確認

レスポンス形式: execute_python ツールは以下のフィールドを含む JSON レスポンスを返します。
- sessionId: サンドボックスセッション ID
- id: リクエスト ID
- isError: エラーがあったかどうかを示すブール値
- content: type と text/data を含むコンテンツオブジェクトの配列
- structuredContent: コード実行の場合は stdout、stderr、exitCode、executionTime を含む

コード実行が成功した場合、出力は content[0].text と structuredContent.stdout に表示されます。
isError フィールドを確認してエラーがあったかどうかを確認してください。

できる限り丁寧で正確に、検証可能な場合は必ず回答を検証してください。"""

### 6.2 コード実行ツールの定義
次に、エージェントがコードサンドボックスでコードを実行するためのツールとして使用する関数を定義します。 @tool デコレータを使って、関数をエージェントのカスタムツールとしてアノテートします。

アクティブなコード インタープリター セッション内では、サポートされている言語 (Python、JavaScript) でコードを実行し、依存関係の構成に基づいてライブラリにアクセスし、可視化を生成し、実行間で状態を維持できます。

In [29]:
#Define and configure the code interpreter tool

#コード解釈ツールを定義および構成する

 Python 3.8.10 は、オープンソース の汎用スクリプト言語です。 Python は、 import 文を使用して、追加の機能を提供するモジュールを読み込むことができます。この演習では、 readline モジュールを使用して、対話型のコマンドラインを提供します。

最初に、 readline モジュールをインポートします。

>>> import readline

次に、 readline の機能を設定します。 readline.parse_and_bind() 関数を使用して、キーバインディングを設定します。この例では、 Tab キーを設定して、対話型のコマンドラインで補完を有効にします。

>>> readline.parse_and_bind("tab: complete")

これで、対話型のコマンドラインで Tab キーを押すと、入力内容に基づいて補完候補が表示されます。
@tool
def execute_python(code: str, description: str = "") -> str:
    翻訳するテキスト:
"""Execute Python code in the sandbox."""

日本語訳:
"""サンドボックス内で Python コードを実行します。"""

    if description:
        code = f"# {description}の説明\n{code}のコード

    #Print generated Code to be executed

生成されたコードを出力して実行します。
    print(f"\n Generated Code: {code}")


    # Call the Invoke メソッドを呼び出し、初期化されたコード インタープリター セッション内で生成されたコードを実行する

日本語訳:
# Invoke メソッドを呼び出し、初期化されたコードインタプリターセッション内で生成されたコードを実行します
    response = code_client.invoke("executeCode", {
        "code": code,
        "language": "python",
        "clearContext": False
    })
    for event in response["stream"]:
        return json.dumps(event["result"])

### 6.3 エージェントの設定
Langchain SDKを使用してエージェントを作成し、設定します。上で定義したシステムプロンプトとツールを提供し、コード生成を実行します。

日本語訳:
### 6.3 エージェントの設定
Langchain SDK を使用して、エージェントを作成し設定します。システムプロンプトと、上で定義した generate code を実行するツールを、エージェントに提供します。

#### 6.4 言語モデルの初期化

日本語訳:

言語モデルを初期化するには、 `transformers` ライブラリから適切なクラスをインポートする必要があります。この例では、 `GPT2LMHeadModel` と `GPT2Tokenizer` をインポートします。

```python
from transformers import GPT2LMHeadModel, GPT2Tokenizer
```

次に、事前学習済みの言語モデルとトークナイザーをロードします。

```python
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')
```

`from_pretrained` メソッドは、事前学習済みの重みをダウンロードし、モデルとトークナイザーを適切に初期化します。 `'gpt2'` は、使用する事前学習済みモデルの名前です。他のモデルを使用したい場合は、この文字列を変更する必要があります。

In [30]:
llm = ChatBedrockConverse(model_id="anthropic.claude-3-5-sonnet-20240620-v1:0",region_name="us-west-2")

#### 6.5 プロンプトテンプレートを定義する

日本語訳:

プロンプトテンプレートは、LLM に与える入力を構造化するために使用されます。これは、単なる文字列ではなく、Python の f-string と同様に、変数を埋め込むことができる特別な文字列です。

プロンプトテンプレートを定義するには、`PromptTemplate` クラスを使用します。

```python
from langchain import PromptTemplate

prompt = PromptTemplate(
    input_variables=["product"],
    template="What is a good name for a company that makes {product}?",
)
```

この例では、`input_variables` は `["product"]` に設定されています。これは、プロンプトテンプレートに 1 つの変数 `product` があることを意味します。`template` 文字列には、`{product}` という変数が含まれています。

`PromptTemplate` オブジェクトを作成したら、`format` メソッドを使って値を渡すことができます。

```python
from langchain import PromptTemplate

prompt = PromptTemplate(
    input_variables=["product"],
    template="What is a good name for a company that makes {product}?",
)

prompt_with_value = prompt.format(product="colorful socks")
print(prompt_with_value)
```

出力:
```
What is a good name for a company that makes colorful socks?
```

In [31]:
prompt = ChatPromptTemplate.from_messages([
    ("system", SYSTEM_PROMPT),
    ("user", "{input}"),
    MessagesPlaceholder(variable_name="agent_scratchpad"),
])

#### 6.6 カスタムツールのリストを作成する

私たちが作成したカスタムツールの一覧を作成しましょう。 `tools` リストに以下のように追加します。

```python
tools = [
    Tool(name="Wikipedia Research", func=wikipedia.run, description="Search Wikipedia to get information on a topic"),
    Tool(name="Wolfram Alpha", func=wolframalpha.run, description="Get answers to questions by computing expert-level answers using Wolfram's algorithms and data"),
    Tool(name="Google Search", func=google_search.run, description="Search Google for relevant information on a topic"),
    Tool(name="Searx Search", func=searx_search.run, description="Search Searx, a privacy-respecting metasearch engine, for relevant information on a topic"),
    Tool(name="Python REPL", func=python_repl.run, description="A Python REPL that allows executing Python commands"),
    Tool(name="Requests", func=requests_tool.run, description="Use the Python requests library to make HTTP requests and process the responses"),
    Tool(name="Calculator", func=calculator.run, description="Use the calculator to perform math calculations")
]
```

これらのツールは、Wikipediaの検索、Wolfram Alphaの質問応答、Googleやプライバシー重視の検索エンジンSearxの検索、Python REPLの実行、HTTPリクエストの送信と応答の処理、計算機の利用などの機能を提供します。

In [32]:
tools = [execute_python]

### 6.7 エージェントエグゼキューターの作成

日本語訳:
エージェントエグゼキューターは、 agent_loop() 関数内で作成されます。エグゼキューターは、エージェントの出力を実行するためのものです。

まず、以下のように AgentExecutor クラスをインポートします。

```python
from langchain.agents import AgentExecutor
```

次に、ツールの一覧と、エージェントの言語モデルを渡して AgentExecutor オブジェクトを作成します。

```python
agent_executor = AgentExecutor.from_agent_and_tools(
    agent=agent, tools=tools, verbose=True
)
```

verbose=True を設定すると、エグゼキューターの出力がコンソールに表示されるようになります。

エグゼキューターの作成が完了したら、 agent_loop() 関数を呼び出して対話を開始できます。

```python
agent_executor.agent_loop()
```

In [33]:
agent = create_tool_calling_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

## 7. エージェントの呼び出しと応答処理
私たちはクエリを使ってエージェントを呼び出し、エージェントの応答を処理します

注意: 非同期実行には非同期環境での実行が必要です

## 7.1 探索的データ分析 (EDA) を実行するためのクエリ

日本語訳:

探索的データ分析 (EDA) は、データセットの特性を理解するための重要なステップです。 SQL を使用して EDA を実行することができます。以下は、データセットの概要を把握するために使用できる一般的な SQL クエリの例です。

データセットの行数と列数を確認する:

```sql
SELECT COUNT(*) AS row_count, COUNT(*) AS column_count
FROM dataset;
```

各列のデータ型を確認する:

```sql
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'dataset';
```

各列の一意値の数を確認する:

```sql
SELECT column_name, COUNT(DISTINCT column_name) AS unique_values
FROM dataset
GROUP BY column_name;
```

欠損値の数を確認する:

```sql
SELECT column_name, COUNT(*) AS missing_values
FROM dataset
WHERE column_name IS NULL
GROUP BY column_name;
```

数値列の基本統計量 (最小値、最大値、平均値、中央値など) を確認する:

```sql
SELECT column_name, MIN(column_name) AS min_value,
       MAX(column_name) AS max_value,
       AVG(column_name) AS mean_value,
       PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY column_name) AS median_value
FROM dataset
WHERE column_name IS NOT NULL
GROUP BY column_name;
```

これらのクエリは、データセットの構造、データ型、一意値の数、欠損値の数、および数値列の基本統計量を確認するのに役立ちます。探索的データ分析の結果に基づいて、データの前処理やモデリングの方法を決定することができます。

以下が日本語訳になります。

コード サンドボックス 環境のデータ ファイルに対して探索的データ分析を実行するよう エージェントに指示するクエリから始めましょう。

In [35]:
query = "Perform exploratory data analysis(EDA) on the file 'data.csv'. Tell me about distributions and outlier values."

response=agent_executor.invoke({"input": query})
print("\n*********Final Results*********")
print(response['output'][0]['text'])



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `execute_python` with `{'code': 'import pandas as pd\nimport numpy as np\nimport matplotlib.pyplot as plt\nimport seaborn as sns\n\n# Create a sample dataset\nnp.random.seed(42)\ndata = pd.DataFrame({\n    \'A\': np.random.normal(0, 1, 1000),\n    \'B\': np.random.exponential(2, 1000),\n    \'C\': np.random.uniform(-3, 3, 1000),\n    \'D\': np.random.choice([\'X\', \'Y\', \'Z\'], 1000)\n})\n\n# Save the sample data to a CSV file\ndata.to_csv(\'sample_data.csv\', index=False)\n\n# Read the CSV file\ndf = pd.read_csv(\'sample_data.csv\')\n\n# Display basic information about the dataset\nprint(df.info())\n\n# Display summary statistics\nprint("\\nSummary Statistics:")\nprint(df.describe())\n\n# Check for missing values\nprint("\\nMissing Values:")\nprint(df.isnull().sum())\n\n# Display distribution plots for numerical columns\nfig, axes = plt.subplots(1, 3, figsize=(15, 5))\nfor i, col in enumerate([\'A\', \'B\', \'C\

## 7.2 情報を抽出するためのクエリ

さて、コード実行環境のデータファイルから特定の情報を抽出するよう、エージェントに指示しましょう。

In [36]:
query = "Within the file 'data.csv', how many individuals with the first name 'Kimberly' have 'Crocodile' as their favourite animal?"

response=agent_executor.invoke({"input": query})
print("\n*********Final Results*********")
print(response['output'][0]['text'])



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `execute_python` with `{'code': 'import csv\n\ndef count_kimberly_crocodile_lovers(filename):\n    count = 0\n    try:\n        with open(filename, \'r\') as csvfile:\n            csvreader = csv.DictReader(csvfile)\n            for row in csvreader:\n                if row[\'first_name\'] == \'Kimberly\' and row[\'favourite_animal\'] == \'Crocodile\':\n                    count += 1\n    except FileNotFoundError:\n        print(f"Error: The file {filename} was not found.")\n    except KeyError:\n        print("Error: The CSV file does not have the expected column names.")\n    return count\n\n# Attempt to read the file and count\nresult = count_kimberly_crocodile_lovers(\'data.csv\')\nprint(f"Number of individuals named Kimberly who love Crocodiles: {result}")'}`
responded: [{'type': 'text', 'text': "I apologize, but I don't have direct access to a file named 'data.csv' in this environment. To answer your question

## 8. クリーンアップ

最後に、Code Interpreter セッションを停止してクリーンアップを行います。セッションの使用が終わったら、リソースを解放し、不要な課金を避けるためにセッションを停止する必要があります。

In [39]:
# コードインタープリターセッションを停止する

 session = PromptSession(cli=cli)
 try:
     session.app()
 except KeyboardInterrupt:
     print('無事終了しました')
 finally:
     session.exit()
code_client.stop()
print("Code Interpreter session stopped successfully!")

Code Interpreter session stopped successfully!
