In [24]:
# swarmからのインポート
from swarm import Swarm, Agent
# SwarmClientのインポートを一時的にコメントアウト
# from swarm import SwarmClient
from dotenv import load_dotenv
import os
import base64


In [25]:
print(os.getcwd())
print(os.listdir())

/home/jovyan/work
['.dockerignore', '.env', '.env.example', '1.ipynb', '1.py', '2.ipynb', 'docker-compose.yml', 'Dockerfile', 'IMG_3753.jpg', 'readme.md', 'repo', 'requirements.txt']


In [48]:

# 環境変数の読み込み
load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY", None)
if OPENAI_API_KEY is None:
    raise ValueError("OPENAI_API_KEY is not set in the environment variables.")


In [49]:

# クライアントの作成
client = Swarm()


In [50]:

# 画像をインポート
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')


In [53]:
# 質問をする(画像の文字起こし)
def ocr_image(image_path):
    """
    画像内のテキストを抽出する関数
    """
    print(f"[DEBUG] : {image_path}をbase64に変換")
    base64_image = encode_image(image_path)

    print(f"[DEBUG] : Swarmクライアントを使用してOCR処理を実行")
    response = client.run(
        agent=Agent(
            name="Agent",
            model="gpt-4o-mini",
            instructions="You are a helpful agent.",
        ),
        messages=[
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "この画像はなんですか?テキストをサボらずにすべて抽出して。項目をすべて抽出して。"},
                    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
                ],
            }
        ],
    )

    print(f"[DEBUG] : 抽出されたテキストを返す絶対に省略をしないこと。")
    return response.messages[-1]["content"]


In [54]:

# 使用例
image_path = './IMG_3753.jpg'
result = ocr_image(image_path)
print(result)


[DEBUG] : ./IMG_3753.jpgをbase64に変換
[DEBUG] : Swarmクライアントを使用してOCR処理を実行
[DEBUG] : 抽出されたテキストを返す絶対に省略をしないこと。
以下は画像から抽出したテキストです。

```
TSURUYA
店舗番号 T31000010008319
電話番号 TEL:0266-75-5101
いつもご利用いただきありがとうございます
ご利用明細
----------------------------------------
店番号:0000007   レシート番号:001003
2024年9月20日 (金) 14:19
A03  レジ番号:4785

お客様番号:000003  R3819  14:19
------------------------------------------------------
  01 大吉 1/2              ￥379
  02 生ビール              ￥429
  03 焼酎                  ￥499
  04 瓶ビール              ￥499
  05 ソフトドリンク        ￥206
  06 おつまみ            ￥579
  07 おつまみ            ￥499
  08 おつまみ            ￥379
  09 各種おあげ         ￥206
                                          ---
                                      小計: ￥2,785

------------------------------------------------------
サービス料              8%
                                        ￥206
-----------------------------------------------
合計                  ￥2,785
-----------------------------------------------
クレジットご請求書

カード会社: WM
