# Image to Text 

- ***豆包API***: 
    [https://doubao.apifox.cn/](https://doubao.apifox.cn/)
- ***volcengine-python SDK***: 
    [https://api.volcengine.com/api-sdk/view?serviceCode=ark&version=2024-01-01&language=Python](https://api.volcengine.com/api-sdk/view?serviceCode=ark&version=2024-01-01&language=Python)


In [None]:
# 安装SDK
!pip install --upgrade "volcengine-python-sdk[ark]"


Defaulting to user installation because normal site-packages is not writeable
Looking in indexes: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple


## 添加你的API Key

In [21]:

import os
import base64
from volcenginesdkarkruntime import Ark
# ! 变更为自己的API Key
# os.environ["ARK_API_KEY"] = "更换为您的API Key"
# ! 或者从文件读取API Key
with open("./data/your_apikey.txt", "r") as f:
    os.environ["ARK_API_KEY"] = f.read().strip()
print(f"YOUR API Key: {os.environ['ARK_API_KEY']}")
os.sys.path.append(".")


YOUR API Key: your_api_key


## 多模态数据：图像+文字

### 使用豆包描述image

In [None]:
# 读取图像文件
image_path = "./data/img/design.png"
with open(image_path, "rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")
data_url = f"data:image/png;base64,{b64}"
# 初始化 Ark 客户端
client = Ark(
    base_url="https://ark.cn-beijing.volces.com/api/v3",
    # 从环境变量中获取您的 API Key
    api_key=os.environ.get("ARK_API_KEY"),
)
# 调用方舟 Ark 的“聊天补全”接口，向指定模型发送一轮对话消息并获取模型回复
response = client.chat.completions.create(
    model="doubao-seed-1-6-vision-250815",  # 模型ID
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": data_url
                    },
                },
                {"type": "text", "text": "请问这是哪里？"},
            ],
        }
    ],
    
)


In [None]:
print(response.choices[0])


Choice(finish_reason='stop', moderation_hit_type=None, index=0, logprobs=None, message=ChatCompletionMessage(content='这是位于**佛山市顺德区广东工业设计城**内的“**设计引擎（DESIGN ENGINE）**”建筑。  \n\n广东工业设计城是国内首个以工业设计为主题的产业园区（坐落于顺德北滘），聚焦工业设计创新、产业服务与创意孵化，“设计引擎”是园区内推动设计创新、资源整合的重要载体，建筑风格（红砖立面、绿植环绕）也契合园区“工业设计+生态人文”的规划特色。', role='assistant', function_call=None, tool_calls=None, audio=None, reasoning_content='用户现在需要判断这个“DESIGN ENGINE 设计引擎”的建筑在哪里。根据建筑风格和标识，这应该是位于广东工业设计城（可能在顺德，因为广东工业设计城在佛山顺德）的设计引擎空间。广东工业设计城是国内重要的工业设计产业聚集地，建筑风格多为红砖结构，搭配绿植，标识清晰。需要回忆或确认：广东工业设计城的设计引擎是其重要的设计创新平台，所以推测这里是**广东工业设计城（佛山市顺德区）**的“设计引擎”建筑。\n\n首先看建筑外观：红砖建筑，绿植（竹子、树木）环绕，标识“DESIGN ENGINE 设计引擎”。广东工业设计城位于佛山市顺德区北滘镇，是全国首个以工业设计为主题的园区，里面有很多设计机构和创新平台，“设计引擎”是其中的一个重要载体，用于设计创新、交流等功能。\n\n所以结合建筑标识和园区特征，判断这里是**广东工业设计城（佛山市顺德区）**内的“设计引擎”建筑。'))


### 优化prompt，提供更多信息

In [None]:
image_path = "./data/img/design.png"
with open(image_path, "rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")
data_url = f"data:image/png;base64,{b64}"

client = Ark(
    base_url="https://ark.cn-beijing.volces.com/api/v3",
    api_key=os.environ.get("ARK_API_KEY"),
)
# client.chat.completions.create 调用方舟 Ark 的“聊天补全”接口，向指定模型发送一轮对话消息并获取模型回复
response = client.chat.completions.create(
    model="doubao-seed-1-6-vision-250815",  # 模型ID
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": data_url
                    },
                },
                {"type": "text", "text": "已知这是在湖南省的一个地方，请问这是哪里？"},
            ],
        }
    ],
    
)


In [16]:
print(response.choices[0])


Choice(finish_reason='stop', moderation_hit_type=None, index=0, logprobs=None, message=ChatCompletionMessage(content='这是位于**湖南省长沙市岳麓区后湖国际艺术区（后湖文创园）**内的“设计引擎（DESIGN ENGINE）”空间。  \n\n后湖国际艺术区（后湖文创园）是长沙文创设计、艺术创作的聚集地，紧邻湖南大学、中南大学等高校，以红砖建筑、生态绿植与文创产业融合为特色，“设计引擎”作为其中的设计类创新载体，聚焦设计创意产业发展，周边兼具艺术氛围与高校文化底蕴。', role='assistant', function_call=None, tool_calls=None, audio=None, reasoning_content='用户现在需要确定这个“DESIGN ENGINE 设计引擎”所在的湖南地点。首先，回忆湖南的文化创意园区或设计相关的地标，比如长沙的洋湖湿地公园附近？或者更可能的是湖南大学附近？不对，另一个可能是“长沙设计引擎”？或者具体是湖南的某个文创园，比如“湖南大学设计学院”？不，图片里的建筑风格和“设计引擎”的标识，结合湖南的情况，应该是位于湖南省长沙市的“设计引擎”，具体可能在岳麓区的大学科技城或者后湖艺术区附近？后湖国际艺术区（后湖文创园）里有很多设计相关的机构，建筑是红砖风格，周围有绿植。所以推断这是湖南省长沙市的后湖国际艺术区（或后湖文创园）内的“设计引擎”空间，属于长沙的文化创意产业聚集地，靠近湖南大学、中南大学等高校，是设计、文创类的办公或展示场所。\n\n验证一下：后湖艺术区（后湖国际设计创意中心）有红砖建筑，设计引擎是其中的机构，位于长沙岳麓区后湖片区，周边高校林立，是文创设计的聚集地。所以答案应该是湖南省长沙市岳麓区后湖国际艺术区（或后湖文创园）内的“设计引擎”。'))


## 简单调用

In [None]:
from i2t import query_with_image
query = "请描述这张图片，并分析图片所在地在哪里？"
image_path = "./data/img/yls.png"
response = query_with_image(query, image_path)


In [None]:
print(response)

Choice(finish_reason='stop', moderation_hit_type=None, index=0, logprobs=None, message=ChatCompletionMessage(content='### 图片描述  \n画面中央是一座**中国传统风格的两层亭阁（爱晚亭）**：亭顶铺青绿色瓦片，飞檐翘角，尽显古建灵动之美；亭身悬挂**红色匾额**，上书“爱晚亭”三字，字体遒劲。周围环绕茂密的树木，枝叶以翠绿为主，部分植物呈现红绿交织的色彩（如前景的红叶、背景的绿树），营造出清幽的山林氛围。整体画面兼具古朴雅致的建筑美学与自然静谧的山林意境。  \n\n\n### 地点分析（推断为**湖南长沙岳麓山·爱晚亭**）  \n#### 核心依据：  \n1. **建筑名称与文化背景**：匾额文字“爱晚亭”是关键线索。爱晚亭因唐代杜牧“停车坐爱枫林晚”的诗句得名，是“中国四大名亭”之一，**地处长沙岳麓山**，现匾额为毛泽东题写（图中字体风格与毛泽东题字特征相符）。  \n\n2. **建筑风格与环境特征**：  \n   - 建筑形制：爱晚亭为两层飞檐亭阁，青瓦、红柱、翘角的设计，符合**湘派古建风格**（岳麓山古建多保留此类形制）。  \n   - 生态环境：岳麓山以山林著称，植被以枫香、樟木等为主，图中“绿树环绕+部分红叶植物”的景观，与岳麓山“山林茂密、秋季枫叶绚烂”的生态特征高度契合（即使图中为非秋季，植物种类也符合岳麓山的植被类型）。  \n\n3. **历史文化关联**：爱晚亭是岳麓山的标志性建筑，承载“四大名亭”“革命纪念地”（毛泽东早年活动场所）等文化内涵，结合建筑细节（飞檐、青瓦、红匾）与环境（山林、植物），可明确推断为**湖南长沙岳麓山的爱晚亭**。  \n\n\n（注：爱晚亭现匾额为毛泽东1952年题写，图中字体风格与题字特征一致，进一步佐证地点判断。）', role='assistant', function_call=None, tool_calls=None, audio=None, reasoning_content='用户现在需要描述这张图片并分析所在地。首先看图片内容：画面是一座中国传统建筑，两层歇山顶（或类似），青瓦，红色匾额写“爱晚亭”，周围绿树环绕，还有红叶植物（可能枫香？）。爱晚亭是长沙岳麓山的

### 思考过程

In [9]:
print(response.message.reasoning_content)


用户现在需要描述这张图片并分析所在地。首先看图片内容：画面是一座中国传统建筑，两层歇山顶（或类似），青瓦，红色匾额写“爱晚亭”，周围绿树环绕，还有红叶植物（可能枫香？）。爱晚亭是长沙岳麓山的标志性建筑，杜牧“停车坐爱枫林晚”的意境，岳麓山的爱晚亭，结合建筑风格（湘派建筑？）、匾额文字“爱晚亭”，还有环境（山林、枫叶相关植物），所以分析地点：爱晚亭位于湖南长沙岳麓山，从建筑样式（飞檐、青瓦、红色匾额）、文字“爱晚亭”（毛泽东题字？这里字体看，爱晚亭的匾额是毛泽东所书），周围的树木（岳麓山多枫香树，秋季红叶，图中虽有绿叶但植物特征符合），所以推断是长沙岳麓山的爱晚亭。

现在组织描述：图片展示了一座中国传统风格的两层亭阁（爱晚亭），亭顶铺青绿色瓦片，飞檐翘角。亭身有红色匾额，上书“爱晚亭”三字。周围环绕茂密的树木，部分枝叶呈现红绿交织的色彩，营造出清幽的山林氛围。建筑细节（如檐下结构、色彩搭配）具有典型的湘地古建风格，结合“爱晚亭”的匾额文字，可推断此地为**湖南长沙岳麓山的爱晚亭**。

分析依据：1. 建筑名称：“爱晚亭”是岳麓山标志性建筑，因杜牧“停车坐爱枫林晚”得名，现匾额为毛泽东题写（图中字体风格符合）。2. 环境特征：岳麓山地处长沙，山林茂密，植被以枫香、樟木等为主，图中树木的生态环境（山林、多木）与岳麓山一致。3. 建筑风格：爱晚亭的形制（两层、飞檐、青瓦红柱）符合湘派古建特点，与岳麓山古建遗存风格匹配。4. 文化背景：爱晚亭是“中国四大名亭”之一，结合匾额文字和建筑细节，可确定为长沙岳麓山的爱晚亭。

现在检查逻辑：文字“爱晚亭”直接指向，建筑风格（湘地古亭），环境（山林、树木），这些都支持地点是长沙岳麓山的爱晚亭。所以结论明确。


### 最终回答

In [None]:
# 响应内容
print(response.message.content)


ChatCompletionMessage(content='### 图片描述  \n画面中央是一座**中国传统风格的两层亭阁（爱晚亭）**：亭顶铺青绿色瓦片，飞檐翘角，尽显古建灵动之美；亭身悬挂**红色匾额**，上书“爱晚亭”三字，字体遒劲。周围环绕茂密的树木，枝叶以翠绿为主，部分植物呈现红绿交织的色彩（如前景的红叶、背景的绿树），营造出清幽的山林氛围。整体画面兼具古朴雅致的建筑美学与自然静谧的山林意境。  \n\n\n### 地点分析（推断为**湖南长沙岳麓山·爱晚亭**）  \n#### 核心依据：  \n1. **建筑名称与文化背景**：匾额文字“爱晚亭”是关键线索。爱晚亭因唐代杜牧“停车坐爱枫林晚”的诗句得名，是“中国四大名亭”之一，**地处长沙岳麓山**，现匾额为毛泽东题写（图中字体风格与毛泽东题字特征相符）。  \n\n2. **建筑风格与环境特征**：  \n   - 建筑形制：爱晚亭为两层飞檐亭阁，青瓦、红柱、翘角的设计，符合**湘派古建风格**（岳麓山古建多保留此类形制）。  \n   - 生态环境：岳麓山以山林著称，植被以枫香、樟木等为主，图中“绿树环绕+部分红叶植物”的景观，与岳麓山“山林茂密、秋季枫叶绚烂”的生态特征高度契合（即使图中为非秋季，植物种类也符合岳麓山的植被类型）。  \n\n3. **历史文化关联**：爱晚亭是岳麓山的标志性建筑，承载“四大名亭”“革命纪念地”（毛泽东早年活动场所）等文化内涵，结合建筑细节（飞檐、青瓦、红匾）与环境（山林、植物），可明确推断为**湖南长沙岳麓山的爱晚亭**。  \n\n\n（注：爱晚亭现匾额为毛泽东1952年题写，图中字体风格与题字特征一致，进一步佐证地点判断。）', role='assistant', function_call=None, tool_calls=None, audio=None, reasoning_content='用户现在需要描述这张图片并分析所在地。首先看图片内容：画面是一座中国传统建筑，两层歇山顶（或类似），青瓦，红色匾额写“爱晚亭”，周围绿树环绕，还有红叶植物（可能枫香？）。爱晚亭是长沙岳麓山的标志性建筑，杜牧“停车坐爱枫林晚”的意境，岳麓山的爱晚亭，结合建筑风格（湘派建筑？）、匾额文字“爱晚亭”，还有环境（山林、枫叶相关植物），所以分析地点：爱晚亭位于湖南长沙岳麓