# Image to Text 

- ***豆包API***: 
    [https://doubao.apifox.cn/](https://doubao.apifox.cn/)
- ***volcengine-python SDK***: 
    [https://api.volcengine.com/api-sdk/view?serviceCode=ark&version=2024-01-01&language=Python](https://api.volcengine.com/api-sdk/view?serviceCode=ark&version=2024-01-01&language=Python)


In [None]:
# 安装SDK
!pip install --upgrade "volcengine-python-sdk[ark]"


Defaulting to user installation because normal site-packages is not writeable
Looking in indexes: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple


## 添加你的API Key

In [21]:

import os
import base64
from volcenginesdkarkruntime import Ark
# ! 变更为自己的API Key
# os.environ["ARK_API_KEY"] = "更换为您的API Key"
# ! 或者从文件读取API Key
with open("./data/your_apikey.txt", "r") as f:
    os.environ["ARK_API_KEY"] = f.read().strip()
print(f"YOUR API Key: {os.environ['ARK_API_KEY']}")
os.sys.path.append(".")


YOUR API Key: your_api_key


## 多模态数据：图像+文字

### 使用豆包描述image

In [None]:
# 读取图像文件
image_path = "./data/img/design.png"
with open(image_path, "rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")
data_url = f"data:image/png;base64,{b64}"
# 初始化 Ark 客户端
client = Ark(
    base_url="https://ark.cn-beijing.volces.com/api/v3",
    # 从环境变量中获取您的 API Key
    api_key=os.environ.get("ARK_API_KEY"),
)
# 调用方舟 Ark 的“聊天补全”接口，向指定模型发送一轮对话消息并获取模型回复
response = client.chat.completions.create(
    model="doubao-seed-1-6-vision-250815",  # 模型ID
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": data_url
                    },
                },
                {"type": "text", "text": "请问这是哪里？"},
            ],
        }
    ],
    
)


In [None]:
print(response.choices[0])


Choice(finish_reason='stop', moderation_hit_type=None, index=0, logprobs=None, message=ChatCompletionMessage(content='这是位于**佛山市顺德区广东工业设计城**内的“**设计引擎（DESIGN ENGINE）**”建筑。  \n\n广东工业设计城是国内首个以工业设计为主题的产业园区（坐落于顺德北滘），聚焦工业设计创新、产业服务与创意孵化，“设计引擎”是园区内推动设计创新、资源整合的重要载体，建筑风格（红砖立面、绿植环绕）也契合园区“工业设计+生态人文”的规划特色。', role='assistant', function_call=None, tool_calls=None, audio=None, reasoning_content='用户现在需要判断这个“DESIGN ENGINE 设计引擎”的建筑在哪里。根据建筑风格和标识，这应该是位于广东工业设计城（可能在顺德，因为广东工业设计城在佛山顺德）的设计引擎空间。广东工业设计城是国内重要的工业设计产业聚集地，建筑风格多为红砖结构，搭配绿植，标识清晰。需要回忆或确认：广东工业设计城的设计引擎是其重要的设计创新平台，所以推测这里是**广东工业设计城（佛山市顺德区）**的“设计引擎”建筑。\n\n首先看建筑外观：红砖建筑，绿植（竹子、树木）环绕，标识“DESIGN ENGINE 设计引擎”。广东工业设计城位于佛山市顺德区北滘镇，是全国首个以工业设计为主题的园区，里面有很多设计机构和创新平台，“设计引擎”是其中的一个重要载体，用于设计创新、交流等功能。\n\n所以结合建筑标识和园区特征，判断这里是**广东工业设计城（佛山市顺德区）**内的“设计引擎”建筑。'))


### 优化prompt，提供更多信息

In [None]:
image_path = "./data/img/design.png"
with open(image_path, "rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")
data_url = f"data:image/png;base64,{b64}"

client = Ark(
    base_url="https://ark.cn-beijing.volces.com/api/v3",
    api_key=os.environ.get("ARK_API_KEY"),
)
# client.chat.completions.create 调用方舟 Ark 的“聊天补全”接口，向指定模型发送一轮对话消息并获取模型回复
response = client.chat.completions.create(
    model="doubao-seed-1-6-vision-250815",  # 模型ID
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": data_url
                    },
                },
                {"type": "text", "text": "已知这是在湖南省的一个地方，请问这是哪里？"},
            ],
        }
    ],
    
)


In [16]:
print(response.choices[0])


Choice(finish_reason='stop', moderation_hit_type=None, index=0, logprobs=None, message=ChatCompletionMessage(content='这是位于**湖南省长沙市岳麓区后湖国际艺术区（后湖文创园）**内的“设计引擎（DESIGN ENGINE）”空间。  \n\n后湖国际艺术区（后湖文创园）是长沙文创设计、艺术创作的聚集地，紧邻湖南大学、中南大学等高校，以红砖建筑、生态绿植与文创产业融合为特色，“设计引擎”作为其中的设计类创新载体，聚焦设计创意产业发展，周边兼具艺术氛围与高校文化底蕴。', role='assistant', function_call=None, tool_calls=None, audio=None, reasoning_content='用户现在需要确定这个“DESIGN ENGINE 设计引擎”所在的湖南地点。首先，回忆湖南的文化创意园区或设计相关的地标，比如长沙的洋湖湿地公园附近？或者更可能的是湖南大学附近？不对，另一个可能是“长沙设计引擎”？或者具体是湖南的某个文创园，比如“湖南大学设计学院”？不，图片里的建筑风格和“设计引擎”的标识，结合湖南的情况，应该是位于湖南省长沙市的“设计引擎”，具体可能在岳麓区的大学科技城或者后湖艺术区附近？后湖国际艺术区（后湖文创园）里有很多设计相关的机构，建筑是红砖风格，周围有绿植。所以推断这是湖南省长沙市的后湖国际艺术区（或后湖文创园）内的“设计引擎”空间，属于长沙的文化创意产业聚集地，靠近湖南大学、中南大学等高校，是设计、文创类的办公或展示场所。\n\n验证一下：后湖艺术区（后湖国际设计创意中心）有红砖建筑，设计引擎是其中的机构，位于长沙岳麓区后湖片区，周边高校林立，是文创设计的聚集地。所以答案应该是湖南省长沙市岳麓区后湖国际艺术区（或后湖文创园）内的“设计引擎”。'))


## 简单调用

In [1]:
from i2t import query_with_image
query = "请描述这张图片，并分析图片所在地在哪里？"
image_path = "./data/img/yls.png"
response = query_with_image(query, image_path)


In [2]:
print(response)

Choice(finish_reason='stop', moderation_hit_type=None, index=0, logprobs=None, message=ChatCompletionMessage(content='### 图片描述  \n画面主体是一座**中国传统古亭（爱晚亭）**，为两层结构的湘派建筑：屋顶覆**绿色琉璃瓦**，飞檐翘角造型灵动；亭身立柱与上层檐下匾额为**红色**，匾额上书“**爱晚亭**”三字（字体遒劲，契合古亭意境）。古亭被茂密林木环绕，树叶色彩丰富（翠绿、金黄、绯红交织），似秋季时节，营造出清幽古朴的山林氛围，尽显古亭与自然相融的雅致意境。  \n\n\n### 所在地分析（推断为**湖南省长沙市岳麓山的“爱晚亭”**）  \n#### 核心依据：  \n1. **建筑特征**：爱晚亭是中国“四大名亭”之一，形制为**两层绿瓦飞檐、红柱红匾**的湘派古建，与图片中古亭的外观（琉璃瓦、飞檐、红匾）完全契合。  \n\n2. **文化符号**：匾额题字“爱晚亭”，因唐代杜牧诗句“**停车坐爱枫林晚**”得名，是岳麓山的标志性景观（历史上匾额题字多次更替，现用毛泽东题写的“爱晚亭”，与图片风格一致）。  \n\n3. **生态环境**：  \n   - 植被特征：周边树木（如枫树、樟木）的形态与岳麓山的山林植被高度契合（岳麓山多枫树，秋季枫叶泛红，图片中左侧红叶植物、右侧杂木林的色彩层次，符合秋季岳麓山的“霜叶景观”）。  \n   - 环境氛围：古亭与茂密山林的组合，呼应了岳麓山“书院+山林”的人文生态（岳麓山紧邻岳麓书院，是湖湘文化的核心载体）。  \n\n4. **人文背景**：爱晚亭地处**岳麓山风景名胜区**，紧邻岳麓书院，是湖湘文化的重要载体。其建筑风格、匾额题字、山林环境（秋季红叶）均与长沙岳麓山的文化、自然特征高度匹配。  \n\n\n#### 补充佐证：  \n- 爱晚亭作为“四大名亭”之一，历史上与岳麓书院、橘子洲头共同构成长沙“山水洲城”的文化地标，其建筑形制（绿瓦、红匾、两层飞檐）是湘派古建的典型代表。  \n- 秋季“枫林晚”的景观（图片中树叶色彩），与岳麓山“万山红遍”的秋季盛景（杜牧诗意的现实化呈现）完全呼应。  \n\n\n综上，结合建筑形制、文化符号、生态环境与人文背景，可推断图片所在地为*

### 思考过程

In [3]:
print(response.message.reasoning_content)


用户现在需要描述这张图片并分析所在地。首先看图片内容：建筑是中式古建，两层歇山顶（或类似），绿瓦，红色匾额写“爱晚亭”？不对，匾额文字是“爱晚亭”？仔细看，匾额上的字是“爱晚亭”吗？爱晚亭的匾额通常是毛泽东题的？不过图片里的匾额文字，先看建筑风格：飞檐翘角，绿琉璃瓦，红色立柱和匾额，匾额上的字是“爱晚亭”？周围有树木，树叶颜色丰富，可能是秋季。

首先描述图片：画面展示一座中国传统古亭，两层结构，屋顶覆绿色琉璃瓦，飞檐翘角，檐下有红色匾额，上书“爱晚亭”（需确认文字，图片中匾额文字是“爱晚亭”吗？看图片，匾额上的字是“爱晚亭”？不对，用户提供的图片中匾额文字是“爱晚亭”？仔细看，图片里的匾额文字是“爱晚亭”？或者可能是“爱晚亭”的繁体？不过爱晚亭在长沙岳麓山。

然后分析所在地：爱晚亭位于湖南省长沙市岳麓山风景名胜区内，是中国四大名亭之一，因杜牧诗句“停车坐爱枫林晚”得名，秋季枫叶红时景色优美。建筑风格为典型的湘派古建，绿瓦红柱，匾额题字（历史上有不同题字，现在的是毛泽东题的“爱晚亭”）。周围的树木（如枫树）和环境符合岳麓山的植被特征，尤其是秋季的红叶（图片中左侧有红叶植物，右侧有绿叶和黄叶，符合岳麓山的山林环境）。

现在整理描述：

图片内容：画面主体是一座中国传统古亭（爱晚亭），两层结构，屋顶铺绿色琉璃瓦，飞檐翘角，造型雅致。亭身有红色立柱，上层檐下悬挂红色匾额，上书“爱晚亭”三字（需确认文字，图片中匾额文字清晰可见为“爱晚亭”？看图片，匾额上的字是“爱晚亭”吗？用户提供的图片中，匾额文字是“爱晚亭”？仔细看，图片里的匾额文字是“爱晚亭”？是的，爱晚亭的匾额。周围环绕茂密的树木，树叶色彩丰富，有翠绿、金黄和红色（如枫树），营造出清幽雅致的山林氛围，仿佛秋季时节，展现出古亭与自然相融的景致。

所在地分析：这座古亭是**湖南省长沙市岳麓山的爱晚亭**。依据：1. 建筑特征：爱晚亭为中国四大名亭之一，两层绿瓦飞檐、红柱红匾的湘派古建风格，与岳麓山爱晚亭的形制一致；2. 文化背景：爱晚亭因“停车坐爱枫林晚”得名，地处岳麓山，秋季枫林景观闻名；3. 环境特征：岳麓山以枫香、樟等树木为主，图片中树木（含枫树）的分布和秋季植被色彩（红叶、绿叶交织）符合岳麓山的生态环境；4. 历史人文：爱晚亭位于岳麓山，是岳麓书院周边的标志性建筑，承载着湖湘文化底蕴，与岳麓山的人文景观（如

### 最终回答

In [4]:
# 响应内容
print(response.message.content)


### 图片描述  
画面主体是一座**中国传统古亭（爱晚亭）**，为两层结构的湘派建筑：屋顶覆**绿色琉璃瓦**，飞檐翘角造型灵动；亭身立柱与上层檐下匾额为**红色**，匾额上书“**爱晚亭**”三字（字体遒劲，契合古亭意境）。古亭被茂密林木环绕，树叶色彩丰富（翠绿、金黄、绯红交织），似秋季时节，营造出清幽古朴的山林氛围，尽显古亭与自然相融的雅致意境。  


### 所在地分析（推断为**湖南省长沙市岳麓山的“爱晚亭”**）  
#### 核心依据：  
1. **建筑特征**：爱晚亭是中国“四大名亭”之一，形制为**两层绿瓦飞檐、红柱红匾**的湘派古建，与图片中古亭的外观（琉璃瓦、飞檐、红匾）完全契合。  

2. **文化符号**：匾额题字“爱晚亭”，因唐代杜牧诗句“**停车坐爱枫林晚**”得名，是岳麓山的标志性景观（历史上匾额题字多次更替，现用毛泽东题写的“爱晚亭”，与图片风格一致）。  

3. **生态环境**：  
   - 植被特征：周边树木（如枫树、樟木）的形态与岳麓山的山林植被高度契合（岳麓山多枫树，秋季枫叶泛红，图片中左侧红叶植物、右侧杂木林的色彩层次，符合秋季岳麓山的“霜叶景观”）。  
   - 环境氛围：古亭与茂密山林的组合，呼应了岳麓山“书院+山林”的人文生态（岳麓山紧邻岳麓书院，是湖湘文化的核心载体）。  

4. **人文背景**：爱晚亭地处**岳麓山风景名胜区**，紧邻岳麓书院，是湖湘文化的重要载体。其建筑风格、匾额题字、山林环境（秋季红叶）均与长沙岳麓山的文化、自然特征高度匹配。  


#### 补充佐证：  
- 爱晚亭作为“四大名亭”之一，历史上与岳麓书院、橘子洲头共同构成长沙“山水洲城”的文化地标，其建筑形制（绿瓦、红匾、两层飞檐）是湘派古建的典型代表。  
- 秋季“枫林晚”的景观（图片中树叶色彩），与岳麓山“万山红遍”的秋季盛景（杜牧诗意的现实化呈现）完全呼应。  


综上，结合建筑形制、文化符号、生态环境与人文背景，可推断图片所在地为**湖南省长沙市岳麓山的“爱晚亭”**。
