# 多属性目标图像生成技术演示

## 概述
本 Jupyter Notebook 旨在为你展示基于稳定扩散模型的多属性目标图像生成技术的核心功能与使用方法。该技术聚焦于如何根据多个属性生成符合特定要求的目标图像，在图像生成领域具有重要的应用价值。通过本演示，你将了解到项目中涉及的主要模块，如 UNet 模型、多头注意力机制（MHA）以及空间 - 语义交叉注意力模块的使用方式，同时也能看到如何将文本信息转化为图像生成的语义信息。

## 演示内容
1. **模型加载与初始化**：展示如何加载项目中使用的关键模型，包括 UNet 模型、文本编码器等，并进行必要的初始化操作。
2. **文本编码与语义嵌入**：介绍如何将输入的文本信息进行编码，转化为可供模型使用的语义嵌入向量，以及如何根据文本信息生成动态权重。
3. **图像生成过程**：详细演示如何使用 UNet 模型结合语义嵌入向量和动态权重进行图像生成，并展示生成结果。
4. **结果可视化**：将生成的图像进行可视化展示，方便你直观地观察生成效果。

## 环境要求
运行本演示需要安装以下依赖库：
```plaintext
torch
torchvision
opencv-python
Pillow
matplotlib
transformers
tensorboard
redis
geoip2
flask
scikit-learn
numpy
requests
openai
GPUtil
openai-clip
user-agents
```
你可以通过运行项目中的 `setup.py` 文件来安装这些依赖：
```bash
python setup.py install
```

## 注意事项
- 本演示代码仅用于展示项目的核心功能，实际应用中可能需要根据具体需求进行调整和优化。
- 在运行代码时，请确保你的环境满足项目的 Python 版本要求（Python 3.10）。

## 算法流程图
![alt text](算法.jpg)

步骤 1: 环境设置与库导入

In [1]:
# 导入必要的库
import torch
import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt
import requests
import json
import hashlib
import time
from models.mha import TextEncoderWithMHA
from models.dynamic_u_net import UNet

# 提示：确保已经安装了所有依赖库，可通过运行以下命令安装：
# pip install -r requirements.txt

# 检查 GPU 是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用的设备: {device}")

  from .autonotebook import tqdm as notebook_tqdm


使用的设备: cpu


步骤 2: 文本编码

In [None]:
# 提示：这里使用 TextEncoderWithMHA 对输入的文本进行编码，得到语义嵌入
# 初始化文本编码器
text_encoder = TextEncoderWithMHA()
text = ["dog", "grass"]  # 输入文本
print(f"输入的文本: {text}")

# 对文本进行编码
result = text_encoder.encode_text(text)
semantic_embedding = result["embeddings"].to(device)
print("语义嵌入的形状:", semantic_embedding.shape)

步骤 3: 动态权重计算

In [None]:
# 提示：调用 /api/v5/weight/calculate 接口计算动态权重
# 构造请求数据
request_data = {
    "base_prompt": "A dog on the grass",
    "attributes": [
        {
            "name": "object",
            "type": "text",
            "value": text[0],
            "initial_weight": 0.8,
            "constraints": {
                "min_weight": 0.4,
                "max_weight": 0.9,
            }
        },
        {
            "name": "background",
            "type": "text",
            "value": text[1],
            "initial_weight": 0.2,
            "constraints": {
                "min_weight": 0.1,
                "max_weight": 0.5,
            }
        }
    ],
    "temperature": 1.8,
    "fallback_strategy": "creative",
}

# 获取时间戳
timestamp = str(int(time.time()))
# 检查时间戳是否在有效范围内（假设有效期为 60 秒）
if int(time.time()) - int(timestamp) > 60:
    print("时间戳已过期，请重新获取")
    timestamp = str(int(time.time()))

data_str = json.dumps(request_data, sort_keys=True)

# 计算签名
message = f"{data_str}{timestamp}"
signature = hashlib.sha256(message.encode()).hexdigest()

headers = {
    "Content-Type": "application/json",
    "X-Api-Key": "api_key",
    "X-Timestamp": timestamp,
    "X-Signature": signature,
}

# 提示：确保 dynamic_weights 服务正在运行，监听在 http://127.0.0.1:5000
# 调用 dynamic_weights 接口
url = 'http://127.0.0.1:5000/api/v5/weight/calculate'
response = requests.post(url, headers=headers, json=request_data)

if response.status_code == 200:
    response_data = response.json()
    if response_data["code"] == 200:
        final_weights = response_data["data"]["final_weights"]
        weights = [final_weights[key] for key in text]
        print("最终权重:", final_weights)
    else:
        print(f"Failed to get dynamic weights: {response_data}")
        weights = [1.0] * len(text)
else:
    print(f"Failed to get dynamic weights: {response.text}")
    weights = [1.0] * len(text)

步骤 4: 图像加载与预处理

In [None]:
# 提示：确保 image3.jpg 文件存在于当前工作目录中
# 加载图片
image_path = 'image3.jpg'  # 输入图像地址
image = Image.open(image_path).convert('RGB')
print(f"加载的图像: {image_path}")

# 图像预处理
transform = transforms.Compose([
    transforms.Resize((128, 128)),
    transforms.ToTensor()
])
input_image = transform(image).unsqueeze(0).to(device)
print("输入图像的形状:", input_image.shape)

步骤 5: 模型初始化与推理

In [None]:
# 提示：初始化 UNet 模型进行图像生成
# 初始化 UNet 模型
model = UNet(in_channels=3, out_channels=3).to(device)

# 模型推理
output = model(input_image, semantic_embedding, weights)
output = output.cpu().squeeze(0).detach().numpy()

# 归一化到 [0, 1] 范围
output = (output - output.min()) / (output.max() - output.min() + 1e-8)

# 调整维度以符合 imshow 要求 (H, W, C)
output = output.transpose(1, 2, 0)

步骤 6: 结果可视化

In [None]:
# 提示：显示和保存生成的图像
# 显示和保存结果
plt.imshow(output)
plt.axis('off')
plt.savefig('output_image.jpg', bbox_inches='tight', pad_inches=0)
plt.show()
print("生成的图像已保存为 output_image.jpg")