In [1]:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import time
import torch

# model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
#     "qwen", torch_dtype="auto", device_map="auto"
# )



model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "qwen",
    torch_dtype=torch.bfloat16,  # 使用bfloat16而不是更低精度
    attn_implementation="flash_attention_2",  # 保留此优化
    device_map="auto",
    use_cache=True  # 启用KV缓存提高速度
)

# 优化处理器
processor = AutoProcessor.from_pretrained("qwen")
processor.tokenizer = AutoTokenizer.from_pretrained(
    "qwen",
    use_fast=True  
)





Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [5]:
messages = [
    {
        "role": "system",
        "content": [
            {"type": "text", "text": """你是一个判别模型是否是谣言的助手，请你以json格式输出你的结果，格式：
            IsNewsTrue：0      (0即为谣言，1即为事实)
            reasons：       (传入一个list，里面是你的分析原因，分点)         
            """},
        ],
    },
    {
        "role": "user",
        "content": [
            # {
            #     "type": "image",
            #     # "image": "blank.jpg",
            # },
            {"type": "text", "text": """
                        
            
            """},
        ],
    }
]


text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)


inputs = inputs.to("cuda")


start = time.perf_counter()

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=256)

end = time.perf_counter()


generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]


output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)


print(end-start)
print(output_text)


6.185411895625293
['```json\n{\n  "IsNewsTrue": 1,\n  "reasons": [\n    "新闻内容详细描述了一个具体的社区碳中和示范项目的启动和实施情况，包括项目名称、地点、时间、主要措施以及预期效果。",\n    "新闻引用了多个官方渠道的信息来源，如国家发改委、国网滨海分公司、社区管委会等，这些信息来源具有较高的可信度。",\n    "新闻报道了项目的具体实施细节，如光伏发电设备的安装、绿色设施的部署、居民参与环保活动的情况等，这些细节增强了新闻的真实性。",\n    "新闻最后引用了专家的评论，进一步支持了新闻内容的真实性和权威性。",\n    "新闻没有明显的夸张或虚假信息，整体上符合新闻报道的基本要求。"\n  ]\n}\n```']


In [5]:

# 3. 批处理多个样本以提高利用率
def process_batch(messages_batch, batch_size=8):
    """处理一批次的请求以提高GPU利用率"""
    start_time = time.perf_counter()
    
    # 准备批次输入
    all_texts = []
    all_image_inputs = []
    all_video_inputs = []
    
    for messages in messages_batch:
        
        
        all_texts.append(text)
        all_image_inputs.extend(image_inputs if image_inputs else [None])
        all_video_inputs.extend(video_inputs if video_inputs else [None])
    
    # 过滤掉None值
    all_image_inputs = [img for img in all_image_inputs if img is not None]
    all_video_inputs = [vid for vid in all_video_inputs if vid is not None]
    
    
    # 启用CUDA图优化（用于固定输入大小的情况）
    # torch.cuda.synchronize()  # 确保之前的操作完成
    # g = torch.cuda.CUDAGraph()
    # with torch.cuda.graph(g):
    #     generated_ids = model.generate(**inputs, max_new_tokens=256, do_sample=True)
    
    # 如果输入大小变化，使用常规生成
    # 4. 优化生成参数
    
    
    return output_text, processing_time



AttributeError: module 'torch' has no attribute 'bfloat32'

In [4]:
# 6. 示例调用 - 通过批处理多个消息来提高GPU利用率
news_text = """

这是一个在2012/8/22微博发布的新闻。标题是无标题，正文是@思想聚焦:【风度和教养】领导和姚明一家合影，领导们当仁不让的站到了姚明一家的前面，姚明的母亲几乎被挡住，第二批上来的是姚明火箭队的美国人，给姚明老婆和母亲全部让位。。。。。（via@广州刘云云）——2011年7月21日@薛蛮子@袁飏先生@王普会@吾评时政@时评中国@袁国宝@于建嵘，是属于文体娱乐类别的新闻。

"""

# 7. 创建多个不同的消息批次以增加GPU利用率
def create_message_batch(system_prompt, news_content, batch_size=4):
    """创建多个消息批次以增加GPU利用率"""
    message_batch = []
    
    # 创建不同的消息变体以填充批次
    for i in range(batch_size):
        # 在每个消息中添加轻微变化以促使模型工作
        variant = f"分析 #{i+1}: " + news_content
        
        messages = [
            {
                "role": "system",
                "content": [
                    {"type": "text", "text": system_prompt},
                ],
            },
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": variant},
                ],
            }
        ]
        message_batch.append(messages)
    
    return message_batch

# 系统提示
system_prompt = """你是一个判别模型是否是谣言的助手，请你以json格式输出你的结果，格式：
IsNewsTrue：0      (0即为谣言，1即为事实)
reasons：       (传入一个list，里面是你的分析原因，分点)         
"""

# 8. 创建和处理批次
batch_size = 4  # 调整批次大小以最大化GPU利用率
message_batch = create_message_batch(system_prompt, news_text, batch_size)
output_texts, processing_time = process_batch(message_batch, batch_size)

print(f"批处理时间: {processing_time:.2f}秒")
print(f"平均每个请求时间: {processing_time/batch_size:.2f}秒")
for i, output in enumerate(output_texts):
    print(f"结果 {i+1}:\n{output[:]}...\n")

批处理时间: 3.08秒
平均每个请求时间: 0.77秒
结果 1:
```json
{
  "IsNewsTrue": 0,
  "reasons": [
    "该信息发布日期与事件发生时间不符。",
    "没有提供足够的证据支持这一描述的真实性。",
    "缺乏权威来源或官方声明来验证这些细节"
  ]
}
```...

结果 2:
```json
{
  "IsNewsTrue": 0,
  "reasons": [
    "该信息发布日期与事件发生时间不符。",
    "没有提供足够的证据支持这一描述的真实性。",
    "缺乏权威来源或官方声明来验证这些细节"
  ]
}
```...

结果 3:
```json
{
  "IsNewsTrue": 0,
  "reasons": [
    "该新闻发布日期与事件发生时间不符。",
    "没有提供足够的证据支持报道的真实性。",
    "缺乏权威来源或官方声明来验证信息",
    "可能存在误导性描述"
  ]
}
```...

结果 4:
```json
{
  "IsNewsTrue": 0,
  "reasons": [
    "该信息发布日期与事件发生时间不符。",
    "没有提供足够的证据支持这一描述的真实性。",
    "缺乏权威来源或官方声明来验证这些细节的真实性"
  ]
}
```...



In [2]:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import time
import torch

# 1. 使用模型并行和优化选项
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "qwen",
    torch_dtype=torch.bfloat16,  # 使用bfloat16以平衡性能和精度
    attn_implementation="flash_attention_2",  # 使用flash attention提高效率
    device_map="auto",  # 自动处理模型的分布
    use_cache=True,  # 启用KV缓存
    low_cpu_mem_usage=True,  # 降低CPU内存使用
)

# 2. 优化处理器
processor = AutoProcessor.from_pretrained("qwen")
processor.tokenizer = AutoTokenizer.from_pretrained(
    "qwen",
    use_fast=True,  # 使用快速tokenizer
    model_max_length=2048,  # 指定最大长度以优化内存使用
)




generation_config = {
    "max_new_tokens": 256,
    "num_beams": 1,  # 减少beam search以提高速度
    "do_sample": True,  # 启用采样以加速生成
    "top_p": 0.92,  # 使用nucleus sampling
    "temperature": 0.8,  # 适当降低温度以提高速度
    "repetition_penalty": 1.1,  # 轻微的重复惩罚
    "pad_token_id": processor.tokenizer.pad_token_id,
    "eos_token_id": processor.tokenizer.eos_token_id,
}

messages = [
    {
        "role": "system",
        "content": [
            {"type": "text", "text": """你是一个判别模型是否是谣言的助手，请你以json格式输出你的结果，格式：
            IsNewsTrue：0      (0即为谣言，1即为事实)
            reasons：       (传入一个list，里面是你的分析原因，分点)         
            """},
        ],
    },
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "blank.jpg",
            },
            {"type": "text", "text": """
                        
            ‌武汉樱花季盛大启幕：全城沉浸式赏樱体验升级‌

‌东湖樱花园今日开园 早樱盛放迎客‌
3月6日，武汉东湖樱花园正式开园，园内早樱已形成粉红花海，吸引大批游客驻足‌13。目前，中樱品种仍处于花苞期，预计3月中旬迎来盛放‌13。为提升体验，园区新增粉色主题装饰、夜间灯光秀及“樱花雨”互动场景，并首次引入牡丹盆景展与郁金香花田，打造“梅樱同赏”特色活动‌38。

‌全市赏樱地图扩容 特色景点人气飙升‌
武汉龟山公园凭借早樱品种福建山樱抢占“开春第一景”，玫红色花朵与山坡栈道相映成趣，3月2日以来日均游客量破万‌4。武汉大学樱花大道早樱初绽，中樱染井吉野预计3月中下旬盛放，校方已启动预约限流措施‌17。汉口江滩樱园早樱开放七成，未来一个月将接力呈现多品种花海‌13。此外，光谷珞喻东路大黄村公交站完成改造，透明花瓣顶棚与樱花树形成“最美车站”新地标‌3。

‌本土樱花新品种亮相 科技赋能花期延长‌
武汉市园林科研院自主培育的“楚樱”系列新品种成为亮点，其中“楚天红日”已进入盛花期，其余7个品种含苞待放‌5。该系列耐寒性强、花期提前且花量更大，已在龟山公园、东湖景区推广种植，助力武汉樱花观赏期从2月底延续至5月‌45。

‌文旅融合激活“赏樱经济”‌
武汉商圈与景区联动推出沉浸式樱花主题体验：武商MALL打造千米樱花大道，江宸天街设置8米高樱花树并定时飘落“花瓣雨”‌3。民众乐园举办樱花手账节，武汉万象城推出灯光秀与艺术展，建设大道变身“城市赏樱走廊”‌3。全国范围内，湖北代表团借两会契机向全球发出“樱花之约”，江西、昆明等地同步启动樱花节，形成春季旅游联动效应‌67。

‌交通与安全措施全面升级‌
针对客流高峰，武汉市文旅部门联合消防、公安开展“行消联动”夜巡行动，重点排查景区、商圈及老旧社区安全隐患，确保游览秩序‌2。地铁、公交增开“樱花专列”，光谷广场等枢纽增设临时导览牌，东湖景区启用分时段预约系统‌38。

‌温馨提示‌
游客需关注花期变化：早樱因近期低温可能提前凋谢，建议优先选择中晚樱观赏点；热门区域人流密集，建议错峰出行并遵守园区导引‌<image>

            """},
        ],
    }
]


text = processor.apply_chat_template(
            messages, tokenize=False, add_generation_prompt=True
        )
image_inputs, video_inputs = process_vision_info(messages)


inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)


inputs = inputs.to("cuda")

start_time=time.perf_counter()

# 5. 使用带有优化参数的generate
with torch.cuda.amp.autocast():  # 使用自动混合精度
    generated_ids = model.generate(**inputs, **generation_config)
end_time = time.perf_counter()

# 处理输出
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]

output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)

processing_time = end_time - start_time

print(processing_time)
print(output_text)

AttributeError: module 'torch' has no attribute 'bint8'