In [1]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForMaskedLM, AutoModelForCausalLM
# 原始模型推理

prompt = """请按以下要求生成科技领域的专业关键词：
1. 按指定格式输出，严格使用#号分隔类别
2. 每个类别生成30个业关键词
3. 避免重复，使用中文逗号分隔
4. 不能遗漏类别

示例格式：
#卫星互联网
低轨卫星, 星间链路, 相控阵天线...

#生物制造
合成生物学, 细胞工厂...

请生成以下类别的关键词，不能遗漏：
高端装备制造, 生命科学, 智能感知与机器人技术,先进材料, 医疗健康,生物制造, 前沿科技,电子信息技术, 农机装备
"""
original_model = AutoModelForCausalLM.from_pretrained("DeepSeek-R1-Distill-Qwen-1.5B")
original_tokenizer = AutoTokenizer.from_pretrained("DeepSeek-R1-Distill-Qwen-1.5B")
original_pipeline = pipeline("text-generation", model=original_model, tokenizer=original_tokenizer)
original_output = original_pipeline(prompt, max_length=800,num_return_sequences=2)
print("原始模型输出:", original_output)

# 微调后模型推理
finetuned_model = AutoModelForCausalLM.from_pretrained("final_models")
finetuned_tokenizer = AutoTokenizer.from_pretrained("final_models")
finetuned_pipeline = pipeline("text-generation", model=finetuned_model, tokenizer=finetuned_tokenizer)
finetuned_output = finetuned_pipeline(prompt, max_length=800,num_return_sequences=2)
print("微调后模型输出:", finetuned_output)

2025-03-13 08:53:54.088737: I tensorflow/core/util/port.cc:113] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-03-13 08:53:54.130629: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
Device set to use cuda:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific st

原始模型输出: [{'generated_text': '请按以下要求生成科技领域的专业关键词：\n1. 按指定格式输出，严格使用#号分隔类别\n2. 每个类别生成30个专业关键词\n3. 避免重复，使用中文逗号分隔\n\n示例格式：\n#卫星互联网\n低轨卫星, 星间链路, 相控阵天线...\n\n#生物制造\n合成生物学, 细胞工厂...\n\n请生成以下类别的关键词：\n卫星互联网, 生物制造, 生命科学, 元宇宙, 前沿新材料, 未来能源, 功率半导体及集成电路,AI及机器人, 服务器, 智能家居, 传感器及仪器仪表, 智能制造装备, 动力装备, 农机装备, 纤维及复合材料,合成材料, 现代中药, 医疗器械\n好的，我现在要按照用户的要求生成科技领域的专业关键词。首先，我需要仔细阅读用户提供的示例，了解生成关键词的格式和方法。用户要求严格使用#号分隔类别，每个类别生成30个专业关键词，避免重复，用中文逗号分隔。\n\n接下来，我逐一查看用户提供的类别列表：\n\n1. 卫星互联网\n2. 生物制造\n3. 生命科学\n4. 元宇宙\n5. 前沿新材料\n6. 未来能源\n7. 功率半导体及集成电路\n8. AI及机器人\n9. 服务器\n10. 智能家居\n11. 传感器及仪器仪表\n12. 智能制造装备\n13. 动力装备\n14. 农机装备\n15. 纤维及复合材料\n16. 合成材料\n17. 现代中药\n18. 医疗器械\n\n好的，现在我需要为每个类别生成30个专业关键词。我会逐一处理每个类别，确保关键词不重复，并且用中文逗号分隔。\n\n首先，处理“卫星互联网”类别。这可能涉及卫星通信、导航、网络等技术。关键词可能包括卫星通信系统、导航卫星、卫星网络、卫星天线、低地球轨道卫星、高地球轨道卫星、卫星导航系统、卫星通信网络等。\n\n接下来是“生物制造”类别。生物制造可能涉及基因工程、细胞培养、生物合成等技术。关键词可能包括基因工程、细胞工厂、基因表达系统、生物合成材料、基因工程工具、生物合成技术、生物制造流程、生物合成材料、生物合成技术、生物合成方法、生物合成工具、生物制造方法、生物合成系统、生物合成过程、生物合成技术、生物合成材料、生物合成方法、生物合成工具、生物制造流程、生物合成系统。\n\n然后是“生命科学”类别。生命科学涉及分子生物学、细胞

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


微调后模型输出: [{'generated_text': '请按以下要求生成科技领域的专业关键词：\n1. 按指定格式输出，严格使用#号分隔类别\n2. 每个类别生成30个专业关键词\n3. 避免重复，使用中文逗号分隔\n\n示例格式：\n#卫星互联网\n低轨卫星, 星间链路, 相控阵天线...\n\n#生物制造\n合成生物学, 细胞工厂...\n\n请生成以下类别的关键词：\n卫星互联网, 生物制造, 生命科学, 元宇宙, 前沿新材料, 未来能源, 功率半导体及集成电路,AI及机器人, 服务器, 智能家居, 传感器及仪器仪表, 智能制造装备, 动力装备, 农机装备, 纤维及复合材料,合成材料, 现代中药, 医疗器械\n好的，我现在需要按照用户的要求生成科技领域的专业关键词。首先，我要仔细阅读用户提供的指示，确保我完全理解每个要求。\n\n用户要求生成科技领域的专业关键词，严格使用#号分隔类别，每个类别生成30个专业关键词，避免重复，使用中文逗号分隔。此外，用户还提供了一个示例，帮助我更好地理解生成关键词的格式和内容。\n\n接下来，我需要分析用户提供的类别的列表，并为每个类别生成30个关键词。这些类别包括：卫星互联网, 生物制造, 生命科学, 元宇宙, 前沿新材料, 未来能源, 功率半导体及集成电路, AI及机器人, 服务器, 智能家居, 传感器及仪器仪表, 智能制造装备, 动力装备, 农机装备, 纤维及复合材料,合成材料, 医疗器械。\n\n我需要逐个分析每个类别，确保每个类别都有足够的关键词，并且关键词之间不重复。同时，关键词要用中文逗号分隔，每个类别用#号分隔。\n\n首先，处理“卫星互联网”这个类别。卫星互联网涉及多个技术领域，包括卫星通信、卫星导航、卫星网络等。可能的关键词包括卫星通信系统、卫星导航定位、卫星网络架构、卫星通信设备、卫星导航系统、卫星通信技术、卫星通信协议、卫星通信网络、卫星通信系统设计、卫星通信设备设计、卫星通信网络架构设计、卫星通信设备设计优化、卫星通信技术应用、卫星通信网络设计优化、卫星通信设备性能优化、卫星通信网络性能优化、卫星通信技术选型、卫星通信网络选型设计、卫星通信技术应用案例、卫星通信网络应用案例、卫星通信技术选型案例、卫星通信网络选型案例、卫星通信技术应用案例分析、卫星通信网络应用案例分析、卫星通信技术选型案例分析、卫星