In [1]:
%pip install pandas openpyxl docxtpl docx2pdf
import pandas as pd
import openpyxl
from docxtpl import DocxTemplate
from docx2pdf import convert
import os
import random

print("所有包导入成功！")

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.
所有包导入成功！


In [2]:
# 配置路径（统一管理，便于修改）
base_dir = "C:/Users/ASUS/Desktop/RUC/grade3/大三上/人工智能与Python程设/作业2"
universities_file = os.path.join(base_dir, "universities.xlsx")
research_areas_file = os.path.join(base_dir, "research_areas.xlsx")
template_file = os.path.join(base_dir, "template.docx")
output_dir = os.path.join(base_dir, "output")

# 创建输出目录
os.makedirs(output_dir, exist_ok=True)

In [3]:
# Step 1: 读取数据并检查列名
try:
    universities = pd.read_excel(universities_file)
    research_areas = pd.read_excel(research_areas_file)
    
    print("Universities columns:", universities.columns.tolist())
    print("Research areas columns:", research_areas.columns.tolist())
    print(f"读取到 {len(universities)} 所大学和 {len(research_areas)} 个研究领域")
    
except Exception as e:
    print(f"读取Excel文件失败: {e}")
    exit()

Universities columns: ['university']
Research areas columns: ['research_area', 'journal1', 'journal2', 'journal3', 'skills1', 'skills2', 'skills3']
读取到 30 所大学和 3 个研究领域


In [4]:
# Step 2: 载入模板
try:
    template = DocxTemplate(template_file)
    print("模板加载成功！")
except Exception as e:
    print(f"模板加载失败: {e}")
    exit()

# Step 3: 定义个人信息
personal_info = {
    "name": "Dongcheng Liang",
}

# Step 4: 生成90封信
print("开始生成推荐信...")
success_count = 0

for i in range(90):
    try:
        # 随机选择大学和研究领域
        university = random.choice(universities.iloc[:, 0])  # 第一列
        area_row = research_areas.sample().iloc[0]
        
        # 构造上下文数据
        context = {
            "name": personal_info["name"],
            "research_area": area_row["research_area"],
            "university": university,
            "research_area": area_row["research_area"],
            "journal1": area_row["journal1"],
            "journal2": area_row["journal2"],
            "journal3": area_row["journal3"],
            "skill1": area_row["skills1"],
            "skill2": area_row["skills2"],
            "skill3": area_row["skills3"]
        }
        
        # 创建新的模板实例（避免重复渲染问题）
        doc = DocxTemplate(template_file)
        doc.render(context)
        
        # 生成安全的文件名
        safe_university_name = str(university).replace(' ', '_').replace('/', '_')
        word_filename = f"SOP_{i+1:03d}_{safe_university_name}.docx"
        word_path = os.path.join(output_dir, word_filename)
        
        # 保存Word文档
        doc.save(word_path)
        success_count += 1
        
        # 每生成10封信显示进度
        if (i + 1) % 10 == 0:
            print(f"已生成 {i + 1} 封推荐信...")
            
    except Exception as e:
        print(f"生成第 {i + 1} 封信时出错: {e}")

print(f"✅ 成功生成 {success_count}/90 封个性化推荐信！")

模板加载成功！
开始生成推荐信...
已生成 10 封推荐信...
已生成 20 封推荐信...
已生成 30 封推荐信...
已生成 40 封推荐信...
已生成 50 封推荐信...
已生成 60 封推荐信...
已生成 70 封推荐信...
已生成 80 封推荐信...
已生成 90 封推荐信...
✅ 成功生成 90/90 封个性化推荐信！


In [5]:
# Step 5: 转换为PDF
print("开始转换为PDF格式...")
try:
    # 使用正确的convert函数
    convert(output_dir, output_dir)  # 第一个参数是输入目录，第二个是输出目录
    print("✅ PDF文件成功生成！")
except Exception as e:
    print(f"⚠️ PDF转换失败: {e}")
    print("请检查是否安装了Microsoft Word")

# 最终统计
docx_files = [f for f in os.listdir(output_dir) if f.endswith('.docx')]
pdf_files = [f for f in os.listdir(output_dir) if f.endswith('.pdf')]

print("\n📊 生成统计:")
print(f"Word文档: {len(docx_files)} 个")
print(f"PDF文件: {len(pdf_files)} 个")
print(f"输出目录: {output_dir}")

开始转换为PDF格式...


  0%|          | 0/90 [00:00<?, ?it/s]

✅ PDF文件成功生成！

📊 生成统计:
Word文档: 90 个
PDF文件: 90 个
输出目录: C:/Users/ASUS/Desktop/RUC/grade3/大三上/人工智能与Python程设/作业2\output
