In [None]:
import pandas as pd

# ------------------------------
# 输入数据（按年份组织关键词）
# ------------------------------
data = {
    2021: [
        "低碳化智能配电网", "碳中和", "碳排放约束", "智能电网",
        "能源转型", "清洁能源", "分布式电源", "电力系统",
        "碳捕集利用和封存", "电能替代", "碳交易市场", "绿色建筑",
        "电动汽车充电网络", "多能互补", "能源互联网", "电力市场建设",
        "抽水蓄能电站", "氢能", "综合能源服务", "数字化电网"
    ],
    2022: [
        "碳达峰", "碳中和", "电力行业", "可再生能源",
        "风电", "太阳能发电", "碳排放", "能源转型",
        "电力需求预测", "电源结构调整", "节能降耗", "热电联产",
        "新型电力系统", "碳捕集利用与封存", "非化石能源", "电力系统智能化",
        "电力体制改革", "绿色生产生活方式", "电力行业碳排放控制路径", "能源互联网"
    ],
    2023: [
        "新型电力系统", "电制氢技术", "碳中和", "氢能",
        "能源转型", "电力系统规划", "可再生能源", "电力市场",
        "储能技术", "碳达峰", "氢燃料电池", "电力智能化",
        "能源互联网", "电力系统运行", "电力系统控制", "绿色低碳",
        "电力系统优化", "稳定性", "电力系统数字化", "电力系统智能化"
    ],
    2024: [
        "碳中和", "绿色氢能", "电力系统", "储能技术",
        "可再生能源", "碳排放", "低碳转型", "氢能技术",
        "电解水制氢", "能源效率", "碱性电解水", "质子交换膜",
        "碳捕集", "碳交易", "绿色电力", "环境权益",
        "微电网", "供应链管理", "数字技术", "能源互联网"
    ]
}

# ------------------------------
# 定义语义关联性规则
# ------------------------------
def is_strong_link(source, target):
    """强联系：同一关键词跨年连续出现"""
    return source.split(" (")[0] == target.split(" (")[0]

def is_weak_link(source, target):
    """弱联系：不同关键词但属于同一语义类别"""
    # 提取关键词（去除年份）
    kw1 = source.split(" (")[0]
    kw2 = target.split(" (")[0]
    
    # 定义语义类别关键词列表
    categories = {
        "碳相关": ["碳", "达峰", "中和", "排放", "捕集", "交易"],
        "能源技术": ["氢能", "储能", "电解", "电池", "能源"],
        "电力系统": ["电力", "电网", "系统", "负荷", "电源", "配电"],
        "绿色转型": ["绿色", "清洁", "可再生", "低碳", "生态"]
    }
    
    # 检查是否属于同一类别
    for cat, keywords in categories.items():
        if any(k in kw1 for k in keywords) and any(k in kw2 for k in keywords):
            return True
    return False

# ------------------------------
# 生成桑葚图数据表格
# ------------------------------
sankey_data = []

# 遍历相邻年份（2021→2022, 2022→2023, 2023→2024）
years = sorted(data.keys())
for i in range(len(years)-1):
    source_year = years[i]
    target_year = years[i+1]
    
    # 生成所有可能的连接
    for source_kw in data[source_year]:
        source = f"{source_kw} ({source_year})"
        for target_kw in data[target_year]:
            target = f"{target_kw} ({target_year})"
            
            # 判断连接强度
            if is_strong_link(source, target):
                value = 2
            elif is_weak_link(source, target):
                value = 1
            else:
                value = 0
            
            sankey_data.append({
                "Source (Year)": source,
                "Target (Year)": target,
                "Value": value
            })

# 转换为DataFrame并保存CSV
df = pd.DataFrame(sankey_data)
df.to_csv("sankey_data.csv", index=False, encoding="utf-8-sig")

print("数据已生成并保存为 sankey_data.csv！")

数据已生成并保存为 sankey_data.csv！
