In [13]:
import pdfplumber
import re
import json

# ========================
# 1. 从 PDF 中提取全部文本
# ========================

def extract_pdf_text(pdf_path):
    text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text += page.extract_text() + "\n"
    return text

# 替换这个路径为你自己的 PDF 文件路径
PDF_PATH = "词牌名格式大全.pdf"

raw_text = extract_pdf_text(PDF_PATH)
print("✅ PDF 文本提取完成，共 {} 字".format(len(raw_text)))

✅ PDF 文本提取完成，共 14814 字


In [23]:
from docx import Document

def read_docx_text(file_path):
    doc = Document(file_path)
    return '\n'.join([para.text for para in doc.paragraphs])

In [24]:
def convert_tone_to_symbols(pattern):
    """
    转换平仄为符号：
    - 平     → ○
    - 仄     → ●
    - (平)   → ◎
    - (仄)   → ◉
    """
    pattern = pattern.replace('(平)', '◎')
    pattern = pattern.replace('(仄)', '◉')
    pattern = pattern.replace('平', '○')
    pattern = pattern.replace('仄', '●')
    return pattern

In [25]:
import json
import re

def parse_multiple_ci_pai(text):
    """
    解析连续排列的多个词牌，以 '词牌名' 为每个词牌的开始
    """
    lines = [line.strip() for line in text.split('\n') if line.strip()]
    all_ci = {}
    i = 0
    n = len(lines)

    while i < n:
        if lines[i] == "词牌名" and i + 1 < n:
            # 开始一个新的词牌
            ci_name = lines[i + 1].strip("《》")
            description = ""
            tone_pattern_line = ""
            i += 2  # 移动到下一行

            # 向后查找 描述 和 词牌格式
            while i < n:
                if lines[i] == "描述" and i + 1 < n:
                    description = lines[i + 1]
                    i += 2
                elif lines[i] == "词牌格式" and i + 1 < n:
                    tone_pattern_line = lines[i + 1]
                    i += 2
                    break  # 格式结束后跳出，准备下一个词牌
                else:
                    i += 1

            # 验证是否完整
            if not description or not tone_pattern_line:
                print(f"⚠️ 跳过词牌 '{ci_name}'：缺少描述或格式")
                continue

            # 分句（按中文逗号、句号）
            sentences = re.split(r'[，。]', tone_pattern_line)
            sentences = [s.strip() for s in sentences if s.strip()]

            # 计算每句字数（去掉 (仄)、(平)、平、仄）
            def count_chars(s):
                cleaned = re.sub(r'$$[^)]*$$', '', s)  # 去掉 (仄)
                cleaned = re.sub(r'[○●◎◉]', '', cleaned)  # 去掉符号
                return len(cleaned)

            sections = [{"chars": count_chars(s)} for s in sentences]

            # 转换平仄为符号
            tone_pattern = [convert_tone_to_symbols(s) for s in sentences]

            # 存入结果
            all_ci[ci_name] = {
                "description": description,
                "sections": sections,
                "tone_pattern": tone_pattern
            }
        else:
            i += 1

    return all_ci

In [29]:
# ⚠️ 修改为你的文件路径
file_path = '词牌名格式大全.docx'  # 或 '词牌.txt'

try:
    # 读取文件
    if file_path.endswith('.docx'):
        text = read_docx_text(file_path)
    else:
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()

    print("📄 文件读取成功，内容预览：\n")
    print(text[:500] + "...\n")

    # 解析所有词牌
    result = parse_multiple_ci_pai(text)

    if not result:
        print("❌ 未解析到任何词牌，请检查格式。")
    else:
        print(f"✅ 成功解析 {len(result)} 个词牌：{', '.join(result.keys())}")

        # 保存为 JSON
        output_file = 'cipai.json'
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(result, f, ensure_ascii=False, indent=2)

        print(f"📁 已保存为：{output_file}\n")
        print("--- JSON 预览 ---")
        print(json.dumps(result, ensure_ascii=False, indent=2))

except Exception as e:
    print(f"❌ 错误：{e}")
    print("常见问题：")
    print("  - 文件路径错误")
    print("  - Word 中段落未正确分行")
    print("  - 缺少‘词牌名’、‘描述’、‘词牌格式’等关键词")

📄 文件读取成功，内容预览：

词牌名
《十六字令》
描述
又被称作《苍梧谣》、《归字谣》，单调，十六字，三平韵。
词牌格式
平。(仄)仄平平仄仄平。平平仄，(仄)仄仄平平。
例词
毛泽东
山，快马加鞭未下鞍。惊回首，离天三尺三。山，倒海翻江卷巨澜。奔腾急，万马战犹酣。山，刺破青天锷未残。天欲堕，赖以拄其间。
词牌名
《捣练子》
描述
又被称作《捣练子令》，单调，廿七字，三平韵。
词牌格式
平仄仄，仄平平。(仄)仄平平(仄)仄平。(仄)仄(平)平平仄仄，(平)平(仄)仄仄平平。
例词
李煜
深院静，小庭空，断续寒砧断续风。无奈夜长人不寐，数声和月到帘栊。
词牌名
《忆江南》
描述
亦被称为：《江南好》，《望江南》，《梦江南》，《望江南》，《梦江口》， 《谢秋娘》，《春去也》，《归塞北》。单调二十七字，三平韵，北宋起开始有双调，实际不过是将单片重复而已。
词牌格式
平(平)仄，(仄)仄仄平平。(仄)仄(平)平平仄仄，(平)平(仄)仄仄平平。(仄)仄仄平平。
例词
白居易
江南好，风景旧曾谙。日出江花红胜火，春来江水绿如蓝，能不忆江南。
词牌名
《忆王孙》
描述
单调三十一字，五平韵，句句用韵，亦有将单片重复做双调者。
...

✅ 成功解析 51 个词牌：十六字令, 捣练子, 忆江南, 忆王孙, 调笑令, 如梦令, 相见欢, 长相思, 生查子, 点绛唇, 浣溪沙, 菩萨蛮, 卜算子, 采桑子, 减字木兰花, 谒金门, 诉衷情其一, 诉衷情其二, 忆秦娥, 清平乐, 更漏子, 阮郎归, 画堂春, 桃源忆故人, 摊破浣溪沙, 贺圣朝, 太常引, 西江月, 南歌子, 醉花阴, 浪淘沙, 鹧鸪天, 鹊桥仙, 虞美人, 南乡子, 玉楼春, 一斛珠, 踏莎行, 小重山, 蝶恋花其一, 蝶恋花其二, 一剪梅, 临江仙, 渔家傲, 唐多令, 苏幕遮, 定风波, 锦缠道, 谢池春, 青玉案, 天仙子
📁 已保存为：ci_pai.json

--- JSON 预览 ---
{
  "十六字令": {
    "description": "又被称作《苍梧谣》、《归字谣》，单调，十六字，三平韵。",
    "sections": [
      {
        "chars": 1
      },
      {
        "chars": 9
      },
      