## 生成选题文档-提示词

```markdown
### input-output
- Folder："`D:\Github\lianxhta\Python`"
- filename-input：包含关键词 '选题' 且后缀为 '.md' 的文件
- range-转换范围: 
  - begin: # B809
  -   end: # B822
- Folder-output：'.\topics'

### 任务：

- Input: 读取 {filename-input} 文件。
- Actions：
  - 在 {filename-input} 文档中，以 `^# B\d{3,.}：title` 开头的行为分割线，将该行及以下到下一个 `^# B\d{3,.}：title` 之间的文本写入一个新的 **.md** 文件中
  - 仅读取 {begin} 到 {end} 范围内的选题
- Output:
  - 存入：{Folder-output} 文件夹
    - 预先清空该文件夹 
  - 文件名为 `B\d{3,.}：title` 
    - 首字母为 'B'
    - 文件后缀为 '.md'，而不是 '.md.md'
  - 屏幕打印：
    - 文件总数
    - 文件名称列表
```


In [1]:
import os
import re
import shutil

# ================= 用户参数 =================
input_folder = r"D:\Github\lianxhta\Python"
output_folder = r".\topics"
begin_tag = "# B860"
end_tag = "# B809"

# ================= 辅助函数 =================
def get_input_filename(folder):
    for fname in os.listdir(folder):
        if "选题" in fname and fname.endswith('.md'):
            return os.path.join(folder, fname)
    raise FileNotFoundError("未找到包含 '选题' 且后缀为 '.md' 的文件")

def read_file(filepath):
    with open(filepath, encoding="utf-8") as f:
        return f.read()

def split_by_title(text):
    # 正则匹配 '# Bxxx：title'
    blocks = list(re.finditer(r'^# B\d{3,}：.*$', text, flags=re.MULTILINE))
    result = []
    for idx, match in enumerate(blocks):
        start = match.start()
        end = blocks[idx + 1].start() if idx + 1 < len(blocks) else len(text)
        title_line = text[match.start():match.end()]
        block_text = text[start:end].strip()
        result.append((title_line, block_text))
    return result

def find_range(blocks, begin_tag, end_tag):
    begin_idx, end_idx = None, None
    for i, (title, _) in enumerate(blocks):
        if title.strip().startswith(begin_tag):
            begin_idx = i
        if title.strip().startswith(end_tag):
            end_idx = i
    if begin_idx is not None and end_idx is not None and begin_idx <= end_idx:
        return blocks[begin_idx:end_idx+1]
    else:
        raise ValueError("未能定位 begin 或 end 位置，或顺序错误")

def clean_folder(folder):
    if os.path.exists(folder):
        shutil.rmtree(folder)
    os.makedirs(folder)

def save_blocks_to_folder(blocks, folder):
    filenames = []
    for title, content in blocks:
        # 文件名采用 '# Bxxx：title' 的形式
        file_base = re.match(r'^# (B\d{3,}：.*)$', title.strip())
        if not file_base:
            continue
        filename = file_base.group(1) + ".md"
        # 替换非法字符
        filename = re.sub(r'[\\/:*?"<>|]', '_', filename)
        filepath = os.path.join(folder, filename)
        with open(filepath, "w", encoding="utf-8") as f:
            f.write(content.strip() + "\n")
        filenames.append(filename)
    return filenames

# ================= 主程序 =================
if __name__ == "__main__":
    # 1. 获取输入文件
    input_path = get_input_filename(input_folder)
    # 2. 读取内容
    text = read_file(input_path)
    # 3. 按分割线分割
    blocks = split_by_title(text)
    # 4. 提取 begin 到 end 范围
    blocks_in_range = find_range(blocks, begin_tag, end_tag)
    # 5. 预清空输出文件夹
    clean_folder(output_folder)
    # 6. 写入输出
    filelist = save_blocks_to_folder(blocks_in_range, output_folder)
    # 7. 打印信息
    print(f"文件总数：{len(filelist)}")
    print("文件名称列表：")
    for fn in filelist:
        print(fn)


文件总数：51
文件名称列表：
B860：Stata 可视化：heatplot-热力图.md
B859：cdist-如何估计反事实的分布特征？.md
B858：数据量大时，啥啥都显著.md
B857：介绍 Local-DID 模型.md
B856：Stata 可视化：robbox-强大的的箱型图命令 - 快速呈现离群值.md
B855：介绍 I4R 机构和网站.md
B854：知乎热议：为什么国内博士毕业的 paper 普遍比国外博士多？.md
B852：mmqreg_ quantile regressions via Method of Moments.md
B851：翻译：异方差稳健性标准误：实操建议.md
B850：金融圈行话暗语大盘点.md
B848：MCF_ Modified Causal Forest.md
B847：R语言-aggTrees 包.md
B846：论文推介和复现-机器学习助力因果推断.md
B845：论文推介-平滑转换向量自回归模型的可处理贝叶斯估计.md
B844：论文推介-面板数据因果推断综述.md
B843：论文推介-双重机器学习与面板数据.md
B842：MCMC简介.md
B841：论文推介：机器学习方法比较.md
B840：论文推介：ML 中介效应.md
B839：论文推介：固定效应与混淆变量问题.md
B838：论文推介：控制变量问题.md
B837：翻译 + 适当修改和精简：混淆变量问题.md
B836：翻译+适当修改：IVDML包.md
B835：RPIV：全新工具变量检验方法.md
B834：新书介绍：https___mml-book.com.md
B833：翻译+适当补充：tidytable：R语言-制作漂亮的表格.md
B832：github Desktop 使用方法介绍.md
B831：翻译+Python 实操：从正态分布中抽样.md
B830：翻译 + 适当补充：BS 公式与 Python 演示.md
B829：翻译 + 适当补充：大数定律与中心极限定理.md
B828：多元回归分析-Python 实现.md
B827：quarto精简版幻灯片：支持 R和Python 代码嵌入和执行.md
B826：翻译 + 适当补充：假设检验与 p 值.md
B825：翻译 + 适当补充：如何阅读哲学书籍.md
B824：翻