## 生成选题文档-提示词

```markdown
### input-output
- Folder："`D:\Github\lianxhta\Python`"
- filename-input：包含关键词 '选题' 且后缀为 '.md' 的文件
- range-转换范围: 
  - begin: # B809
  -   end: # B822
- Folder-output：'.\topics'

### 任务：

- Input: 读取 {filename-input} 文件。
- Actions：
  - 在 {filename-input} 文档中，以 `^# B\d{3,.}：title` 开头的行为分割线，将该行及以下到下一个 `^# B\d{3,.}：title` 之间的文本写入一个新的 **.md** 文件中
  - 仅读取 {begin} 到 {end} 范围内的选题
- Output:
  - 存入：{Folder-output} 文件夹
    - 预先清空该文件夹 
  - 文件名为 `B\d{3,.}：title` 
    - 首字母为 'B'
    - 文件后缀为 '.md'，而不是 '.md.md'
  - 屏幕打印：
    - 文件总数
    - 文件名称列表
```


In [1]:
import os
import re
import shutil

# ================= 用户参数 =================
input_folder = r"D:\Github\lianxhta\Python"
output_folder = r".\topics"
begin_tag = "# B893"
end_tag = "# B866"

# ================= 辅助函数 =================
def get_input_filename(folder):
    for fname in os.listdir(folder):
        if "2025-11" in fname and fname.endswith('.md'):
            return os.path.join(folder, fname)
    raise FileNotFoundError("未找到包含 '选题' 且后缀为 '.md' 的文件")

def read_file(filepath):
    with open(filepath, encoding="utf-8") as f:
        return f.read()

def split_by_title(text):
    # 正则匹配 '# Bxxx：title'
    blocks = list(re.finditer(r'^# B\d{3,}：.*$', text, flags=re.MULTILINE))
    result = []
    for idx, match in enumerate(blocks):
        start = match.start()
        end = blocks[idx + 1].start() if idx + 1 < len(blocks) else len(text)
        title_line = text[match.start():match.end()]
        block_text = text[start:end].strip()
        result.append((title_line, block_text))
    return result

def find_range(blocks, begin_tag, end_tag):
    begin_idx, end_idx = None, None
    for i, (title, _) in enumerate(blocks):
        if title.strip().startswith(begin_tag):
            begin_idx = i
        if title.strip().startswith(end_tag):
            end_idx = i
    if begin_idx is not None and end_idx is not None and begin_idx <= end_idx:
        return blocks[begin_idx:end_idx+1]
    else:
        raise ValueError("未能定位 begin 或 end 位置，或顺序错误")

def clean_folder(folder):
    if os.path.exists(folder):
        shutil.rmtree(folder)
    os.makedirs(folder)

def save_blocks_to_folder(blocks, folder):
    filenames = []
    for title, content in blocks:
        # 文件名采用 '# Bxxx：title' 的形式
        file_base = re.match(r'^# (B\d{3,}：.*)$', title.strip())
        if not file_base:
            continue
        filename = file_base.group(1) + ".md"
        # 替换非法字符
        filename = re.sub(r'[\\/:*?"<>|]', '_', filename)
        filepath = os.path.join(folder, filename)
        with open(filepath, "w", encoding="utf-8") as f:
            f.write(content.strip() + "\n")
        filenames.append(filename)
    return filenames

# ================= 主程序 =================
if __name__ == "__main__":
    # 1. 获取输入文件
    input_path = get_input_filename(input_folder)
    # 2. 读取内容
    text = read_file(input_path)
    # 3. 按分割线分割
    blocks = split_by_title(text)
    # 4. 提取 begin 到 end 范围
    blocks_in_range = find_range(blocks, begin_tag, end_tag)
    # 5. 预清空输出文件夹
    clean_folder(output_folder)
    # 6. 写入输出
    filelist = save_blocks_to_folder(blocks_in_range, output_folder)
    # 7. 打印信息
    print(f"文件总数：{len(filelist)}")
    print("文件名称列表：")
    for fn in filelist:
        print(fn)


文件总数：28
文件名称列表：
B893：翻译-causal-learn仓库-python.md
B892：DoWhy：Python 仓库介绍.md
B891：medoutcon-中介效应之路径分析-R语言.md
B890：连续中介效应的双重机器学习估计-python.md
B889：medDML：基于双重机器学习的因果中介分析.md
B888：论文推介：实证研究的未来和挑战.md
B887：会计领域的研究中贝叶斯推断的应用.md
B886：beyond p_0.05_.md
B885：did_multiplegt_stat：多时间点DID的统计检验.md
B884：civ_ Categorical Instrumental Variables-R语言.md
B883：论文推介-包含样本选择的DID.md
B882：论文推介-Synthetic Parallel Trends.md
B881：大模型在金融领域的应用综述.md
B880：Python 时序分析常用包汇总.md
B879：Nixtla：时间序列分析的未来-python.md
B878：darts：Python 时间序列分析.md
B877：处理组误分-DID.md
B876：时序序列插值-python.md
B875：论文推介-带有样本选择的DID和CIC模型.md
B874：手把手NLP：词嵌入.md
B873：手把手NNW：Long Short-Term Memory (LSTM).md
B872：手把手NNW：卷积神经网络.md
B871：手把手NNW：人工神经网络的基本原理.md
B870：用 Python 做时间序列分析.md
B869：如何理解 p 值.md
B868：cwmglm：Cluster-weighted models using Stata.md
B867：Stata 绘图：upsetplot 和 vennbar 命令.md
B866：翻译-免费在线数据库汇总.md
