In [1]:
import os
from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv(), override=True)

os.chdir('..')

In [2]:
from textlong.action import MarkdownDocuments
from textlong.parser import parse_markdown

In [3]:
md = """
## 前序

# 标题1
我的文档。

<OUTLINE>
扩写依据:
你说的有道理
</OUTLINE>

## 第一个标题2

逍遥老仙，

逍遥小仙，

<OUTLINE>
扩写依据：帮我描述一下逍遥老仙的威武霸气
</OUTLINE>

那又是谁？

<OUTLINE>
扩写依据：帮我描述一下逍遥小仙的武功盖世
## 宁厌烦
## 宁雪
</OUTLINE>

## 第二个标题2

法力无边。

### 标题3 

倚天不出，谁与争锋。

## 第三个标题2

华山论剑。
"""

# 解析 markdown

In [4]:
parse_markdown(md)

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-0'}),
 Document(page_content='## 前序\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '前序'}], 'id': '1718938258-1'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-2'}),
 Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1718938258-3'}),
 Document(page_content='我的文档。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我的文档。'}], 'id': '1718938258-4'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-5'}),
 Document(page_content='<OUTLINE>\n扩写依据:\n你说的有道理\n</OUTLINE>\n\n', metadata={'id': '1718938258-6', 'type': 'OUTLINE'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-7'}),
 Document(page_content='## 第一个标题2\n\n', metadata={'type': 'hea

# MarkdownDocuments

## `__init__`

In [5]:
t = MarkdownDocuments(md)
t.markdown

'## 前序\n\n# 标题1\n\n我的文档。\n\n<OUTLINE>\n扩写依据:\n你说的有道理\n</OUTLINE>\n\n## 第一个标题2\n\n逍遥老仙，\n\n逍遥小仙，\n\n<OUTLINE>\n扩写依据：帮我描述一下逍遥老仙的威武霸气\n</OUTLINE>\n\n那又是谁？\n\n<OUTLINE>\n扩写依据：帮我描述一下逍遥小仙的武功盖世\n## 宁厌烦\n## 宁雪\n</OUTLINE>\n\n## 第二个标题2\n\n法力无边。\n\n### 标题3\n\n倚天不出，谁与争锋。\n\n## 第三个标题2\n\n华山论剑。\n\n'

# 文档拆分

## all

In [6]:
t.get_todo_documents(sep_mode="all", pattern="逍遥")

('all',
 [Document(page_content='逍遥老仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥老仙，'}], 'id': '1718938258-10'}),
  Document(page_content='逍遥小仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥小仙，'}], 'id': '1718938258-12'}),
  Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥老仙的威武霸气\n</OUTLINE>\n\n', metadata={'id': '1718938258-14', 'type': 'OUTLINE'}),
  Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥小仙的武功盖世\n## 宁厌烦\n## 宁雪\n</OUTLINE>\n\n', metadata={'id': '1718938258-18', 'type': 'OUTLINE'})])

## document

In [7]:
t.get_todo_documents(sep_mode="document", pattern="逍遥")

('document',
 [Document(page_content='逍遥老仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥老仙，'}], 'id': '1718938258-10'}),
  Document(page_content='逍遥小仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥小仙，'}], 'id': '1718938258-12'}),
  Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥老仙的威武霸气\n</OUTLINE>\n\n', metadata={'id': '1718938258-14', 'type': 'OUTLINE'}),
  Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥小仙的武功盖世\n## 宁厌烦\n## 宁雪\n</OUTLINE>\n\n', metadata={'id': '1718938258-18', 'type': 'OUTLINE'})])

## outline

In [8]:
t.get_todo_documents(sep_mode="outline")

('document',
 [Document(page_content='<OUTLINE>\n扩写依据:\n你说的有道理\n</OUTLINE>\n\n', metadata={'id': '1718938258-6', 'type': 'OUTLINE'}),
  Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥老仙的威武霸气\n</OUTLINE>\n\n', metadata={'id': '1718938258-14', 'type': 'OUTLINE'}),
  Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥小仙的武功盖世\n## 宁厌烦\n## 宁雪\n</OUTLINE>\n\n', metadata={'id': '1718938258-18', 'type': 'OUTLINE'})])

In [9]:
mode, docs = t.get_todo_documents(sep_mode="outline")
for d in docs:
    print("-"*20)
    print(d.page_content)

--------------------
<OUTLINE>
扩写依据:
你说的有道理
</OUTLINE>


--------------------
<OUTLINE>
扩写依据：帮我描述一下逍遥老仙的威武霸气
</OUTLINE>


--------------------
<OUTLINE>
扩写依据：帮我描述一下逍遥小仙的武功盖世
## 宁厌烦
## 宁雪
</OUTLINE>




## segment

In [10]:
t.get_todo_documents(sep_mode="heading")

('document',
 [Document(page_content='## 前序\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '前序'}], 'id': '1718938258-1'}),
  Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1718938258-3'}),
  Document(page_content='## 第一个标题2\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '第一个标题2'}], 'id': '1718938258-8'}),
  Document(page_content='## 第二个标题2\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '第二个标题2'}], 'id': '1718938258-20'}),
  Document(page_content='### 标题3\n\n', metadata={'type': 'heading', 'attrs': {'level': 3}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题3'}], 'id': '1718938258-24'}),
  Document(page_content='## 第三个标题2\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 's

In [11]:
mode, docs_list = t.get_todo_documents(sep_mode="segment")
for docs in docs_list:
    print("-"*20)
    print(docs)
    # print('\n'.join([d.page_content for d in docs]))

--------------------
[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-0'})]
--------------------
[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-2'})]
--------------------
[Document(page_content='我的文档。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我的文档。'}], 'id': '1718938258-4'}), Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-5'}), Document(page_content='<OUTLINE>\n扩写依据:\n你说的有道理\n</OUTLINE>\n\n', metadata={'id': '1718938258-6', 'type': 'OUTLINE'}), Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-7'})]
--------------------
[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-9'}), Document(page_content='逍遥老仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥老仙，'}], 'id': '1718938258-10'}), Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-11'}), Document(page_content='

# 文档替换

## get_task_range

In [12]:
mode, docs = t.get_todo_documents(sep_mode="document", pattern="逍遥")
docs

[Document(page_content='逍遥老仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥老仙，'}], 'id': '1718938258-10'}),
 Document(page_content='逍遥小仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥小仙，'}], 'id': '1718938258-12'}),
 Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥老仙的威武霸气\n</OUTLINE>\n\n', metadata={'id': '1718938258-14', 'type': 'OUTLINE'}),
 Document(page_content='<OUTLINE>\n扩写依据：帮我描述一下逍遥小仙的武功盖世\n## 宁厌烦\n## 宁雪\n</OUTLINE>\n\n', metadata={'id': '1718938258-18', 'type': 'OUTLINE'})]

In [13]:
t.get_task_range(docs[0], docs[1])

(10, 12)

## replace_documents

In [14]:
new_md = """
我是一个新插入的markdown:

- 我很能打
- 我也很能吃
"""
docs[1]

Document(page_content='逍遥小仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥小仙，'}], 'id': '1718938258-12'})

In [15]:
t.replace_documents(docs[1], docs[1], parse_markdown(new_md))

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-0'}),
 Document(page_content='## 前序\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '前序'}], 'id': '1718938258-1'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-2'}),
 Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1718938258-3'}),
 Document(page_content='我的文档。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我的文档。'}], 'id': '1718938258-4'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-5'}),
 Document(page_content='<OUTLINE>\n扩写依据:\n你说的有道理\n</OUTLINE>\n\n', metadata={'id': '1718938258-6', 'type': 'OUTLINE'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-7'}),
 Document(page_content='## 第一个标题2\n\n', metadata={'type': 'hea

## get_relevant_documents

In [16]:
docs[0]

Document(page_content='逍遥老仙，\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '逍遥老仙，'}], 'id': '1718938258-10'})

In [17]:
t.get_prev_documents(docs[0], k=110)

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-0'}),
 Document(page_content='## 前序\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '前序'}], 'id': '1718938258-1'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-2'}),
 Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1718938258-3'}),
 Document(page_content='我的文档。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我的文档。'}], 'id': '1718938258-4'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-5'}),
 Document(page_content='<OUTLINE>\n扩写依据:\n你说的有道理\n</OUTLINE>\n\n', metadata={'id': '1718938258-6', 'type': 'OUTLINE'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-7'}),
 Document(page_content='## 第一个标题2\n\n', metadata={'type': 'hea

In [18]:
t.get_prev_documents(docs[0], k=10)

[Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1718938258-3'}),
 Document(page_content='## 第一个标题2\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '第一个标题2'}], 'id': '1718938258-8'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-9'})]

In [22]:
t.get_next_documents(docs[0], k=50)

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-11'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938267-0'}),
 Document(page_content='我是一个新插入的markdown:\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我是一个新插入的markdown:'}], 'id': '1718938267-1'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938267-2'}),
 Document(page_content='- 我很能打\n- 我也很能吃\n\n', metadata={'type': 'list', 'children': [{'type': 'list_item', 'children': [{'type': 'block_text', 'children': [{'type': 'text', 'raw': '我很能打'}]}]}, {'type': 'list_item', 'children': [{'type': 'block_text', 'children': [{'type': 'text', 'raw': '我也很能吃'}]}]}], 'tight': True, 'bullet': '-', 'attrs': {'depth': 0, 'ordered': False}, 'id': '1718938267-3'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1718938258-13'})]

# markdown 标记

In [4]:
md = """
# 🦜🦜🦜 textlong
[![PyPI version](https://img.shields.io/pypi/v/textlong.svg)](https://pypi.org/project/textlong/)

**textlong** 的目标是基于大语言模型提供结构化的长文本生成能力。

## 一、安装

你可以使用 pip 安装：
```
pip install -U textlong
```

或者使用 poetry 安装：
```
poetry add textlong@latest
```

## 二、结构化长文生成能力

`textlong` 中提供如下创作工具：

- `WritingTask`：用于生成结构化长文

**1. 加载环境变量：**

```python
from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv(), override=True)
```

**2. 创建`WritingTask`实例：**

```python
from textlong import WritingTask
from langchain_openai import ChatOpenAI

task = WritingTask(llm=ChatOpenAI())
```

**3. 使用`auto_write`方法自动生成一段长文：**

```python
task.auto_write("task 给好基友写一封信, 1800字，分4段就行")
```

**4. 使用`repl_write`方法控制台，在人工干预过程中生成一段长文：**

```python
task.repl_write("task 给好基友写一封信, 1800字，分4段就行")

## ...
## 接下来，你可以一直输入 ok 指令确认生成的内容，获得与 auto_write 类似的效果
```

**5. 你可以查看生成的提纲（也可以在repl模式中输入 outlines）：**

```python
# 查看创作大纲
task.invoke("outlines")['reply']
```

**6. 或者查看文字成果：**

```python
task.invoke("texts")['reply']
```

**7. 使用`invoke`方法执行`help`指令，以获得帮助:**

```python
task.invoke("help 我在repl模式中还可以做什么？")
```

"""

In [7]:
from textlong.action import MarkdownDocuments
t = MarkdownDocuments(md)
# t.documents

In [8]:
t.types

{'blank_line', 'heading', 'list', 'block_code', 'paragraph'}


## YAML

In [21]:
import yaml

input = """
请帮生成一个中文readme.文件，从第一级标题开始。
内容是指导新手如何使用`textlong`这个python包。
这需要包括dotenv使用、textlong加载、使用Project创作长文（其中又包括创作提纲、扩写、引用素材等几部份）
"""
meta = {
    "command": "stream_log",
    "args": {
      "sep_mode": "all",
      "prompt_id": "OUTLINE",
      "input": input,
      "outline_start_tag": "<OUTLINE>",
      "outline_end_tag": "</OUTLINE>"
    },
    "output_file": "README提纲.md",
    "modified_at": "2024-06-23 15:41:38"
}

import copy
def to_front_matter(dict_data):
    if isinstance(dict_data, dict):
        metadata = copy.deepcopy(dict_data)
        for e_tag in ['id', 'type']:
            if e_tag in metadata:
                metadata.pop(e_tag, None)
        for e_tag in ['verbose', 'is_fake']:
            tags = metadata.get('args', {})
            if e_tag in tags:
                tags.pop(e_tag, None)
        yaml_str = yaml.safe_dump(metadata, allow_unicode=True, sort_keys=False)
        return "---\n" + yaml_str.replace("\n\n", "\n") + "---\n\n"
    else:
        return ''

print(to_front_matter(meta))

---
command: stream_log
args:
  sep_mode: all
  prompt_id: OUTLINE
  input: '
    请帮生成一个中文readme.文件，从第一级标题开始。
    内容是指导新手如何使用`textlong`这个python包。
    这需要包括dotenv使用、textlong加载、使用Project创作长文（其中又包括创作提纲、扩写、引用素材等几部份）
    '
  outline_start_tag: <OUTLINE>
  outline_end_tag: </OUTLINE>
output_file: README提纲.md
modified_at: '2024-06-23 15:41:38'
---


