In [1]:
from textlong.md.documents import IntelliDocuments
from textlong.parser import parse_markdown

In [2]:
md = """
## 前序

# 标题1
我的文档。

<OUTLINE>
扩写依据:
你说的有道理
</OUTLINE>

## 标题2

逍遥老仙，

逍遥小仙，

<OUTLINE>
扩写依据：帮我描述一下逍遥老仙的威武霸气
</OUTLINE>

那又是谁？

<OUTLINE>
扩写依据：帮我描述一下逍遥小仙的武功盖世
## 宁厌烦
## 宁雪
</OUTLINE>

## 第一个标题2

法力无边。

### 标题3 

倚天不出，谁与争锋。

## 又一个标题2

华山论剑。
"""

# Parse

In [3]:
parse_markdown(md)

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1717540960-0'}),
 Document(page_content='## 前序\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '前序'}], 'id': '1717540960-1'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1717540960-2'}),
 Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1717540960-3'}),
 Document(page_content='我的文档。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我的文档。'}], 'id': '1717540960-4'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1717540960-5'}),
 Document(page_content='\n扩写依据:\n你说的有道理\n', metadata={'id': '1717540960-6', 'type': 'OUTLINE'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1717540960-7'}),
 Document(page_content='## 标题2\n\n', metadata={'type': 'heading', 'attrs': {'level': 

# IntelliDocuments

## `__init__`

In [4]:
t = IntelliDocuments(md)
t.documents

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1717511383-0', 'action': 'import'}),
 Document(page_content='## 前序\n\n', metadata={'type': 'heading', 'attrs': {'level': 2}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '前序'}], 'id': '1717511383-1', 'action': 'import'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1717511383-2', 'action': 'import'}),
 Document(page_content='# 标题1\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '标题1'}], 'id': '1717511383-3', 'action': 'import'}),
 Document(page_content='我的文档。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '我的文档。'}], 'id': '1717511383-4', 'action': 'import'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1717511383-5', 'action': 'import'}),
 Document(page_content='\n扩写依据:\n你说的有道理\n', metadata={'id': '1717511383-6', 'type': 'OUTLINE', 'action': 'import'}),
 Document(page_content='', m

## get_documents_range

In [6]:
t.get_documents_range("## 第一个标题2")

(20, 28)

In [7]:
try:
    t.get_documents_range("不存在的标题")
except ValueError as e:
    print(e)

("Can't find title: ", '不存在的标题')


## get_documents

In [8]:
t.get_documents("## 第一个标题2")

[Document(page_content='法力无边。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '法力无边。'}], 'id': '1717511383-22', 'action': 'import'}),
 Document(page_content='倚天不出，谁与争锋。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'text', 'raw': '倚天不出，谁与争锋。'}], 'id': '1717511383-26', 'action': 'import'})]

In [9]:
try:
    t.get_documents("不存在的标题")
except ValueError as e:
    print(e)

("Can't find title: ", '不存在的标题')


## get_markdown

In [9]:
t.get_documents()

[]

In [10]:
IntelliDocuments.get_markdown(t.get_documents())

'\n## 前序\n\n\n# 标题1\n\n我的文档。\n\n## 标题2\n\n逍遥老仙，\n\n## 第一个标题2\n\n法力无边。\n\n### 标题3\n\n倚天不出，谁与争锋。\n\n## 又一个标题2\n\n华山论剑。\n'

## remove_documents

In [11]:
t.get_documents_range("标题2")

(3, 5)

In [12]:
t.remove_documents("标题2")

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出，谁与争锋。', metadata={'type': 'paragraph'}),
 Document(page_content='又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph'})]

In [13]:
t.documents

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出，谁与争锋。', metadata={'type': 'paragraph'}),
 Document(page_content='又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph'})]

In [14]:
t.get_documents(None)

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出，谁与争锋。', metadata={'type': 'paragraph'}),
 Document(page_content='又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph'})]

## insert_documents

In [15]:
t = IntelliDocuments(md)
t.documents

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='标题2', metadata={'type': 'H2'}),
 Document(page_content='逍遥老仙，', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出，谁与争锋。', metadata={'type': 'paragraph'}),
 Document(page_content='又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph'})]

In [16]:
md2 = """
## 东邪西毒
都是谁啊？
"""

In [17]:
IntelliDocuments.parse_markdown(md2)

[Document(page_content='东邪西毒', metadata={'type': 'H2'}),
 Document(page_content='都是谁啊？', metadata={'type': 'paragraph'})]

In [18]:
t.insert_documents(IntelliDocuments.parse_markdown(md2), "标题3")

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='标题2', metadata={'type': 'H2'}),
 Document(page_content='逍遥老仙，', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='东邪西毒', metadata={'type': 'H2'}),
 Document(page_content='都是谁啊？', metadata={'type': 'paragraph'}),
 Document(page_content='标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出，谁与争锋。', metadata={'type': 'paragraph'}),
 Document(page_content='又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph'})]

## replace_documents

In [19]:
t.replace_documents(IntelliDocuments.parse_markdown(md2), "标题3")

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='标题2', metadata={'type': 'H2'}),
 Document(page_content='逍遥老仙，', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='东邪西毒', metadata={'type': 'H2'}),
 Document(page_content='都是谁啊？', metadata={'type': 'paragraph'}),
 Document(page_content='东邪西毒', metadata={'type': 'H2'}),
 Document(page_content='都是谁啊？', metadata={'type': 'paragraph'}),
 Document(page_content='又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph'})]

In [20]:
t = IntelliDocuments(md)
t
t.get_documents_range("又一个标题2")

(9, None)

In [21]:
t.replace_documents(IntelliDocuments.parse_markdown(md2), "又一个标题2")

[Document(page_content='前序', metadata={'type': 'H2'}),
 Document(page_content='标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='标题2', metadata={'type': 'H2'}),
 Document(page_content='逍遥老仙，', metadata={'type': 'paragraph'}),
 Document(page_content='第一个标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出，谁与争锋。', metadata={'type': 'paragraph'}),
 Document(page_content='东邪西毒', metadata={'type': 'H2'}),
 Document(page_content='都是谁啊？', metadata={'type': 'paragraph'})]

## markdown: Code 标记

In [4]:
md = """
# 🦜🦜🦜 textlong
[![PyPI version](https://img.shields.io/pypi/v/textlong.svg)](https://pypi.org/project/textlong/)

**textlong** 的目标是基于大语言模型提供结构化的长文本生成能力。

## 一、安装

你可以使用 pip 安装：
```
pip install -U textlong
```

或者使用 poetry 安装：
```
poetry add textlong@latest
```

## 二、结构化长文生成能力

`textlong` 中提供如下创作工具：

- `WritingTask`：用于生成结构化长文

**1. 加载环境变量：**

```python
from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv(), override=True)
```

**2. 创建`WritingTask`实例：**

```python
from textlong import WritingTask
from langchain_openai import ChatOpenAI

task = WritingTask(llm=ChatOpenAI())
```

**3. 使用`auto_write`方法自动生成一段长文：**

```python
task.auto_write("task 给好基友写一封信, 1800字，分4段就行")
```

**4. 使用`repl_write`方法控制台，在人工干预过程中生成一段长文：**

```python
task.repl_write("task 给好基友写一封信, 1800字，分4段就行")

## ...
## 接下来，你可以一直输入 ok 指令确认生成的内容，获得与 auto_write 类似的效果
```

**5. 你可以查看生成的提纲（也可以在repl模式中输入 outlines）：**

```python
# 查看创作大纲
task.invoke("outlines")['reply']
```

**6. 或者查看文字成果：**

```python
task.invoke("texts")['reply']
```

**7. 使用`invoke`方法执行`help`指令，以获得帮助:**

```python
task.invoke("help 我在repl模式中还可以做什么？")
```

"""

In [5]:
from textlong.md import IntelliDocuments
t = IntelliDocuments(md)
t.documents

[Document(page_content='', metadata={'type': 'blank_line', 'id': '1717510173-0', 'action': 'import'}),
 Document(page_content='# 🦜🦜🦜 textlong\n\n', metadata={'type': 'heading', 'attrs': {'level': 1}, 'style': 'axt', 'children': [{'type': 'text', 'raw': '🦜🦜🦜 textlong'}], 'id': '1717510173-1', 'action': 'import'}),
 Document(page_content='[![PyPI version](https://img.shields.io/pypi/v/textlong.svg)](https://pypi.org/project/textlong/)\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'link', 'children': [{'type': 'image', 'children': [{'type': 'text', 'raw': 'PyPI version'}], 'attrs': {'url': 'https://img.shields.io/pypi/v/textlong.svg'}}], 'attrs': {'url': 'https://pypi.org/project/textlong/'}}], 'id': '1717510173-2', 'action': 'import'}),
 Document(page_content='', metadata={'type': 'blank_line', 'id': '1717510173-3', 'action': 'import'}),
 Document(page_content='**textlong** 的目标是基于大语言模型提供结构化的长文本生成能力。\n\n', metadata={'type': 'paragraph', 'children': [{'type': 'strong', 'childr

In [24]:
print(t.get_markdown(t.get_documents()))


# 🦜🦜🦜 textlong

[![PyPI version](https://img.shields.io/pypi/v/textlong.svg)](https://pypi.org/project/textlong/)

**textlong** 的目标是基于大语言模型提供结构化的长文本生成能力。

## 一、安装

你可以使用 pip 安装：
```
pip install -U textlong
```

或者使用 poetry 安装：
```
poetry add textlong@latest
```

## 二、结构化长文生成能力

`textlong` 中提供如下创作工具：

- `WritingTask`：用于生成结构化长文

**1. 加载环境变量：**

```python
from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv(), override=True)
```

**2. 创建`WritingTask`实例：**

```python
from textlong import WritingTask
from langchain_openai import ChatOpenAI

task = WritingTask(llm=ChatOpenAI())
```

**3. 使用`auto_write`方法自动生成一段长文：**

```python
task.auto_write("task 给好基友写一封信, 1800字，分4段就行")
```

**4. 使用`repl_write`方法控制台，在人工干预过程中生成一段长文：**

```python
task.repl_write("task 给好基友写一封信, 1800字，分4段就行")

## ...
## 接下来，你可以一直输入 ok 指令确认生成的内容，获得与 auto_write 类似的效果
```

**5. 你可以查看生成的提纲（也可以在repl模式中输入 outlines）：**

```python
# 查看创作大纲
task.invoke("outlines")['reply']
```

**6. 或者查看文字成果：**

```python
task.invoke("t

## markdown: 带编号

In [6]:
md = """
# 1 标题1
我的文档。

## 1.1 标题2

逍遥老仙，

## 1.2 标题2

法力无边。

### 1.2.1 标题3 

倚天不出。

### 1.2.2 标题3 

谁与争锋。

## 1.3 又一个标题2

华山论剑。
## 1.4 再一个标题2

华山论剑。
"""

from textlong.md import IntelliDocuments
t = IntelliDocuments(md)
t.documents

print(t.get_documents("1.2"))

KeyError: 'attrs'

## get_leaf_outline

In [26]:
t.get_leaf_outline()

[Document(page_content='1.1 标题2', metadata={'type': 'H2'}),
 Document(page_content='1.2.1 标题3', metadata={'type': 'H3'}),
 Document(page_content='1.2.2 标题3', metadata={'type': 'H3'}),
 Document(page_content='1.3 又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='1.4 再一个标题2', metadata={'type': 'H2'})]

## get_branch_outline

In [27]:
t.get_branch_outline("H2")

[Document(page_content='1.1 标题2', metadata={'type': 'H2'}),
 Document(page_content='1.2 标题2', metadata={'type': 'H2'}),
 Document(page_content='1.3 又一个标题2', metadata={'type': 'H2'}),
 Document(page_content='1.4 再一个标题2', metadata={'type': 'H2'})]

## get_relevant_documents

In [28]:
t.get_relevant_documents("1.2.1")

[Document(page_content='1 标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='1.2 标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'}),
 Document(page_content='1.2.1 标题3', metadata={'type': 'H3'}),
 Document(page_content='倚天不出。', metadata={'type': 'paragraph'})]

## get_prev_documents

In [29]:
t.get_prev_documents("1.2.1")

[Document(page_content='1 标题1', metadata={'type': 'H1'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph'}),
 Document(page_content='1.1 标题2', metadata={'type': 'H2'}),
 Document(page_content='逍遥老仙，', metadata={'type': 'paragraph'}),
 Document(page_content='1.2 标题2', metadata={'type': 'H2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph'})]

In [30]:
t.build_index(t.documents, start_id="2.4")

[Document(page_content='1 标题1', metadata={'type': 'H1', 'id': '2.4'}),
 Document(page_content='我的文档。', metadata={'type': 'paragraph', 'id': '2.4.0'}),
 Document(page_content='1.1 标题2', metadata={'type': 'H2', 'id': '2.4.1'}),
 Document(page_content='逍遥老仙，', metadata={'type': 'paragraph', 'id': '2.4.1.0'}),
 Document(page_content='1.2 标题2', metadata={'type': 'H2', 'id': '2.4.2'}),
 Document(page_content='法力无边。', metadata={'type': 'paragraph', 'id': '2.4.2.0'}),
 Document(page_content='1.2.1 标题3', metadata={'type': 'H3', 'id': '2.4.2.1'}),
 Document(page_content='倚天不出。', metadata={'type': 'paragraph', 'id': '2.4.2.1.0'}),
 Document(page_content='1.2.2 标题3', metadata={'type': 'H3', 'id': '2.4.2.2'}),
 Document(page_content='谁与争锋。', metadata={'type': 'paragraph', 'id': '2.4.2.2.0'}),
 Document(page_content='1.3 又一个标题2', metadata={'type': 'H2', 'id': '2.4.3'}),
 Document(page_content='华山论剑。', metadata={'type': 'paragraph', 'id': '2.4.3.0'}),
 Document(page_content='1.4 再一个标题2', metadata={'t