## 提取文本

### 提取包裹内容：extract_segments / extract_text

In [1]:
from illufly.utils import extract_text, extract_segments

text = """
**最终答案**
<final_answer>
我是第一个答案：9.9更大。
</final_answer>

**最终答案**
<final_answer>
我是第二个答案：9.9更大。
</final_answer>
"""

extract_segments(text, ("<final_answer>", "</final_answer>"))

['我是第一个答案：9.9更大。', '我是第二个答案：9.9更大。']

In [2]:
extract_segments(text, ("<final_answer>", "</final_answer>"), include_markers=True)

['<final_answer>\n我是第一个答案：9.9更大。\n</final_answer>',
 '<final_answer>\n我是第二个答案：9.9更大。\n</final_answer>']

In [5]:
extract_text(text, ("<final_answer>", "</final_answer>"))

'我是第一个答案：9.9更大。\n我是第二个答案：9.9更大。'

### 提取内容在同一行

In [10]:
extract_segments("""
**最终答案**
<final_answer>9.9</final_answer>
""", ("<final_answer>", "</final_answer>"), strict=True)

['9.9']

### 截取时的开始和结束标记相同

In [11]:
from illufly.utils import extract_text, extract_segments

text = """
**最终答案**
```我是第一个答案：9.9更大。```

**最终答案**
```
我是第二个答案：9.9更大。
```
"""

extract_segments(text, ("```", "```"))

['我是第一个答案：9.9更大。', '我是第二个答案：9.9更大。']

In [4]:
extract_text(text, ("```", "```"))

'我是第一个答案：9.9更大。\n我是第二个答案：9.9更大。'

### start必须是行的开头，end可以是行内任何位置

In [12]:
from illufly.utils import extract_text, extract_segments

text = """
**最终答案**
<final_answer>我是第一个答案：9.9更大。</final_answer>

**最终答案**
<final_answer>
我是第二个答案：9.9更大。
</final_answer>
"""

extract_segments(text, ("<final_answer>", "</final_answer>"))

['我是第一个答案：9.9更大。', '我是第二个答案：9.9更大。']

In [13]:
extract_text(text, ("<final_answer>", "</final_answer>"))

'我是第一个答案：9.9更大。\n我是第二个答案：9.9更大。'

### 默认行为：如果不匹配，就全部返回

In [14]:
extract_segments(text, ("<no_final_answer>", "</final_answer>"))

['\n**最终答案**\n<final_answer>我是第一个答案：9.9更大。</final_answer>\n\n**最终答案**\n<final_answer>\n我是第二个答案：9.9更大。\n</final_answer>\n']

### 严格模式

In [16]:
extract_text(text, ("<no_final_answer>", "</final_answer>"), strict=True)

''

### 截取：extract_final_answer

In [11]:
from illufly.utils import extract_final_answer

extract_final_answer("""
**最终答案**
This is final answer.
""", final_answer_prompt="最终答案")

'**最终答案**\nThis is final answer.'

In [12]:
from illufly.utils import extract_final_answer

extract_final_answer("""
### 最终答案
This is final answer.
""", final_answer_prompt="最终答案")

'### 最终答案\nThis is final answer.'

In [14]:
from illufly.utils import extract_final_answer

extract_final_answer("""
### 最终答案
This is final answer.
""", final_answer_prompt="**最终答案**")

'### 最终答案\nThis is final answer.'

In [15]:
from illufly.utils import extract_final_answer

extract_final_answer("""
### 最终答案
This is final answer.
""", final_answer_prompt="答案")

''

### 对部份标签转义

In [1]:
from illufly.utils import escape_xml_tags

escape_xml_tags("啊 < ></abc> ")

'啊 < ></abc> '

In [3]:
text = """<final_answer>some content</final_answer>
This is a <div> with <final_answer>some content</final_answer> and <tool_call>tool content</tool_call>.
<tool_call>tool content</tool_call>"""
escaped_text = escape_xml_tags(text)
print(escaped_text)

&lt;final_answer&gt;some content&lt;/final_answer&gt;
This is a <div> with <final_answer>some content</final_answer> and <tool_call>tool content</tool_call>.
&lt;tool_call&gt;tool content&lt;/tool_call&gt;


In [4]:
print(escape_xml_tags("""
你可以使用 <a> 等 html 标签

> this is answer

<final_answer>
OK
</final_answer>
"""))


你可以使用 <a> 等 html 标签

> this is answer

&lt;final_answer&gt;
OK
&lt;/final_answer&gt;


In [5]:
print(escape_xml_tags("""
在 Markdown 语法中， `<` 和 `>` 主要用于插入 HTML 标签或表示引用。

1. **插入 HTML 标签**：
   - 你可以直接使用 `<` 和 `>` 来插入 HTML 标签。Markdown 会保留这些标签，并在最终生成的 HTML 中保持原样。
   - 例如：
     ```markdown
     <div>
       <p>This is a paragraph inside a div.</p>
     </div>
     ```
   - 渲染后的 HTML：
     ```html
     <div>
       <p>This is a paragraph inside a div.</p>
     </div>
     ```

2. **表示引用**：
   - 使用 `>` 可以创建块引用（blockquotes），通常用于表示引述或引用的内容。
   - 例如：
     ```markdown
     > This is a blockquote.
     > It can span multiple lines.
     ```
   - 渲染后的 HTML：
     ```html
     <blockquote>
       <p>This is a blockquote.</p>
       <p>It can span multiple lines.</p>
     </blockquote>
     ```

3. **转义特殊字符**：
   - 如果你想要在 Markdown 中显示 `<` 或 `>` 本身，而不是作为 HTML 标签的一部分，可以使用反斜杠 `\` 进行转义，或者使用 HTML 实体。
   - 例如：
     ```markdown
     \> This will show as a greater-than sign: >
     \< This will show as a less-than sign: <
     ```
   - 渲染后的结果：
     ```
     > This will show as a greater-than sign: >
     < This will show as a less-than sign: <
     ```
"""))


在 Markdown 语法中， `<` 和 `>` 主要用于插入 HTML 标签或表示引用。

1. **插入 HTML 标签**：
   - 你可以直接使用 `<` 和 `>` 来插入 HTML 标签。Markdown 会保留这些标签，并在最终生成的 HTML 中保持原样。
   - 例如：
     ```markdown
     <div>
       <p>This is a paragraph inside a div.</p>
     </div>
     ```
   - 渲染后的 HTML：
     ```html
     <div>
       <p>This is a paragraph inside a div.</p>
     </div>
     ```

2. **表示引用**：
   - 使用 `>` 可以创建块引用（blockquotes），通常用于表示引述或引用的内容。
   - 例如：
     ```markdown
     > This is a blockquote.
     > It can span multiple lines.
     ```
   - 渲染后的 HTML：
     ```html
     <blockquote>
       <p>This is a blockquote.</p>
       <p>It can span multiple lines.</p>
     </blockquote>
     ```

3. **转义特殊字符**：
   - 如果你想要在 Markdown 中显示 `<` 或 `>` 本身，而不是作为 HTML 标签的一部分，可以使用反斜杠 `\` 进行转义，或者使用 HTML 实体。
   - 例如：
     ```markdown
     \> This will show as a greater-than sign: >
     \< This will show as a less-than sign: <
     ```
   - 渲染后的结果：
     ```
     > This will show as a greater-than sign: >
     < This will show as a 