批量翻译pdf文档功能试用返回error“存在一个极长的文本”等信息 #446

以下是gpt4关于返回极长文本那一段代码的解释，大概明白了什么意思，但本人几乎不懂python不知道解决方法：
这段代码定义了一个名为 breakdown_txt_to_satisfy_token_limit 的函数，它的作用是将一个给定的文本字符串（txt）分割为若干子字符串，以使得每个子字符串的 token 数量不超过给定的限制值（limit）。分割的依据是由 get_token_fn 函数提供的，该函数用于计算给定文本的 token 数量。

breakdown_txt_to_satisfy_token_limit 函数内部定义了一个名为 cut 的递归辅助函数，用于实际执行文本分割的操作。这个辅助函数首先检查输入的文本（txt_tocut）的 token 数量是否已经满足限制，如果满足，就将文本作为列表元素返回。如果不满足限制，它将尝试找到一个合适的位置来分割文本。

为了找到合适的分割位置，函数首先将输入的文本按换行符（\n）分割成若干行。然后，它估算一个合适的分割位置（estimated_line_cut），这个位置大致使得分割后的前半部分文本的 token 数量接近限制值。接下来，函数从估算的分割位置开始，向前查找一个合适的分割点。如果 must_break_at_empty_line 为真，函数会在空行处进行分割。如果找到了合适的分割点，函数将文本分割为前半部分（prev）和后半部分（post），并返回这两部分的组合。

如果没有找到合适的分割点（即 cnt == 0），函数将抛出一个运行时错误，提示存在一行极长的文本。

最后，breakdown_txt_to_satisfy_token_limit 函数调用 cut 辅助函数，对输入的文本进行分割，并返回分割后的文本列表。

0 replies

caishu07 · 2023-04-14T09:44:06Z

caishu07
Apr 14, 2023
Author

测试更新，确实已解决普通pdf文档返回“存在一行极长文本”的问题，谢谢作者啦

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

批量翻译pdf文档功能试用返回error“存在一个极长的文本”等信息 #446

{{title}}

Replies: 4 comments 7 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

批量翻译pdf文档功能试用返回error“存在一个极长的文本”等信息 #446

caishu07 Apr 13, 2023

Replies: 4 comments · 7 replies

ghost Apr 13, 2023

binary-husky Apr 13, 2023 Maintainer

ghost Apr 14, 2023

caishu07 Apr 14, 2023 Author

caishu07 Apr 14, 2023 Author

caishu07 Apr 14, 2023 Author

caishu07 Apr 14, 2023 Author

caishu07 Apr 14, 2023 Author

caishu07 Apr 14, 2023 Author

caishu07
Apr 13, 2023

Replies: 4 comments 7 replies

ghost
Apr 13, 2023

binary-husky
Apr 13, 2023
Maintainer

caishu07 Apr 14, 2023
Author

caishu07 Apr 14, 2023
Author

caishu07 Apr 14, 2023
Author

caishu07 Apr 14, 2023
Author

caishu07
Apr 14, 2023
Author

caishu07
Apr 14, 2023
Author