批量翻译pdf文档功能试用返回error“存在一个极长的文本”等信息 #446
-
Beta Was this translation helpful? Give feedback.
Replies: 4 comments 7 replies
-
舉手, 我昨天晚上也有遇到同樣的問題 |
Beta Was this translation helpful? Give feedback.
-
可能pdf文档有混淆措施,人眼看着正常,但程序读出来全是乱码。 如果有arixiv版本,建议取arxiv版本。另外paper的出版商是啥? |
Beta Was this translation helpful? Give feedback.
-
以下是gpt4关于返回极长文本那一段代码的解释,大概明白了什么意思,但本人几乎不懂python不知道解决方法: breakdown_txt_to_satisfy_token_limit 函数内部定义了一个名为 cut 的递归辅助函数,用于实际执行文本分割的操作。这个辅助函数首先检查输入的文本(txt_tocut)的 token 数量是否已经满足限制,如果满足,就将文本作为列表元素返回。如果不满足限制,它将尝试找到一个合适的位置来分割文本。 为了找到合适的分割位置,函数首先将输入的文本按换行符(\n)分割成若干行。然后,它估算一个合适的分割位置(estimated_line_cut),这个位置大致使得分割后的前半部分文本的 token 数量接近限制值。接下来,函数从估算的分割位置开始,向前查找一个合适的分割点。如果 must_break_at_empty_line 为真,函数会在空行处进行分割。如果找到了合适的分割点,函数将文本分割为前半部分(prev)和后半部分(post),并返回这两部分的组合。 如果没有找到合适的分割点(即 cnt == 0),函数将抛出一个运行时错误,提示存在一行极长的文本。 最后,breakdown_txt_to_satisfy_token_limit 函数调用 cut 辅助函数,对输入的文本进行分割,并返回分割后的文本列表。 |
Beta Was this translation helpful? Give feedback.
-
测试更新,确实已解决普通pdf文档返回“存在一行极长文本”的问题,谢谢作者啦 |
Beta Was this translation helpful? Give feedback.
可能pdf文档有混淆措施,人眼看着正常,但程序读出来全是乱码。
如果有arixiv版本,建议取arxiv版本。另外paper的出版商是啥?