一些能让阅读大量文献变得更轻松的小脚本
此脚本会遍历指定目录及其所有子目录,找到其中的所有PDF文件并解析出其中的文字内容,通过API的形式自动发送给大语言模型进行阅读总结,并将总结结果生成一份markdown文件,放在该PDF的同一个路径下。
你可以使用typora或vscode阅读或编辑markdown文件。
- 你可以自行决定你的prompt。
- 你需要使用你自己的api
- 如果你在运行时出现bug,请咨询Deepseek,毕竟代码大部分是它写的。反正我用着是没什么bug的。
此脚本用于对PDF_batch_read.py生成的一大堆markdown文件进行进一步总结,再生成一份汇总分析的markdown文件,位置也在原目录下。
该脚本生成的文件为research_report_xxxx.md,xxxx是时间戳。其在运行时会自动跳过文件名以research_report开头的文件,以防你在第二次运行该脚本时递归分析之前已经分析过的汇总报告文件。
此脚本用于对PDF进行批量重命名。主要作用是处理一些命名不太友好的文献。
这里没有用到大模型API,通过Python解析PDF内可能是文章标题的文本,并用其对文件进行重命名。有时结果会不太准确,嫌弃可以不用。这个脚本会递归处理指定目录及其所有子目录。
自动文献阅读机史诗级增强!
此脚本结合了PDF_batch_read.py和PDF_batch_rename.py的功能,实现了真正的一站式自动文献处理。
脚本会递归遍历指定目录,找到所有PDF文件,然后对每个PDF执行以下操作:
- 解析PDF内容:提取PDF文件中的文字内容
- 调用LLM API生成建议文件名:发送PDF内容给大语言模型,让其根据文献的发表年份、期刊/会议名、主要创新点等自动生成遵循"年份-期刊简写-创新点"格式的建议文件名
- 生成文献总结Markdown:LLM同时生成该文献的详细总结(包括标题、作者机构、发表年份、问题描述、解决方案等),保存为同名的.md文件
- 自动重命名PDF:根据生成的建议文件名自动重命名PDF文件
脚本的智能之处在于,若同名的Markdown文件已存在,则会跳过该PDF以避免重复处理。文件名中的系统非法字符会被自动清理,若出现重名则自动添加数字后缀。
- 首先你需要一个API秘钥。可以是openai官网、火山引擎、硅基流动等平台提供的API,需要花点钱,但是Deepseek很便宜,一篇文章读完可能用不了一毛钱。代码示例中用的是硅基流动Siliconflow的API。用不同的大模型都可以,但是实测Deepseek-R1生成的内容是比较有条理的,GPT4喜欢生成一大坨不分点的回答,阅读很难受。
- 下载或
git clone这些脚本,根据依赖安装相关的Python包。修改脚本中的文件路径、API-key和API平台url(可以参考API对应的使用手册教学),然后运行脚本即可。 - 如果好用,请给我点个🌟
- 我同样想做一个批量文件翻译的脚本,但是直接调用LLM API的可靠性显然是不行的。可能有一些翻译的API能实现这一功能,但我还没想好怎么做。如果有人做出来了,请告诉我。
- 安装python包时不要直接安装“fitz”包,而是安装PyMuPDF包,fitz会自动装上,否则会报错。
- 注意MD_summarize和PDF_batch_read中要填的API地址格式略有区别,MD_summarize中会自动在地址后补上“/chat/completions”。