这个 Python 程序是一个诗词爬虫,能够从古诗文网爬取诗词信息。可以按照作者、朝代、类型和标题进行爬取,并将爬取到的诗词信息保存到本地文件poems.txt中。
用户输入诗人的名字和要爬取的古诗数量。
程序会根据作者的名字,从古诗文网爬取指定数量的诗词信息。
爬取的诗词信息包括标题、朝代和正文内容。
用户输入朝代和要爬取的古诗数量。
程序会根据朝代,从古诗文网爬取指定数量的诗词信息。
爬main.py取的诗词信息包括标题、朝代和正文内容。
用户输入诗文类型和要爬取的古诗数量。
程序会根据诗文类型,从古诗文网爬取指定数量的诗词信息。
对于特殊类型(楚辞、诗经、乐府),程序会进行特殊处理,从特定的页面进行爬取。
爬取的诗词信息包括标题、朝代和正文内容。
用户输入诗文标题。 程序会根据标题,从古诗文网爬取对应的诗词信息。 爬取的诗词信息包括标题、朝代和正文内容。
运行程序后,程序会提示用户选择爬取诗文的功能:
[1] 按照作者爬取
[2] 按照朝代爬取
[3] 按照类型爬取
[4] 按照标题爬取
根据选择的功能,输入相应的信息:
按照作者爬取:输入诗人的名字和要爬取的古诗数量。
按照朝代爬取:输入朝代和要爬取的古诗数量。
按照类型爬取:输入诗文类型和要爬取的古诗数量。
按照标题爬取:输入诗文标题。
程序会根据用户的输入进行爬取,并将爬取到的诗词信息保存到本地文件poems.txt中。
在爬取过程中,请不要中断程序,否则可能会导致爬取不完整。
如果选择的模式无效,程序会提示错误信息并退出。
程序在运行过程中,如果出现请求失败的情况,会打印错误信息。
.
├── config.json (程序配置文件,保存了爬取上限)
├── main.py (主程序)
├── poems.txt (爬取后的诗词存放文件)
└── README.md (程序说明)
程序使用了以下 Python 库:
bs4:用于解析 HTML 文档。
requests:用于发送 HTTP 请求。
colorama:用于在控制台输出彩色文本。
tqdm:用于显示进度条。
2024 年 10 月 1 日
请输入你想要爬取诗文的功能
[1] 按照作者爬取
[2] 按照朝代爬取
[3] 按照类型爬取
[4] 按照标题爬取
? 1
请输入诗人的名字: 李白
请输入爬取的古诗数量 (不超过20) : 5
爬取中, 请不要中断. 当前进度为: 100%|██████████| 5/5 [00:02<00:00, 1.77it/s]