Skip to content

killServer0/Crawler_QD

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

小说爬取工具 v0.2 使用说明

功能概述

本工具支持从以下网站爬取免费章节

  • 飞卢小说网 (faloo.com)
  • 起点中文网 (qidian.com)

安装依赖

在运行脚本前,请先安装必要的Python包:

pip install requests beautifulsoup4

使用方法

1. 基本使用

直接运行脚本:

python 爬取飞卢小说网.py

2. 支持的URL格式

飞卢小说网

  • 书籍目录页:https://b.faloo.com/1364176.html

起点中文网

  • 书籍信息页:https://book.qidian.com/info/1234567
  • 单章阅读页:https://read.qidian.com/chapter/1234567/12345678

3. 交互式使用

运行脚本后,你可以:

  • 输入自定义URL(或使用默认链接)
  • 选择下载章节数量(默认10章,输入0下载全部)
  • 脚本会自动检测付费内容并给出警告

输出文件

章节文件

  • 每个章节保存为单独的.txt文件
  • 文件名自动处理特殊字符,确保系统兼容性

日志文件

  • reading_progress.log:记录下载进度和统计信息

摘要文件

  • {书名}_阅读摘要.txt:包含下载摘要和章节列表

重要说明

✅ 支持的功能

  • 免费章节下载
  • 自动文件名处理
  • 下载进度记录
  • 错误处理和重试
  • 反爬虫友好(请求间隔)

❌ 不支持的功能

  • 付费章节下载:脚本会跳过VIP/付费内容
  • 需要登录的内容
  • JavaScript动态加载的内容
  • 绕过反爬虫机制

法律声明

本工具仅用于个人学习研究,请遵守以下原则:

  1. 仅下载免费内容:不尝试获取付费章节
  2. 尊重版权:支持正版,通过官方渠道购买付费内容
  3. 合理使用:不要对服务器造成过大压力
  4. 遵守网站条款:遵守各网站的使用条款

技术限制

为什么不能爬取付费章节?

  1. 法律风险

    • 版权保护:付费内容受版权法保护
    • 服务条款:违反网站用户协议
    • 商业机密:可能涉及商业机密窃取
  2. 技术障碍

    • 身份验证:需要登录和支付验证
    • 动态加密:内容可能加密传输
    • 反爬虫保护:网站有专门的反爬虫机制
    • 法律后果:可能面临法律诉讼

合法替代方案

如果你需要付费内容,建议:

  1. 官方渠道购买

    • 使用起点、飞卢等官方APP
    • 通过官方网站购买章节
    • 支持作者和平台
  2. 官方导出功能

    • 查看是否有官方提供的导出功能
    • 某些平台可能提供已购买内容的离线阅读
  3. 合理使用

    • 仅用于个人学习研究
    • 不要传播或分享付费内容
    • 尊重知识产权

故障排除

常见问题

  1. "未找到内容"错误

    • 可能是付费章节
    • 页面结构已变更
    • 网络连接问题
  2. "未发现章节链接"

    • 起点目录可能通过JS加载
    • 尝试使用单章链接
    • 检查URL是否正确
  3. 编码问题

    • 脚本使用UTF-8编码
    • 确保系统支持中文文件名

联系支持

如果遇到技术问题,请检查:

  • 网络连接是否正常
  • 依赖包是否正确安装
  • URL格式是否正确
  • 是否为目标网站的免费内容

免责声明:本工具仅供学习研究使用,使用者需自行承担使用风险,并遵守相关法律法规和网站服务条款。

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages