- new_wenshu.py 中是爬取详情页的主体逻辑,项目启动入口也在这里
- wenshu_keyword.py 中是爬取关键词的主要逻辑,可以独立运行
- wenshu_method.py 中主要是各种公共方法
- random_prua.py 中是获取代理ip和UA的方法 (已合并到redis_ip_pool和wenshu_method)
- redis_ip_pool.py 中放的是代理ip复用的方法
- wenshu_setting.py 配置文件
- my_logger.py 是日志模块
- .*.js 文件是解密需要运行的javascript代码
- docid.py 也是解密js用的代码
详情数据存放的表
['content'] :详情页内容,保留了html格式
['sid'] :docid,每篇文章的唯一id
['src'] :详情页地址
['category'] :查询关键词,eg: "一级案由:刑事案由"
['title'] :文章标题
['court'] :法院名称
['pdate'] :裁判日期,法院判决的日期
['writ'] :案号 eg: "(2013)行提字第2号"
['reason'] :判决理由
['sync']:默认为0
关键词存放的表 ['type'] : 关键词类型,eg: 一级案由 ['name'] : 关键词,eg: 刑事案由 ['pname'] : 父级名称 ['level'] : 层级,从1开始,下一层加1 ['id'] : 从0开始,自己的id,自增 ['pid'] : 父级id
关键词id存放的表 ['id'] : 与关键词表关联,自增
使用过的关键词存放的表 ['keyword'] : 关键词 eg: "一级案由:刑事案由"
失败的关键词存放的表 ['keyword'] : 关键词 eg: "一级案由:刑事案由"