Skip to content

天眼查爬取企业信息-企业信用信息查询系统-天眼查爬虫

Notifications You must be signed in to change notification settings

yezl77/tianyancha

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

tianyancha

天眼查爬取企业信息-企业信用信息查询系统-天眼查爬虫


运行main_all.py即可爬取90%的天眼查公司

运行main_top100.py只爬取96个行业的前100家公司

运行main_search.py根据你的公司名搜索进行爬取指定公司

注意:

1,代理IP请自费或自力更生建免费IP池

2,本项目自带云数据库,可直接使用,用你的电脑直接加入爬虫计划,我愿称之为 “分布式”爬虫

3,如果想用自己的数据库,配置信息在 config.py里 修改为你的数据库和蘑菇代理appkey即可

4,此程序随时可停,随时可继续从上次停止的地方开始,不会重复爬取

5, 如果有其他问题,或者想要数据,加Q群: 231436610

步骤1: 查看data文件夹,看数据是否满足你的数据分析要求。

  • 公司信息.xlsx 超过2万条的企业信息
  • 行业TOP100.sql 各个行业Top100的企业信息 大概9000条记录。

步骤2: 如果数据不满足你的要求,你想操练一下,花点钱爽爽。

  1. 安装好mysql,建好表,sql文件夹下有建表脚本。

  2. 买好蘑菇代理或者其他代理池的代理

  3. 修改config.py 里面的配置,与数据库配置以及蘑菇代理API 的appkey,还有爬虫容错重试次数

  4. 根据你的要求运行main_all.py和main_top100.py

  5. 跑test.main 之前需要跑一次 find_industry.py这个脚本:把96个行业*5页的行业记录初始化好。

  6. 如果有错误,请一步步调试,get_html.py 和find_info.py底下有注释掉的调试代码,按需修改运行

  7. 能正常跑的话,请你动手点个star哈,祝你爬虫监狱之旅快乐 (๑•̀ㅂ•́)و✧

About

天眼查爬取企业信息-企业信用信息查询系统-天眼查爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published