Skip to content

一个使用Python编写的爬虫,目标是让用户以最简单的方式就可以获得需要的网络数据。

Notifications You must be signed in to change notification settings

qq40660/pycrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

目标:让用户用最简单的方式获得目标网站的数据,不必为每个网站单独编写爬虫。

特性:
1、支持多线程爬取目标网站
2、只需要在configure.py中配置好目标网站的信息即可爬取
3、支持retry机制,任务全部结束后会输出失败记录

待增加特性:
1、为了防止被目标网站墙掉,需要增加代理服务器功能
2、某些信息需要登陆后才能抓取,需要增加自动登陆模块

使用方法:

配置好之后直接实例化并执行Crawler类的crawl()方法即可。


依赖的第三方库:

BeautifulSoup
lxml

About

一个使用Python编写的爬虫,目标是让用户以最简单的方式就可以获得需要的网络数据。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published