forked from verycampus/pycrawler
-
Notifications
You must be signed in to change notification settings - Fork 0
qq40660/pycrawler
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
目标:让用户用最简单的方式获得目标网站的数据,不必为每个网站单独编写爬虫。 特性: 1、支持多线程爬取目标网站 2、只需要在configure.py中配置好目标网站的信息即可爬取 3、支持retry机制,任务全部结束后会输出失败记录 待增加特性: 1、为了防止被目标网站墙掉,需要增加代理服务器功能 2、某些信息需要登陆后才能抓取,需要增加自动登陆模块 使用方法: 配置好之后直接实例化并执行Crawler类的crawl()方法即可。 依赖的第三方库: BeautifulSoup lxml
About
一个使用Python编写的爬虫,目标是让用户以最简单的方式就可以获得需要的网络数据。
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published