Skip to content

zzycami/AutoDataGrabber

Repository files navigation

##网站内容的蜘蛛爬虫程序

###1.关于该程序

为了自动添加网站内容而开发的蜘蛛爬虫程序

###2. 系统的设计

关于网站内容的抓取,我想如果新增加一个网站只要按照一定的规则 编写网页分析的逻辑然后放在抓取引擎的文件夹里便可以了.其他程序会自动 的调用该目录下的所有网站分析的逻辑代码对各个网站进行抓取.这样的话, 增加一个站点便可以非常方便的只需要编写分析代码,然后放到引擎文件夹中 就可以了.

###3.系统的依赖库

程序是python语言版的, 程序支持不同的数据库,你只需要在dbengine下加上你自己的 数据库引擎就可以直接使用你的数据库了,数据的基本操作接口都是写在,只要实现那些接口便可以 在这里是使用mysql的,因此需要安装python的mysql数据支持库在这里是使用MySQLdb的, 页面的解析使用BeautifulSoup

###4.程序的定时执行

使用linux上自带的crontab命令也可以实现在某个时间点自动执行这段程序,但是我想要设置成 每一个站点的自动执行的时间并不一样.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages