本项目是基于scrapy框架的CrawlSpider类爬取当当全网商品信息,爬取的每条商品信息包括13个字段为:商品id、商品类别、商品名称、商品价格、评论数量、好评数、中评数、差评数、好评率、商品来源、商品详情、商品连接、商品图片连接。以及评论信息包括4个字段:商品id、评论、商品评分、评论时间。并将爬取的商品信息存储的mysql数据库中goods数据表中,将评论信息存储的comments数据表中。
- scrapy 1.5.0
- python3.6
- mysql 5.7.24
- pymysql 库
- scrapy-rotating-proxies 库
- fake-useragent 库
-
创建数据库名为dd,并在数据库dd下创建两个数据表goods、comments。
-
将程序中的数据库用户名和密码改成自己的。
-
在命令行执行以下命令即可:
$ scrapy crawl dd
详细教程:个人博客