Skip to content

RunningGump/crawl_dangdang

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

前言

本项目是基于scrapy框架的CrawlSpider类爬取当当全网商品信息,爬取的每条商品信息包括13个字段为:商品id、商品类别、商品名称、商品价格、评论数量、好评数、中评数、差评数、好评率、商品来源、商品详情、商品连接、商品图片连接。以及评论信息包括4个字段:商品id、评论、商品评分、评论时间。并将爬取的商品信息存储的mysql数据库中goods数据表中,将评论信息存储的comments数据表中。

依赖

  1. scrapy 1.5.0
  2. python3.6
  3. mysql 5.7.24
  4. pymysql 库
  5. scrapy-rotating-proxies 库
  6. fake-useragent 库

使用方法

  1. 创建数据库名为dd,并在数据库dd下创建两个数据表goods、comments。

  2. 将程序中的数据库用户名和密码改成自己的。

  3. 在命令行执行以下命令即可:

$ scrapy crawl dd

详细教程:个人博客

About

基于Scrapy框架的CrawlSpider类爬取当当全网商品信息

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages