前言

本项目是基于scrapy框架的CrawlSpider类爬取当当全网商品信息，爬取的每条商品信息包括13个字段为：商品id、商品类别、商品名称、商品价格、评论数量、好评数、中评数、差评数、好评率、商品来源、商品详情、商品连接、商品图片连接。以及评论信息包括4个字段：商品id、评论、商品评分、评论时间。并将爬取的商品信息存储的mysql数据库中goods数据表中，将评论信息存储的comments数据表中。

依赖

scrapy 1.5.0
python3.6
mysql 5.7.24
pymysql 库
scrapy-rotating-proxies 库
fake-useragent 库

使用方法

创建数据库名为dd，并在数据库dd下创建两个数据表goods、comments。
将程序中的数据库用户名和密码改成自己的。
在命令行执行以下命令即可：

$ scrapy crawl dd

详细教程：个人博客

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
Dangdang		Dangdang
goods_img		goods_img
.DS_Store		.DS_Store
README.md		README.md
crawl_img.py		crawl_img.py
proxy.txt		proxy.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dangdang

Dangdang

goods_img

goods_img

.DS_Store

.DS_Store

README.md

README.md

crawl_img.py

crawl_img.py

proxy.txt

proxy.txt

scrapy.cfg

scrapy.cfg

Repository files navigation

前言

依赖

使用方法

About

Releases

Packages

Languages

RunningGump/crawl_dangdang

Folders and files

Latest commit

History

Repository files navigation

前言

依赖

使用方法

About

Resources

Stars

Watchers

Forks

Languages