1688爬虫(基于selenium)

阿里巴巴爬虫通过搜索关键词采用selenium+selenium日志hook(亮点：自行查找相关功能,实现所有请求包括ajax动态请求的监听)爬取指定页数的商品信息，包括公司名，五项评分，综合评分，价格，所有宝贝图的图片，以及产品的规格，尺寸暂时没写，不足之处：验证码，已经写了ip切换的功能，暂时没找到合适的ip池，需要的自行根据代码将注释取消启用，并且修改ip.txt的内容即可，ip通过http https 地址+端口直连的方式连接。在爬取频繁之后，一般是十个商品会出现一次验证码，目前采用的方式是在电脑人工切换ip刷新页面。数量不多的话影响不大。

""" author:wes; createtime:2022.03.22

项目概述：爬取1688关键词名称和对应的产品数量，单页60个产品的数据。对于每个产品： A.标题(以及红标题)和链接 B.五项评分评分和综合评分 C.复购率 D.成交额 E.价格 F.企业名称 G.页面链接 """ """ author:wes; updatetime:2022.04.22 第三版更新说明：优化了程序，使之能完整的运行未来可以继续优化的步骤：效率高于扫码登录的更优方式，ip验证问题（遇到ip验证需要人力解决）

""" """ 第二版更新说明: 修改了退换体验分数为空时存表为-1的错误修改了成交额显示错误的问题美化了下代码

"""

1.项目名称：1688.com 的关键词商品信息爬虫

2.需求分析

A.分析商品页ajax链接（下的）存储到{keyword}_{sort_type}.csv 中 (此功能在py爬虫文件均自动重新生成)

3.主要代码实现

4.其他描述： A.直接运行主文件

5.测试： cookies容易失效，后续考虑多账号轮番登录，登录暂时需要人工

配置：略安装包：目录下 requirements.txt文件打开当前目录的dos窗口输入 pip install -r requirements.txt

本代码仅供个人参考交流探讨更优方案等。

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
details		details
utility		utility
1688爬虫主文件.py		1688爬虫主文件.py
README.md		README.md
chromedriver.exe		chromedriver.exe
cookies.txt		cookies.txt
goods_detail_information.csv		goods_detail_information.csv
ip.txt		ip.txt
links.txt		links.txt
readme.txt		readme.txt
requirements.txt		requirements.txt
爬取商品详情页.py		爬取商品详情页.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

details

details

utility

utility

1688爬虫主文件.py

1688爬虫主文件.py

README.md

README.md

chromedriver.exe

chromedriver.exe

cookies.txt

cookies.txt

goods_detail_information.csv

goods_detail_information.csv

ip.txt

ip.txt

links.txt

links.txt

readme.txt

readme.txt

requirements.txt

requirements.txt

爬取商品详情页.py

爬取商品详情页.py

Repository files navigation

1688爬虫(基于selenium)

About

Releases

Packages

Languages

kekewind/1688-selenium-spider

Folders and files

Latest commit

History

Repository files navigation

1688爬虫(基于selenium)

About

Resources

Stars

Watchers

Forks

Languages