淘宝商品评论抓取并生成词云
python3 taobao.py itemId sellerId
其中 itemId 为商品 ID;sellerId 为店铺 ID;这两个 ID 缺一不可
itemId 和 sellerId 需要自己到淘宝的商品页面用浏览器工具抓取
同时你需要修改脚本中 YourCookie 字段
具体的抓取方法如下,打开淘宝商品页面,如这个页面,打开开发者工具(谷歌浏览器是使用 cmd+option+i),切到 Network 页卡,清空所有请求信息。
接着在输入框输入 "sellerId=",随后点击累计评论,此时会发出请求评论的请求,我们在过滤后的结果中查看,获取对应的 itemId 和 sellerId 即可
还有同时请拷贝好自己的 Cookie 备用,用来修改脚本中 YourCookie 字段
- 一个 Excel 表格,汇总所有评论(评论时间、评论内容、追加评论和商品分类)
- 评论词云
- 一个 data.json 的评论数据
以这个页面为例
python3 taobao.py 603314107202 2064852052
输出结果为
本脚本内置了我自己假的 Cookie,是无效的,你需要改为自己的
你需要登录到具体的商品页面之后,通过浏览器工具获取自己的 Cookie,并替换脚本中的 YourCookie 字段;Cookie 失效的时候也需要重新这样获取
如果淘宝检测出你是机器人也会导致脚本失败,此时浏览器打开商品页面后会有一个验证机器人的过程,验证好 Cookie 就又可以用