选择爬取wap端而不爬取PC端
个人资料
- 用户id
- 昵称
- 性别
- 省份
- 城市
- 个性签名
- 生日
- 微博数
- 关注数
- 粉丝数
- 认证信息
- 首页链接 微博
- 微博ID
- 微博内容
- 发表时间
- 坐标(如果有的话)
- 工具,平台
- 点赞数
- 评论数
- 转发数 关注
- 关注的用户id 粉丝
- 粉丝id #####遍历及去重策略 两个set存放id,一个存放已爬过的id,一个存放未爬取的id,不断获得关注人的id,粉丝id #####存储方式 数据库 mysql
- 通过提交表单模拟登录获得cookie后登录
- 随机UA
- IP代理
- 自动限速(未添加)
- Item Loader获取相应的数据字段
- input_processor,MapCompose处理该数据字段
- output_processor 最终获得处理好的数据字段