在用户未登录状态下,访问微博热搜页(https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6) 抓取[热搜话题排名],[热搜话题],[热搜话题热度],[热搜链接]。通过二次访问热搜链接,跳转至该热搜话题页,抓取[话题主持人],[今日阅读],[今日讨论],[分类],[地区]。
携带cb和fp数据requests请求验证页(https://passport.weibo.com/visitor/genvisitor) 返回params数据,携带并再次请求验证页,返回cookie。携带该cookie访问热搜页。
携带临时cookie、代理IP的API返回的IP地址,requests请求热搜页。
通过正则表达式,夹出[热搜话题排名],[热搜话题],[热搜话题热度],[热搜链接];存储在dict中。append方法。
遍历循环(50个左右)请求(requests)热搜页获取的热搜话题链接(携带proxy、headers);注意time.sleep间隔
通过正则表达式,夹出[话题主持人],[今日阅读],[今日讨论],[分类],[地区];存储在dict中。append方法。
建立本地数据库链接,写入MySQL。