# 1. 分析请求
打开Ajax的XHR过滤器，然后一直滑动页面以加载新的微博内容。可以看到，会不断有Ajax请求发出。

选定其中一个请求，分析它的参数信息。点击该请求，进入详情页面，如图6-11所示。

![image.png](attachment:image.png)

可以发现，这是一个GET类型的请求，请求链接为[ https://m.weibo.cn/api/container/getIndex?type=uid&value=2830678474&containerid=1076032830678474&page=2 ]。请求的参数有4个：type、value、containerid和page。

随后再看看其他请求，可以发现，它们的type、value和containerid始终如一。type始终为uid，value的值就是页面链接中的数字，其实这就是用户的id。另外，还有containerid。可以发现，它就是107603加上用户id。改变的值就是page，很明显这个参数是用来控制分页的，page=1代表第一页，page=2代表第二页，以此类推。

# 2. 分析响应
随后，观察这个请求的响应内容，如图6-12所示。

![image.png](attachment:image.png)

这个内容是JSON格式的，浏览器开发者工具自动做了解析以方便我们查看。可以看到，最关键的两部分信息就是cardlistInfo和cards：前者包含一个比较重要的信息total，观察后可以发现，它其实是微博的总数量，我们可以根据这个数字来估算分页数；后者则是一个列表，它包含10个元素，展开其中一个看一下，如图6-13所示。

可以发现，这个元素有一个比较重要的字段mblog。展开它，可以发现它包含的正是微博的一些信息，比如attitudes_count（赞数目）、comments_count（评论数目）、reposts_count（转发数目）、created_at（发布时间）、text（微博正文）等，而且它们都是一些格式化的内容。

这样我们请求一个接口，就可以得到10条微博，而且请求时只需要改变page参数即可。

这样的话，我们只需要简单做一个循环，就可以获取所有微博了。

# 3. 实战演练
这里我们用程序模拟这些Ajax请求，将我的前10页微博全部爬取下来。

首先，定义一个方法来获取每次请求的结果。在请求时，page是一个可变参数，所以我们将它作为方法的参数传递进来，相关代码如下：

In [30]:
from urllib.parse import urlencode
import requests
base_url = 'https://m.weibo.cn/api/container/getIndex?'

headers = {
    'Host':'m.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/3261134763',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

def get_page(page):
    params = {
        'type':'uid'
        ,'value':'3261134763'
        ,'containerid':'1076033261134763'
        ,'page':page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('Error',e.args)

首先，这里定义了base_url来表示请求的URL的前半部分。接下来，构造参数字典，其中type、value和containerid是固定参数，page是可变参数。接下来，调用urlencode()方法将参数转化为URL的GET请求参数，即类似于type=uid&value=2830678474&containerid=1076032830678474&page=2这样的形式。随后，base_url与参数拼合形成一个新的URL。接着，我们用requests请求这个链接，加入headers参数。然后判断响应的状态码，如果是200，则直接调用json()方法将内容解析为JSON返回，否则不返回任何信息。如果出现异常，则捕获并输出其异常信息。

随后，我们需要定义一个解析方法，用来从结果中提取想要的信息，比如这次想保存微博的id、正文、赞数、评论数和转发数这几个内容，那么可以先遍历cards，然后获取mblog中的各个信息，赋值为一个新的字典返回即可：

In [31]:
from pyquery import PyQuery as pq

def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            weibo = {}
            try:
                weibo['id'] = item.get('id')
            except AttributeError as e:
                print('Error',e)
                break # 捕捉错误，退出循环----------
            weibo['text'] = pq(item.get('text')).text()
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo

In [21]:
if __name__ == '__main__':
    for page in range(1,11):
        json = get_page(page)
        results = parse_page(json)
        for result in results:
            print(result)

{'id': '4305141047932644', 'text': '谢谢Donnie哥的眼镜 祝Donnieye大卖😎', 'attitudes': 215243, 'comments': 34436, 'reposts': 308926}
Error 'NoneType' object has no attribute 'get'
{'id': '4276700008815500', 'text': '祝你生日快乐', 'attitudes': 220622, 'comments': 413180, 'reposts': 152636}
{'id': '4272895305538945', 'text': '感恩', 'attitudes': 306088, 'comments': 2838570, 'reposts': 1557051}
{'id': '4271530063863629', 'text': '分享书单', 'attitudes': 99873, 'comments': 272667, 'reposts': 261869}
{'id': '4265670990814858', 'text': '工作餐 辛苦啦', 'attitudes': 326040, 'comments': 219095, 'reposts': 1383322}
{'id': '4259653116345221', 'text': '所以这些猫猫是那些角色啊 有几个没猜到', 'attitudes': 125097, 'comments': 158871, 'reposts': 1032394}
{'id': '4253031392983611', 'text': '谢谢可爱的助理妹妹送的书 我最爱的作者之一 感谢生活以它原有的面目呈现 不审视 不批判 感恩生活 爱你们 很多的爱', 'attitudes': 147546, 'comments': 175631, 'reposts': 937124}
{'id': '4251876285453779', 'text': '分享图片', 'attitudes': 182163, 'comments': 77958, 'reposts': 254847}
{'id': '4250365630751393', 'text': '

{'id': '4179477333822748', 'text': '@时装LOFFICIEL杂志 待会见', 'attitudes': 143137, 'comments': 18552, 'reposts': 56639}
{'id': '4177353251014518', 'text': '反正我是来报恩的//@新浪娱乐:#二代妖精#人类@冯绍峰 狐妖@刘亦菲 这段千年难遇的人妖恋情是否会改变两个世界的未来？', 'attitudes': 53341, 'comments': 125489, 'reposts': 217313}
{'id': '4176588851219958', 'text': '12月18日，我和你一起鉴定美丽。', 'attitudes': 59120, 'comments': 61780, 'reposts': 84028}
{'id': '4174818390257054', 'text': '再坚持一下，我还有5秒到达！//@冯绍峰:高空坠落什么的太可怕了，快来救我！', 'attitudes': 54525, 'comments': 103912, 'reposts': 88949}
{'id': '4173812755303425', 'text': '等电影开场的时候 不要叫我幼稚鬼。。', 'attitudes': 197696, 'comments': 93317, 'reposts': 180584}
{'id': '4173807961220643', 'text': '今天和同学一起看了“烽火芳菲” 时过境迁 已经忘掉了拍摄细节 我也成为了众多观众的一员 还是特别感谢比利导演 孙鹏女士 还有所有主创 在这个快节奏的时代 愿意铭记历史 愿意深挖人性 我想 看完电影 我们会更加珍惜今天的生活 向无名英雄致敬 向所有辛苦的工作人员致敬', 'attitudes': 69433, 'comments': 37049, 'reposts': 24207}
{'id': '4172952545075168', 'text': '看了一些观众朋友的评价 他们是真心喜欢这部电影 和电影中的人性与爱 谢谢他们愿意坐下来体会这个简单又深刻的故事…今天和浙江大学的同学们见面很愉快：）', 'attitudes': 152382, '

In [32]:
from pymongo import MongoClient

client = MongoClient()
db = client['Weibo']
collection = db['LiuYiFei']

def save_to_mongo(result):
    if collection.insert(result):
        print('Saved to Mongo')

In [33]:
if __name__ == '__main__':
    for page in range(1,11):
        json = get_page(page)
        results = parse_page(json)
        for result in results:
            print(result)
            save_to_mongo(result)

{'id': '4305141047932644', 'text': '谢谢Donnie哥的眼镜 祝Donnieye大卖😎', 'attitudes': 215293, 'comments': 34437, 'reposts': 308988}
Saved to Mongo
Error 'NoneType' object has no attribute 'get'


  


{'id': '4276700008815500', 'text': '祝你生日快乐', 'attitudes': 220624, 'comments': 413180, 'reposts': 152635}
Saved to Mongo
{'id': '4272895305538945', 'text': '感恩', 'attitudes': 306091, 'comments': 2838570, 'reposts': 1557051}
Saved to Mongo
{'id': '4271530063863629', 'text': '分享书单', 'attitudes': 99875, 'comments': 272667, 'reposts': 261862}
Saved to Mongo
{'id': '4265670990814858', 'text': '工作餐 辛苦啦', 'attitudes': 326043, 'comments': 219095, 'reposts': 1383322}
Saved to Mongo
{'id': '4259653116345221', 'text': '所以这些猫猫是那些角色啊 有几个没猜到', 'attitudes': 125099, 'comments': 158871, 'reposts': 1032394}
Saved to Mongo
{'id': '4253031392983611', 'text': '谢谢可爱的助理妹妹送的书 我最爱的作者之一 感谢生活以它原有的面目呈现 不审视 不批判 感恩生活 爱你们 很多的爱', 'attitudes': 147548, 'comments': 175631, 'reposts': 937124}
Saved to Mongo
{'id': '4251876285453779', 'text': '分享图片', 'attitudes': 182166, 'comments': 77958, 'reposts': 254847}
Saved to Mongo
{'id': '4250365630751393', 'text': '', 'attitudes': 193013, 'comments': 71146, 'reposts': 305656}
Sav

{'id': '4179477333822748', 'text': '@时装LOFFICIEL杂志 待会见', 'attitudes': 143137, 'comments': 18552, 'reposts': 56639}
Saved to Mongo
{'id': '4177353251014518', 'text': '反正我是来报恩的//@新浪娱乐:#二代妖精#人类@冯绍峰 狐妖@刘亦菲 这段千年难遇的人妖恋情是否会改变两个世界的未来？', 'attitudes': 53341, 'comments': 125489, 'reposts': 217313}
Saved to Mongo
{'id': '4176588851219958', 'text': '12月18日，我和你一起鉴定美丽。', 'attitudes': 59120, 'comments': 61780, 'reposts': 84028}
Saved to Mongo
{'id': '4174818390257054', 'text': '再坚持一下，我还有5秒到达！//@冯绍峰:高空坠落什么的太可怕了，快来救我！', 'attitudes': 54525, 'comments': 103912, 'reposts': 88949}
Saved to Mongo
{'id': '4173812755303425', 'text': '等电影开场的时候 不要叫我幼稚鬼。。', 'attitudes': 197696, 'comments': 93317, 'reposts': 180584}
Saved to Mongo
{'id': '4173807961220643', 'text': '今天和同学一起看了“烽火芳菲” 时过境迁 已经忘掉了拍摄细节 我也成为了众多观众的一员 还是特别感谢比利导演 孙鹏女士 还有所有主创 在这个快节奏的时代 愿意铭记历史 愿意深挖人性 我想 看完电影 我们会更加珍惜今天的生活 向无名英雄致敬 向所有辛苦的工作人员致敬', 'attitudes': 69433, 'comments': 37049, 'reposts': 24207}
Saved to Mongo
{'id': '4172952545075168', 'text': '看了一些观众朋友的

In [24]:
5723907116

5723907116

In [35]:
from urllib.parse import urlencode
import requests
base_url = 'https://m.weibo.cn/api/container/getIndex?'

headers = {
    'Host':'m.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/3261134763',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

def get_page(page):
    params = {
        'type':'uid'
        ,'value':'5723907116'
        ,'containerid':'2304135723907116_-_WEIBO_SECOND_PROFILE_WEIBO'
        ,'page':page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('Error',e.args)
        
from pyquery import PyQuery as pq

def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            weibo = {}
            try:
                weibo['id'] = item.get('id')
            except AttributeError as e:
                print('Error',e)
                break # 捕捉错误，退出循环----------
            weibo['text'] = pq(item.get('text')).text()
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo
            
from pymongo import MongoClient

client = MongoClient()
db = client['Weibo']
collection = db['Renqi']

def save_to_mongo(result):
    if collection.insert(result):
        print('Saved to Mongo')
        
if __name__ == '__main__':
    for page in range(1,100):
        json = get_page(page)
        results = parse_page(json)
        for result in results:
            # print(result)
            save_to_mongo(result)

Error 'NoneType' object has no attribute 'get'




Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to M

Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to Mongo
Saved to M