- 什么是requests模块？
    - Python中封装好的一个基于网络请求的模块。
- requests模块的作用？
    - 用来模拟浏览器发请求
- requests模块的环境安装：
    - pip install requests
- requests模块的编码流程：
    - 1.指定url
    - 2.发起请求
    - 3.获取响应数据
    - 4.持久化存储

In [1]:
#爬取搜狗首页的页面源码数据
import requests
#1.指定url
url = 'https://www.sogou.com/'
#2.请求发送get:get返回值是一个响应对象
response = requests.get(url=url)
#3.获取响应数据
page_text = response.text #返回的是字符串形式的响应数据
#4.持久化存储
with open('sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)


In [4]:
#实现一个简易的网页采集器
#需要让url携带的参数动态化
url = 'https://www.sogou.com/web'
#实现参数动态化
wd = input('enter a key:')
params = {
    'query':wd
}
#在请求中需要将请求参数对应的字典作用到params这个get方法的参数中
response = requests.get(url=url,params=params)

page_text = response.text
fileName = wd+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)

enter a key:jay


- 上述代码执行后发现：
    - 1.出现了乱码
    - 2.数据量级不对

In [5]:
#解决乱码

url = 'https://www.sogou.com/web'
#实现参数动态化
wd = input('enter a key:')
params = {
    'query':wd
}
#在请求中需要将请求参数对应的字典作用到params这个get方法的参数中
response = requests.get(url=url,params=params)
response.encoding = 'utf-8' #修改响应数据的编码格式
page_text = response.text
fileName = wd+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)

enter a key:jay


- UA检测：门户网站通过检测请求载体的身份标识判定改请求是否为爬虫发起的请求
- UA伪装：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36

In [2]:
#解决UA检测
url = 'https://www.sogou.com/web'
#实现参数动态化
wd = input('enter a key:')
params = {
    'query':wd
}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
#在请求中需要将请求参数对应的字典作用到params这个get方法的参数中
response = requests.get(url=url,params=params,headers=headers)
response.encoding = 'utf-8' #修改响应数据的编码格式
page_text = response.text
fileName = wd+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)

enter a key:111


In [None]:
#爬取的是豆瓣电影中电影的详情数据https://movie.douban.com/typerank?type_name=%E7%88%B1%E6%83%85&type=13&interval_id=100:90&action=
#分析：当滚动条被滑动到页面底部的时候，当前页面发生了局部刷新（ajax的请求）

- 动态加载的页面数据
    - 是通过另一个单独的请求请求到的数据

In [3]:
url = 'https://movie.douban.com/j/chart/top_list'
start = input('您想从第几部电影开始获取:')
limit = input('您想获取多少电影数据:')
dic = {
    'type': '13',
    'interval_id': '100:90',
    'action': '',
    'start': start,
    'limit': limit,
}
response = requests.get(url=url,params=dic,headers=headers)
page_text = response.json() #json()返回的是序列化好的实例对象
for dic in page_text:
    print(dic['title']+':'+dic['score'])

您想从第几部电影开始获取:0
您想获取多少电影数据:100
霸王别姬:9.6
阿甘正传:9.5
美丽人生:9.5
泰坦尼克号:9.4
泰坦尼克号 3D版:9.4
灿烂人生:9.4
巴黎圣母院:9.4
罗密欧与朱丽叶:9.4
机器人总动员:9.3
乱世佳人:9.3
摩登时代:9.3
城市之光:9.3
狐妖小红娘剧场版：月红篇:9.3
三傻大闹宝莱坞:9.2
大话西游之大圣娶亲:9.2
天堂电影院:9.2
生活多美好:9.2
南海十三郎:9.2
哀乐中年:9.2
狐妖小红娘剧场版：王权富贵:9.2
芙蓉镇:9.1
沉静如海:9.1
淘金记:9.1
马戏团:9.1
情迷意乱:9.1
士兵之歌:9.1
战争与和平:9.1
怦然心动:9.0
大话西游之月光宝盒:9.0
罗马假日:9.0
音乐之声:9.0
一一:9.0
雨中曲:9.0
我爱你:9.0
莫娣:9.0
卡比利亚之夜:9.0
婚姻生活:9.0
本杰明·巴顿奇事:8.9
情书:8.9
春光乍泄:8.9
侧耳倾听:8.9
喜宴:8.9
佛兰德斯的狗:8.9
歌厅:8.9
哭泣的草原:8.9
断背山:8.8
阳光灿烂的日子:8.8
请以你的名字呼唤我:8.8
爱在黎明破晓前:8.8
甜蜜蜜:8.8
爱在日落黄昏时:8.8
萤火之森:8.8
燃情岁月:8.8
爱在午夜降临前:8.8
魂断蓝桥:8.8
横道世之介:8.8
莫里斯:8.8
同级生:8.8
巴里·林登:8.8
爱情短片:8.8
办公室的故事:8.8
邮差:8.8
豹:8.8
夜:8.8
日出:8.8
安全至下:8.8
七次机会:8.8
天鹅湖:8.8
鹳鸟踟蹰:8.8
金玫瑰洞:8.8
儿子:8.8
剪刀手爱德华:8.7
天使爱美丽:8.7
喜剧之王:8.7
重庆森林:8.7
倩女幽魂:8.7
幸福终点站:8.7
时空恋旅人:8.7
千年女优:8.7
碧海蓝天:8.7
东邪西毒：终极版:8.7
蓝白红三部曲之红:8.7
弗里达:8.7
面子:8.7
野草莓:8.7
一夜风流:8.7
西伯利亚的理发师:8.7
桃色公寓:8.7
黄昏的清兵卫:8.7
开罗紫玫瑰:8.7
呼喊与细语:8.7
罗密欧与朱丽叶:8.7
街角的商店:8.7
党同伐异:8.7
一九零零:8.7
铁达尼号沉没记:8.7
生命是个奇迹:8.7
天堂的孩子:8.7
舞台春秋:8.7
解放:8.7


In [9]:
#肯德基餐厅查询http://www.kfc.com.cn/kfccda/storelist/index.aspx
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
for page in range(1,5):
    data = {
        'cname': '',
        'pid': '',
        'keyword': '西安',
        'pageIndex': str(page),
        'pageSize': '10',
    }
    response = requests.post(url=url,headers=headers,data=data)
    print(response.json())

{'Table': [{'rowcount': 33}], 'Table1': [{'rownum': 1, 'storeName': '东大街（西安）', 'addressDetail': '东大街53号', 'pro': '24小时,Wi-Fi,点唱机,礼品卡', 'provinceName': '青海省', 'cityName': '西宁市'}, {'rownum': 2, 'storeName': '同安', 'addressDetail': '同安区西安路西安广场一层二层', 'pro': '24小时,Wi-Fi,点唱机,礼品卡,生日餐会', 'provinceName': '福建省', 'cityName': '厦门市'}, {'rownum': 3, 'storeName': '成义', 'addressDetail': '西安路60号民勇大厦一楼', 'pro': '24小时,Wi-Fi,点唱机,店内参观,礼品卡', 'provinceName': '辽宁省', 'cityName': '大连市'}, {'rownum': 4, 'storeName': '罗斯福', 'addressDetail': '西安路139号1号', 'pro': 'Wi-Fi,点唱机,店内参观,礼品卡', 'provinceName': '辽宁省', 'cityName': '大连市'}, {'rownum': 5, 'storeName': '贺兰山（西安）', 'addressDetail': '游艺东街6号一层', 'pro': '24小时,Wi-Fi,店内参观,礼品卡,生日餐会', 'provinceName': '宁夏', 'cityName': '石嘴山市'}, {'rownum': 6, 'storeName': '站前', 'addressDetail': '西八路19号西安汽车站售票大厅东墙以东站内房产一二层', 'pro': '24小时,Wi-Fi,礼品卡', 'provinceName': '陕西省', 'cityName': '西安市'}, {'rownum': 7, 'storeName': '西安北客站', 'addressDetail': '文景路北口北客站内(仅限站内旅客购买029-63325316)', 'pro': 'Wi-Fi,礼品卡

- 需求
    - 爬取药监总局中相关企业的详情信息http://125.35.6.84:81/xk/
- 需求分析

- 如何检测页面中是否存在动态加载的数据？
    - 基于抓包工具实现
        - 先捕获网站请求后所有的数据包
        - 在数据包中定位到地址栏所对应请求的数据包，在response选项卡对应的数据中进行局部搜索（页面中的某一组内容）
            - 可以搜索到：爬取的数据不是动态加载的
            - 没有搜索到：爬取的数据是动态加载的
        - 如何定位动态加载的数据在哪个数据包中呢？
            - 进行全局搜索