### 开发环境介绍
- anaconda:基于数据分析和机器学习的集成环境
- jupyter notebook:基于浏览器的可视化开发工具

### 基本使用 
- 终端中输入jupyter notebook 启动
- 进入的默认结构为终端对应的目录结构
- new->python3
- cell一个编辑行
    - code模式 编写并执行代码
    - markdown模式 支持html标签，笔记
- 插入 a：上方插入 b： 下方插入
- 删除 dd 或 x
- 执行 shift+enter
- 切换：
    - y 变成code模式
    - m 变成markdown模式
- 打开帮助文档 shift+tab

### 什么是爬虫
- 爬虫：编写程序，**模拟**浏览器上网，**抓取**所需要的数据
- 分类：
    - 通用爬虫
        - 爬取一整张页面
    - 聚焦爬虫
        - 局部的数据
    - 增量式爬虫
        - 能一直监测网站的变化，爬取到最新更新的数据
    - 分布式爬虫
- 反爬机制
    - 设定一些机制，禁止爬取数据
        - rpbots协议：君子协议，规定哪些可以爬取，哪些不可以爬取
- 反反爬策略
    - 制定相关的策略破解反爬机制

### requests模块
- urllib模块：模拟浏览器上网，发送网络请求
- requests模块：基于网络请求的模块

- 编码流程：
    - 指定url发送请求
    - 发起请求
    - 获取相应数据
    - 持久化存储


In [2]:
# 1.爬取搜狗首页的数据

In [12]:
import requests

In [15]:
url = 'https://www.sogou.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
responce = requests.get(url=url, headers=headers)
page_text = responce.text
with open('./sougou.html', 'w', encoding='utf-8') as f:
    f.write(page_text)

In [16]:
# 乱码处理
word = input('输入搜索的关键字：')
url = 'https://www.sogou.com/web'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
# 动态传参
params = {
    'query': word
}
responce = requests.get(url=url, headers=headers, params=params)
page_text = responce.text
filename = word+'.html'
with open(filename, 'w', encoding='utf-8') as f:
    f.write(page_text)

print('下载成功')

输入搜索的关键字：希林娜依·高
下载成功


- 异常的访问请求
    - 通过浏览器发起的请求，爬虫发起的请求是异常
- 区别：
    - 请求头 User-Agent:请求载体的身份标识，浏览器或爬虫
- 反爬机制
    - UA检测：判定是不是浏览器，如果不是则异常的访问请求
    - User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36

### 总结
- get方法的参数
    - url
    - params
    - headers
- get方法的返回值
    - response
- response的属性
    - text：返回字符串形式的响应数据

- 需求：page_text取豆瓣中的电影详情数据
    - url：https://movie.douban.com/typerank?type_name=%E7%A7%91%E5%B9%BB&type=17&interval_id=100:90&action=
    - 动态加载的数据
- 滚轮拖动到页面底部，发起ajax请求
    - 对url发请求，获取不到动态加载的数据
    

- 动态加载的数据
    - 对一个网站爬取的时候，写代码之前需要分析校验想要的爬取的数据是否是动态加载的数据
        - 如果是动态加载的数据
            - 不是通过浏览器地址栏url请求到的数据，而是另外一个请求到的数据
            - 可见不可得
            - 基于抓包工具进行全局搜索，锁定到动态加载的数据包，从数据包中可以提取请求的url、请求方式和请求参数
        - 不是动态加载的数据
            - 浏览器地址请求到的数据

In [None]:
url = 'https://movie.douban.com/j/chart/top_list'
params = {
    'type': '17',
    'interval_id': '100:90',
    'action': '',
    'start': '0',
    'limit': '100',
}
responce = requests.get(url=url, headers=headers, params=params)
page_text = responce.json()  # json返回的是序列化好的对象
# 解析电影名称和评分
for dic in page_text:
    name = dic['title']
    score = dic['score']
    print(name+':'+score)

- 问题：如果检测页面中的数据是否为动态加载的数据
    - 基于抓包工具进行局部搜索
        - 能搜索到：不是动态加载的数据
        - 不能搜索到：是动态加载的数据

- 肯德基餐厅查询：http://www.kfc.com.cn/kfccda/storelist/index.aspx
- 分析：
    - 数据为动态加载的数据
    - 通过抓包工具的全局搜索捕获动态加载数据
    

In [22]:
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
for page_num in range(1, 8):

    data = {
        'cname': '',
        'pid': '',
        'keyword': '北京',
        'pageIndex': str(page_num),
        'pageSize': '10',
    }
    # 参数data是用来实现参数动态化的，等同于get方法中的params
    responce = requests.post(url=url, headers=headers, data=data)
    page_text = responce.json()
    for dic in page_text['Table1']:
        name = dic['storeName']
        print(name)

育慧里
京通新城
黄寺大街
四季青桥
亦庄
石园南大街
北京南站
北清路
大红门新世纪肯德基餐厅
巴沟
亦庄沃尔玛
通州北苑华联
西环嘉茂
日照银座餐厅
荆州北京路
荆州月亮湾
金山
北京南站三
北京南站六
马坡汽车穿梭
新城外城DT
铁路（西单商场）
苏州路
蒙苑
南昌
太原府东
金利
芜湖营盘山路
钢铁大街
阜阳火车站
淮安北京路苏果
小河
金阳82266155
国酒路
白云
北辰
购物广场
博乐友好
梦时代
荆州万达
洪泽大润发
洪城大厦
福润德餐厅
奎屯友好餐厅
徐州泉山大润发
大兴龙湖
徐州铜山万达
银川悦海
十堰万达
银川新华联
沧州高铁站
北海宁春城
宣堡服务区北
西郊百益餐厅
仰忠汇
南昌甜品站
北京肯德基有限公司紫码路餐厅
拉萨功德林天街
橘洲一号
十堰远洋国际
新机场2号
胜利门
观山湖印象城
沭阳万达
白云独立外卖点


- 需求：爬取药监总局中的企业详情数据，每一个企业详情页对应的详情数据
- url：

In [36]:
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
for page in range(1, 6):
    data = {
        'on': 'true',
        'page': str(page),
        'pageSize': '15',
        'productName': '',
        'conditionType': '1',
        'applyname': '',
        'applysn': ''}
    responce = requests.post(url=url, headers=headers, data=data)
    page_text = responce.json()

    for dic in page_text['list']:
        _id = dic['ID']
        detail_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
        data = {
            'id': _id,
        }
        res = requests.post(url=detail_url, headers=headers, data=data)
        detail_text = res.json()
        person_name = detail_text['businessPerson']
        print(person_name)

陈飞
朱金平
郑进嘉
邹异虎
田雪峰
陈永坚
李秀曼
高伟
林云崖
廖盛华
陈上松
陈玉梅
肖伟荣
张伟
黄祖源
李虹
吴茂瑜
邹鼎全
李俊锋
徐风云
黄炜
张好学
管良富
尹朝明
李锦涛
周娟
李勇
郑丽华
肖慰南
黄荣发
翁晓锋
阮仁全
李俊杰
邓海燕
韩阳阳
刘培
涂世君
黄立剑
翟培君
邓建明
李圣根(Lee Sung Kun)
范群
刁福平
张庆东
王岱鹏
温俊标
曾粮
吕磊
周勇
刘永锋
蒋卫东
易志红
吴苗苗
吕小明
梁克栋
晏卫祥
刘璇
陈创裕
蔡海英
张志强
吴金泉
唐建忠
杨颖忠
崔胜
赵福良
孙昌星
康龙岳
孙杰
刘增凡
林雪峰
肖本大
陈明珠
张波
陈姚森
郑宇驰


- 如何爬取图片数据
    - 方式1：requests
    - 方式2：urllib

In [39]:
# requests模块
url = 'http://pic.sc.chinaz.com/files/pic/pic9/202006/apic26209.jpg'
res = requests.get(url=url, headers=headers)
img_data = res.content # content返回的是bytes类型的响应数据
with open('./123.png', 'wb') as f:
    f.write(img_data)

In [40]:
# urllib
from urllib import request

In [41]:
url = 'http://pic.sc.chinaz.com/files/pic/pic9/202006/apic26209.jpg'
request.urlretrieve(url=url,filename='./456.png')  # 快速爬取图片数据

('./456.png', <http.client.HTTPMessage at 0x1d27a6c7688>)

- 问题：两种图片爬取方式的区别
    - requests可是实现UA伪装，urllib无法实现UA伪装