### requests模块
   - 1.什么是requests模块
       - python原生一个基于网络请求的模块，模拟浏览器发起请求
   - 2.为什么要使用requests模块
      - 弥补urllib的不足
      - urllib的不足
      - 1.手动处理url编码
      - 2.手动处理post请求的参数
      - 3.cookie和代理的操作比较繁琐
         - cookie流程
         - 创建一个cookiejar对象
         - 创建一个handler对象
         - 创建一个openner对象
         - 代理流程
         - 创建handler对象，代理ip和端口封装到该对象
         - 创建openner对象
   - 3.requests如何被使用
      - 安装：pip install requests
      - 使用流程：
        1.指定url
        2.使用requests模块发起请求
        3.获取相应数据
        4.进行持久化存储
   - 4.通过5个基于requests模块的爬虫项目对该模块进行系统学习和巩固
      - get请求
      - post请求
      - ajax的get请求
      - ajax的post请求
      - 综合
       

### 基于requests模块发起get请求
   - 需求：爬取搜狗首页的页面数据

In [1]:
import requests

#指定url
url = 'https://www.sogou.com'

#发起get请求：get方法会返回请求成功的相应对象
response = requests.get(url = url)

#获取响应中的数据值：text可以获取响应对象中字符串形式的页面数据
page_data = response.text

#持久化操作
with open ('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_data)
    print("写入数据成功")

写入数据成功


In [6]:
#response对象中其它重要属性
import requests
#指定url
url = 'https://www.sogou.com'

#发起get请求：get方法会返回请求成功的相应对象
response = requests.get(url = url)

#content获取的是response对象中二进制（byte）类型的页面数据
#print(response.content)
#返回一个响应状态码
#print(response.status_code)
#返回响应头信息
#print(response.headers)
#获取请求的url
print(response.url)

https://www.sogou.com/


- resqutsts模块如何处理携带参数的get请求
  - 需求：指定一个词条，获取搜狗搜索结果所对应的页面数据

In [7]:
#方式1
import requests

url = 'https://www.sogou.com/web?query=周杰伦'

response = requests.get(url = url)

page_data = response.text

with open ('./zhoujielun.html','w',encoding='utf-8') as fb:
    fb.write(page_data)
    print("写入数据成功")

写入数据成功


In [8]:
#方式2
import requests

url = 'https://www.sogou.com/web'

params = {
    'query':'周杰伦'
}

response = requests.get(url = url ,params = params)

page_data = response.text

with open ('./zhoujielun2.html','w',encoding='utf-8') as fb:
    fb.write(page_data)
    print("写入数据成功")

写入数据成功


In [7]:
import requests

# 自定义请求头信息
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

url = 'https://www.sogou.com/web'

params = {
    'query':'周杰伦'
}
response = requests.get(url = url,params = params,headers=headers)

response.status_code

200

### 基于requests模块发起的post请求
    - 需求：登录豆瓣网，获取登录成功后的页面数据

In [3]:

import requests

#指定url
url = 'https://accounts.douban.com/login'

data = {
    'source': 'movie',
    'redir': 'https://movie.douban.com/',
    'name': 'xxxxxxx',
    'password': 'xxxxxx',
    'login': '登录',
    
}
#以上用于登录的data及url仅适用于旧版登录，目前新版豆瓣已无法获取
#可用如下字段(通过模拟登录失败获取的相应参数字段)，进行相应cookie获取（已测试通过），但无法完成成功后的页面数据的获取，相关方法仍在探索中
'''
url = 'https://accounts.douban.com/j/mobile/login/basic'
data = {
    'ck': '',
    'name': 'xxxxxxx',
    'password': 'xxxxxx',
    'remember': 'false',
    'ticket': '',
}
'''

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

response = requests.post(url = url,data=data,headers=headers)

page_text = response.text

with open ('./douban.html','w',encoding='utf-8') as fb:
    fb.write(page_text)
    print("写入数据成功")


写入数据成功


### 基于AJAX的get请求
    - 需求：抓取豆瓣电影“豆瓣高分”电影信息

In [7]:
import requests

url = 'https://movie.douban.com/j/search_subjects'

params ={
    'type': 'movie',
    'tag': '豆瓣高分',
    'sort': 'recommend',
    'page_limit': '20',
    'page_start': '0',
}

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

response = requests.get(url = url, params = params, headers = headers)

page_data = response.text

with open ('./豆瓣高分.json','w',encoding = 'utf-8') as fb:
    fb.write(page_data)
    print('数据写入完毕')




数据写入完毕


### 基于AJAX的POST请求
    - 抓取肯德基基于城市查询北京的餐厅地址信息

In [6]:
import requests

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

data = {
    'cname': '',
    'pid': '',
    'keyword': '北京',
    'pageIndex': '1',
    'pageSize': '10',
}

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

response = requests.post(url = url,data = data,headers = headers)

page_data = response.text

with open('./KFC_address.json','w',encoding='utf-8') as fb:
    fb.write(page_data)
    print('写入数据完毕')


写入数据完毕


### 综合项目实战
    - 需求：抓取搜狗-知乎 指定词条在一定范围内的页面数据

In [1]:
import requests
import os

#创建一个文件夹
if not os.path.exists('./pages'):
    os.mkdir('./pages')

#动态指定词条及页码的范围
word = input('enter a word:')
start_pageNum = int(input('enter a start pageNum:'))
end_pageNum = int(input('enter a start endNum:'))

#自定义请求头信息
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

#指定url：设计成一个具有通用的url
url = 'http://zhihu.sogou.com/zhihu'

#获取响应中的页面数据（指定页码（page））
for page in range(start_pageNum,end_pageNum+1):
    params = {
        'query':word,
        'page':page,
        'ie':'utf-8',
    }
    response = requests.get(url = url, params = params,headers = headers)
    page_text = response.text
    
    #进行持久化存储
    fileName = word + str(page)+'.html'
    filePath = 'pages/'+fileName
    with open(filePath,'w',encoding = 'utf-8') as fb:
        fb.write(page_text)
        print("第%d页数据写入成功"%page)
    
    


enter a word:人工智能
enter a start pageNum:1
enter a start endNum:3
第1页数据写入成功
第2页数据写入成功
第3页数据写入成功


### 作业需求
    - 爬取百度贴吧指定页面的数据值
    - 爬取糗事百科

### 作业1
  - 需求：抓取百度贴吧指定页面的数据值

In [2]:
#代码见本目录下‘百度贴吧_code.py’

### 作业2
  - 抓取糗事百科数据

In [1]:
#代码见本目录下‘糗事百科_code.py’