# 《数据采集与清洗》
## 第一次作业内容： 网页抓取
### 具体目标：
+ 用``urllib.requests``库发起一次``get``请求，输出``response``文本信息；
+ 用``Requests``库伪装成火狐浏览器发起一次``post``请求，输出``response``文本信息；
+ 用``Requests``库中的``session``对象发出``get``请求，设置``cookies``并获取，输出获取的``cookies``内容；
+ 实现抓取网页的不去重深度遍历算法，自选合适的种子网站和相关参数，输出结果；
+ 编写抓取网页的广度遍历算法（含去重和不去重），自选合适的种子网站和相关参数，输出结果；
+ (选)将抓取网页的去重深度遍历算法封装成对象（类），并测试。

### 注：
+ 代码要有注释，结果要有分析；
+ 本次作业提交截至时间：2020年3月10日(星期二)；
+ 文件命名规则: 班级号+学号+姓名+作业序号，示例：``1_20188989899_张三_1``；
+ 提交方式：1班发送至邮箱：632994085@qq.com；2班发送至邮箱：786888939@qq.com.

### 问题1：用``urllib.requests``库发起一次``get``请求，输出``response``文本信息。

In [None]:
# coding=utf-8
import urllib.parse
import urllib.request

# 定义基础网址
base_url = "http://httpbin.org/get"
# 构造字典参数
data_dict = {
    "username": "201805750208",
    "password": "123456789"
    # "world": "hello"
}
# 参数拼接到url地址后面
data_string = urllib.parse.urlencode(data_dict,encoding="utf-8")      # 使用urlencode这个方法将字典序列化成字符串
print(data_string)
new_url = base_url + "?" + data_string
response = urllib.request.urlopen(new_url)
print(response.read())

这里对结果进行分析。

##### 传入的参数有"username","password"
##### 请求头中客户端支持自定义的编码类型;请求的服务器域名是 "http://httpbin.org" ; 跨域操作携带"origin";get方法直接将参数拼接到url地址后

### 用``Requests``库伪装成火狐浏览器发起一次``post``请求，输出``response``文本信息。

In [None]:
from urllib import request, parse

# 设置要访问的url
url = "http://httpbin.org/post"
# 设置字典参数
dict = {
    "world": "hello"
}
# 使用urlencode这个方法将字典序列化成字符串
data = parse.urlencode(dict)
# 自定义请求头
headers = {
    # 伪装成火狐浏览器
    "User-Agent": "Mozilla/5.5 (compatible; MSIE 5.5; Windows NT)",
    "Host": "httpbin.org"
}
# 将序列化后的字符串转换成二进制数据,以便post携带
data = bytes(parse.urlencode(dict), encoding="utf-8")
req = request.Request(url=url, data=data, headers=headers, method="POST")
response = request.urlopen(req)
print(response.read().decode("utf-8"))

这里对结果进行分析。

###### 消息体长度为11；参数在"form"中; 客户端被改为火狐浏览器("User-Agent": Mozilla)

### 用``Requests``库中的``session``对象发出``get``请求，设置``cookies``并获取，输出获取的``cookies``内容。 

In [5]:
import requests

# 创建session对象
s = requests.Session()
# 用此对象发送get请求，并设置cookies
s.get("http://httpbin.org/cookies/set/201805750208/123456")
# 再次用session对象发出另一个get请求，获取cookies
o = s.get("http://httpbin.org/cookies")
# 显示结果
print(o.text)

{
  "cookies": {
    "201805750208": "123456"
  }
}



这里对结果进行分析。

##### 输出的cookies包含设置的内容"201805750208:123456"；存贮形式类似于字典

### 实现抓取网页的不去重深度遍历算法，自选合适的种子网站和相关参数，输出结果。


In [7]:
from urllib import request as ur
import re

count = 0  # 层数
r = re.compile(r'href=[\'"]?(/item[^\'" >]+)') # 抽取所需链接信息的正则语言规则
# 种子为"新型冠状病毒"词条
seed = "/item/2019%E6%96%B0%E5%9E%8B%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92?fromtitle=%E6%96%B0%E5%9E%8B%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92&fromid=7904360"
stack = [seed]  # 用栈实现深度优先算法
storage = {}
while count < 5:
    try:
        url = stack.pop(-1)  # 取出栈的最后一条URL
        html = ur.urlopen("https://baike.baidu.com"+url).read().decode("utf-8") # 拼接URL
        new_urls = r.findall(html)  # 提取当前网页下的所有链接URL信息
        print(new_urls)
        stack.extend(new_urls)      # 新提取的URL入栈
        storage[url] = len(new_urls)
        count += 1                  # 迭代次数加1
    except Exception as e:
        print(url)
        print(e)

['/item/秒懂星课堂', '/item/秒懂大师说', '/item/秒懂看瓦特', '/item/秒懂五千年', '/item/秒懂全视界', '/item/2019%E5%B9%B4%E6%AD%A6%E6%B1%89%E7%97%85%E6%AF%92%E6%80%A7%E8%82%BA%E7%82%8E%E7%97%85%E4%BE%8B/24236082', '/item/%E4%B8%96%E7%95%8C%E5%8D%AB%E7%94%9F%E7%BB%84%E7%BB%87/483426', '/item/%E4%B8%AD%E4%B8%9C%E5%91%BC%E5%90%B8%E7%BB%BC%E5%90%88%E5%BE%81/4894857', '/item/%E4%B8%A5%E9%87%8D%E6%80%A5%E6%80%A7%E5%91%BC%E5%90%B8%E7%BB%BC%E5%90%88%E5%BE%81/2942647', '/item/%E7%97%85%E6%AF%92%E6%80%A7%E8%82%BA%E7%82%8E/2251212', '/item/%E4%B8%96%E7%95%8C%E5%8D%AB%E7%94%9F%E7%BB%84%E7%BB%87/483426', '/item/2019%E5%B9%B4%E6%AD%A6%E6%B1%89%E7%97%85%E6%AF%92%E6%80%A7%E8%82%BA%E7%82%8E%E7%97%85%E4%BE%8B/24236082', '/item/2020%E5%B9%B4%E6%96%B0%E5%9E%8B%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92%E7%96%AB%E6%83%85/24278151', '/item/%E6%9F%B3%E5%8F%B6%E5%88%80/7955065', '/item/%E6%AD%A6%E6%B1%89%E5%8A%A0%E6%B2%B9/24289649', '/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91%EF%BC%9A%E6%9C%AC%E4%BA%BA%E8%AF%8D%E6%9D%A1%E7%BC%96%E8%BE%91%E6

这里对结果进行分析。

 ##### 迭代五次，最终有五个列表；每个列表当中的部分加上 "http://baike.baidu" 均可访问相应界面; 由于网页最后一个链接是相同的，又因为深度遍历特性，所以后四个完全相同

### 编写抓取网页的广度遍历算法（含去重和不去重），自选合适的种子网站和相关参数，输出结果。 

In [None]:
# 不去重的广度优先爬取
from urllib import request as ur
import re

count = 0   # 层数
r = re.compile(r'href=[\'"]?(/item[^\'" >]+)')  # 抽取所需链接信息的正则语言规则
# 种子为"新型冠状病毒"词条
seed = "/item/%E7%BE%8E%E5%9B%A2%E7%8C%AB%E7%9C%BC%E7%94%B5%E5%BD%B1?fromtitle=%E7%8C%AB%E7%9C%BC%E7%94%B5%E5%BD%B1&fromid=17501927"
queue = [seed]   # 用队列实现广度优先算法
storage = {}
while count < 5:
    try:
        url = queue.pop(0)   # 取出队列第一条URL
        html = ur.urlopen("https://baike.baidu.com"+url).read().decode('utf-8')  # 拼接URL
        new_urls = r.findall(html) # 提取当前网页下的所有链接URL信息
        print(new_urls)
        queue.extend(new_urls) # 将新提取的链接信息入队列
        storage[url] = len(new_urls)
        count += 1
    except Exception as e:
        print(url)
        print(e)

In [None]:
from urllib import request as ur
import re

#加层数控制的
count = 0 # 层数
floors = 2 # 限制爬取的层数
lastStep = []
r = re.compile(r'href=[\'"]?(/item[^\'" >]+)')
seed = '/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB' # 这是网络爬虫词条
queue = [[seed]]
for i in range(floors): # 限制爬取范围在设定的层数范围内
    queue.append([])
storage = {}
used = set() # 设置集合存放爬取过的url
while len(queue[0])>0 or count!=0: # 种子队列不为空或者层数不为零
    try:
        url = queue[count].pop(-1)
        print(url+" "+str(count)) # 打印当前链接和层数
        html = ur.urlopen('https://baike.baidu.com'+url).read().decode('utf-8')
        storage[url] = html
        used.add(url) # 将爬取过的URL放入集合中
        new_urls = r.findall(html)
        if count < floors:
            for new_url in set(new_urls):
                if new_url not in used and new_url not in queue: # 判断新链接网址中的包含的链接是否为重复的
                    queue[count+1].append(new_url)  # 将爬取的URL存入到队列中相应层数的列表
            if len(queue[count]) == 0:             #  这行代码确保遍历方式为广度优先
                count += 1
        else:
            if len(queue[count])==0:
                pass
    except Exception as e:
        print(url)
        print(e)

这里对结果进行分析。

##### 去重和不去重在某些情况下有相当大的区别；可以通过设置爬取的层数作为爬取策略的一部分;部分分析已经放在代码解释中

### (选)将抓取网页的去重深度遍历算法封装成对象（类），并测试。 

In [None]:
class Reptile():
    def __init__(self, count, floors, seed):
        self.count = count
        self.floors = floors
        self.seed = seed
        self.action()

    def action(self):
        stack = [[self.seed]]
        for i in range(self.floors):  # 限制爬取范围在设定的层数范围内
            stack.append([])
        storage = {}
        r = re.compile(r'href=[\'"]?(/item[^\'" >]+)')
        used = set()  # 设置集合存放爬取过的url
        while len(stack[0]) > 0 or self.count != 0:  # 种子队列不为空或者层数不为零
            try:
                url = stack[self.count].pop(-1)
                print(url + " " + str(self.count))  # 打印当前链接和层数
                html = ur.urlopen('https://baike.baidu.com' + url).read().decode('utf-8')
                storage[url] = html
                used.add(url)  # 将爬取过的URL放入集合中
                new_urls = r.findall(html)
                if self.count < self.floors:
                    for new_url in set(new_urls):
                        if new_url not in used and new_url not in stack:  # 判断新链接网址中的包含的链接是否为重复的
                            stack[self.count + 1].append(new_url)  # 将爬取的URL存入到队列中相应层数的列表
                    self.count += 1
                else:
                    if len(stack[self.count]) == 0:
                        self.count -= 1
            except Exception as e:
                print(url)
                print(e)


In [7]:
from urllib import request as ur
import re
count = 0  # 层数
floors = 2  # 限制爬取的层数
seed = '/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB'  # 这是网络爬虫词条
a = Reptile(count, floors, seed)

这里对结果进行分析。