# 爬虫（Spider）
## 浙江理工大学 沈炜

## 什么是爬虫
如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，
沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；
从技术层面来说就是 通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频） 爬到本地，进而提取自己需要的数据，存放起来使用
<img src='1.png'>

## 爬虫的原理
### 用户获取网络数据的方式：
- 方式1：浏览器提交请求--->下载网页代码和数据--->解析成页面或展示
- <font color=red>方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中</font>

<img src='2.png'><br>
### 爬虫要做的就是方式2。

## 请求(Request)
- <b>请求方式：</b>
- 1.<font color=red>OPTIONS</font>：允许客户端查看服务器的性能。
- 2.<font color=red>GET</font>：向特定的资源发出请求。<font color=red>查</font>
- 3.<font color=red>POST</font>：向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。数据被包含在请求体中。POST请求可能会导致新的资源的创建和/或已有资源的修改。<font color=red>改</font>
- 4.<font color=red>PUT</font>：向指定资源位置上传其最新内容。<font color=red>增</font>
- 5.<font color=red>DELETE</font>：请求服务器删除Request-URI所标识的资源。<font color=red>删</font>

<img src='4.png'>

- <b>请求URL：全球统一资源定位符，用来定义互联网上一个唯一的资源</b>

## 响应(Response)

## 请求工具(Postman)
<img src='3.png'>

## 关于 XPath
- XPath 是 XML路径语言（XML Path Language），支持 HTML，是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中查找节点的能力。Xpath 可以通过元素和属性进行导航，相比于<font color=red>正则表达式</font>，它同样可以在XML文档中查询信息，甚至使用起来更加简单高效。
- python 具有一些比较流行的解析库,例如 lxml , 使用的是 XPath 语法，是大众普遍认为的网页文本信息提取的爬虫利器之一。

- 在 XPath 中，有七种类型的节点：元素（element）、属性（attribute）、文本（text)、命名空间(namespace)、处理指令(processing-instruction)、注释(commnt)以及文档（根）节点(root)。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

- 对于一个 XML 文件( HTML 文件可以通过 etree.HTML()方法 转为这种格式） ，他的 DOM 树一般看起来会是下面这样的：
<img src='5.png'>

In [None]:
<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author> 
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

<img src='6.png'>

### XPath 的使用
- 1.引用
提前确保已经安装好 lxml 库，通过 from lxml import etree 引用
- 2.解析文本方式 
常用 HTML()方式 解析 html文件，lxml.etree 也提供了 fromstring() 解析字符串，XML()方法 解析XML对象 ，parse()方法 解析文件类型对象。
- 3.XPath 在 python 中的使用 
在 Python 爬虫 中通过 lxml 库来使用 XPath 定位网页标签的数据。

In [1]:
import requests
from lxml import etree
url = 'your url'
content = requests.get(url).content #获取 url 网页源码
html = etree.HTML(content)#将网页源码转换为 XPath 可以解析的格式
element =html.xpath('//*[class='class']/div/text()') #选取对应的结点
print(element)

SyntaxError: invalid syntax (<ipython-input-1-62c2d771f4eb>, line 6)

## 爬虫示例

In [23]:
import requests  # 关键库，用于发送Http请求    # pip install requests
from lxml import etree # xml解析包，ElementTree  # pip install lxml
import time
import random
import re
import csv
import ssl

In [20]:
class Spider:
    def __init__(self, name):
        self.name = name
        self.url = 'https://openstd.samr.gov.cn/bzgk/gb/std_list?p.p1=0&p.p2=' + name + '&p.p90=circulation_date&p.p91=desc'
        print(self.url)
        self.headers = [
            "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
            "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
            "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
            'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
            'Opera/9.25 (Windows NT 5.1; U; en)',
            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
            'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
            'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
            'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
            "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
            "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "
        ]

    def get_each_link(self):
        '''获得首页链接，返回列表'''
        index = 1 #翻页
        link_list = []  #储存每一个链接的列表
        while True:
            try:
                headers = {
                    "User-Agent" : random.choice(self.headers)    # 随机选择请求头，模拟不同的浏览器
                }
                session = requests.session()
                session.verify=False
                r = session.get(self.url, headers=headers)    # 请求数据,返回给Response对象
                # r = requests.get(self.url, headers=headers)    # 请求数据,返回给Response对象
                r.encoding = r.apparent_encoding    # 设置编码
                #print(r.status_code)
                html = r.text
                selector = etree.HTML(html)    #将网页源码转换为 XPath 可以解析的格式
                Ids = selector.xpath('//tr/td[@style="text-align: left;"]/a/@onclick')  #选择结点
                print(Ids)

                #判断是否获取结束
                if len(Ids) == 0:
                    break

                for each_id in Ids:
                    each_id = each_id.replace('showInfo(\'', '').replace('\');', '')
                    # link = 'http://www.gb688.cn/bzgk/gb/newGbInfo?hcno=' + each_id
                    link = 'https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=' + each_id
                    
                    print(link)
                    link_list.append(link)
                index += 1
                if index > 1:  # 只请求1页
                    break
                # self.url = 'http://www.gb688.cn/bzgk/gb/std_list?r=0.40987171406906286&page=' + str(index) + '&pageSize=10&p.p1=0&p.p2=' + self.name + '&p.p90=circulation_date&p.p91=desc'
                self.url = 'https://openstd.samr.gov.cn/bzgk/gb/std_list?r=0.40987171406906286&page=' + str(index) + '&pageSize=10&p.p1=0&p.p2=' + self.name + '&p.p90=circulation_date&p.p91=desc'
                print(self.url)
                time.sleep(random.random()+random.randint(0,1))
            except  Exception as e:
                print(e)
                break
        return link_list

    def get_detial_from_linkList(self, link_list):
        '''从列表的链接下载文件内容'''
        path = self.name + '.csv'
        i = 0 #序号
        #写入表头
        info = ['序号','标准编号','标准名称','英文名称','状态','中国标准分类号（CCS）','国际标准分类号（ICS）','发布日期','实施日期','主管部门','归口单位','发布单位','备注']
        with open(path, 'a') as f:
            csv_writer = csv.writer(f)
            csv_writer.writerow(info)
        for link in link_list:
            try:
                headers = {
                    "User-Agent" : random.choice(self.headers)
                }
                r = requests.get(link, headers=headers)
                r.encoding = r.apparent_encoding
                html = r.text
                selector = etree.HTML(html)
                print(selector.xpath('//td/h1/text()'))
                number = selector.xpath('//td/h1/text()')[0].strip().replace('标准号：','')
                name = selector.xpath('//td/b/text()')[0].strip()
                E_name = re.findall('<td>英文标准名称：(.+)</td>', html)[0] #这里使用正则表达式，因为xpath莫名其妙使用不了
                status = selector.xpath('//td[@align="left"]/span[@class]/text()')[0].strip()
                ccs = selector.xpath('//div[@class="col-xs-12 col-md-4 content"]/text()')[0].strip() #中国标准分类号（CCS）
                ics = selector.xpath('//div[@class="col-xs-12 col-md-4 content"]/text()')[1].strip() #国际标准分类号（ICS）
                release_date = selector.xpath('//div[@class="col-xs-12 col-md-4 content"]/text()')[2].strip() #发布日期
                implement_date = selector.xpath('//div[@class="col-xs-12 col-md-4 content"]/text()')[3].strip() #实施日期
                department = selector.xpath('//div[@class="col-xs-12 col-md-4 content"]/text()')[4].strip() #主管部门
                unit = selector.xpath('//div[@class="col-xs-12 col-md-4 content"]/text()')[5].strip() #归口单位
                f_unit = selector.xpath('//div[@class="col-xs-12 col-md-10 content"]/text()')[0].strip() #发布单位
                other = selector.xpath('//div[@class="col-xs-12 col-md-10 content"]/text()')[1].strip() #备注

                i += 1
                info = []
                info.append(i)
                info.append(number)
                info.append(name)
                info.append(E_name)
                info.append(status)
                info.append(ccs)
                info.append(ics)
                info.append(release_date)
                info.append(implement_date)
                info.append(department)
                info.append(unit)
                info.append(f_unit)
                info.append(other)

                #用None替换不存在的项目
                for j in range(len(info)):
                    if len(info) == 0:
                        info = 'None'

                with open(path, 'a') as f:
                    csv_writer = csv.writer(f)
                    csv_writer.writerow(info)

            except Exception as e:
                print('Downloa Error:', link, e)

In [21]:
def main():

    print('开始下载有关‘安全’的国家标准')
    scrapy = Spider('安全')

    print('正在获取链接...')
    link_list = scrapy.get_each_link()
    print('获取完毕共%d个' % len(link_list))
    print('正在下载...')

    #link_list = ['http://www.gb688.cn/bzgk/gb/newGbInfo?hcno=E6CD13ACF8E3B3BEFAA16852499676D0']
    scrapy.get_detial_from_linkList(link_list)

    print('有关‘安全’的国家标准下载完毕')

if __name__ == '__main__':
    main()

开始下载有关‘安全’的国家标准
https://openstd.samr.gov.cn/bzgk/gb/std_list?p.p1=0&p.p2=安全&p.p90=circulation_date&p.p91=desc
正在获取链接...
HTTPSConnectionPool(host='openstd.samr.gov.cn', port=443): Max retries exceeded with url: /bzgk/gb/std_list?p.p1=0&p.p2=%E5%AE%89%E5%85%A8&p.p90=circulation_date&p.p91=desc (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)')))
获取完毕共0个
正在下载...
有关‘安全’的国家标准下载完毕


In [9]:
!type 安全.csv

序号,标准编号,标准名称,英文名称,状态,中国标准分类号（CCS）,国际标准分类号（ICS）,发布日期,实施日期,主管部门,归口单位,发布单位,备注

1,GB/T 3883.202-2019,手持式、可移式电动工具和园林工具的安全 第202部分：手持式螺丝刀和冲击扳手的专用要求,"Safety of motor-operated hand-held, transportable and garden tools—Part 202: Particular requirements for hand-held screwdrivers and impact wrenches",即将实施,K64,25.140.20,2019-10-18,2020-05-01,中国电器工业协会,全国电动工具标准化技术委员会,国家市场监督管理总局、中国国家标准化管理委员会,

2,GB/T 3883.204-2019,手持式、可移式电动工具和园林工具的安全 第204部分：手持式非盘式砂光机和抛光机的专用要求,"Safety of motor-operated hand-held, transportable and garden tools—Part 204: Particular requirements for hand-held sanders and polishers other than disc type",即将实施,K64,25.140.20,2019-10-18,2020-05-01,中国电器工业协会,全国电动工具标准化技术委员会,国家市场监督管理总局、中国国家标准化管理委员会,

3,GB/T 3883.205-2019,手持式、可移式电动工具和园林工具的安全 第205部分：手持式圆锯的专用要求,"Safety of motor-operated hand-held, transportable and garden tools—Part 205: Particular requirements for hand-held circular saws",即将实施,K64,25.140.20,2019-10-18,2020-05-01,中国电器工业协会,全国电动工具标准化技术委员会,国家市场监督管理总局、中国国家标准化管理委员会,

4,GB/T 3883.210-201

## 实验题
- 请你写一个爬虫，能够爬取百度图片，搜索python后显示的图片的网址（有可能的话，保存一下图片缩略图）。