## 什么是网络爬虫
1. 定义
    1. 网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区之间更经常地称为网页追随者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
    2. 由于专门用于信息检索的“机器人程序”像蜘蛛一样在网络之间爬来爬去，因此，搜索引擎的“机器人”程序就被称为“蜘蛛”程序
2. 历史
    1. 1990年，蒙特利尔大学学生Alan Emtage发明的Archie，用于搜索分散的FTP主机上的资源。
    2. 1993年，内华达大学受启发开发了类似工具，但是开始支持网页搜索。
    3. Martin Koster于1993年10月创建了ALIWEB，它是Archie的HTTP版本。ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在我们熟知的Yahoo。
    4. Yahoo, Google, Baidu, Bing...

3. 使用[Python](https://www.python.org/)写爬虫的好处
    1. 上手容易！！！
    2. 免费开源，使用不受限制。
    3. 解释执行，跨平台不受限制。
    4. 面向对象
    5. 框架和库支持丰富，有大量的历史积累。
    




## Python开发环境搭建和简介
1. Python简介
    1. 官网：https://www.python.org/
    2. 作者：Guido van Rossum
    3. 名字来源：Monty Python's Flying Circus（和蟒蛇无关啊！）
    4. 作者为什么发明Python：平衡C和Shell
    5. 版本选择：2.7和3.5，更低版本不推荐使用。2.x和3.x的区别暂时不用关心。
2. Python环境搭建
    1. Windows可去官网下载安装包：2.7.12或3.5.2
    2. Mac
    3. 系统自带
    4. 通过homebrew和pyenv安装并维护多个Python版本，参考链接。
    5. Linux系统自带，或参考上面链接使用pyenv安装并维护多个Python版本
    6. 使用pip安装第三方包，命令为pip install package（注：Mac下需要打开sudo，参考链接。）
    7. 新版本Mac系统可能因为SIP，需要在命令行后增加--user参数
    8. 遇到GFW可以使用国内源（推荐豆瓣），命令行为pip install package -i --trusted-host http://pypi.douban.com/simple/

## HTTP简介
1. HTTP = HyperText Transfer Protocol
2. URI = Uniform Resource Identifier
3. URL = Uniform Resource Locator
4. URI和URL的区别：URI强调的是资源，而URL强调的是资源的位置。

## 常用请求类型
1. OPTIONS: 返回服务器针对特定资源所支持的http请求方法。
2. HEAD: 向服务器索要与get请求相一致的响应，只不过响应体将不会被返回。
3. GET: 向特定资源发出请求 
4. PUT: 向指定资源位置上传其最新内容
5. POST: 向指定资源提交数据进行处理请求
6. DELETE: 请求服务器删除指定URI所标识的资源
7. PATCH: 用来将局部修改应用于某一资源

## HTML (Hypertext Markup Language)
1. 推荐教程：[HTML](http://www.runoob.co/html/html-tutorial.html)
2. HTML不是编程语言，而是一种标记语言。即HTML使用标记标签来描述网页。
3. 标签和元素
4. DOM文档模型

```html
<标签 属性="属性的值"></标签>

比如：
<a href="www.baidu.com"><a>
<p></p>
<h1></h1>
....

DOM文档模型：
文本<body>
    - 段落1 <p>...</p>
      - 列表 <ul>...</ul>
      - 图片 <img src=""> </img>
      - 文本
    -段落2
      - 列表
      - ...
```

## XML (eXtensible Markup Language)
1. 推荐教程：[XML](http://www.runoob.com/xml/xml-tutorial.html)
2. 树结构
![tree](http://p1.bqimg.com/567571/f2024edea71ebef5.png)


```html
ROOT
    - E1
      - G1
      - G1 -> 属性/值
    - E2
    - E3
    
<node attr=value>...</node>
[ROOT][E1][G1].text
[ROOT][E2][G1].text
```

## Json (JavaScript Object Notation)
1. 推荐教程：[Json](http://www.runoob.com/json/json-tutorial.html)
2. 语法类似XML，但是更小、更快、更容易解析。对JavaScript特别友好。

## MySQL
1. Windows:
    1. [下载](http://dev.mysql.com/downloads/mysql/)免费社区版mysql server。
    2. 客户端操作可以使用[MySQLWorkbench](http://www.mysql.com/products/workbench/)。
2. Linux（以debian为例）
    
    1.apt-get install mysql-server mysql-client    
    2.登陆mysql: mysql -p hostname -u username -p，然后使用use dbname指定需要操作的数据库    
    3.安装[phpmyadmin](https://www.phpmyadmin.net/)方便在浏览器操作数据库


## MySQL常用命令
1. show databases: 显示当前服务器上的数据库
2. create database dbname: 创建一个新数据库
3. use dbname: 使用指定的数据库
4. show tables: 显示当前数据库的所有表
5. desc tbname: 显示表结构

## SQLite
1. Windows直接去[下载](http://www.sqlite.org/download.html)可执行文件即可使用，Linux下apt-get install sqlite3即可完成安装。
2. 相比mysql更加轻便好用。
3. 大数据情况下效率变差，适合单机小程序。


## 爬虫框架介绍
### 工作流程
1. 将种子URL放入队列
2. 从队列中获取URL，抓取内容。
3. 解析抓取内容，将需要进一步抓取的URL放入工作队列，存储解析后的内容

## 抓取策略
1. 深度优先
2. 广度优先
3. PageRank
4. 大站优先策略

## 如何去重
1. Hash表
2. bloom过滤器

```html
news.sina.com.cn

1.sina.com.cn
2.sina.com.cn

news.sina.com.cn
    - 专题1
      - news11
      - news12
      - news13
    - 专题2
      - news21
      - news22
      - news23
DFS（深度）:
working
专题1
11
12
13

working
专题2
21
22
23

BFS（广度）：
working
专题1
专题2

11
12
13

21
22
23

PageRank:
给网页打值
```

## Robots规范与原则
### Robots规范
1. Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，而不是作为搜索引擎之间互相限制和不正当竞争的工具。
2. 详情：http://baike.so.com/doc/4854891-5072162.html

## 爬虫质量标准
1. 分布式
2. 可伸缩性
3. 性能和有效性
4. 质量
5. 新鲜性
6. 更新
7. 可扩展性

### 扯得远点
1. Map/Reduce背后


## 例子1
目标：获取某一个省的邮编区号
目标网站： www.ip138.com/post/

In [13]:
import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
    def __init__(self, provinces):
        self.provinces = provinces

    # 处理标签开始
    def start_element(self, name, attrs):
        if name != 'map':
            name = attrs['title']
            number = attrs['href']
            self.provinces.append((name, number))

    # 处理标签结束
    def end_element(self, name):
        pass

    # 文本处理
    def char_data(self, text):
        pass
    
def get_province_entry(url):
    # 获取文本，并用gb2312解码
    content = requests.get(url).content.decode('gb2312')
    # 确定要查找字符串的开始结束位置，并用切片获取内容。
    start = content.find('<map name=\"map_86\" id=\"map_86\">')
    end = content.find('</map>')
    content = content[start:end + len('</map>')].strip().encode('utf8')
    provinces = []
    # 生成Sax处理器
    handler = DefaultSaxHandler(provinces)
    # 初始化分析器
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data
    # 解析数据
    parser.Parse(content)
    # 结果字典为每一页的入口代码
    return provinces

provinces = get_province_entry('http://www.ip138.com/post')
for i in provinces:
    print(i[0],i[1])


新疆 /83/
西藏 /85/
青海 /81/
甘肃 /73/
四川 /61/
云南 /65/
宁夏 /75/
内蒙古 /01/
黑龙江 /15/
吉林 /13/
辽宁 /11/
河北 /50/
北京 /10/
天津 /30/
陕西 /71/
山西 /03/
山东 /25/
河南 /45/
重庆 /40/
湖北 /43/
安徽 /23/
江苏 /21/
上海 /20/
贵州 /55/
广西 /53/
湖南 /41/
江西 /33/
浙江 /31/
福建 /35/
广东 /51/
海南 /57/
台湾 /taiwang/
澳门 /aomen/
香港 /xianggang/


## 例子2
抓取股票信息

In [14]:
import requests
import threading

def display_info(code):
    url = 'http://hq.sinajs.cn/list=' + code
    response = requests.get(url).text
    print(response)
    
def single_thread(codes):
    for code in codes:
        code = code.strip()
        display_info(code)

def multi_thread(tasks):
    # 用列表推导生成线程，注意codes后面的‘，’!
    threads = [threading.Thread(target = single_thread, args = (codes,)) for codes in tasks]
    # 启动线程
    for t in threads:
        t.start()
    # 等待线程结束
    for t in threads:
        t.join()

# 注意main函数的形式
if __name__ == '__main__':
    codes = ['sh600001', 'sh600002', 'sh600003', 'sh600004', 'sh600005', 'sh600006']
    # 计算每个线程要做多少工作
    thread_len = int(len(codes) / 4)
    t1 = codes[0: thread_len]
    t2 = codes[thread_len: thread_len * 2]
    t3 = codes[thread_len * 2: thread_len * 3]
    t4 = codes[thread_len * 3:]

    # 多线程启动
    multi_thread([t1, t2, t3, t4])

var hq_str_sh600001="";

var hq_str_sh600002="";

var hq_str_sh600003="";

var hq_str_sh600004="白云机场,14.480,14.480,14.330,14.510,14.320,14.320,14.330,4926788,70978480.000,35700,14.320,30700,14.310,60300,14.300,52400,14.290,20400,14.280,4200,14.330,20300,14.340,14100,14.350,2500,14.360,5702,14.370,2017-02-17,15:00:00,00";

var hq_str_sh600005="武钢股份,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,2017-02-17,09:14:18,00";

var hq_str_sh600006="东风汽车,7.000,7.020,7.160,7.350,6.940,7.150,7.160,34238293,243779395.000,41100,7.150,160200,7.140,81600,7.130,289391,7.120,81200,7.110,150971,7.160,235900,7.170,235000,7.180,228890,7.190,403400,7.200,2017-02-17,15:00:00,00";

