# 网络爬虫的原理

* 通用爬虫，没有过滤的过程
* 聚焦爬虫，拥有过滤的过程

# 正则表达式

* 什么是正则表达式
* 原子
* 元字符
* 模式修正符
* 贪婪模式与懒惰模式
* 正则表达式函数
* 常见正则实例
* 简单的爬虫
* 从网页中提取初qq群
* 作业：提取出版社信息并写入文件中

## 什么是正则表达式
世界上信息非常多，而我们关注的信息有限。加入我们希望只提取初关注的数据，此时可以通过一些表达式进行提取，正则表达式就是其中一种进行数据筛选的表达式。

## 原子
原子是正则表达式中最基本的组成单位，每个正则表达式中至少要包含一个原子。常见的原子类型有：
   * 普通字符作为原子
   * 非打印字符作为原子
   * 通用字符作为原子
   * 原子表

> 接下来进行实战讲解
https://www.bilibili.com/video/av22571713/?p=13

In [1]:
import re

### 普通字符作为原子

In [2]:
pat = "yue"
string = "http://yum.iqianyue.com"
rst1 = re.search(pat, string)

In [3]:
print(rst1)

<re.Match object; span=(16, 19), match='yue'>


In [4]:
string2 = "abcssds"
rst2 = re.search(pat, string2)
print(rst2)

None


### 非打印字符作为原子

In [5]:
pat2 = '\n'
string3 = """jkhesljklkjl
lkjlkjlkjlj"""
rst3 = re.search(pat2, string3)
print(rst3)

<re.Match object; span=(12, 13), match='\n'>


### 通用字符作为原子

   * \w 表示通用字符，匹配任意的字母、数字或者下划线；
   * \d 表示十进制数，匹配任意一个十进制数；
   * \s 表示空白字符，匹配任意一个空白字符；
   * \W 表示匹配与w相反的东西，即匹配除任意一个字母、数字或下划线的任意一个字符；
   * \D 表示匹配除十进制以外的任意一个字符；
   * \s 除了空白字符意外的任意一个字符。

In [6]:
pat3 = '\w\dpython\w'
string4 = 'sldjflsdjflsjkf56464654646python_adf/'

In [7]:
rst4 = re.search(pat3, string4)
print(rst4)

<re.Match object; span=(24, 33), match='46python_'>


### 原子表
> 原子表通常用[]括起来,定义一组地位平等的原子

In [8]:
pat4 = 'pyth[jsz]n'
string1 = 'sjdlfjslkdjflksjfpythjnsss'

In [9]:
rst5 = re.search(pat4, string1)
print(rst5)

<re.Match object; span=(17, 23), match='pythjn'>


In [10]:
string1 = 'sjdlfjslkdjflksjfpythjsnsss'
rst5 = re.search(pat4, string1)
print(rst5)

None


## 元字符
> 所谓元字符，就是正则表达式中具有一些特殊含义的字符，比如重复N次前面的字符等。

   * ’ . ‘ 能够匹配任意的字符；
   * ’ ^ ‘ 匹配待搜索字符串的开始位置；
   * ‘ $ ’ 主要用来匹配字符串结束的位置；
   * ‘ * ’ 匹配0次、1次或者多次前面的原子；
   * ‘ ? ’ 匹配0次或者1次前面的原子；
   * ‘ + ’ 匹配1次或者多次前面的原子；
   * ‘ {数字} ’ 代表前面的原子出现了’数字‘次，数字后面跟‘ , ’表示至少出现‘数字’次
   * ‘ {数字1，数字2} ’ 表示原子至少出现了‘数字1’次，最多出现‘数字2’次；
   * ‘ | ’ 模式选择符、表示‘或’
   * ‘ （） ’ 模式单元，通常用于提取某一个内容

In [11]:
pat = ".python..."
string = 'sldkfjslddjfpythonlsdkjflsjkdf'
rst = re.search(pat, string)
print(rst)

<re.Match object; span=(11, 21), match='fpythonlsd'>


In [12]:
pat = 'python|php'
string = 'abcdphpt5646pythonlkjls'
rst = re.search(pat, string)
print(rst)

<re.Match object; span=(4, 7), match='php'>


## 模式修正符
> 所谓模式修正符，即可以在不改变正则表达式的情况下，通过模式修正符改变正则表达式的含义，从而实现一些匹配结果的调整等功能。

   1. ”I“：匹配时忽略大小写；
   2. ”M“：多行匹配；
   3. ”L“：本地化识别匹配；
   4. ”U“：根据Unicode字符解析字符；
   5. ”S“：让‘ . ’匹配换行符；

In [13]:
pat1 = 'python'
pat2 = 'python'
string = 'lsdfjklsjdfklsjPythonsldkfjls'
rst1 = re.search(pat1, string)
print(rst1)

None


In [14]:
rst2 = re.search(pat2, string, re.I)
print(rst2)

<re.Match object; span=(15, 21), match='Python'>


## 贪婪模式与懒惰模式
> 贪婪模式的核心点就是尽可能多的匹配，而懒惰模式的核心点就是尽可能少的匹配

In [15]:
pat1 = 'p.*y'  # 贪婪模式
pat2 = 'p.*?y'  # 懒惰模式
string1 = 'abcdsldkjflsdjpythonsdfsdfpy'
rst1 = re.search(pat1, string1)
print(rst1)
# 尽可能多的匹配结果

<re.Match object; span=(14, 28), match='pythonsdfsdfpy'>


In [16]:
rst2 = re.search(pat2, string1)
print(rst2)
# 更精确的定位

<re.Match object; span=(14, 16), match='py'>


## 正则表达式函数
> 正则表示函数有re.match()函数、re.search()函数、全局匹配函数、re.sub()函数

In [17]:
rst=re.match(pat1,string)
print(rst)

None


In [18]:
string = 'phsldkjflskjdflysdlfkj'
rst = re.match(pat1, string)
print(rst)

<re.Match object; span=(0, 16), match='phsldkjflskjdfly'>


In [19]:
# 全局匹配函数
re.compile(pat1).findall(string)

['phsldkjflskjdfly']

## 常见正则实例

In [20]:
# 匹配.com或.cn网址

pat = '[a-zA-Z]+://[^\s]*[.com|.cn]'
string = '<a href="http://www.baidu.com">sjdlfjsl</a>'

rst = re.compile(pat).findall(string)
print(rst)

['http://www.baidu.com']


## 简单的爬虫
> 如何爬去CSDN学院，并提取出qq群

In [21]:
import urllib.request

pat = '"400-(.*?)"'
data = urllib.request.urlopen(
    'https://edu.csdn.net/course/detail/24693').read()
rst = re.compile(pat).findall(str(data))
print(rst)

[]


## 作业
> 将 https://read.douban.com/provider/all 中所有的出版社提取出来

In [22]:
pat = '<div class="name">(.*?)</div>'
data = urllib.request.urlopen('https://read.douban.com/provider/all').read()
data = data.decode(encoding='utf-8')
rst = re.compile(pat).findall(str(data))

# Urllib实战

## 作业讲解

In [23]:
pat = '<div class="name">(.*?)</div>'
data = urllib.request.urlopen('https://read.douban.com/provider/all').read()
data = data.decode(encoding='utf-8')
rst = re.compile(pat).findall(str(data))
file = open('abc.txt','w')
for i in range(len(rst)):
    file.write(rst[i]+'\n')
    file.close

## 学习方法

## urllib基础
   * **urlretrieve()**
   * **urlcleanup()**
   * **info()**
   * **getcode()**
   * **geturl()**

In [24]:
import urllib.request

url = 'http://www.hellobi.com'
urllib.request.urlretrieve(
    url, filename='/home/aaron/Documents/pyobj/数据分析与挖掘/1.html')

('/home/aaron/Documents/pyobj/数据分析与挖掘/1.html',
 <http.client.HTTPMessage at 0x7f92c31f4d30>)

In [25]:
# 清楚缓存 -> urlcleanup()

urllib.request.urlcleanup()

In [26]:
# info() -> 展现一些环境信息

file = urllib.request.urlopen(url)
file.info()
file

<http.client.HTTPResponse at 0x7f92d806eda0>

In [27]:
# 当前网页状态码 -> getcode()

file.getcode()

200

In [28]:
# 当前爬取网页的地址 -> geturl()

file.geturl()

'https://www.hellobi.com/'

## 超时设置

由于网络速度或对方服务器的问题，在爬取一个网页的时候都需要时间。访问一个网页，如果该网页长时间未响应，系统就会判断该网页超时，即无法打开该网页。  
有时需要根据自己的需要，来设置超时的时间值，比如，有些网站反应快，在设置时希望2秒无响应则判断为超时（timeout=2）。

In [29]:
url = 'http://www.hellobi.com'
urllib.request.urlopen(url, timeout=1)

<http.client.HTTPResponse at 0x7f92c323ecc0>

In [30]:
for i in range(0, 10):
    try:
        file = urllib.request.urlopen('http://yum.iqianyue.com', timeout=1)
        data = file.read()
        print(len(data))
    except Exception as e:
        print('网址出现异常：'+str(e))

14165
14165
14165
14165
14165
14165
14165
14165
14165
14165


## 自动模拟HTTP请求  ！！！

客户端如果要与服务器端进行通信，需要通过http请求进行，http请求有很多种，常用一般为get与post两种。

In [31]:
import urllib.request

In [32]:
keywd = 'python'

# 如果时中文的时要做如下处理：
# keywd = urllib.request.quote(keywd)

url = 'http://www.baidu.com/s?wd='+keywd

req = urllib.request.Request(url)

data = urllib.request.urlopen(req).read()

fh = open('2.html', 'wb')
fh.write(data)
fh.close()

In [33]:
# 处理post请求

import urllib.request
import urllib.parse

url = 'https://www.iqianyue.com/mypost'
mydata = urllib.parse.urlencode({
    'name': 'abc',
    'pass': 'abcd123'
}).encode('utf-8')

req = urllib.request.Request(url, mydata)
data = urllib.request.urlopen(req).read()

fh = open('3.html', 'wb')
fh.write(data)
fh.close()

## 爬虫的异常处理

   1. **异常处理概述**
   2. **常见状态码及含义**
   3. **URLError与HTTPError**
   4. **异常处理实战**

### 异常处理概述
> 爬虫在运行的过程中，很多时候都会遇到异常。如果没有异常处理，爬虫遇到异常时就会直接崩溃停止运行，下次再次运行时，又会重新开始，所以，要开发一个具有顽强生命力的爬虫，必须要进行异常处理。

### 常见状态码及含义  
   * **301 Moved Permanently**：*重新定向到新的URL，永久性*；
   * **302 Found：重新定向到临时的URL**，*非永久性*；
   * **304 Not Modified**：*请求的资源未更新*；
   * **400 Bad Request**：*非法请求*；
   * **401 Unauthorized**：*请求未经授权*；
   * **403 Forbidden**：*禁止访问*；
   * **404 Not Found**：*没有找到对应页面*；
   * **500 Internal Server Error**：*服务器内部出现错误*；
   * **501 Not Implemented**：*服务器不支持实现请求所需要的功能*；

### URLError与HTTPError

> 两者都是异常处理的类，HTTPError时URLError的子类，HTTPError有异常状态码与异常原因，URLError没有异常状态码，所以，在处理的时候不能使用URLError直接代替HTTPError。如果要替代，必须要判断是否有状态码属性。

### 异常处理实战

URLError产生的情况：
   1. 连不上服务器
   2. 远程URL不存在
   3. 本地没有网络
   4. 触发了对应的HTTPError子类

In [34]:
import urllib.error
import urllib.request

try:
    urllib.request.urlopen('http://blog.csdn.net')
except urllib.error.URLError as e:
    if hasattr(e, 'code'):  # 因为URLError没有状态码，所以需要在此时进行一定的处理，处理后就能够代替HTTPError。
        print(e.code)
    if hasattr(e, '%reason'):
        print(e.reason)

# except的写法是固定的，可以复用。

## 爬虫的浏览器伪装技术

   1. **浏览器伪装技术原理**
   2. **浏览器伪装技术实战**

### 浏览器伪装技术原理
> 浏览器伪装一般通过报头进行

In [35]:
import urllib.request as ure

url = 'https://blog.csdn.net/weiwei_pig/article/details/52123738'

# 伪装浏览器->设置报头信息
hearders = ('User-Agent', 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36')

opener = ure.build_opener()
opener.addheaders = [hearders]
data = opener.open(url).read()

fh = open('4.html', 'wb')
fh.write(data)
fh.close()

### 浏览器伪装技术实战

由于urlopen()对于一些HTTP的高级功能不支持，所以，要修改报头，可以使用urllib.request.build_opener()进行，也可以使用urllib.request.Request()下的add_header()实现浏览器的模拟。

## 新闻爬虫实战

   1. **新闻爬虫需求实现思路**
   2. **新闻爬虫编写实战**
   3. **作业**

### 新闻爬虫需求及实现思路
> 需求：将新浪新闻首页（http://news.sina.com.cn/） 所有新闻都爬到本地  
> 思路：先爬首页，通过正则获取所有新闻链接，然后依次爬各新闻，并存储到本地

In [49]:
# 2019.06.05 16:13

import urllib.request as ure
import urllib.error
import re

url = 'http://news.sina.com.cn/'
data = ure.urlopen(url).read()
data1 = data.decode('utf-8')  # 如果出现编码错误可以增加一个参宿 -> 'ignore'
pat = 'href="(http://slide.news.sina.com.cn/.*?)"'  # 设置正则表达式
all_url = re.compile(pat).findall(data1)
for i in range(len(all_url)):
    try:
        print('第'+str(i)+'次爬取')
        this_url = all_url[i]
        file = './sinanews/'+str(i)+'.html'
        ure.urlretrieve(this_url, file)
        print('------爬取成功！-----')
    except urllib.error.URLError as e:
        if hasattr(e, 'code'):  # 因为URLError没有状态码，所以需要在此时进行一定的处理，处理后就能够代替HTTPError。
            print(e.code)
        if hasattr(e, '%reason'):
            print(e.reason)

第0次爬取
------爬取成功！-----
第1次爬取
------爬取成功！-----
第2次爬取
------爬取成功！-----
第3次爬取
------爬取成功！-----
第4次爬取
------爬取成功！-----
第5次爬取
------爬取成功！-----
第6次爬取
------爬取成功！-----
第7次爬取
------爬取成功！-----
第8次爬取
------爬取成功！-----
第9次爬取
------爬取成功！-----
第10次爬取
------爬取成功！-----
第11次爬取
------爬取成功！-----
第12次爬取
------爬取成功！-----
第13次爬取
------爬取成功！-----
第14次爬取
------爬取成功！-----
第15次爬取
------爬取成功！-----
第16次爬取
------爬取成功！-----
第17次爬取
------爬取成功！-----
第18次爬取
------爬取成功！-----
第19次爬取
------爬取成功！-----
第20次爬取
------爬取成功！-----
第21次爬取
------爬取成功！-----
第22次爬取
------爬取成功！-----
第23次爬取
------爬取成功！-----
第24次爬取
------爬取成功！-----
第25次爬取
------爬取成功！-----
第26次爬取
------爬取成功！-----
第27次爬取
------爬取成功！-----
第28次爬取
------爬取成功！-----
第29次爬取
------爬取成功！-----
第30次爬取
------爬取成功！-----


### 作业
爬取CSDN博客http://blog.csdn.net/　首页显示的所有文章，每个文章内容单独生产一个本地网页存到本地中。
> 难点：浏览器伪装，循环爬各文章  
> 思路：先爬首页，然后通过正则筛选出所有文章url，然后通过循环分别爬去这些url到本地

https://www.bilibili.com/video/av22571713/?p=21 看到此处！

In [51]:
import urllib.request as ure
import urllib.error
import re

url = 'http://blog.csdn.net'

hearders = ('User-Agent', 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36')

data = ure.urlopen(url).read()
data = data.decode('utf-8')
pat = 'href="(https://blog.csdn.net/.*?)"'
all_url = re.compile(pat).findall(data)
for i in range(len(all_url)):
    try:
        print('第'+str(i)+'次爬取')
        this_url = all_url[i]
        file = './csdnblog/'+str(i)+'.html'
        ure.urlretrieve(this_url, file)
        print('------爬取成功！-----')
    except urllib.error.URLError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, '%reason'):
            print(e.reason)

第0次爬取
------爬取成功！-----
第1次爬取
------爬取成功！-----
第2次爬取
------爬取成功！-----
第3次爬取
------爬取成功！-----
第4次爬取
------爬取成功！-----
第5次爬取
------爬取成功！-----
第6次爬取
------爬取成功！-----
第7次爬取
------爬取成功！-----
第8次爬取
------爬取成功！-----
第9次爬取
------爬取成功！-----
第10次爬取
------爬取成功！-----
第11次爬取
------爬取成功！-----
第12次爬取
------爬取成功！-----
第13次爬取
------爬取成功！-----
第14次爬取
------爬取成功！-----
第15次爬取
------爬取成功！-----
第16次爬取
------爬取成功！-----
第17次爬取
------爬取成功！-----
第18次爬取
------爬取成功！-----
第19次爬取
------爬取成功！-----
第20次爬取
------爬取成功！-----
第21次爬取
------爬取成功！-----
第22次爬取
------爬取成功！-----
第23次爬取
------爬取成功！-----
第24次爬取
------爬取成功！-----
第25次爬取
------爬取成功！-----
第26次爬取
------爬取成功！-----
第27次爬取
------爬取成功！-----
第28次爬取
------爬取成功！-----
第29次爬取
------爬取成功！-----
第30次爬取
------爬取成功！-----
第31次爬取
------爬取成功！-----
第32次爬取
------爬取成功！-----
第33次爬取
------爬取成功！-----
第34次爬取
------爬取成功！-----
第35次爬取
------爬取成功！-----
第36次爬取
------爬取成功！-----
第37次爬取
------爬取成功！-----
第38次爬取
------爬取成功！-----
第39次爬取
------爬取成功！-----
第40次爬取
------爬取成功！-----
第41次爬取
------爬取成功！-----
第4

# 爬虫防屏蔽手段之代理服务器实战

## 什么是代理服务器

## 使用代理服务器进行爬去网页实战