
# <center>网络数据获取——补充知识</center>

### 1.Re——正则表达式

正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。

![](./img/re.png)

In [None]:
import re

### 1.1 re.findall 方法

搜索字符串，以列表形式返回所有匹配的子串

语法格式为：
```
findall(string[, pos[, endpos]])
```

参数：

* string 待匹配的字符串。
* pos 可选参数，指定字符串的起始位置，默认为 0。
* endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

In [None]:
result1 = re.findall(r'\d+', 'runoob 123 google 456')
result1

### 1.2 re.split方法 
split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

In [None]:
re.split('\W+', 'runoob, runoob, runoob')

### 1.3 常用匹配规则


![](./img/re1.png)

re模块手册：https://docs.python.org/zh-cn/3.6/library/re.html

### 1.4 正则匹配实战

* 经典例子

正则表达式|对应字符串
--|--
^[A‐Za‐z]+\$|由26个字母组成的字符串
^[A‐Za‐z0‐9]+\$|由26个字母和数字组成的字符串
^‐?\d+\$|整数形式的字符串
^[0‐9]\*[1‐9][0‐9]\*\$|正整数形式的字符串
[1‐9]\d{5}|中国境内邮政编码，6位
[\u4e00‐\u9fa5]|匹配中文字符
\d{3}‐\d{8}&#124;\d{4}‐\d{7}|国内电话号码，010‐68913536

#### 实例1：提取数字

In [None]:
import re
str = "a123b456b"
result1 = re.findall(r"\d+", str)
result1

#### 实例2：提取日期

In [None]:
# 匹配时间，20181011 15:28:39
str = "WARNING:tensorflow: 20181011 15:28:39 Initialize training"
pattern = re.compile(r'\d{4}\d{2}\d{2}\s\d{2}:\d{2}:\d{2}')
result1 = pattern.findall(str)
result1

#### 实例3：提取价格

In [None]:
text='POLO1.4自动舒适　　标准价121000元　　现价111600元　　降幅9400元'
pattern = re.compile('\d+元')
result1 = pattern.findall(text)
result1

#### 实例4：提取电话

In [None]:
tel = '13579246810'
ret = re.findall(r"^1[35678]\d{9}$", tel)
if ret:
    print("匹配成功")
else:
    print("匹配失败")

In [None]:
tel = '01q01‐68913536'
ret = re.findall(r"\d{3}‐\d{8}|\d{4}‐\d{7}", tel)
if ret:
    print("匹配成功")
else:
    print("匹配失败")

In [None]:
tel = '我的手机号是13579246810'
ret = re.findall(r"1[35678]\d{9}", tel)
ret

#### 实例5：提取邮箱

In [None]:
str = "我的邮箱是mzr@qq.cn和mzr@163.com"
pattern = re.compile(r'([a-zA-Z0-9_]+@[a-zA-Z\d]+.(com|cn))')
result1 = pattern.findall(str)
result1

### 2.Selenium库网页解析

In [None]:
from selenium import webdriver
import time

#### 2.1 单个元素查找

In [None]:
# 申明一个浏览器对象
browser = webdriver.Chrome()
# 使用浏览器访问淘宝
browser.get('https://www.taobao.com')
# 在响应结果中通过id查找元素
input_first = browser.find_element_by_id('q')
# 在响应结果中通过css选择器查找元素
input_second = browser.find_element_by_css_selector('#q')
# 在响应结果中通过xpath查找元素
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)
print(input_second)
print(input_third)
time.sleep(10)
browser.close()

查找后返回的是一个Webelement对象。

查找多个元素: 将其中的element加上一个s，则是对应的多个查找方法。

![](img/driver.png)

#### 2.2 多个元素查找

其实多个元素和单个元素的区别，举个例子：find_elements,单个元素是find_element,其他使用上没什么区别，通过其中的一个例子演示：

In [None]:
browser = webdriver.Chrome()
browser.get("http://www.taobao.com")
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()

#### 2.3 前进后退

In [None]:
import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('http://www.leike100.com/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

#### 2.4 选项卡管理

In [None]:
import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
browser.close()
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get('http://www.leike100.com/')
browser.close()

# Any Questions?