# 页面解析和数据提取
- 结构数据：先有的结构，再谈数据
    - JSON文件
        - JSON Path
        - 转换成Python类型进行操作（json类）
    - XML文件
        - 转换成python类型（xmltodict）
        - Xpath
        - CSS选择器
        - 正则
       
- 非结构化数据：先有数据，再谈结构
    - 文本
    - 电话号码
    - 邮箱地址
        - 通常处理此类数据使用正则表达式
    - Html文件
        - 正则
        - XPath
        - CSS选择器
        
        
# 正则表达式
- 一套规则，可以在字符串文本中进行搜查替换等
- 案例v24 match的基本使用

#### 正则常用方法：
- match: 从开始位置开始查找，一次匹配
- search：从任何位置查找，一次匹配， 案例v25
- findall： 全部匹配，返回列表, 案例v26
- finditer： 全部匹配，返回迭代器, 案例v26
- split： 分割字符串，返回列表
- sub：替换

#### 匹配中文
- 中文unicode范围主要在[u4e00-u9fa5]
- 案例v27


#### 贪婪与非贪婪模式
- 贪婪模式： 在整个表达式匹配成功的前提下，尽可能多的匹配
- 非贪婪模式： 尽可能少的匹配
- python里面数量词默认是贪婪模式
- 例如：
    - 查找文本abbbbbbccc
    - re是 ab*
    - 贪婪模式： 结果是abbbbbb
    - 非贪婪： 结果是a

# XML
- XML(EXtensibleMarkupLanguage)
- http://www.w3school.com.cn/xml/index.asp
- 案例v28.xml
- 概念：父节点，子节点，先辈节点，兄弟节点，后代节点

~~~
<?xml version="1.0" encoding="utf-8"?>


<bookstore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <author>Gidada De</author>
        <year>2018</year>
        <price>23</price>
    </book>


    <book category="education">
        <title lang="en">Python is Python</title>
        <author>Food War</author>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang="en">Running</title>
        <author>Klaus Kuka</author>
        <year>2010</year>
        <price>43</price>
    </book>

</bookstore>
~~~

# XPath
- XPath(XML Path Language), 是一门在XML文档中查找信息的语言
- 官方文档： http://www.w3school.com.cn/xpath/index.asp
- XPath开发工具
	- 开元的XPath表达式工具： XMLQuire
	- chrome插件： Xpath Helper
	- Firefox插件： XPath CHecker
- 常用路径表达式：
	- nodename : 选取此节点的所有子节点
	- /: 从根节点开始选
	- //: 选取元素，而不考虑元素的具体位置
	- . : 当前节点
	- .. : 父节点
	- @： 选取属性
	- 案例：
		- bookstore: 选取bookstore下的所有子节点
		- /bookstore: 选取根元素
		- bookstore/book: 选取bookstore的所有名为book的子元素
		- //book: 选取book子元素
		- //@lang:选取名称为lang的所有属性
- 谓语(Predicates)
	- 谓语用来查找某个特定的节点
	- /bookstore/book[1]: 选取第一个属于bookstore下叫book的元素
	- /bookstore/book[last()]: 选取最后一个属于bookstore下叫book的元素
	- /bookstore/book[last()-1]: 选取倒数第二个属于bookstore下叫book的元素
	- /bookstore/book[position()<3]: 选取属于bookstore下叫book的前两个元素
	- /bookstore/book[@lang]: 选取属于bookstore下叫book的,含有属性lang元素
	- /bookstore/book[@lang=”cn”]: 选取属于bookstore下叫book的,含有属性lang的值是cn的元素
	- /bookstore/book[@price < 90]: 选取属于bookstore下叫book的,含有属性price的，且值小于90的元素
	- /bookstore/book[@price < 90]/title: 选取属于bookstore下叫book的,含有属性price的，且值小于90的元素的子元素title
- 通配符
	- \* : 任何元素节点
	- @*： 匹配任何属性节点
	- node(): 匹配任何类型的节点
- 选取多个路径
	- //book/tile | //book/author : 选取book元素中的title和author元素
	- //tile | //price: 选取文档中所有的title和price元素

# lxml库
- python的HTML/XML的解析器
- 官方文档： http://lxml.de/index.html
- 功能：
    - 解析 HTML，案例 v29.py
    - 文件读取，案例 v30.html，v31.py
    - etree和XPath的配合使用，案例 v32.p
    
# CSS选择器 BeautifulSoup4
- 现在使用BeautifulSoup4
- http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
- 几个常用提取信息工具的比较：
    - 正则： 很快，不好用，不许安装
    - beautifulsoup：慢，使用简单，安装简单
    - lxml： 比较快，使用简单，安装一般
- 案例v33.py

- 四大对象
    - Tag
    - NavigableString
    - BeautifulSoup
    - Comment
- Tag
- 对应Html中的标签
- 可以通过soup.tag_name
- tag两个重要属性
    - name
    - attrs
- 案例v34

- NavigableString
	- 对应内容值
- BeautifulSoup
	- 表示的是一个文档的内容，大部分可以把他当做tag对象
	- 一般我们可以用soup来表示
- Comment
	- 特殊类型的NavagableString对象，
	- 对其输出，则内容不包括注释符号
- 遍历文档对象
	- contents: tag的子节点以列表的方式给出
	- children: 子节点以迭代器形式返回
	- descendants: 子孙节点
	- string
	- 案例34
- 搜索文档对象
	- find_all(name, attrs, recursive, text, ** kwargs)
		- name:按照那个字符串搜索，可以传入的内容为
			- 字符串
			- 正则表达式
			- 列表
		- keyword参数，可以用来表示属性
		- text： 对应tag的文本值
		- 案例34
- css选择器
	- 使用soup.select, 返回一个列表
	- 通过标签名称: soup.select(“title”)
	- 通过类名： soup.select(“.content”)
	- id查找: soup.select(“#name_id”)
	- 组合查找: soup.select(“div #input_content”)
	- 属性查找: soup.select(“img[class=’photo’])
	- 获取tag内容： tag.get_text
	- 案例35


# 动态HTML
## 爬虫跟反爬虫
## 动态HTML介绍
- JavaScrapt
- jQuery
- Ajax
- DHTML
- Python采集动态数据
    - 从Javascript代码入手采集
    - Python第三方库运行JavaScript，直接采集你在浏览器看到的页面

## Selenium + PhantomJS
- Selenium: web自动化测试工具
    - 自动加载页面
    - 获取数据
    - 截屏
    - 安装： pip install selenium==2.48.0
    - 官网： http://selenium-python.readthedocs.io/index.html
- PhantomJS(幽灵)
    - 基于Webkit 的无界面的浏览器
    - 官网： http://phantomjs.org/download.html
- Selenium 库有一个WebDriver的API
- WebDriver可以跟页面上的元素进行各种交互，用它可以来进行爬取
- 案例 v36



- chrome + chromedriver
	- 下载安装chrome： 下载+安装
	- 下载安装chromedriver：
- Selenium操作主要分两大类：
	- 得到UI元素
		- find_element_by_id
		- find_elements_by_name
		- find_elements_by_xpath
		- find_elements_by_link_text
		- find_elements_by_partial_link_text
		- find_elements_by_tag_name
		- find_elements_by_class_name
		- find_elements_by_css_selector
- 基于UI元素操作的模拟
	- 单击
	- 右键
	- 拖拽
	- 输入
	- 可以通过导入ActionsChains类来做到
- 案例37


# 验证码问题
- 验证码：防止机器人或爬虫
- 分类
    - 简单图片
    - 极验 [官网](http://www.geetest.com)
    - 12306 sucks
    - 电话
    - google验证
    
## 1.1  验证码破解
- 通用方法：
    - 下载网页和验证码
    - 手动输入验证码
- 简单图片
    - 使用图像识别或文字识别软件
    - 使用第三方图像验证码破解网站 如此
    - 极验
        - 破解较麻烦
        - 可以模拟鼠标移动等
        - 一直在进化
- 12306
- 电话：语音识别
- google验证

## 1.2  Tesseract
- 机器视觉领域的基础软件
- [GitHub](https://github.com/tesseract-ocr/tesseract)
- OCR: OpticalCharacterRecognition, 光学文字识别
- Tesseract: 一个OCR库，由谷歌资助
- 安装：
    - Win: github tip-环境变量
    - Mac: brew install tesseract
    - Linux: apt-get install tesseract-oce
- 还需安装pytesseract
    - pip install pytesseract