## 动态网页数据抓取
## 什么是AJAX:
AJAX (Asynchronous JavaScript And XML) 异步JavaScript和XML。过在后台与服务器进行少量数据交换。Ajax可以使网页实现异步更新。这意味着可以再不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的是`XML`语法。因此叫做`AJAX`,其实现在数据交互基本上都是使用`JSON`。使用AJAX加载的数据，即使使用了JS，将数据渲染到了浏览器中，在`右键->查看网页源代码`还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。(比如：“加载更多“使用的就是Ajax技术）
## 获取ajax数据的方式：
1. 直接分析ajax调用的接口。然后通过该代码请求这个接口。
2. 使用Selenium+chromedriver模拟浏览器行为获取数据。

| 方式 | 优点 | 缺点 |
| :------| ------: | :------: |
| 分析接口 | 直接可以请求到数据。不需要做一些解、拆工作。代码量小，性能高。 |  |
| selenium | 直接模拟浏览器的行为、浏览器能请求到的，使用selenium也能请求到。爬虫更稳定。 | 代码量多。性能低。 |

## Selenium+chromedriver获取动态数据：
`Seleniums`相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。`chromedriver`是一个驱动`Chrome`浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：
1. Chrome
2. Firefox
3. Edge
4. Safari

## 安装Selenium和chromedriver：
1. 安装`Selenium`: `Selenium`有很多语言版本，有java、ruby、python等。我们下载python版本的就可以了。
```
pip install selenium
```
2. 安装`chromedriver`: 下载完成后，放到不需要权限的纯英文目录下就可以了。

In [2]:
from selenium import webdriver

driver_path = r"./chromedriver"

driver = webdriver.Chrome(executable_path=driver_path)

driver.get('https://www.baidu.com')

print(driver.page_source)

<!DOCTYPE html><!--STATUS OK--><html xmlns="http://www.w3.org/1999/xhtml"><head>
    
    <meta http-equiv="content-type" content="text/html;charset=utf-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=Edge" />
	<meta content="always" name="referrer" />
    <meta name="theme-color" content="#2932e1" />
    <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
    <link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" />
    <link rel="icon" sizes="any" mask="" href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg" />
	
	
	<link rel="dns-prefetch" href="//s1.bdstatic.com" />
	<link rel="dns-prefetch" href="//t1.baidu.com" />
	<link rel="dns-prefetch" href="//t2.baidu.com" />
	<link rel="dns-prefetch" href="//t3.baidu.com" />
	<link rel="dns-prefetch" href="//t10.baidu.com" />
	<link rel="dns-prefetch" href="//t11.baidu.com" />
	<link rel="dns-prefetch" href="//t12.baidu.com" />
	<link rel="dns-prefetc

## selenium常用操作：
### 关闭页面：
1. `driver.close()`: 关闭当前页面
2. `driver.quit()`: 退出整个浏览器

In [22]:
# 关闭页面
import time
driver = webdriver.Chrome() #已经放在环境变量中了
driver.get('https://www.baidu.com')
time.sleep(5)
driver.close() #关闭当前页面

### 定位元素：
1. `find_element_by_id`: 根据id来查找整个元素。等价于：
```python
subtimeTag = driver.find_element_by_id('su')
subtimeTag1 = driver.find_element(By.ID, 'su)
```
2. `find_element_by_class_name`: 根据类名查找元素。等价于：
```python
submitTag = driver.find_element_by_class_name('su')
submitTag1 = driver.find_element(By.CLASS_NAME, 'su')
```
3. `find_element_by_name`: 根据name属性的值来查找元素。等价于：
```python
submitTag = driver.find_element_by_name('email')
submitTag1 = driver.find_element(By.NAME, 'email')
```
4. `find_element_by_tag_name`: 根据标签名来查找元素。等价于：
```python
submitTag = driver.find_element_by_tag_name('div')
submitTag1 = driver.find_element(By.TAG_NAME, 'div')
```
5. `find_element_by_xpath`: 根据xpath语法来获取元素。等价于：
```python
submitTag = driver.find_element_by_xpath('//div')
submitTag1 = driver.find_element(By.XPATH, '//div')
```
6. `find_element_by_css_selector`: 根据css选择器选择元素。等价于：
```python
submitTag = driver.find_element_by_css_selector('//div')
submitTag1 = driver.find_element(By.CSS_SELECTOR, '//div')
```

#### NOTE:  
** 所有的方法都可以查找element(s)**

In [None]:
from lxml import etree
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')

html = etree.HTML(driver.page_source)
# html.xpath("")

#inputTag = driver.find_element_by_id('kw')
#inputTag = driver.find_element_by_name('kw')
inputTag = driver.find_elements_by_css_selector('.quickdelete-wrap > input')[0]
inputTag.send_keys('python')

# 1. 如果只是想要解析网页中的数据，那么推荐将网页源代码扔给lxml来解析。
# 因为lxml底层使用的是C语言，所以解析效率会更高。
# 2. 如果是想要对元素进行一些操作，比如给一个文本框输入值，或者是点击某个按钮，
# 那么就必须使用selenium给我们提供的查找元素的方法。

## 操作表单元素：
1. 操作输入框：分为两步。第一步：找到这个元素。第二部：使用`send_keys(value)`，将数据填充进去。事例代码如下：
```python
inputTag = driver.find_element_by_id('kw')
inputTag.send_keys('python')
```
使用`clear`方法可以清楚输入框中的内容。示例代码如下：
```python
inputTag.clear()
```
2. 操作`checkbox`：因为要选中`checkbox`标签，在网页中是通过鼠标点击的。因此想要选中`checkbox`标签，那么先选中这个标签，然后执行`click`事件。示例代码如下：(豆瓣login)
```python
rememberBtn = driver.find_element_by_name("remember")
rememberBtn.click()
```
3. 选择select: select元素不能直接点击。因为点击后还需要选中元素。这时候selenium就专门为select标签提供了一个类`selenium.webdriver.support.ui.Select`。将获取到的元素当成参数传到这个类中，创建这个对象。以后就可以使用这个对象进行选择了。示例代码如下：
```python
from selenium.webdriver.support.ui import Select  
# 选中这个标签，然后使用Select创建对象  
selectTag = Select(driver.find_element_by_name("jumpMenu:"))  
# 根据索引选择  
selectTag.select_by_index(1)  
# 根据值选择  
selectTag.select_by_value("http://www.95yueba.com")  
# 根据可视的文本选择  
selectTag.select_by_visible_text("95秀客户端") 
# 取消选中所有选项
selectTag.deselect_all()
```             

In [None]:
# 常见的表单元素： input type='text/password/email/number' 'submit'
# button: input[type='submit']
# checkbox: input = 'checkbox'
# select: 下拉列表

#### 操作input

In [6]:
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')

inputTag = driver.find_element_by_id('kw')
inputTag.send_keys('python')

time.sleep(3)

inputTag.clear()

#### 操作checkbox

In [10]:
# 豆瓣“记住我”
driver = webdriver.Chrome()
driver.get('https://www.douban.com')

rememberBtn = driver.find_element_by_name('remember')
rememberBtn.click()

time.sleep(3)

# 点两次就取消选中了
rememberBtn.click()

#### 操作select

In [14]:
# select by index
from selenium.webdriver.support.ui import Select
driver = webdriver.Chrome()
driver.get('https://ucannualwage.ucop.edu/wage/')

selectBtn = Select(driver.find_element_by_name('location'))
selectBtn.select_by_index(1)

In [15]:
# select by value
driver = webdriver.Chrome()
driver.get('https://ucannualwage.ucop.edu/wage/')

selectBtn = Select(driver.find_element_by_name('location'))
selectBtn.select_by_value('Irvine')

## 行为链
有时候在页面中的操作可能要有很多步，那么这时候可以使用鼠标行为链类`ActionChains`来完成。比如现在要讲鼠标移动到某个元素上执行点击事件。那么示例代码如下：
```python
inputTag = driver.find_element_by_id('kw')
submitTag = driver.find_element_by_id('su')

actions = ActionChains(driver)
actions.move_to_element(inputTag)
actions.send_keys_to_element(inputTag, 'python')
actions.move_to_element(submitTag)
actions.perform()
```
还有更多的鼠标相关的操作：
- click_and_hold(element): 点击但不松开鼠标。
- context_click(element): 右键点击。
- double_click(element): 双击。  
更多方法请参考：https://selenium-python.readthedocs.io/api.html

In [21]:
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains

driver = webdriver.Chrome()
driver.get('https://www.baidu.com/')

inputTag = driver.find_element_by_id('kw')
submitBtn = driver.find_element_by_id('su')

actions = ActionChains(driver)
actions.move_to_element(inputTag)
actions.send_keys_to_element(inputTag, 'python')
actions.move_to_element(submitBtn)
actions.click(submitBtn)
actions.perform()

## Cookie操作：

1.获取所有的`cookie`:
```python
for cookie in driver.get_cookies():
    print(cookie)
```
2.根据`cookie`的key获取value:
```python
value = driver.get_cookie(key)
```
3.删除某个`cookie`:
```python
driver.delete_cookie(key)
```
4.删除所有的`cookie`:
```python
driver.delete_all_cookies()
```

In [28]:
# 1.获取所有的cookie
driver = webdriver.Chrome()
driver.get('https://www.baidu.com/')

for cookie in driver.get_cookies():
    print(cookie)

{'domain': '.baidu.com', 'httpOnly': False, 'name': 'H_PS_PSSID', 'path': '/', 'secure': False, 'value': '26524_1441_26968_21098_20930'}
{'domain': '.baidu.com', 'expiry': 3684437609.492611, 'httpOnly': False, 'name': 'BIDUPSID', 'path': '/', 'secure': False, 'value': '8D39038FA5CBAF33B1F7CEDFDD96735A'}
{'domain': '.baidu.com', 'expiry': 3684437609.492635, 'httpOnly': False, 'name': 'PSTM', 'path': '/', 'secure': False, 'value': '1536953962'}
{'domain': 'www.baidu.com', 'expiry': 1537817963, 'httpOnly': False, 'name': 'BD_UPN', 'path': '/', 'secure': False, 'value': '123253'}
{'domain': 'www.baidu.com', 'httpOnly': False, 'name': 'BD_HOME', 'path': '/', 'secure': False, 'value': '0'}
{'domain': 'www.baidu.com', 'expiry': 2483033939.492673, 'httpOnly': False, 'name': 'delPer', 'path': '/', 'secure': False, 'value': '0'}
{'domain': '.baidu.com', 'expiry': 3684437609.492562, 'httpOnly': False, 'name': 'BAIDUID', 'path': '/', 'secure': False, 'value': '8D39038FA5CBAF33B1F7CEDFDD96735A:FG=1

In [29]:
# 2.根据cookie的key获取value:
print(driver.get_cookie("PSTM"))

{'domain': '.baidu.com', 'expiry': 3684437609.492635, 'httpOnly': False, 'name': 'PSTM', 'path': '/', 'secure': False, 'value': '1536953962'}


In [31]:
# 3.删除某个cookie:
driver.delete_cookie('PSTM')
for cookie in driver.get_cookies():
    print(cookie)

{'domain': '.baidu.com', 'httpOnly': False, 'name': 'H_PS_PSSID', 'path': '/', 'secure': False, 'value': '26524_1441_26968_21098_20930'}
{'domain': 'www.baidu.com', 'expiry': 1537817963, 'httpOnly': False, 'name': 'BD_UPN', 'path': '/', 'secure': False, 'value': '123253'}
{'domain': 'www.baidu.com', 'httpOnly': False, 'name': 'BD_HOME', 'path': '/', 'secure': False, 'value': '0'}
{'domain': 'www.baidu.com', 'expiry': 2483033939.492673, 'httpOnly': False, 'name': 'delPer', 'path': '/', 'secure': False, 'value': '0'}
{'domain': '.baidu.com', 'expiry': 3684437609.492611, 'httpOnly': False, 'name': 'BIDUPSID', 'path': '/', 'secure': False, 'value': '8D39038FA5CBAF33B1F7CEDFDD96735A'}
{'domain': '.baidu.com', 'expiry': 3684437609.492562, 'httpOnly': False, 'name': 'BAIDUID', 'path': '/', 'secure': False, 'value': '8D39038FA5CBAF33B1F7CEDFDD96735A:FG=1'}


In [33]:
# 4.删除所有的cookie:
driver.delete_all_cookies()
for cookie in driver.get_cookies():
    print(cookie)

## 页面等待：
现在的网页越来越多采用了Ajax技术，这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来，但是你的代码直接使用了`WebElement`，那么就会抛出NullPointer的异常。为了解决这个问题。所以`Selenium`提供了两种等待方式：一种是隐式等待、一种是显式等待。
1. 隐式等待:调用`driver.implicitly_wait`。那么在获取不可用的元素之前，会先等待10秒钟的时间。示例代码如下：

```python
driver = webdriver.Chrome()
driver.implicity_wait(10)
# 请求网页
driver.get("https://www.douban.com/")
```
2. 显式等待:显示等待是表明某个条件成立后才执行获取元素的操作。也可以在等待的时候指定一个最大的时间，如果超过这个时间那么就会抛出一个异常。显式等待应该使用`selenium.webdriver.support.expected_conditions`期待的条件和`selenium.webdriver.support.ui.WebdriverWait`来配合完成。示例代码如下：

```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()
```
3. 一些其他的等待条件：
    - presence_of_element_located: 某个元素已经加载完毕了。
    - presence_of_all_element_located: 网页中所有满足条件的元素都加载完毕了。
    - element_to_be_cliable: 某个元素是可以点击了。 
    
    更多条件请参考: http://selenium-python.readthedocs.io/waits.html

In [39]:
# 1.隐式等待
driver = webdriver.Chrome()
driver.get('https://www.douban.com')

driver.implicitly_wait(20)

driver.find_element_by_id("sadasdasdsdwda") #不存在的内容
# 如果没有等待，那就会直接报错
# 现在是等待二十秒后，开始寻找，然后报错

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"id","selector":"sadasdasdsdwda"}
  (Session info: chrome=69.0.3497.92)
  (Driver info: chromedriver=2.41.578706 (5f725d1b4f0a4acbf5259df887244095596231db),platform=Mac OS X 10.13.6 x86_64)


In [43]:
# 1.显式等待
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get('https://www.douban.com')

try:
    # 等待到了就退出，或者等待超过十秒就退出
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "form_email")) 
    )
    print(element)
finally:
    driver.quit()

<selenium.webdriver.remote.webelement.WebElement (session="c4acd957426543347cb7a5a1a08be1c4", element="0.6527288330954175-1")>


## 切换页面
有时候窗口中有很多子tab页面。这时候肯定是需要进行切换的。`selenium`提供了一个叫做`switch_to_window`来进行切换，具体切换到哪个页面，可以从`driver.window_handles`中找到。示例代码如下：
```python
driver = webdriver.Chrome()
driver.get('url')
# 打开一个新的页面(调用javascript)
driver.execute_script("window.open('url')")
# 切换到这个新的页面中
driver.switch_to_window(driver.window_handles[1])
```

In [50]:
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.execute_script("window.open('https://www.douban.com/')")

print(driver.current_url)
# 虽然在窗口中切换到了新的页面，但是driver中还没有切换。
# 如果想要在代码中切换到新的页面，并且做一些爬虫。
# 那么应该使用driver.switch_to_window来切换到指定的窗口
# driver.window_handlers是一个列表，里面装的都是窗口句柄。
# 他会按照打开页面的顺序来存储窗口的句柄。

https://www.baidu.com/


In [51]:
# 切换窗口
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
driver.execute_script("window.open('https://www.douban.com/')")
driver.switch_to_window(driver.window_handles[1])
print(driver.current_url)
# 现在成功从baidu切换到douban

https://www.douban.com/


## 设置代理ip:
有时候频繁爬取一些网页。服务器发现你是爬虫后悔封掉你的ip地址。这时候我们可以更改代理ip。更改代理ip，不同的浏览器有不同的实现方式。这里以`Chrome`浏览器为例来讲解：
```python
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://110.73.2.248:8123")
driver = webdriver.Chrome(chrome_options=options)

driver.get("url")
```

In [66]:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://47.95.213.117:80")
driver = webdriver.Chrome(chrome_options=options)

driver.get("http://www.httpbin.org/ip")

## `WebElement`元素：
`from selenium.webdriver.remote.webelement import WebElement`类是每个获取出来的元素的所属类。  
有一些常用的属性：
1. get_attribute: 这个标签的某个属性的值。
2. screentshot: 获取当前页面的截图。这个方法只能在`driver`上使用。  
`driver`的对象类，也是继承自`WebElement`。  
更多请阅读相关源代码。

In [68]:
from selenium.webdriver.remote.webelement import WebElement
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')

submitBtn = driver.find_element_by_id('su')
print(type(submitBtn))

<class 'selenium.webdriver.remote.webelement.WebElement'>


In [74]:
# 获取属性的值
print(submitBtn.get_attribute("value"))

百度一下


In [73]:
# 保存截图
driver.save_screenshot('baidu.png')

True