### Selenium 库介绍文档

#### 1. **Selenium 简介**
Selenium 是一个广泛使用的 Web 自动化测试框架，尤其适用于自动化 Web 浏览器操作和进行网页数据抓取。它能够模拟用户在浏览器中的各种操作，如点击按钮、填写表单、滚动页面等。Selenium 支持多种浏览器，包括 Chrome、Firefox、Edge 等，并且可以与 Python、Java、C# 等多种编程语言兼容使用。

#### 2. **Selenium 的作用**
Selenium 主要有两个用途：
- **自动化测试**：用于自动化浏览器的操作，模拟用户行为，检测 Web 应用程序的功能是否正常。
- **网页数据抓取**：通过模拟浏览器操作获取网页数据，特别是在 JavaScript 渲染和动态网页内容的抓取中，Selenium 是一个强大的工具。



#### 3. **安装 Selenium**

在使用 Selenium 之前，你需要先安装它。可以通过 Python 的包管理器 `pip` 安装：


In [None]:
!pip install selenium


此外，Selenium 需要使用 WebDriver 来控制浏览器（**需要电脑本地下载好相应的浏览器，较推荐Firefox和Edge**），不同的浏览器需要相应的 WebDriver，例如：
- **Chrome**: [ChromeDriver](https://sites.google.com/a/chromium.org/chromedriver/)
- **Firefox**: [GeckoDriver](https://github.com/mozilla/geckodriver/releases)
- **Edge**: [EdgeDriver](https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/)

下载对应的 WebDriver并解压文件，将<strong style="color:red;">其路径添加到系统环境变量中</strong>，或者在代码中指定路径。

#### 4. **基础使用**

##### 4.1 **导入 Selenium 库**
要开始使用 Selenium，你首先需要导入相应的模块：


In [1]:
from selenium import webdriver

##### 4.2 **启动浏览器**
使用 `webdriver` 启动一个浏览器实例，并访问目标网页。例如，启动 Firefox 浏览器并打开一个 URL：

In [None]:
# 创建一个 Firefox 浏览器实例
driver = webdriver.Firefox()
# driver = webdriver.Edge() # 创建一个 Edge 浏览器实例

In [8]:
# 打开网页
driver.get('https://www.baidu.com')

##### 4.3 **查找元素**

在 Selenium 4 中，所有的查找操作都应该使用 `find_element` 方法，并结合 `By` 类来指定查找方式。`By` 类包括常见的查找方法，例如通过 ID、名称、类名、CSS 选择器等。

**语法：**
```python
element = driver.find_element(By.查找方式, '值')
```

其中，`By` 类的常用查找方式如下：

- `By.ID`：通过元素的 ID 查找
- `By.NAME`：通过元素的 NAME 属性查找
- `By.CLASS_NAME`：通过元素的类名查找
- `By.TAG_NAME`：通过元素的标签名查找
- `By.XPATH`：通过 XPath 查找
- `By.CSS_SELECTOR`：通过 CSS 选择器查找

**示例：**


In [13]:
from selenium.webdriver.common.by import By

```python
# 通过 ID 查找元素
element = driver.find_element(By.ID, 'element_id')

# 通过 NAME 查找元素
element = driver.find_element(By.NAME, 'element_name')

# 通过 类名 查找元素
element = driver.find_element(By.CLASS_NAME, 'class_name')

# 通过 标签名 查找元素
element = driver.find_element(By.TAG_NAME, 'div')

# 通过 XPath 查找元素
element = driver.find_element(By.XPATH, '//button[@class="submit"]')

# 通过 CSS 选择器 查找元素
element = driver.find_element(By.CSS_SELECTOR, 'span.hot-refresh-text')
```

**如果你需要查找多个符合条件的元素，可以使用 `find_elements` 方法。这个方法会返回一个包含所有符合条件的元素的列表。如果没有找到元素，则返回空列表。**


**语法：**
```python
elements = driver.find_elements(By.查找方式, '值')
```

**示例：**
```python
# 查找所有具有相同类名的按钮
buttons = driver.find_elements(By.CLASS_NAME, 'button_class')

# 获取所有链接（a 标签）
links = driver.find_elements(By.TAG_NAME, 'a')
```

##### 4.4 **获取页面内容**
Selenium 允许你获取网页的 HTML 内容、标题、URL 等信息：

In [14]:
# 获取页面标题
title = driver.title
print('Page title:', title)

Page title: 百度一下，你就知道


In [15]:
# 获取当前 URL
url = driver.current_url
print('Current URL:', url)

Current URL: https://www.baidu.com/


In [16]:
# 获取网页的 HTML 内容
html = driver.page_source
print('Page HTML:', html)

Page HTML: <html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#ffffff"><meta name="description" content="全球领先的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。"><link rel="shortcut icon" href="https://www.baidu.com/favicon.ico" type="image/x-icon"><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索"><link rel="stylesheet" data-for="result" href="https://pss.bdstatic.com/r/www/static/font/cosmic/pc/cos-icon_8bae49a.css"><link rel="icon" sizes="any" mask="" href="https://www.baidu.com/favicon.ico"><link rel="dns-prefetch" href="//dss0.bdstatic.com"><link rel="dns-prefetch" href="//dss1.bdstatic.com"><link rel="dns-prefetch" href="//ss1.bdstatic.com"><link rel="dns-prefetch" href="//sp0.baidu.com"><link rel="dns-prefetch" href="//sp1.baidu.com"><link rel="dns-prefetch" hre

##### 4.5 **与表单元素交互**
Selenium 也支持与表单元素（如文本框、复选框、单选按钮等）进行交互：

In [17]:
# 查找文本框并输入文本
search_box = driver.find_element(By.NAME, 'wd')
search_box.send_keys('小米')

# 提交表单
search_box.submit()

##### 4.6 **模拟点击**
Selenium 可以模拟鼠标点击、键盘输入、页面滚动等操作：

In [22]:
# 模拟点击链接
link = driver.find_element(By.LINK_TEXT,'小米官网')
link.click()


##### 4.7 **等待元素加载**
在动态网页中，元素可能需要一些时间才能加载。Selenium 提供了显式等待和隐式等待来处理这个问题：

- **隐式等待**：设置等待时间，查找元素时，如果元素没有立即加载，Selenium 会等待指定的时间。

```python
# 设置隐式等待时间为 10 秒
driver.implicitly_wait(10)
```

- **显式等待**：等待某个特定的元素加载完成。常用 `WebDriverWait` 和 `expected_conditions` 来实现。

```python
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待某个元素可点击
wait = WebDriverWait(driver, 10)
element = wait.until(EC.element_to_be_clickable((By.ID, 'submit_button')))
element.click()
```

##### 4.8 **关闭浏览器**
操作完成后，可以关闭浏览器：

```python
# 关闭当前标签页
driver.close()

# 关闭浏览器并退出
driver.quit()
```

#### 5. **高级操作**

##### 5.1 **处理弹窗（Alert）**
Selenium 可以处理浏览器中的弹出窗口（如警告框、确认框）：

```python
# 获取弹窗内容
alert = driver.switch_to.alert
print(alert.text)

# 接受弹窗（点击 "OK"）
alert.accept()

# 取消弹窗（点击 "Cancel"）
alert.dismiss()
```

##### 5.2 **处理多标签页或窗口**
如果你操作的是多个标签页或窗口，可以通过 `window_handles` 切换标签页：

```python
# 获取所有标签页的句柄
windows = driver.window_handles

# 切换到新打开的标签页
driver.switch_to.window(windows[1])

# 关闭当前标签页并切换回第一个标签页
driver.close()
driver.switch_to.window(windows[0])
```

##### 5.3 **执行 JavaScript**
Selenium 支持执行 JavaScript 代码，可以操作页面内容：

```python
# 执行 JavaScript，改变页面背景色
driver.execute_script("document.body.style.backgroundColor = 'yellow';")
```

#### 6. **总结**

Selenium 是一个强大的浏览器自动化工具，广泛应用于 Web 测试和数据抓取。通过 Selenium，你可以模拟用户在浏览器中的各种操作，获取页面数据，甚至与动态网页进行交互。在实际应用中，Selenium 特别适用于抓取 JavaScript 渲染内容的网页和模拟复杂的浏览器行为。

### 参考文档
- [Selenium 官方文档](https://www.selenium.dev/documentation/en/)


------------------------------ 

# 案例：抓取知乎热搜榜标题

In [None]:
from pyquery import PyQuery as pq
from selenium import webdriver

In [None]:
browser = webdriver.Firefox()

In [None]:
#先手动登录知乎

url = 'https://www.zhihu.com/hot'

browser.get(url)
html = browser.page_source
print(html)

<html lang="zh" class="itcauecng" data-theme="light" data-rh="data-theme"><head><meta charset="utf-8"><title>(7 封私信) 首页 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"><meta name="renderer" content="webkit"><meta name="force-rendering" content="webkit"><meta http-equiv="X-UA-Compatible" content="IE=10,chrome=1"><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。"><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.81060cab.png"><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.81060cab.png" sizes="152x152"><li

In [None]:
doc = pq(html)
titles = doc('h2.HotItem-title')

for title in titles.items():
    print(title.text())

韩国政坛为什么会突然动荡？有什么深层原因吗？
如何评价被字节起诉索赔 800 万的实习生拿下 NeurIPS 2024 最佳论文?
宝宝树创始人称员工周末不响应，感到失望退出所有员工群，暴露出该企业存在哪些问题？背后的商业真相是什么？
琼瑶称自己一生「红尘作伴，活得潇潇洒洒，不曾辜负此生」，如何评价她的一生？她的作品如何影响了一代人？
韩国防部长金龙显因「紧急戒严令」辞职，他在戒严命令中扮演何种角色？能否平息舆论？这一职位将由谁接任？
为什么餐馆炒饭可以做到粒粒分明，自己在家做总是结块，还有糊锅底的问题？
在公司 10 年从底层员工干到中层，突遭高层各种排挤，应该怎么应对？
为什么中国大陆政府要大力发展国产大飞机？
为什么韩国这么敢拍各种黑暗事实的电影，但是却对韩国本身社会毫无改善？
Costco 国内续卡率低于全球 30%，该如何自救？你平时喜欢逛山姆、 Costco 这些会员制商超吗？
韩国总统尹锡悦「左膀右臂」集体辞职，还被要求退党，韩国政坛将走向何方？尹锡悦未来政治生命将如何？
如何评价 2024 年 12 月米哈游《崩坏星穹铁道》2.7 上半卡池，星期日和景元？
如何评价《崩坏：星穹铁道》2.7 版本活动「宇宙家装指南」？
博士明明比本科难毕业的多，为什么很多人仍认为「金本银硕铜博」？
为什么我看过很多番推过很多 gal 却写不出一篇完整的评测？
陌生人晕倒了，帮他拨打 120 后，病人不支付 120 出车费，这个费用谁来承担？
中国汽车工业协会建议「车企谨慎采购美国芯片」，释放哪些信号？汽车行业将受到哪些影响？
如何看待微软工程师提出「应该禁止所有新项目使用 React」？
你记忆中看过的第一部美剧是什么？
毕业出来攒到的第一个一万块钱，你会选择存着还是用它看看外面的世界？
为什么《魔兽争霸 3》暗夜选手不主 AC？
为什么总感觉成都的城建十分高级？
阅读《红楼梦》最大的收获是什么？
为什么古代汉族在东北的开拓止步于辽东？
如果有外星文明，他们最可能采用几进制?
秋招面试时被问「如果与上级意见不合，你会怎么做」？该如何回答？
如何评价琼瑶的写作水平？她的作品对现代文学有哪些影响？
一个人可以做出一款游戏吗，如果可以，最多能做到怎样的程度?
为什么欧美国家人对翡翠和玉石不感兴趣？
如何评价演员万梓良？
