# 1 了解HTML语言

HTML语言的文档结构是树形的。

In [1]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

# 2 学习BeautifulSoup和requests

In [2]:
from bs4 import BeautifulSoup as bs
soup = bs(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [3]:
print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)
print(soup.p)
print(soup.p['class'])
print(soup.a)

<title>The Dormouse's story</title>
title
The Dormouse's story
head
<p class="title"><b>The Dormouse's story</b></p>
['title']
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [4]:
print(soup.find(href="http://example.com/tillie"))

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


In [5]:
print(soup.find_all('a'))

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [6]:
import requests

url = "http://www.cufe.edu.cn"
response = requests.get(url)

soup = bs(response.content,"lxml")
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   中央财经大学
  </title>
  <meta content="中央财经大学" name="keywords"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
  <link href="css/style1.css" rel="stylesheet"/>
  <link href="css/slick.css" rel="stylesheet"/>
  <link href="css/swiper.css" rel="stylesheet"/>
  <link href="css/jquery.hiSlider.min.css" rel="stylesheet"/>
  <script src="js/bdtxk.js">
  </script>
  <script src="js/jquery-migrate.min.js">
  </script>
  <script src="js/slick.min.js">
  </script>
  <script src="js/SuperSlide.js" type="text/javascript">
  </script>
  <script src="js/myslideup.js" type="text/javascript">
  </script>
  <script src="js/hiSlider.min.js">
  </script>
  <style>
   .fd table td{display:inline-block; float:right;}
  </style>
  <script>
   window.addEventListener('mousewheel', function(event){
    if (event.ctrlKey === true || eve

# 3 动态网页爬虫

## 3.1 环境搭建及配置

### 关于 Selenium

- selenium 是一个 web 的自动化测试工具

- 官方文档：https://selenium-python.readthedocs.io/index.html

### 安装驱动

#### 前提条件

- 已安装好Python开发环境（推荐安装Python3.5及以上版本）

#### 安装步骤

- 安装selenium<br>
    Win：pip install selenium<br>
    Mac:pip3 install selenium
    

- 安装webdriver<br>
    各大浏览器webdriver地址可参见：https://docs.seleniumhq.org/download/<br>
    Firefox：https://github.com/mozilla/geckodriver/releases<br>
    Chrome：http://npm.taobao.org/mirrors/chromedriver/<br>
> 注：webdriver需要和对应的浏览器版本以及selenium版本对应

windows 放在
\Users\lenovo\AppData\Local\Google\Chrome\Application
mac 放在
/usr/local/bin

## 3.2 元素定位及浏览器基本操作

### 3.2.1 启动浏览器

#### 3.2.1.1 普通方式启动

In [13]:
#导入爬虫所需要的包
from selenium import webdriver
from selenium.webdriver.chrome.service import Service

import os 
import time
import requests
from bs4 import BeautifulSoup as bs

#不显示警示信息(不影响程序运行, 也可注释掉这两句)
import warnings
warnings.filterwarnings("ignore")

#输入网址, 获取信息
browser = webdriver.Chrome()
browser.get('http://www.sogou.com/')

In [8]:
browser.find_element(by = 'xpath', value = '//*[@id="query"]').send_keys("彭俞超")

browser.find_element(by = 'xpath', value = '//*[@id="stb"]').click()

time.sleep(1)

res = browser.page_source
#print(res.text)
soup = bs(res, 'lxml')
numbers= soup.find('p', {'class': 'num-tips'}).get_text().strip()
print(numbers)

#browser.quit()

搜狗已为您找到约2,770条相关结果


#### 3.2.1.2 Headless方式启动

- Headless Chrome 是 Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行你的程序。相比于现代浏览器，Headless Chrome 更加方便测试 web 应用，获得网站的截图，做爬虫抓取信息等。相比于较早的 PhantomJS，SlimerJS 等，Headless Chrome 则更加贴近浏览器环境。

### 3.2.2 元素定位
- 对象的定位应该是自动化测试的核心，要想操作一个对象，首先应该识别这个对象。一个对象就是一个人一样，他会有各种的特征（属性），如比我们可以通过一个人的身份证号，姓名，或者他住在哪个街道、楼层、门牌找到这个人。那么一个对象也有类似的属性，我们可以通过这个属性找到这对象。


- webdriver 提供了一系列的对象定位方法，常用的有以下几种：

    id定位：find_element_by_id()<br>
    name定位：find_element_by_name()<br>
    class定位：find_element_by_class_name()<br>
    link定位：find_element_by_link_text()<br>
    partial link定位：find_element_by_partial_link_text()<br>
    tag定位：find_element_by_tag_name()<br>
    xpath定位：find_element_by_xpath()<br>
    css定位：find_element_by_css_selector()

In [10]:
from selenium import webdriver

browser.get("http://www.sogou.com")

#Chrome——打开搜狗——右键检查——点按小箭头——放在搜狗搜索输入框

# 通过id方式定位
browser.find_element_by_id("query").send_keys("selenium")

# 通过name方式定位
browser.find_element_by_name("query").send_keys("selenium")

# 通过tag name方式定位
browser.find_element_by_tag_name("input")

# 通过class name方式定位
browser.find_element_by_class_name("sec-input").send_keys("selenium")

# 通过CSS方式定位
browser.find_element_by_css_selector("#query").send_keys("selenium")

# 通过xpath方式定位
browser.find_element_by_xpath('//*[@id="query"]').send_keys("selenium")

# 点击搜索
browser.find_element_by_id("stb").click()

browser.quit()

In [None]:
# 爬取信息详见实例3——央行网站