# 三位一体招生信息爬虫 0.0.0

使用requests下载网站[2019浙江高考「三位一体」报考指南](http://www.eol.cn/html/g/zjswyt/)，并使用bs4获取浙江高校提供三位一体的高校名字，其报名时间，以及招生简章的网址链接。

## 1. 分析背景

### 1.1 分析内容

- 学校名称
- 报名时间
- 招生简章网址

### 1.3 分析工具

- Python 3.7.0
- Beautiful Soup 4
- Requests

## 2. 数据抓取

### 2.1.Requests获取网页数据

导入需要的模块requests

In [5]:
import requests

定义一个获取单个页面的函数：get_one_page()，传入url参数。[1]

In [6]:
def get_one_page(url):
    '''
    param url: A string that stores the url
    returns: A string that stores the decoded content of the web page. None if the request for this web page failed or a RequestException occured
    '''
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        # Check whether the request for this web page succeded
        if response.status_code == requests.codes.ok:
            return response.text
        else:
            return None
    except RequestException:
        return None

使用该方法爬取[2019三位一体招生信息](http://www.eol.cn/html/g/zjswyt/)的源代码。

In [7]:
url = 'http://www.eol.cn/html/g/zjswyt/'
html = get_one_page(url)
print(html)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">
    <meta name="viewport" content="width=780,user-scalable=no" />
    <meta name="format-detection" content="telephone=no">
    <title>2019æµæ±ä¸ä½ä¸ä½æçæ¥èæå--ä¸­å½æè²å¨çº¿</title>
    <meta name="keywords" content="2019æµæ±ä¸ä½ä¸ä½æç,ä¸ä½ä¸ä½æç,2018ä¸ä½ä¸ä½æçï¼æµæ±ä¸ä½ä¸ä½æçï¼æçè®¡å,2019é«è" />
    <meta name="description" content="æè°âä¸ä½ä¸ä½âæçï¼æçæ¯ä»¥å­¦ä¸æ°´å¹³èè¯æç»©ãé«èæç»©åå­¦æ ¡ç»¼åæµè¯æç»©ä¸ç§æç»©ï¼å¹¶æä¸å®æ¯ä¾å½¢æç»¼åæç»©åï¼æ©ä¼å½åèççå½åå½¢å¼ãä¸­å½æè²å¨çº¿é«èé¢éæ±æ»äºåæ ¡ä¸ä½ä¸ä½æççæçè®¡åï¼æ¥åæ¶é´ï¼ç»¼åæµè¯æ¶é´ï¼æçç®ç« ç­ä¿¡æ¯ï¼ä¾å¤§å®¶åèã" />
    <meta name="copyright" content="w

发现获取的源代码的文字为乱码。
Requests的Quick Start文档提及，
>When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access `r.text`
>当你发起一个请求时，Requests会根据HTTP的头部对于响应的编码做出合理的推测。当你访问`r.text`时，Requests会使用其推测的文本编码。[2]

因此，乱码可能由Requests推测的编码与网页实际的编码不同造成。

In [14]:
temp = requests.get('http://www.eol.cn/html/g/zjswyt/')
print(temp.encoding)

ISO-8859-1


访问encoding属性发现Requests使用了ISO-8859-1。阅读网页的头部:
```html
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
```
发现网页使用了utf-8编码。因此，应该修改get_one_page方法，将`r.encoding`设为'utf-8'。成功！

In [44]:
def get_one_page(url):
    '''
    param url: A string that stores the url
    returns: A string that stores the decoded content of the web page. None if the request for this web page failed or a RequestException occured
    '''
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        # Change the encoding used by Request to utf-8
        response.encoding = 'utf-8'
        # Check whether the request for this web page succeded
        if response.status_code == requests.codes.ok:
            return response
        else:
            return None
    except RequestException:
        return None

url = 'http://www.eol.cn/html/g/zjswyt/'
res = get_one_page(url)
res.text

'<!DOCTYPE html>\r\n<html lang="en">\r\n<head>\r\n    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />\r\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">\r\n    <meta name="viewport" content="width=780,user-scalable=no" />\r\n    <meta name="format-detection" content="telephone=no">\r\n    <title>2019浙江三位一体招生报考指南--中国教育在线</title>\r\n    <meta name="keywords" content="2019浙江三位一体招生,三位一体招生,2018三位一体招生，浙江三位一体招生，招生计划,2019高考" />\r\n    <meta name="description" content="所谓“三位一体”招生，指的是以学业水平考试成绩、高考成绩和学校综合测试成绩三种成绩，并按一定比例形成综合成绩后，择优录取考生的录取形式。中国教育在线高考频道汇总了各校三位一体招生的招生计划，报名时间，综合测试时间，招生简章等信息，供大家参考。" />\r\n    <meta name="copyright" content="www.eol.cn" />\r\n    <meta content="all" name="robots" />\r\n    <base target="_blank" />\r\n    <link rel="stylesheet" type="text/css" href="css/mobile.css" />\r\n\r\n    <script>\r\n        var ua = window.navigator.userAgent;\r\n        if (/Mobile|iP(hone|ad)|Android|BlackBerry|IEMobile/.test(ua)) {\r\n\r\n        }else{\r\

### 2.2.Beautiful Soup + css选择器提取

从bs4导入BeautifulSoup

In [6]:
from bs4 import BeautifulSoup

将字符串`res_text`和'lxml'传入BeautifulSoup的构造方法，得到一个BeautifulSoup对象。该对象使用了`lxml`解析器，因为相比其他解析器该解析器效率较高。

In [66]:
soup = BeautifulSoup(res.text, features='html5lib')
soup.prettify()

'<!DOCTYPE html>\n<html lang="en">\n <head>\n  <meta content="text/html;charset=utf-8" http-equiv="Content-Type"/>\n  <meta content="IE=Edge,chrome=1" http-equiv="X-UA-Compatible"/>\n  <meta content="width=780,user-scalable=no" name="viewport"/>\n  <meta content="telephone=no" name="format-detection"/>\n  <title>\n   2019浙江三位一体招生报考指南--中国教育在线\n  </title>\n  <meta content="2019浙江三位一体招生,三位一体招生,2018三位一体招生，浙江三位一体招生，招生计划,2019高考" name="keywords"/>\n  <meta content="所谓“三位一体”招生，指的是以学业水平考试成绩、高考成绩和学校综合测试成绩三种成绩，并按一定比例形成综合成绩后，择优录取考生的录取形式。中国教育在线高考频道汇总了各校三位一体招生的招生计划，报名时间，综合测试时间，招生简章等信息，供大家参考。" name="description"/>\n  <meta content="www.eol.cn" name="copyright"/>\n  <meta content="all" name="robots"/>\n  <base target="_blank"/>\n  <link href="css/mobile.css" rel="stylesheet" type="text/css"/>\n  <script>\n   var ua = window.navigator.userAgent;\n        if (/Mobile|iP(hone|ad)|Android|BlackBerry|IEMobile/.test(ua)) {\n\n        }else{\n            var head  = document.getElementsByTagName(\'head\')[0]

观察网页代码，发现表格单元格中的内容都处于`<div class="willum-body"><table><tbody><tr><td></td></tr></tbody></table></div>`之间。因此可以使用`.select()`方法找到tag。

In [75]:
cells = soup.select('.willnum-body > table > tbody > tr > td')

In [84]:
cells[4].find('a')

AttributeError: 'NoneType' object has no attribute 'string'

In [85]:
# schools = []
# school = {'name': '', 'time': '', 'url': ''}

result = []

# 去除第一行的单元格
cells = cells[3:]

for cell in cells:
    # 如果该单元格包含<a>标签，表明该单元格为招生简章的链接
    if cell.find('a'):
        # 提取<a>标签href属性的文字
        text = cell.find('a')['href']
        result.append(text)
    else:
        text = cell.string
        result.append(text)

print(result)        

['中国美术学院', '1月3日—1月8日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180206_1584734.shtml', '浙江工业大学', '3月5日—3月19日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585545.shtml', '浙江师范大学', '3月9日—3月24日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585549.shtml', '宁波大学', '3月1日—3月13日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585551.shtml', '杭州电子科技大学', '2月22日—3月20日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585554.shtml', '浙江工商大学', '3月4日—3月23日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585558.shtml', '浙江理工大学', '3月16日截止', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585499.shtml', '温州医科大学', '2月26日—3月18日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585560.shtml', '浙江海洋大学', '3月1日—3月15日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585581.shtml', '浙江农林大学', '3月5日—3月19日', 'http://gaokao.eol.cn/zhe_jiang/dongtai/201802/t20180211_1585595.shtml', '浙江中医药大学', '3月4日—3月17日', 'http:

## References:

[1]: https://www.makcyun.top/web_scraping_withpython1.html "Python爬虫(1):多种方法爬取猫眼top100电影"
[2]: http://docs.python-requests.org/en/master/user/quickstart/ "Quickstart"
[3]:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ "Beautiful Soup Documentation"