# 数据采集——Python爬虫简介

## 基本内容

- 引言
  - 为什么要使用数据爬虫？
  - 为什么使用Python？

- 静态网页爬虫
  - 爬虫流程初探——从抓取到解析
  - 网页抓取代码背后的逻辑
  - 定位元素与获取数据——大功告成
  - 通向完善之路：异常处理
  - 通向完善之路：封装成通用的函数
  - get()方法，此路不通


- 动态网页爬虫初探
  - 为什么无法请求到数据？
  - XHR
  - 通过XHR的方式抓取数据
  
  

- 扩展讨论

## 引言

### 为什么要使用数据爬虫？

### 为什么是用Python？

## 第一个网页爬虫

想象某人向往去大公司求职，他想要获取世界500强的信息，于是他搜索到了这个[网页](https://finance.sina.com.cn/china/2019-07-22/doc-ihytcitm3776293.shtml)，写下了如下的爬虫。


In [1]:
import requests

# to crawl the web page
r = requests.get('https://finance.sina.com.cn/china/2019-07-22/doc-ihytcitm3776293.shtml')

In [2]:
import pandas as pd
from bs4 import BeautifulSoup

# to correct coding
r.encoding = "UTF-8"

# to create BS object for parse HTML
bs_obj = BeautifulSoup(r.text, 'lxml')

# to extract info
data = []
for row in bs_obj.select(".tb01 tr"):
    data.append([item.text for item in row.select("td")])

# to construct data frame
pdata = pd.DataFrame(data[1:], columns=data[0])

In [3]:
# to output
pdata.to_excel("2019年世界500强.xlsx", index=False)

### 爬虫流程初探——从抓取到解析

从上述爬虫的程序可以对爬虫的流程窥知一二，其基本的步骤如下：

- 抓取网页

- 解析网页

- 存储数据（可选）

### 网页抓取代码背后的逻辑

- 在上述代码中，网页抓取其实只用了一行代码 —— 静态网页的抓取并不是非常困难

```
r = requests.get(web_address)
```

- 但有必要对网页抓取背后的知识和逻辑加以解释 —— 通向“高阶”网络爬虫的基础

#### 浏览器：从输入url到页面展现发生了什么？

<div align=center>
<img src="https://p193.p3.n0.cdn.getcloudapp.com/items/04uY2g6X/url_to_browser.png" width = "70%" />
</div>

#### 超文本传输协议（HTTP）

超文本传输协议（HTTP）是一个用于传输超媒体文档（例如 HTML）的应用层协议。它是为 Web 浏览器与 Web 服务器之间的通信而设计的，但也可以用于其他目的。

<br>

**客户端-服务端模型（BS）**

HTTP 遵循经典的客户端-服务端模型，客户端打开一个连接以发出请求，然后等待它收到服务器端响应。HTTP 是无状态协议，这意味着服务器不会在两个请求之间保留任何数据（状态）。

<br>

**HTTP首部（HTTP Header）**

HTTP消息首部被用来描述资源信息，或是客户端和服务器的行为。

<br>

**HTTP请求方法**

可以使GET，POST方法来完成不同操作，同时也有一些其他的方法，如 OPTIONS，DELETE 和 TRACE。

- get方法 —— 从指定的资源请求数据

- post方法 —— 向指定的资源提交要被处理的数据

<br>

**HTTP状态返回码**

HTTP响应状态代码指示特定HTTP请求是否已成功完成。例如200表示请求成功。

<br>

想要进一步了解HTTP，请点击[此处](https://developer.mozilla.org/zh-CN/docs/Web/HTTP)

#### Python相关库

[Requests](https://requests.kennethreitz.org/en/master/)是一个优雅且简洁的HTTP库。

安装使用如下命令

```python
pip install requests
```

- 练习：获取百度网页

In [4]:
import re
import requests

r = requests.get("http://www.baidu.com/")

- 问题：r是什么？

In [5]:
# what is r?
print("The type of r is ", type(r))

The type of r is  <class 'requests.models.Response'>


- 问题：如何得知成功获取了网页内容？

In [6]:
# Is it sucessful？
print(r.ok)

# or
print(r.status_code)

True
200


- 问题：如何获取网站内容？

In [7]:
print(r.text)

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input typ

- 问题：如何解决中文编码问题？

In [8]:
r.encoding = "UTF-8"
print(r.text)

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su val

### 定位元素与获取数据——大功告成

要成功的解析网页内容，你可能需要懂得下列知识：

- HTML
- CSS与CSS选择器
- 正则表达式

#### HTML

HTML（超文本标记语言——HyperText Markup Language）是构成 Web 世界的一砖一瓦。它定义了网页内容的含义和结构。除HTML 以外的其它技术则通常用来描述一个网页的表现与展示效果（如 CSS），或功能与行为（如 JavaScript）。

```html
<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8">
    <title>测试页面</title>
  </head>
  <body>
    <p>Hello World</p>
  </body>
</html>
```

想要尝试编写网页，请点击[此处](https://www.w3cschool.cn/tryrun/showhtml/tryhtml_headers)。

想要进一步了解HTML语言，请点击[此处](https://developer.mozilla.org/zh-CN/docs/Web/HTML)。

#### CSS与CSS选择器

层叠样式表 (Cascading Style Sheets，缩写为 CSS），是一种 样式表 语言，用来描述 HTML 或 XML（包括如 SVG、MathML、XHTML 之类的 XML 分支语言）文档的呈现。CSS 描述了在屏幕、纸质、音频等其它媒体上的元素应该如何被渲染的问题。

例如

```html
<h1 style="color:blue;">This is a Blue Heading</h1>
```

想要进一步了解CSS，请点击[此处](https://developer.mozilla.org/zh-CN/docs/Web/CSS)。

<br>

**CSS选择器**

CSS 选择器规定了 CSS 规则会被应用到哪些元素上，点击[此处](https://www.w3school.com.cn/cssref/css_selectors.asp)查询。

#### 正则表达式

正规表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正规表达式通常被用来检索、替换那些符合某个模式的文本。

想要了解正则表达式，请点击[此处](https://deerchao.cn/tutorials/regex/regex.htm)。

**Python相关库**

Python库re是用来进行正则表达式的匹配操作。常用方法：

- match() —— 确定正则是否从字符串的开头匹配。

- search() —— 扫描字符串，查找此正则匹配的任何位置。

In [9]:
import re

word = "Hello World"
print(re.match("ello", word))
print(re.search("ello", word))
print(re.search("ello", word) is not None)

None
<re.Match object; span=(1, 5), match='ello'>
True


- 问题：如何在两个字符串"Tom123"和"Tom"中选择前者？

In [10]:
strings = ["Tom123", "Tom"]

print("To check for \"Tom123\"", re.match("Tom\d+", strings[0]))
print("To check for \"Tom\"", re.match("Tom\d+", strings[1]))
print("Our choice is {}".format([item for item in strings if re.match("Tom\d+", item) is not None][0]))

To check for "Tom123" <re.Match object; span=(0, 6), match='Tom123'>
To check for "Tom" None
Our choice is Tom123


#### Python解析库

- [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html)是用来从HTML或XML文件中提取数据的Python库。

- Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象

安装使用如下命令

```python
pip install beautifulsoup4
```

Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，其中最常用的是lxml。安装lxml解析器，使用如下命令

```python
pip install lxml
```

#### 最初的案例：定位、解析与数据整理

现在回到最初的案例，尝试定位我们需要的表格，并把数据提取出来。

- 使用chrome浏览器来定位表格。

In [11]:
import requests
from bs4 import BeautifulSoup

# to crawl the web page
r = requests.get('https://finance.sina.com.cn/china/2019-07-22/doc-ihytcitm3776293.shtml')

# to correct coding
r.encoding = "UTF-8"

# to create BS object for parse HTML
bs_obj = BeautifulSoup(r.text, 'lxml')

- 第一步：找到表格

In [12]:
# first step: find the table
table = bs_obj.select(".tb01")[0]
# or
table2 = bs_obj.find("table")

# to test
table == table2

True

In [13]:
table

<table border="1" cellpadding="5" cellspacing="0" class="tb01" style="width: 550px;">
<tbody>
<tr>
<td>排名</td>
<td>公司名</td>
<td>国家</td>
</tr>
<tr>
<td>1</td>
<td>沃尔玛（WALMART）</td>
<td>美国</td>
</tr>
<tr>
<td>2</td>
<td>中国石油化工集团公司（SINOPEC GROUP）</td>
<td>中国</td>
</tr>
<tr>
<td>3</td>
<td>荷兰皇家壳牌石油公司（ROYAL DUTCH SHELL）</td>
<td>荷兰</td>
</tr>
<tr>
<td>4</td>
<td>中国石油天然气集团公司（CHINA NATIONAL PETROLEUM）</td>
<td>中国</td>
</tr>
<tr>
<td>5</td>
<td>国家电网公司（STATE GRID）</td>
<td>中国</td>
</tr>
<tr>
<td>6</td>
<td>沙特阿美公司（SAUDI ARAMCO）</td>
<td>沙特阿拉伯</td>
</tr>
<tr>
<td>7</td>
<td>英国石油公司（BP）</td>
<td>英国</td>
</tr>
<tr>
<td>8</td>
<td>埃克森美孚（EXXON MOBIL）</td>
<td>美国</td>
</tr>
<tr>
<td>9</td>
<td>大众公司（VOLKSWAGEN）</td>
<td>德国</td>
</tr>
<tr>
<td>10</td>
<td>丰田汽车公司（TOYOTA MOTOR）</td>
<td>日本</td>
</tr>
<tr>
<td>11</td>
<td>苹果公司（APPLE）</td>
<td>美国</td>
</tr>
<tr>
<td>12</td>
<td>伯克希尔-哈撒韦公司（BERKSHIRE HATHAWAY）</td>
<td>美国</td>
</tr>
<tr>
<td>13</td>
<td>亚马逊（AMAZON.COM）</td>
<td>美国</td>
</tr>
<tr>
<td>14</td>
<

- 第二步：提取表格中的每一行数据

In [14]:
row_data = []
for row in table.select("tr"):
    print("row: ", row, "", row.select("td"), [item.string for item in row.select("td")], "\n\n")
    row_data.append([item.string for item in row.select("td")])

row:  <tr>
<td>排名</td>
<td>公司名</td>
<td>国家</td>
</tr>  [<td>排名</td>, <td>公司名</td>, <td>国家</td>] ['排名', '公司名', '国家'] 


row:  <tr>
<td>1</td>
<td>沃尔玛（WALMART）</td>
<td>美国</td>
</tr>  [<td>1</td>, <td>沃尔玛（WALMART）</td>, <td>美国</td>] ['1', '沃尔玛（WALMART）', '美国'] 


row:  <tr>
<td>2</td>
<td>中国石油化工集团公司（SINOPEC GROUP）</td>
<td>中国</td>
</tr>  [<td>2</td>, <td>中国石油化工集团公司（SINOPEC GROUP）</td>, <td>中国</td>] ['2', '中国石油化工集团公司（SINOPEC GROUP）', '中国'] 


row:  <tr>
<td>3</td>
<td>荷兰皇家壳牌石油公司（ROYAL DUTCH SHELL）</td>
<td>荷兰</td>
</tr>  [<td>3</td>, <td>荷兰皇家壳牌石油公司（ROYAL DUTCH SHELL）</td>, <td>荷兰</td>] ['3', '荷兰皇家壳牌石油公司（ROYAL DUTCH SHELL）', '荷兰'] 


row:  <tr>
<td>4</td>
<td>中国石油天然气集团公司（CHINA NATIONAL PETROLEUM）</td>
<td>中国</td>
</tr>  [<td>4</td>, <td>中国石油天然气集团公司（CHINA NATIONAL PETROLEUM）</td>, <td>中国</td>] ['4', '中国石油天然气集团公司（CHINA NATIONAL PETROLEUM）', '中国'] 


row:  <tr>
<td>5</td>
<td>国家电网公司（STATE GRID）</td>
<td>中国</td>
</tr>  [<td>5</td>, <td>国家电网公司（STATE GRID）</td>, <td>中国</td>] ['5', '国家电网公司（STATE 

- 第三步：整理成数据表格

使用pands库

In [15]:
import pandas as pd

pdata = pd.DataFrame(row_data[1:], columns = row_data[0])
pdata

Unnamed: 0,排名,公司名,国家
0,1,沃尔玛（WALMART）,美国
1,2,中国石油化工集团公司（SINOPEC GROUP）,中国
2,3,荷兰皇家壳牌石油公司（ROYAL DUTCH SHELL）,荷兰
3,4,中国石油天然气集团公司（CHINA NATIONAL PETROLEUM）,中国
4,5,国家电网公司（STATE GRID）,中国
5,6,沙特阿美公司（SAUDI ARAMCO）,沙特阿拉伯
6,7,英国石油公司（BP）,英国
7,8,埃克森美孚（EXXON MOBIL）,美国
8,9,大众公司（VOLKSWAGEN）,德国
9,10,丰田汽车公司（TOYOTA MOTOR）,日本


- 第四步：储存数据表格

### 通向完善之路：异常处理

网络抓取数据可能会遇到很多意外的情况，例如本地网络连接问题、远程网站改动等，因此需要一定的容错机制。

使用try语句来容错。

In [16]:
try:
    requests.get("http://www.baidu.com", timeout=5)
except Exception as e:
    print(e)
else:
    print("It worked!")
finally:
    print("Always print!")

It worked!
Always print!


### 通向完善之路：封装成通用的函数

如果希望爬虫能够应用于不同的网页，那么可以修改上述案例到一个通用的函数。我们来尝试一下。

In [17]:
def get_web_page_table(website, table_css_selector, encoding="UTF-8", header=True):
    # to crawl the web page
    r = requests.get(website)

    # to correct coding
    r.encoding = encoding

    # to create BS object for parse HTML
    bs_obj = BeautifulSoup(r.text, 'lxml')
    
    # first step: find the table
    table = bs_obj.select(table_css_selector)[0]
    
    row_data = []
    for row in table.select("tr"):
        row_data.append([item.text for item in row.select("td")])
    
    row_data = []
    for row in table.select("tr"):
        # to add table header
        if len(row.select("th")) > 0:
            row_data.append([re.sub("\s", "", item.text) for item in row.select("th")])
        else:
            row_data.append([re.sub("\s", "", item.text) for item in row.select("td")])
            
    if header:
        return pd.DataFrame(row_data[1:], columns=row_data[0])
    else:
        return pd.DataFrame(row_data)

In [18]:
result = get_web_page_table("https://finance.sina.com.cn/china/2019-07-22/doc-ihytcitm3776293.shtml", ".tb01", encoding="UTF-8")
result

Unnamed: 0,排名,公司名,国家
0,1,沃尔玛（WALMART）,美国
1,2,中国石油化工集团公司（SINOPECGROUP）,中国
2,3,荷兰皇家壳牌石油公司（ROYALDUTCHSHELL）,荷兰
3,4,中国石油天然气集团公司（CHINANATIONALPETROLEUM）,中国
4,5,国家电网公司（STATEGRID）,中国
5,6,沙特阿美公司（SAUDIARAMCO）,沙特阿拉伯
6,7,英国石油公司（BP）,英国
7,8,埃克森美孚（EXXONMOBIL）,美国
8,9,大众公司（VOLKSWAGEN）,德国
9,10,丰田汽车公司（TOYOTAMOTOR）,日本


In [19]:
result = get_web_page_table("http://114.xixik.com/qs2020/", ".content_text table", encoding="GBK")
result

Unnamed: 0,2020排名,2019排名,学校,国家或地区
0,1,1,麻省理工学院MassachusettsInstituteofTechnology(MIT),美国
1,2,2,斯坦福大学StanfordUniversity,美国
2,3,3,哈佛大学HarvardUniversity,美国
3,4,5,牛津大学UniversityofOxford,英国
4,5,4,加州理工学院CaliforniaInstituteofTechnology(Caltech),美国
5,6,7,苏黎世联邦理工学院ETHZurich(SwissFederalInstituteofTech...,瑞士
6,7,6,剑桥大学UniversityofCambridge,英国
7,8,10,伦敦大学学院UCL(UniversityCollegeLondon),英国
8,9,8,帝国理工学院ImperialCollegeLondon,英国
9,10,9,芝加哥大学UniversityofChicago,美国


### get()方法，此路不通

- 并不是所有静态网站都可以使用get()方法。

- 到了post()方法登场的时候...

<br> 

例如作为电影爱好者，经常会去艺恩（http://www.endata.com.cn/BoxOffice/MovieStock/movies.html） 查看下电影的信息并予以收藏。

思考：刚学习爬虫的我们，该如何抓取某部电影的基本信息呢？

In [7]:
import requests

params = {"movieId": "641515", "MethodName":"BoxOffice_GetMovieData_Details"}
r = requests.post("http://www.endata.com.cn/API/GetData.ashx", data=params)
r.json()["Data"]["Table"][0]

{'MovieId': 641515,
 'MovieName': '战狼2',
 'MovieEnMovie': 'Wolf Warriors 2',
 'DefaultImage': 'http://images.entgroup.cn/group1/M00/00/C2/wKgASVznzXuAZSQEAAB9n21g2SM514.jpg',
 'Genre_Main': '动作|5/战争|27/军事|83/',
 'MovieCountry': '中国|50/',
 'typeid': 1,
 'ReleaseYear': 2017,
 'ReleaseTime': '2017-7-27',
 'ReleaseCountry': '中国|50/',
 'MovieDyan': '吴京 Jing Wu|8448/',
 'MovieYyuan': '吴京 Jing Wu|8448/弗兰克·格里罗 Frank Grillo|208038/卢靖姗 Celina Jade|29636/吴刚 Gang Wu|1864045/张翰 Han Zhang|1888479/丁海峰 Haifeng Ding|2173/淳于珊珊 Shanshan Chunyu|1863532/海蒂·莫尼梅克 Heidi Moneymaker|2380531/奥列格·普鲁迪乌斯 Oleg Aleksandrovich Prudius|2380532/艾伦·托尼 Aaron Toney|2380533/赛尔·哈里斯 Thayr Harris|2380534/周冠廷 Guanting Zhou|2380535/安·詹姆斯 Ann James|2380536/黛安娜·希拉 Diana Sylla|2380537/关海龙 Hailong Guan|2341272/安妮塔·斯图尔特 Anita Stewart|2380538/特雷弗·琼斯 Trevor Jones|2380539/奥斯汀·普里斯特 Austin Priester|2380540/克莱·方特诺特 Clay Donahue Fontenot|2380541/保罗·艾力卡 Paul Allica|2380542/丹尼尔·哈格里夫 Daniel Hargrave|2380543/李镇男 Aaron Lee|2380544/陈云志 Yunzhi Che

- 挑战：（在艺恩网站上）抓取某位你喜欢的明星的身高和星座信息

## 动态网页爬虫初探

### 为什么无法请求到数据？

想象某人想要获取大学院校的相关数据，他找到了[阿凡题网站](https://gaokao.afanti100.com/university.html)，于是他想要之前的静态网页爬虫的技术获取数据。

In [20]:
result = requests.get("https://gaokao.afanti100.com/university.html")

# to correct coding
#r.encoding = encoding

# to create BS object for parse HTML
bs_obj = BeautifulSoup(result.text, 'lxml')

# first step: find the table
table = bs_obj.select(".list")
table

[<ul class="list">
 <!--<li>-->
 <!--<div class="logo"><img src="../static/img/sample/96x96.jpg" alt=""/></div>-->
 <!--<div class="detail">-->
 <!--<h4 class="title">北京大学 <span class="rank">综合排名：<em>2</em></span></h4>-->
 <!--<div class="tags">-->
 <!--<b>985</b>-->
 <!--<b>211</b>-->
 <!--<b>北京</b>-->
 <!--<b>教育部直属</b>-->
 <!--</div>-->
 <!--<div class="stat">-->
 <!--<strong><em>81</em> 重点学科</strong>-->
 <!--<strong><em>312</em> 硕士点数</strong>-->
 <!--<strong><em>800</em> 博士点数</strong>-->
 <!--</div>-->
 <!--</div>-->
 <!--<div class="links">-->
 <!--<a href="javascript:void(0)">院校详情</a>-->
 <!--<a href="javascript:void(0)">查分数</a>-->
 <!--<a href="javascript:void(0)">录取概率</a>-->
 <!--<a href="javascript:void(0)">专家报志愿</a>-->
 <!--</div>-->
 <!--</li>-->
 <!--<li>-->
 <!--<div class="logo"><img src="../static/img/sample/96x96.jpg" alt=""/></div>-->
 <!--<div class="detail">-->
 <!--<h4 class="title">北京大学 <span class="rank">综合排名：<em>2</em></span></h4>-->
 <!--<div class="tags">-->
 <!

### XHR

XMLHttpRequest（XHR）对象用于与服务器交互。通过 XMLHttpRequest 可以在不刷新页面的情况下请求特定 URL，获取数据。这允许网页在不影响用户操作的情况下，更新页面的局部内容。

### 通过XHR的方式抓取数据

- 利用chrome浏览器的开发者工具找到XHR的网址

#### 阿凡题院校库的案例

- 爬取第一页的院校数据

In [21]:
result = requests.get("https://gaokao.afanti100.com/api/v1/universities/?degree_level=0&directed_by=0&university_type=0&location_province=0&speciality=0&page=1")
json_data = result.json()["data"]["university_lst"]

data = []
for item in json_data:
    del item["university_id"]
    del item["logo_url"]
    item["tag"] = " ".join(item["tag_lst"])
    del item["tag_lst"]
    data.append(item)

pdata = pd.DataFrame(data)
pdata

Unnamed: 0,directed_by,doctoral_program_count,graduate_program_count,is_211,is_985,is_double,key_major_count,location_city,location_province,name,ranking,tag,university_type
0,教育部,253,271,True,True,A,37,北京市,北京,清华大学,1,双一流A 985 211 北京市 教育部 工科院校,工科院校
1,教育部,263,312,True,True,A,81,北京市,北京,北京大学,2,双一流A 985 211 北京市 教育部 综合院校,综合院校
2,教育部,296,326,True,True,A,35,杭州市,浙江,浙江大学,3,双一流A 985 211 杭州市 教育部 综合院校,综合院校
3,教育部,203,298,True,True,A,49,上海市,上海,上海交通大学,4,双一流A 985 211 上海市 教育部 综合院校,综合院校
4,教育部,153,219,True,True,A,68,上海市,上海,复旦大学,5,双一流A 985 211 上海市 教育部 综合院校,综合院校
5,教育部,147,213,True,True,A,67,南京市,江苏,南京大学,6,双一流A 985 211 南京市 教育部 综合院校,综合院校
6,教育部,250,347,True,True,A,52,武汉市,湖北,武汉大学,7,双一流A 985 211 武汉市 教育部 综合院校,综合院校
7,教育部,349,443,True,True,A,46,成都市,四川,四川大学,8,双一流A 985 211 成都市 教育部 综合院校,综合院校
8,教育部,175,214,True,True,A,36,武汉市,湖北,华中科技大学,9,双一流A 985 211 武汉市 教育部 综合院校,综合院校
9,教育部,240,311,True,True,A,41,长春市,吉林,吉林大学,10,双一流A 985 211 长春市 教育部 综合院校,综合院校


- 爬取前五页的院校数据

In [22]:
web_fmt = "https://gaokao.afanti100.com/api/v1/universities/?degree_level=0&directed_by=0&university_type=0&location_province=0&speciality=0&page={}"

data = []
for i in range(1,6):
    result = requests.get(web_fmt.format(i))
    json_data = result.json()["data"]["university_lst"]
    
    for item in json_data:
        del item["university_id"]
        del item["logo_url"]
        item["tag"] = " ".join(item["tag_lst"])
        del item["tag_lst"]
        data.append(item)

pdata = pd.DataFrame(data, index=range(1, len(data)+1))
pdata

Unnamed: 0,directed_by,doctoral_program_count,graduate_program_count,is_211,is_985,is_double,key_major_count,location_city,location_province,name,ranking,tag,university_type
1,教育部,253,271,True,True,A,37,北京市,北京,清华大学,1,双一流A 985 211 北京市 教育部 工科院校,工科院校
2,教育部,263,312,True,True,A,81,北京市,北京,北京大学,2,双一流A 985 211 北京市 教育部 综合院校,综合院校
3,教育部,296,326,True,True,A,35,杭州市,浙江,浙江大学,3,双一流A 985 211 杭州市 教育部 综合院校,综合院校
4,教育部,203,298,True,True,A,49,上海市,上海,上海交通大学,4,双一流A 985 211 上海市 教育部 综合院校,综合院校
5,教育部,153,219,True,True,A,68,上海市,上海,复旦大学,5,双一流A 985 211 上海市 教育部 综合院校,综合院校
6,教育部,147,213,True,True,A,67,南京市,江苏,南京大学,6,双一流A 985 211 南京市 教育部 综合院校,综合院校
7,教育部,250,347,True,True,A,52,武汉市,湖北,武汉大学,7,双一流A 985 211 武汉市 教育部 综合院校,综合院校
8,教育部,349,443,True,True,A,46,成都市,四川,四川大学,8,双一流A 985 211 成都市 教育部 综合院校,综合院校
9,教育部,175,214,True,True,A,36,武汉市,湖北,华中科技大学,9,双一流A 985 211 武汉市 教育部 综合院校,综合院校
10,教育部,240,311,True,True,A,41,长春市,吉林,吉林大学,10,双一流A 985 211 长春市 教育部 综合院校,综合院校


## 扩展讨论

当接触了爬虫之后，也许我们会有更多的问题，例如

- 如何设计更好的容错机制？
- 爬取速度太慢？
- 网站需要登录？
- 网站的js动态内容无法抓取？
- 网站的反爬虫机制？
......