pandas中的pd.read_html()这个函数，功能非常强大，可以轻松实现抓取Table表格型数据。无需掌握正则表达式或者xpath等工具，短短的几行代码就可以将网页数据抓取下来。

## pd.read_html语法及参数

pandas.read_html(io, match='.+', flavor=None, 
header=None,index_col=None,skiprows=None, 
attrs=None, parse_dates=False, thousands=', ', 
encoding=None, decimal='.', converters=None, na_values=None, 
keep_default_na=True, displayed_only=True）

- io ：接收网址、文件、字符串；
- parse_dates：解析日期；
- flavor：解析器；
- header：标题行；
- skiprows：跳过的行；
- attrs：属性，比如 attrs = {'id': 'table'}

## 抓取世界大学排名（1页数据）

In [1]:
import pandas as pd 
import csv
url1 = 'http://www.compassedu.hk/qs'
df1 = pd.read_html(url1)[0]  #0表示网页中的第一个Table
# df1.to_csv('世界大学综合排名.csv',index=0)
df1

Unnamed: 0,Ranking,University Name,Country/Region,Academic Reputation,Employer Reputation,Faculty Student,International Faculty,International Students,Citations per Faculty,Overall Score,Free
0,1,麻省理工学院Massachusetts Institute of Technology (MIT),United Sta,100.0,100.0,100.0,100,91.9,99.1,100.0,免费评估
1,2,斯坦福大学Stanford University,United Sta,100.0,100.0,100.0,99.7,63.6,98.1,98.4,免费评估
2,3,哈佛大学Harvard University,United Sta,100.0,100.0,98.6,85.2,69.9,99.1,97.9,免费评估
3,4,加州理工学院California Institute of Technology (Calt...,United Sta,97.0,82.8,100.0,100,88.2,99.9,97.0,免费评估
4,5,牛津大学University of Oxford,United Kin,100.0,100.0,100.0,99.4,98.3,81.3,96.7,免费评估
...,...,...,...,...,...,...,...,...,...,...,...
496,493,吉林大学Jilin University,China (Mai,14.9,23.1,49.9,12.4,3.2,25.2,24.2,免费评估
497,498,哈瓦那大学Universidad de La Habana,Cuba,16.0,25.8,70.5,2.4,5.5,2.4,24.1,免费评估
498,499,阿尔卡拉大学niversidad de Alcalá,Spain,9.8,13.2,58.6,22.4,70.6,10.6,23.9,免费评估
499,499,东芬兰大学University of Eastern Finland,Finland,14.7,9.0,42.9,25.8,7.3,33.5,23.9,免费评估


## 抓取新浪财经基金重仓股数据（6页数据）

In [2]:
import pandas as pd
import csv
df2 = pd.DataFrame()
for i in range(6):
    url2 = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df2 = pd.concat([df2,pd.read_html(url2)[0]])
    print('第{page}页抓取完成'.format(page = i + 1))
# df2.to_csv('./新浪财经数据.csv',encoding='utf-8',index=0)
df2

第1页抓取完成
第2页抓取完成
第3页抓取完成
第4页抓取完成
第5页抓取完成
第6页抓取完成


Unnamed: 0,代码,简称,截至日期,家数,本期持股数(万股),持股占已流通A股比例(%),同上期增减(万股),持股比例(%),上期家数,明细
0,600009,上海机场,2020-12-31,2,3207.7980,1.66,92.4934,1.62,2,+展开明细
1,600030,中信证券,2020-12-31,1,18326.5129,1.42,1466.9900,1.30,1,+展开明细
2,600062,华润双鹤,2020-12-31,1,244.5468,0.23,-20.2800,0.25,1,+展开明细
3,600068,葛洲坝,2020-12-31,3,4526.2332,0.98,-2612.7310,1.55,4,+展开明细
4,601975,招商南油,2020-12-31,1,1622.0343,0.33,-124.9100,0.35,1,+展开明细
...,...,...,...,...,...,...,...,...,...,...
35,688021,奥福环保,2020-12-31,1,131.2360,1.70,-278.6177,5.30,6,+展开明细
36,300677,英科医疗,2020-12-31,5,1963.6132,5.57,564.9432,6.29,4,+展开明细
37,300738,奥飞数据,2020-12-31,2,449.9611,2.12,-396.7645,4.24,4,+展开明细
38,688003,天准科技,2020-12-31,2,305.7298,1.58,305.7298,0.00,0,+展开明细


## 抓取证监会披露的IPO数据（50页数据）

In [3]:
import pandas as pd
from pandas import DataFrame
import csv
import time
start = time.time() #计时
df3 = DataFrame(data=None,columns=['公司名称','披露日期','上市板块','保荐机构','披露时间']) #添加列名
for i in range(1,50):  
    url3 ='http://eid.csrc.gov.cn/ipo/1010/index_%s.html'%str(i)
    df3_1 = pd.read_html(url3,encoding='utf-8')[0]  #必须加utf-8，否则乱码
    df3_2 = df3_1.iloc[1:len(df3_1)-1,0:-1]  #过滤掉最后一行和最后一列（NaN列）
    df3_2.columns=['公司名称','披露日期','上市板块','保荐机构','披露时间'] #新的df添加列名
    df3 = pd.concat([df3,df3_2])  #数据合并
    print('第{page}页抓取完成'.format(page=i))
# df3.to_csv('./上市公司IPO信息.csv', encoding='utf-8',index=0) #保存数据到csv文件
end = time.time()
print ('共抓取',len(df3),'条记录,' + '用时',round((end-start)/60,2),'分钟')
df3

第1页抓取完成
第2页抓取完成
第3页抓取完成
第4页抓取完成
第5页抓取完成
第6页抓取完成
第7页抓取完成
第8页抓取完成
第9页抓取完成
第10页抓取完成
第11页抓取完成
第12页抓取完成
第13页抓取完成
第14页抓取完成
第15页抓取完成
第16页抓取完成
第17页抓取完成
第18页抓取完成
第19页抓取完成
第20页抓取完成
第21页抓取完成
第22页抓取完成
第23页抓取完成
第24页抓取完成
第25页抓取完成
第26页抓取完成
第27页抓取完成
第28页抓取完成
第29页抓取完成
第30页抓取完成
第31页抓取完成
第32页抓取完成
第33页抓取完成
第34页抓取完成
第35页抓取完成
第36页抓取完成
第37页抓取完成
第38页抓取完成
第39页抓取完成
第40页抓取完成
第41页抓取完成
第42页抓取完成
第43页抓取完成
第44页抓取完成
第45页抓取完成
第46页抓取完成
第47页抓取完成
第48页抓取完成
第49页抓取完成
共抓取 637 条记录,用时 0.43 分钟


Unnamed: 0,公司名称,披露日期,上市板块,保荐机构,披露时间
1,赛赫智能设备（上海）股份有限公司,问询与回复,沪市科创板,国信证券股份有限公司,2021-03-26
2,赛赫智能设备（上海）股份有限公司,问询与回复,沪市科创板,国信证券股份有限公司,2021-03-26
3,苏州瑞博生物技术股份有限公司,问询与回复,沪市科创板,国泰君安证券股份有限公司,2021-03-26
4,苏州瑞博生物技术股份有限公司,问询与回复,沪市科创板,国泰君安证券股份有限公司,2021-03-26
5,苏州瑞博生物技术股份有限公司,问询与回复,沪市科创板,国泰君安证券股份有限公司,2021-03-26
...,...,...,...,...,...
9,苏州明志科技股份有限公司,注册稿,沪市科创板,东吴证券股份有限公司,2021-02-04
10,苏州明志科技股份有限公司,注册稿,沪市科创板,东吴证券股份有限公司,2021-02-04
11,江苏迈信林航空科技股份有限公司,注册稿,沪市科创板,海通证券股份有限公司,2021-02-04
12,江苏迈信林航空科技股份有限公司,注册稿,沪市科创板,海通证券股份有限公司,2021-02-04
