## Web信息收集
`read_html`：对html文件中的表格进行解析，得到的由DataFrame组成的列表，列表中每个DataFrame对应html文件中的每个表格
> 注：
- html文件必须是标准的html5格式，表格列名要用<thead\>标签包围，否则生成的DataFrame是不会将表格列名作为columns的，而是用自动生成的数字序列代替；
- 若html文件表格中有<tbody\>标签，则数据内容需要包含在<tbody\>标签中，否则不会被读取；
- 若没有<tbody\>标签，表格所有数据都会被读取为DataFrame的values，如果此时又有<thead\>标签，则列名会被同时读取为columns和values，即columns和第一行内容都是列名。

参数：  
`header`：指定行索引所对应的行作为columns，对于没有<thead\>标签的表格，可使用`header=0`  
`index_col`：指定列索引所对应的列作为index

In [1]:
import pandas as pd

In [2]:
tables=pd.read_html('doc\pd-web.html')

In [3]:
table=tables[0]

In [4]:
print("tables' type is %s\ntable's type is %s"%(type(tables),type(table)))

tables' type is <class 'list'>
table's type is <class 'pandas.core.frame.DataFrame'>


In [5]:
table.head()

Unnamed: 0,箱号,尺寸,箱型,进场日期,堆存天数,箱动态,箱状况,来箱情况,备注,堆场
0,AMFU3238167,20,GP,2019-1-20 13:05:44,27,EC,坏箱,回空,,SHIC
1,BMOU2241483,20,GP,2019-1-28 20:45:05,19,EC,坏箱,回空,,SHIC
2,BMOU2405247,20,GP,2019-1-22 21:04:15,25,EC,好箱,洋山三期,,SHWL
3,BMOU2552042,20,GP,2019-1-27 10:24:36,20,EC,坏箱,回空,,SHIC
4,BMOU2553711,20,GP,2019-2-15 13:47:58,1,EC,坏箱,回空,,SHIC


In [6]:
table['箱号'][1:4] # 指定某列某行，得到个Series

1    BMOU2241483
2    BMOU2405247
3    BMOU2552042
Name: 箱号, dtype: object

In [7]:
# pd-web-1.html的表格有<thead>但没有<tbody>，列名会同时被读取为columns和values
t1=pd.read_html('doc\pd-web-1.html')
t1=t1[0]
t1

Unnamed: 0,箱号,尺寸,箱型,进场日期,堆存天数,箱动态,箱状况,来箱情况,备注,堆场
0,箱号,尺寸,箱型,进场日期,堆存天数,箱动态,箱状况,来箱情况,备注,堆场
1,AMFU3238167,20,GP,2019-1-20 13:05:44,27,EC,坏箱,回空,,SHIC
2,BMOU2241483,20,GP,2019-1-28 20:45:05,19,EC,坏箱,回空,,SHIC
3,BMOU2405247,20,GP,2019-1-22 21:04:15,25,EC,好箱,洋山三期,,SHWL
4,BMOU2552042,20,GP,2019-1-27 10:24:36,20,EC,坏箱,回空,,SHIC
5,BMOU2553711,20,GP,2019-2-15 13:47:58,1,EC,坏箱,回空,,SHIC


In [8]:
# pd-web-1.html的表格没有<thead>，使用header参数指定columns，index_col可以指定index
t2=pd.read_html('doc\pd-web-2.html',header=0,index_col=1)
t2=t2[0]
t2

Unnamed: 0_level_0,箱号,箱型,进场日期,堆存天数,箱动态,箱状况,来箱情况,备注,堆场
尺寸,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
20,AMFU3238167,GP,2019-1-20 13:05:44,27,EC,坏箱,回空,,SHIC
20,BMOU2241483,GP,2019-1-28 20:45:05,19,EC,坏箱,回空,,SHIC
20,BMOU2405247,GP,2019-1-22 21:04:15,25,EC,好箱,洋山三期,,SHWL
20,BMOU2552042,GP,2019-1-27 10:24:36,20,EC,坏箱,回空,,SHIC
20,BMOU2553711,GP,2019-2-15 13:47:58,1,EC,坏箱,回空,,SHIC
