# 2.4 Pandas 基础

我们在解决实际问题时，数据往往都已提前存储在文件中。Pandas 可以直接从各种文件格式，如 CSV、JSON、SQL、Microsoft Excel 等导入数据，并对各种数据进行运算操作， 比如归并、再成形、选择，还有数据清洗和数据加工特征。如果说 Numpy 类似于 Python 中的列表 list，不带数值标签，那么 Pandas 则类似 Python 中的字典 dict。

使用 Pandas 前，需要首先导入相应的包：

In [1]:
import pandas as pd
pd.__version__ #显示 Pandas 版本号

'1.4.2'

## 2.4.1 Pandas 主要数据结构

Pandas 的主要数据结构有两个，分别是 Series 和 DataFrame。

（1）Series 构建 Series 对象的函数如下： pandas.Series( data, index, dtype, name, copy) 其中参数 data 是一组数据，如列表数据、词典数据或 ndarray 类型的对象等，index 是 数据索引标签，如果不指定，默认从 0 开始。dtype 是指定的数据类型，默认会自己判断。 name 是设置名称。copy 参数表示是否进行拷贝数据，默认为 False。 下面给出一些生成 Series 对象的示例。

In [2]:
a = pd.Series([1, 3, 5, 6, 8]) #a 是由 python 列表生成的 Series 对象
a #结果中的第一列为索引，从 0 开始。第二列为实际的数据

0    1
1    3
2    5
3    6
4    8
dtype: int64

In [3]:
b = pd.Series({1:'a', 3:'b', 5:'c', 6:'d', 8:'e'}) #b 是由词典生成的 Series 对象
b #结果中的索引就是词典中的索引 key，第二列是词典中的 value 数据

1    a
3    b
5    c
6    d
8    e
dtype: object

In [4]:
c = list("abcde")
d = [1, 3, 4, 6, 8]
e = pd.Series(data=c, index=d) #分别指定数据和索引，生成 Series 对象
e

1    a
3    b
4    c
6    d
8    e
dtype: object

In [5]:
import numpy as np
g = pd.Series(1, np.arange(5)) #Series 对象含有 5 个值均为 1 的元素
g

0    1
1    1
2    1
3    1
4    1
dtype: int64

In [6]:
f=pd.Series(np.random.rand(5),index=np.arange(10,15),name='test_S')
f #f 是由 numpy 随机数据生成的 Series 对象

10    0.982133
11    0.950893
12    0.437602
13    0.790509
14    0.607559
Name: test_S, dtype: float64

In [7]:
f[12] #返回索引值为 12 的元素，即第 3 个元素的值

0.4376019701810676

（2）DataFrame

Pandas 创建 DataFrame 类型的对象基本函数如下： pandas.DataFrame( data, index, columns, dtype, copy) 其中 data 表示实际的数据，可以是 Numpy 的 ndarray 类型、Pandas 的 series 类型、或 python 的类别 list、字典 dict 等类型。index 为行标签，默认从 0 开始。columns 为列标签， 默认从 0 开始。Dtype 指定数据类型。Copy 表示是否拷贝数据，默认为 False。 

以下是使用列表生成 DataFrame 对象示例，这里的列表相当于二维数组。

In [8]:
data = [['BUPT',1955],['Tsinghua',1911],['PKU',1898]]
df = pd.DataFrame(data, columns=['University', 'Year']) #行索引默认从 0 开始
df

Unnamed: 0,University,Year
0,BUPT,1955
1,Tsinghua,1911
2,PKU,1898


需要注意的是，若列表中的每个元素为一个字典，则每个元素代表一行，字典中的 key 为列索引。例如：

In [9]:
data = [{'U': 'BUPT', 'Y': 1955, 'N': 15655 },{'U': 'PKU', 'Y': 1911}]
df = pd.DataFrame(data)
df #最后一个元素在 data 中未给出，则用 Numpy 中的 NaN 表示

Unnamed: 0,U,Y,N
0,BUPT,1955,15655.0
1,PKU,1911,


以下是直接使用词典生成 DataFrame 对象示例，需要注意的是，词典中每个 key 对应列 索引，每个 value 为一个列表对象，代表一列。

In [10]:
data = {'University':['BUPT', 'Tsinghua', 'PKU'], 'Age':[1955, 1911, 1898]}
df = pd.DataFrame(data, index=list('BTP')) #指定了行索引
df

Unnamed: 0,University,Age
B,BUPT,1955
T,Tsinghua,1911
P,PKU,1898


使用 Numpy 中的 ndarray 对象也可以生成 DataFrame 对象，例如：

In [11]:
df = pd.DataFrame(np.random.rand(6).reshape(2,3))
df

Unnamed: 0,0,1,2
0,0.269899,0.762451,0.424256
1,0.234042,0.290356,0.502975


In [12]:
dates = pd.date_range("20130101", periods=6) #得到 6 个日期索引
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [13]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df #数据为 6 行 4 列，每行的索引为 dates 中的元素，每列的索引为 list 对象中的每个元素

Unnamed: 0,A,B,C,D
2013-01-01,-1.611366,-1.212798,0.902498,-0.704692
2013-01-02,1.492336,-1.329334,1.398224,-0.628711
2013-01-03,0.461297,1.853329,0.515959,-0.217603
2013-01-04,-0.287816,-0.519985,0.480849,0.526587
2013-01-05,-0.123248,1.294298,-1.424501,-0.183245
2013-01-06,-0.574041,-0.250343,0.272308,0.094044


以下示例给出了每列具有不同数据类型的数据来构建 DataFrame 对象。

In [14]:
df2 = pd.DataFrame({'A' : 1.,  'C' : pd.Series(1,index=list(range(4)),dtype='float32'),  'D' : np.array([3] * 4,dtype='int32'),  'E' : pd.Categorical(["test","train","test","train"]), 'F' : 'foo'})
df2

Unnamed: 0,A,C,D,E,F
0,1.0,1.0,3,test,foo
1,1.0,1.0,3,train,foo
2,1.0,1.0,3,test,foo
3,1.0,1.0,3,train,foo


DataFrame 具有一些属性，例如行索引 index，列索引 columns，元素类型 dtypes，转置 T 等。举例如下：

In [15]:
df2.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [16]:
df2.columns

Index(['A', 'C', 'D', 'E', 'F'], dtype='object')

In [17]:
df2.dtypes

A     float64
C     float32
D       int32
E    category
F      object
dtype: object

In [18]:
df2.T

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0
C,1.0,1.0,1.0,1.0
D,3,3,3,3
E,test,train,test,train
F,foo,foo,foo,foo


DataFrame 还有一些内置函数也会经常用到，如 head()、tail()、to_numpy()、describe()、 sort_index()、sort_values()等，在此不再一一介绍，读者可使用 python 的 help 函数查看各个函数的使用帮助。

## 2.4.2 索引与切片

类似于 list 和 ndarray 对象，DataFrame 对象也可以进行索引和切片。设数组定义如下：

In [19]:
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.arange(24).reshape(6,4), dates, columns=list("ABCD"))
df #6 行 4 列，行索引从"20130101"到"20130106"，列索引从"A"到"D"

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


（1）列索引

选择 DataFrame 对象 df 其中的某一列，格式为 df[列索引名]，生成结果为一个 Series 对象。示例如下：

In [20]:
df['A'] #列名给出的情况下，也可以使用 df.A，但不能使用 df[0]

2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int32

（2）行索引

选择 DataFrame 对象 df 其中的某一行，可使用 df 的属性 loc 对象或 iloc 对象。 使用 loc 对象的格式为 df.loc[行索引名]，使用 iloc 对象的格式为 df.iloc[行索引序号]， 生成结果均为一个 Series 对象。示例如下：

In [21]:
df.loc['2013-01-02'] #注意，需要用实际的索引名称，而不能用索引序号

A    4
B    5
C    6
D    7
Name: 2013-01-02 00:00:00, dtype: int32

In [22]:
type(df.loc['2013-01-02']) #查看返回对象类型

pandas.core.series.Series

In [23]:
df.iloc[1] #注意，需要用索引序号，而不能用实际的索引名称

A    4
B    5
C    6
D    7
Name: 2013-01-02 00:00:00, dtype: int32

In [24]:
type(df.iloc[1]) #查看返回对象类型

pandas.core.series.Series

（3）按行切片，得到新的 DataFrame 类型的对象

DataFrame 对象可以直接通过[ ]进行按行切片，此时[ ]内必须有冒号。冒号前后可以是行索引序号或行索引名称，也可以省略，但切片范围有所区别。例如：

In [25]:
df[0:3] #取前 3 行数据，也可以写成 df[:3]

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11


In [26]:
df['2013-01-02':'2013-01-05'] #取两个索引之间的各行数据，注意含最后一个索引行

Unnamed: 0,A,B,C,D
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19


（4）按行进行布尔索引

布尔索引用于筛选出 DataFrame 中满足相应条件的若干行。例如：

In [27]:
df[df.B >10] #筛选出 B 列中值>10 的元素所在的行

Unnamed: 0,A,B,C,D
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


In [28]:
df[df.B.isin ([0,1,2,3,4,5])] #筛选出 B 列中值在给定列表中的元素所在的行

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7


In [29]:
df[df%2 == 0] #对所有元素筛选，保留所有为偶数的元素，不满足条件的元素置为 Nan

Unnamed: 0,A,B,C,D
2013-01-01,0,,2,
2013-01-02,4,,6,
2013-01-03,8,,10,
2013-01-04,12,,14,
2013-01-05,16,,18,
2013-01-06,20,,22,


（4）任意切片

使用 loc 对象或 iloc 可同时对行和列进行任意切片，此时[ ]内必须有逗号，逗号前的参数表示对行的切片，逗号后的参数表示对类的切片。若参数为冒号，所以选择所有的行或列。 例如：

In [30]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2013-01-01,0,1
2013-01-02,4,5
2013-01-03,8,9
2013-01-04,12,13
2013-01-05,16,17
2013-01-06,20,21


In [31]:
df.loc["20130102":"20130104", ["A", "B"]]

Unnamed: 0,A,B
2013-01-02,4,5
2013-01-03,8,9
2013-01-04,12,13


In [32]:
df.loc["20130102", ["A", "B"]] #注意返回的是 Series 对象

A    4
B    5
Name: 2013-01-02 00:00:00, dtype: int32

需要获取到某一位置的标量值时，同样可以使用 loc 属性来进行选择，还可以使用更快 的 at 属性来进行选择，两者的效果相同。

In [33]:
df.loc["20130102", "A"] #注意返回的是元素值

4

In [34]:
df.at["20130102", "A"]

4

同样的，也可以使用 iloc 属性根据索引序号位置进行切片来选择多行或多列数据

In [35]:
df.iloc[3:5, 0:2] #注意冒号后对应的位置不会被选择

Unnamed: 0,A,B
2013-01-04,12,13
2013-01-05,16,17


In [36]:
df.iloc[[1, 2, 4], [0, 2]] #通过整数列表来选择多行或多列数据。

Unnamed: 0,A,C
2013-01-02,4,6
2013-01-03,8,10
2013-01-05,16,18


In [37]:
df.iloc[1:3, :] #可以通过单独的冒号表示选择所有行或列

Unnamed: 0,A,B,C,D
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11


In [38]:
df.iloc[1, 1] #选择(1,1)位置的元素值

5

In [39]:
df.iat[1, 1] #获取某一位置的标量值时，也可以使用 iat 属性

5

## 2.4.3 数据扩充和合并

（1）索引更改

Pandas 允许更改 DataFrame 对象的行索引或列索引。例如：

In [40]:
df = pd.DataFrame(np.arange(24).reshape(6,4))
df #6 行 4 列，行索引从 0 到 5，列索引从 0 到 3，

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23


In [41]:
dates = pd.date_range("20130101", periods=6)
df.index = dates #修改行索引
df

Unnamed: 0,0,1,2,3
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


In [42]:
df.columns = list("ABCD") #修改列索引，变为从"A"到"D"
df

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


可以使用 reindex 函数，对索引进行扩充或删除，生成新的对象，原对象未改变。需要注意的是，新增索引对应的行或列的数据是缺失的，此时使用 NaN（即 np.nan）来表示。

In [43]:
df1 = df.reindex(index=df.index, columns=list(df.columns) + ["E"])
df1 #6 行 5 列，行索引未变，增加了一列，对应列索引为"E"，

Unnamed: 0,A,B,C,D,E
2013-01-01,0,1,2,3,
2013-01-02,4,5,6,7,
2013-01-03,8,9,10,11,
2013-01-04,12,13,14,15,
2013-01-05,16,17,18,19,
2013-01-06,20,21,22,23,


（2）缺失数据的处理

默认情况下，缺失数据并不参与计算。我们可以将具有缺失数据的任何行或列进行删除， 或将缺失数据填充为某个值。例如：

In [44]:
df1.iloc[3,4] = 1
df1.dropna(axis=0, how="any") #删除含有缺失数据的行，返回新的对象，原对象未改变。 axis 默认为 0，表示删除行，因此 axis=0 可省略，等价于 df1.dropna(how="any")

Unnamed: 0,A,B,C,D,E
2013-01-04,12,13,14,15,1.0


In [45]:
df1.dropna(axis=1, how="any") #删除含有缺失数据的列，axis=1，表示删除列

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


In [46]:
df1.fillna(value=5) #将所有缺失数据填充为 5，返回新的对象，原对象未改变

Unnamed: 0,A,B,C,D,E
2013-01-01,0,1,2,3,5.0
2013-01-02,4,5,6,7,5.0
2013-01-03,8,9,10,11,5.0
2013-01-04,12,13,14,15,1.0
2013-01-05,16,17,18,19,5.0
2013-01-06,20,21,22,23,5.0


（3）合并

可通过 pd.concat()函数进行横向或纵向连接对象，得到新的 DataFrame 对象。函数 参数 axis 默认值为 0，表示纵向合并，合并时只有列索引相同的进行合并，不同的列会自动扩充。例如：

In [47]:
df3 = pd.DataFrame(np.random.randn(6, 4))
df3

Unnamed: 0,0,1,2,3
0,0.598201,0.454323,2.180148,1.242247
1,-1.124581,-0.189785,0.695078,-0.250089
2,-0.502731,1.578122,-0.993601,1.69947
3,0.695552,-0.147844,-1.389264,-0.242846
4,-0.29468,0.161242,0.556553,1.390409
5,-0.834311,0.416493,-0.564244,0.869348


In [48]:
pd.concat([df, df3]) #合并，变为 12 行 8 列

Unnamed: 0,A,B,C,D,0,1,2,3
2013-01-01 00:00:00,0.0,1.0,2.0,3.0,,,,
2013-01-02 00:00:00,4.0,5.0,6.0,7.0,,,,
2013-01-03 00:00:00,8.0,9.0,10.0,11.0,,,,
2013-01-04 00:00:00,12.0,13.0,14.0,15.0,,,,
2013-01-05 00:00:00,16.0,17.0,18.0,19.0,,,,
2013-01-06 00:00:00,20.0,21.0,22.0,23.0,,,,
0,,,,,0.598201,0.454323,2.180148,1.242247
1,,,,,-1.124581,-0.189785,0.695078,-0.250089
2,,,,,-0.502731,1.578122,-0.993601,1.69947
3,,,,,0.695552,-0.147844,-1.389264,-0.242846


In [49]:
df3.columns = df.columns #变更 df3 的列索引
pd.concat([df, df3]) #再次纵向合并，相同列索引的数据合并为一列，变为 12 行 4 列

Unnamed: 0,A,B,C,D
2013-01-01 00:00:00,0.0,1.0,2.0,3.0
2013-01-02 00:00:00,4.0,5.0,6.0,7.0
2013-01-03 00:00:00,8.0,9.0,10.0,11.0
2013-01-04 00:00:00,12.0,13.0,14.0,15.0
2013-01-05 00:00:00,16.0,17.0,18.0,19.0
2013-01-06 00:00:00,20.0,21.0,22.0,23.0
0,0.598201,0.454323,2.180148,1.242247
1,-1.124581,-0.189785,0.695078,-0.250089
2,-0.502731,1.578122,-0.993601,1.69947
3,0.695552,-0.147844,-1.389264,-0.242846


In [50]:
df.index=range(len(df.index)) #修改 df 的行索引为从 0 到 5
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23


In [51]:
pd.concat([df,df3], axis=1) #横向合并，变为 6 行 8 列，注意列索引名称

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,0,1,2,3,0.598201,0.454323,2.180148,1.242247
1,4,5,6,7,-1.124581,-0.189785,0.695078,-0.250089
2,8,9,10,11,-0.502731,1.578122,-0.993601,1.69947
3,12,13,14,15,0.695552,-0.147844,-1.389264,-0.242846
4,16,17,18,19,-0.29468,0.161242,0.556553,1.390409
5,20,21,22,23,-0.834311,0.416493,-0.564244,0.869348


## 2.4.4 分组统计

Pandas 支持按照某一标准对数据进行分组，对每一组都单独应用某一操作，将最后的结果合并在一个新的 DataFrame 对象中。

In [52]:
list1 = ["foo", "bar", "foo", "bar", "foo", "bar"]
list2 = ["one", "one", "two", "three", "two", "one"]
list3 = np.random.randint(6,size=(6))
list4 = np.random.randint(6,size=(6))
df = pd.DataFrame({"A": list1, "B": list2, "C": list3, "D": list4})
df

Unnamed: 0,A,B,C,D
0,foo,one,4,4
1,bar,one,0,0
2,foo,two,0,4
3,bar,three,4,4
4,foo,two,4,1
5,bar,one,3,0


根据某一列对数据分组，并对每一组单独进行求和、求平均等统计操作。

In [53]:
df.groupby('A').sum() #求和

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,7,4
foo,8,9


根据多列对数据分组，并对每一组单独进行统计操作

In [54]:
r=df.groupby(['A','B']).mean() #求平均，注意返回的对象有'A'和'B'共 2 列行索引
r

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.5,0.0
bar,three,4.0,4.0
foo,one,4.0,4.0
foo,two,2.0,2.5


In [55]:
r.loc[('bar','three')] #得到第二行数据，返回的是 Series 对象

C    4.0
D    4.0
Name: (bar, three), dtype: float64

## 2.4.5 文件的读取与导出

Pandas 可以将 DataFrame 对象写入 CSV、HDF5、Excel 文件中，也能从 CSV、HDF5、Excel 文件中读取数据得到 DataFrame 对象。 

（1）写入文件 

DataFrame 对象写入文件时，行索引和列索引也会保存到文件中。

In [56]:
df

Unnamed: 0,A,B,C,D
0,foo,one,4,4
1,bar,one,0,0
2,foo,two,0,4
3,bar,three,4,4
4,foo,two,4,1
5,bar,one,3,0


In [57]:
df.to_csv("test.csv") #写入 cvs 文件
df.to_hdf("test.h5", key="df") #写入 hdf5 文件，key 指定存入的 group 名称
df.to_excel("test.xlsx", sheet_name="Sheet1") #写入 excel 文件

对于多个 DateFrame 对象，可以保存到同一文件的多个 sheet 表单中，此时需要用到 ExcelWriter 对象，示例如下：

In [58]:
df1 = df.copy()
with pd.ExcelWriter('output.xlsx') as writer: 
    df.to_excel(writer, sheet_name='Sheet_name_1')  
    df1.to_excel(writer, sheet_name='Sheet_name_2')
with pd.ExcelWriter('output.xlsx', mode='a', engine='openpyxl') as writer: 
    df.to_excel(writer, sheet_name='Sheet_name_3')

（2）读取文件 

读取文件是同写入文件相反的操作，从文件中读取信息生成新的 DataFrame 对象。示例 如下：

In [59]:
pd.read_csv("test.csv") #读取 csv 文件，参数为文件名 
pd.read_hdf("test.h5", "df") #从 hdf5 文件读取 
pd.read_excel("test.xlsx", "Sheet1", index_col=0, na_values=["NA"]) # 从 test.xlsx 文件中的 Sheet1 表单中读取数据，行索引在第 0 列（若没有设置为 None），若有缺省 值则使用 NA 表示

Unnamed: 0,A,B,C,D
0,foo,one,4,4
1,bar,one,0,0
2,foo,two,0,4
3,bar,three,4,4
4,foo,two,4,1
5,bar,one,3,0
