# pandas——DataFrame基本操作

DataFrame提供的是一个类似表的结构，由多个Series组成，而Series在DataFrame中叫columns。

一、查看数据（查看对象的方法对于Series来说同样适用）

1.查看DataFrame前xx行或后xx行

a=DataFrame(data);

a.head(6)表示显示前6行数据，若head()中不带参数则会显示全部数据。

a.tail(6)表示显示后6行数据，若tail()中不带参数则也会显示全部数据。

2.查看DataFrame的index，columns以及values

a.index ; a.columns ; a.values 即可

3.describe()函数对数据快速统计汇总

a.describe()对每一列数据进行统计，包括计数，均值，std，各个分位数等。

4.对数据的转置

a.T

5.对轴进行排序

a.sort_index(axis=1,ascending=False)；

其中axis=1表示对所有的columns进行排序，下面的数也跟着发生移动。后面的ascending=False表示按降序排列，参数缺失时默认升序。

6.对DataFrame中的值排序

a.sort(columns='x')

即对a中的x这一列，从小到大进行排序。注意仅仅是x这一列，而上面的按轴进行排序时会对所有的columns进行操作。

二、选择对象

1.选择特定列和行的数据

a['x'] 那么将会返回columns为x的列，注意这种方式一次只能返回一个列。a.x与a['x']意思一样。

取行数据，通过切片[]来选择

如：a[0:3] 则会返回前三行的数据。

2.loc是通过标签来选择数据

a.loc['one']则会默认表示选取行为'one'的行；

a.loc[:,['a','b'] ] 表示选取所有的行以及columns为a,b的列；

a.loc[['one','two'],['a','b']] 表示选取'one'和'two'这两行以及columns为a,b的列；

a.loc['one','a']与a.loc[['one'],['a']]作用是一样的，不过前者只显示对应的值，而后者会显示对应的行和列标签。

3.iloc则是直接通过位置来选择数据

这与通过标签选择类似

a.iloc[1:2,1:2] 则会显示第一行第一列的数据;(切片后面的值取不到)

a.iloc[1:2] 即后面表示列的值没有时，默认选取行位置为1的数据;

a.iloc[[0,2],[1,2]] 即可以自由选取行位置，和列位置对应的数据。

4.使用条件来选择

使用单独的列来选择数据

a[a.c>0] 表示选择c列中大于0的数据

使用where来选择数据

a[a>0] 表直接选择a中所有大于0的数据

使用isin()选出特定列中包含特定值的行

a1=a.copy()

a1[a1['one'].isin(['2','3'])] 表显示满足条件：列one中的值包含'2','3'的所有行。

三、设置值（赋值）

赋值操作在上述选择操作的基础上直接赋值即可。

例a.loc[:,['a','c']]=9 即将a和c列的所有行中的值设置为9

a.iloc[:,[1,3]]=9 表示1和2列的所有行中的值设置为9

同时也依然可以用条件来直接赋值

a[a>0]=-a 表示将a中所有大于0的数转化为负值


创建DataFrame。

通过字典对象创建一个DataFrame。

In [2]:
import numpy as np  
import pandas as pd  
dates = pd.date_range('20130101', periods=6)  
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))  
print(df)  

A         B         C         D
2013-01-01 -1.739413 -0.464840 -1.240437 -1.244574
2013-01-02 -0.804761  1.164258 -1.073149 -0.177648
2013-01-03 -1.619675  0.218574  0.489835  1.953364
2013-01-04 -0.889908 -0.865629  1.794322 -1.804324
2013-01-05  1.151663  1.010895  0.741465 -0.905265
2013-01-06 -0.674255  0.752988  0.630887  0.446280


基础操作

In [3]:
# 查看df的前5行，查看df的后3行。
print(df.head())  
print(df.tail(3))  

A         B         C         D
2013-01-01 -1.739413 -0.464840 -1.240437 -1.244574
2013-01-02 -0.804761  1.164258 -1.073149 -0.177648
2013-01-03 -1.619675  0.218574  0.489835  1.953364
2013-01-04 -0.889908 -0.865629  1.794322 -1.804324
2013-01-05  1.151663  1.010895  0.741465 -0.905265
                   A         B         C         D
2013-01-04 -0.889908 -0.865629  1.794322 -1.804324
2013-01-05  1.151663  1.010895  0.741465 -0.905265
2013-01-06 -0.674255  0.752988  0.630887  0.446280


In [4]:
# 查看df的索引名index。
print(df.index)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')


In [5]:
# 查看df的列名columns。
print(df.columns)

Index(['A', 'B', 'C', 'D'], dtype='object')


In [6]:
# 查看df的值values。
df.values

array([[-1.73941259, -0.46483987, -1.2404366 , -1.24457376],
       [-0.80476114,  1.16425783, -1.07314906, -0.17764768],
       [-1.61967518,  0.21857421,  0.48983464,  1.953364  ],
       [-0.88990795, -0.86562863,  1.79432178, -1.80432352],
       [ 1.15166337,  1.01089538,  0.74146473, -0.90526544],
       [-0.67425536,  0.752988  ,  0.63088731,  0.44628   ]])

In [7]:
# 查看df的数据统计描述。
df.describe

<bound method NDFrame.describe of                    A         B         C         D
2013-01-01 -1.739413 -0.464840 -1.240437 -1.244574
2013-01-02 -0.804761  1.164258 -1.073149 -0.177648
2013-01-03 -1.619675  0.218574  0.489835  1.953364
2013-01-04 -0.889908 -0.865629  1.794322 -1.804324
2013-01-05  1.151663  1.010895  0.741465 -0.905265
2013-01-06 -0.674255  0.752988  0.630887  0.446280>

In [8]:
# df的转置。
print(df.T)

2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06
A   -1.739413   -0.804761   -1.619675   -0.889908    1.151663   -0.674255
B   -0.464840    1.164258    0.218574   -0.865629    1.010895    0.752988
C   -1.240437   -1.073149    0.489835    1.794322    0.741465    0.630887
D   -1.244574   -0.177648    1.953364   -1.804324   -0.905265    0.446280


In [10]:
# 按axis对df数据进行排序，axis=1表示按行排序，axis=0表示按列排序。
df.sort_index(axis=1,ascending=True)

Unnamed: 0,A,B,C,D
2013-01-01,-1.739413,-0.46484,-1.240437,-1.244574
2013-01-02,-0.804761,1.164258,-1.073149,-0.177648
2013-01-03,-1.619675,0.218574,0.489835,1.953364
2013-01-04,-0.889908,-0.865629,1.794322,-1.804324
2013-01-05,1.151663,1.010895,0.741465,-0.905265
2013-01-06,-0.674255,0.752988,0.630887,0.44628


In [11]:
# 按value对df数据进行排序。
df.sort_values(by='B')  

Unnamed: 0,A,B,C,D
2013-01-04,-0.889908,-0.865629,1.794322,-1.804324
2013-01-01,-1.739413,-0.46484,-1.240437,-1.244574
2013-01-03,-1.619675,0.218574,0.489835,1.953364
2013-01-06,-0.674255,0.752988,0.630887,0.44628
2013-01-05,1.151663,1.010895,0.741465,-0.905265
2013-01-02,-0.804761,1.164258,-1.073149,-0.177648


Selection查看操作

In [12]:
# 查看df中的A列，返回一个Series。
print(df['A'])

2013-01-01   -1.739413
2013-01-02   -0.804761
2013-01-03   -1.619675
2013-01-04   -0.889908
2013-01-05    1.151663
2013-01-06   -0.674255
Freq: D, Name: A, dtype: float64


In [13]:
# 通过[]查看df 的行片段。
print(df[0:3])

A         B         C         D
2013-01-01 -1.739413 -0.464840 -1.240437 -1.244574
2013-01-02 -0.804761  1.164258 -1.073149 -0.177648
2013-01-03 -1.619675  0.218574  0.489835  1.953364


通过label查看df数据

In [15]:
# 使用loc查看df中dates0的部分。
df.loc[dates[1]]  

A   -0.804761
B    1.164258
C   -1.073149
D   -0.177648
Name: 2013-01-02 00:00:00, dtype: float64

In [16]:
# 使用loc查看A、B两列的值
print(df.loc[:,['A','B']])

A         B
2013-01-01 -1.739413 -0.464840
2013-01-02 -0.804761  1.164258
2013-01-03 -1.619675  0.218574
2013-01-04 -0.889908 -0.865629
2013-01-05  1.151663  1.010895
2013-01-06 -0.674255  0.752988


In [23]:
# 使用loc查看日期从20130102到20130104的A,B量列的值。
print(df.loc['20130102':'20130104',['A','B']])  

A         B
2013-01-02 -0.804761  1.164258
2013-01-03 -1.619675  0.218574
2013-01-04 -0.889908 -0.865629


In [24]:
print(df.loc[dates[0:2],['A','B']])  

A         B
2013-01-01 -1.739413 -0.464840
2013-01-02 -0.804761  1.164258


In [21]:
# 减少维度，查看日期为20130102中A,B两列的值。
df.loc['20130102',['A','B']]

A   -0.804761
B    1.164258
Name: 2013-01-02 00:00:00, dtype: float64

In [22]:
# 得到一个标量值，使用loc查看df中date[0],A列的值。
df.loc[dates[0],'A']

-1.7394125907339135

In [25]:
# 使用at快速查找df中dates[0],A列的值。
df.at[dates[0],'A']

-1.7394125907339135

通过位置查看df数据

In [26]:
# 使用iloc查看df的第4行数据。
print(df.iloc[3])  

A   -0.889908
B   -0.865629
C    1.794322
D   -1.804324
Name: 2013-01-04 00:00:00, dtype: float64


In [27]:
# 使用iloc查看df中行下标为3:5，列下标为0:2的数据（不包含行下标为5的行，也不包含列下标为2的列）。
print(df.iloc[3:5,0:2])  

A         B
2013-01-04 -0.889908 -0.865629
2013-01-05  1.151663  1.010895


In [28]:
# 使用iloc查看df中行下标为1,2,4，列下标为0,2的数据。
print(df.iloc[[1,2,4],[0,2]])  

A         C
2013-01-02 -0.804761 -1.073149
2013-01-03 -1.619675  0.489835
2013-01-05  1.151663  0.741465


In [29]:
# 使用iloc查看df行下标为1:3的数据（不包含下标为3的行）。
print(df.iloc[1:3,:])  

A         B         C         D
2013-01-02 -0.804761  1.164258 -1.073149 -0.177648
2013-01-03 -1.619675  0.218574  0.489835  1.953364


In [30]:
# 使用iloc查看df行列下标都为1的值。
print(df.iloc[1,1])  

1.164257834357831


In [31]:
# 使用iat方法快速查看df中行列下标均为1的值。
print(df.iat[1,1])  

1.164257834357831


使用布尔索引查看df的数据

In [32]:
# 查看df中满足df.A>0布尔条件的值。
print(df[df.A>0])  

A         B         C         D
2013-01-05  1.151663  1.010895  0.741465 -0.905265


In [33]:
# 查看df中满足df>0布尔条件的值。
print(df[df>0])

A         B         C         D
2013-01-01       NaN       NaN       NaN       NaN
2013-01-02       NaN  1.164258       NaN       NaN
2013-01-03       NaN  0.218574  0.489835  1.953364
2013-01-04       NaN       NaN  1.794322       NaN
2013-01-05  1.151663  1.010895  0.741465       NaN
2013-01-06       NaN  0.752988  0.630887  0.446280


In [38]:
# 使用copy方法赋值df给df2，为df2添加列名为E，值为['one', 'one','two','three','four','three']的列，再使用isin()方法过滤出df中满足df2.E在['two','four']的数据。
df2=df.copy()
df2

Unnamed: 0,A,B,C,D
2013-01-01,-1.739413,-0.46484,-1.240437,-1.244574
2013-01-02,-0.804761,1.164258,-1.073149,-0.177648
2013-01-03,-1.619675,0.218574,0.489835,1.953364
2013-01-04,-0.889908,-0.865629,1.794322,-1.804324
2013-01-05,1.151663,1.010895,0.741465,-0.905265
2013-01-06,-0.674255,0.752988,0.630887,0.44628


In [39]:
df2['E']=['one', 'one','two','three','four','three']  
df[df2['E'].isin(['two','four'])]  

Unnamed: 0,A,B,C,D
2013-01-03,-1.619675,0.218574,0.489835,1.953364
2013-01-05,1.151663,1.010895,0.741465,-0.905265
