# pandas

pandas 是用于数据分析的库。

本文的内容包括：

1. 基本数据类型
    - Series
    - DataFrame
2. 基本功能
    - 重新索引
    - 丢弃指定轴上的项
    - 索引
    - 算术运算
    - 算术方法
    - DataFrame 和 Series 之间的运算
    - 函数
    - 排序
    - 排名
    - 带有重复值的索引
3. 统计描述
    - 求和
    - 取到最大值时的索引值
    - 累计求和
    - 均值
    - 汇总统计
    - 相关系数
    - 协方差
    - 去重
    - 值计数
    - 成员资格
4. 缺失数据
    - 处理缺失数据
    - 过滤缺失数据
    - 填充缺失数据
5. 层次化索引
    - 构建层次化索引的 Series
    - 选取数据子集
    - stack 和 unstack
    - 构建层次化索引的 DataFrame
    - 调整某条轴上索引级别的顺序
    - 根据级别进行汇总统计
    - 将 DataFrame 的列作为索引
6. 整数索引
7. 合并
    - 默认合并方式
    - 显式指定作为键的列名
    - 连接方式
    - 多对多的合并

## 1. 基本数据类型

### 1.1 Series

Series 是一种类似于一维数组的对象，它由一组数据以及一组与之相关的数据标签组成。

In [1]:
import pandas as pd

obj = pd.Series([4, -7, 1, 3])
obj

0    4
1   -7
2    1
3    3
dtype: int64

In [2]:
obj.values

array([ 4, -7,  1,  3])

In [3]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
obj2 = pd.Series([4, -7, 5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b   -7
a    5
c    3
dtype: int64

In [5]:
obj2['a']

5

In [6]:
obj2['d'] = 6
obj2

d    6
b   -7
a    5
c    3
dtype: int64

In [7]:
obj2[obj2 > 0]

d    6
a    5
c    3
dtype: int64

In [8]:
obj2 * 2

d    12
b   -14
a    10
c     6
dtype: int64

In [9]:
import numpy as np
np.exp(obj2)

d    403.428793
b      0.000912
a    148.413159
c     20.085537
dtype: float64

In [10]:
'b' in obj2

True

可以传入一个字典。

In [11]:
sdata = {'Ohio': 350, 'Texas': 710, 'Oregon': 160, 'Utah': 220}
obj3 = pd.Series(sdata)
obj3

Ohio      350
Texas     710
Oregon    160
Utah      220
dtype: int64

自动关联索引和字典的键，如果某索引没有对应的值，显示为 NaN。

In [12]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California      NaN
Ohio          350.0
Oregon        160.0
Texas         710.0
dtype: float64

In [13]:
obj4['California'], type(obj4['California'])

(nan, numpy.float64)

`pd.isnull()` 和 `pd.notnull()` 用于检测缺失数据。

In [14]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [15]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

对许多应用而言，Series 最重要的一个功能是：它在算术运算中会自动对齐不同索引的数据。

In [16]:
print(obj3, end='\n' * 2)
print(obj4, end='\n' * 2)
print(obj3 + obj4)

Ohio      350
Texas     710
Oregon    160
Utah      220
dtype: int64

California      NaN
Ohio          350.0
Oregon        160.0
Texas         710.0
dtype: float64

California       NaN
Ohio           700.0
Oregon         320.0
Texas         1420.0
Utah             NaN
dtype: float64


Series 对象本身及其索引都有一个 name 属性，该属性跟 pandas 其他关键功能关系非常密切：

In [17]:
obj4.name = 'population'
obj4

California      NaN
Ohio          350.0
Oregon        160.0
Texas         710.0
Name: population, dtype: float64

In [18]:
obj4.index.name = 'population'
obj4

population
California      NaN
Ohio          350.0
Oregon        160.0
Texas         710.0
Name: population, dtype: float64

Series 的索引可以通过赋值的方式就地修改。

In [19]:
obj5 = pd.Series(sdata)
print(obj5, end='\n' * 2)
obj5.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj5)

Ohio      350
Texas     710
Oregon    160
Utah      220
dtype: int64

Bob      350
Steve    710
Jeff     160
Ryan     220
dtype: int64


### 1.2 DataFrame

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型。DataFrame 既有行索引也有列索引，它可以被看作由 Series 组成的字典（共用同一个索引）。

构建 DataFrame：

In [20]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


如果指定了列序列，那么 DataFrame 就会按照指定的顺序排列。

In [21]:
df = pd.DataFrame(data, columns=['year', 'pop', 'state'])
df

Unnamed: 0,year,pop,state
0,2000,1.5,Ohio
1,2001,1.7,Ohio
2,2002,3.6,Ohio
3,2001,2.4,Nevada
4,2002,2.9,Nevada


跟 Series 一样，如果传入的列在数据中找不到，就会产生 Na 值。

In [22]:
df2 = pd.DataFrame(data, columns=['year', 'pop', 'state', 'debt'],
                  index=['One', 'Two', 'Three', 'Four', 'Five'])
df2

Unnamed: 0,year,pop,state,debt
One,2000,1.5,Ohio,
Two,2001,1.7,Ohio,
Three,2002,3.6,Ohio,
Four,2001,2.4,Nevada,
Five,2002,2.9,Nevada,


类似字典根据标记获取值的方式，可以将 DataFrame 的列获取为一个 Series：

In [23]:
df2['year']

One      2000
Two      2001
Three    2002
Four     2001
Five     2002
Name: year, dtype: int64

行也可以通过位置或名称获取，比如用 loc 方法：

In [24]:
df2.loc['Three']

year     2002
pop       3.6
state    Ohio
debt      NaN
Name: Three, dtype: object

列可以通过赋值的方式进行修改。

In [25]:
df2['debt'] = 16.5
df2

Unnamed: 0,year,pop,state,debt
One,2000,1.5,Ohio,16.5
Two,2001,1.7,Ohio,16.5
Three,2002,3.6,Ohio,16.5
Four,2001,2.4,Nevada,16.5
Five,2002,2.9,Nevada,16.5


In [26]:
df2['debt'] = np.arange(5)
df2

Unnamed: 0,year,pop,state,debt
One,2000,1.5,Ohio,0
Two,2001,1.7,Ohio,1
Three,2002,3.6,Ohio,2
Four,2001,2.4,Nevada,3
Five,2002,2.9,Nevada,4


如果赋值的是一个 Series，就会精确匹配 DataFrame 的索引，空位会被匹配 Na 值。

In [27]:
df2['debt'] = pd.Series([1,2,3], index=['One', 'Four', 'Two'])
df2

Unnamed: 0,year,pop,state,debt
One,2000,1.5,Ohio,1.0
Two,2001,1.7,Ohio,3.0
Three,2002,3.6,Ohio,
Four,2001,2.4,Nevada,2.0
Five,2002,2.9,Nevada,


为不存在的列赋值会创建出一个新列。

In [28]:
df2['eastern'] = df2.state == 'Ohio'
df2

Unnamed: 0,year,pop,state,debt,eastern
One,2000,1.5,Ohio,1.0,True
Two,2001,1.7,Ohio,3.0,True
Three,2002,3.6,Ohio,,True
Four,2001,2.4,Nevada,2.0,False
Five,2002,2.9,Nevada,,False


关键字 del 用于删除列：

In [29]:
del df2['eastern']
df2

Unnamed: 0,year,pop,state,debt
One,2000,1.5,Ohio,1.0
Two,2001,1.7,Ohio,3.0
Three,2002,3.6,Ohio,
Four,2001,2.4,Nevada,2.0
Five,2002,2.9,Nevada,


注：通过索引方式返回的列只是相应数据的视图，并不是副本。因此，对返回的 Series 所做的任何就地修改都会反映到源 DataFrame 上。通过 Series 的 copy 方法可以显式地复制列。

创建 DataFrame 的第二种方法：嵌套字典

外层字典的键作为列，内层键则作为行索引。

In [30]:
data2 = {'year': {'One': 2000, 'Two': 2001, 'Three': 2002, 'Four': 2001, 'Five': 2002},
        'pop': {'One': 1.5, 'Two': 1.7, 'Three': 3.6, 'Four': 2.4, 'Five': 2.9},
        'state': {'One': 'Ohio', 'Two': 'Ohio', 'Three': 'Ohio', 'Four': 'Nevada', 'Five': 'Nevada'},
        'debt': {'One': 1.0, 'Two': 3.0, 'Three': 'NaN', 'Four': 2.0, 'Five': 'NaN'}}
df3 = pd.DataFrame(data2)
df3

Unnamed: 0,year,pop,state,debt
One,2000,1.5,Ohio,1.0
Two,2001,1.7,Ohio,3.0
Three,2002,3.6,Ohio,
Four,2001,2.4,Nevada,2.0
Five,2002,2.9,Nevada,


可以对 DataFrame 进行转置：

In [31]:
df3.T

Unnamed: 0,One,Two,Three,Four,Five
year,2000,2001,2002,2001,2002
pop,1.5,1.7,3.6,2.4,2.9
state,Ohio,Ohio,Ohio,Nevada,Nevada
debt,1,3,,2,


pandas 的 Index 对象是不可修改的（immutable）。不可修改性非常重要，因为这样才能使 Index 对象在多个数据结构之间安全共享。

In [32]:
index = pd.Index(np.arange(3))
obj6 = pd.Series([-1.5, -2.5, 0], index=index)
obj6.index is index

True

## 2. 基本功能

### 2.1 重新索引

`reindex()` 方法会根据新索引对 Series 进行重排。如果某个索引当前不存在，就引入确实值。

In [33]:
obj7 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj7

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [34]:
obj7.reindex(['a', 'b', 'c', 'd', 'e'])

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

对于 DataFrame 如果仅传入一个序列，会重新索引行。

In [35]:
df4 = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['b', 'c', 'a'], columns=['Ohio', 'Texas', 'California'])
df4

Unnamed: 0,Ohio,Texas,California
b,0,1,2
c,3,4,5
a,6,7,8


In [36]:
df4.reindex(['a', 'b', 'c'])

Unnamed: 0,Ohio,Texas,California
a,6,7,8
b,0,1,2
c,3,4,5


使用 columns 关键字，即可重新索引列。

In [37]:
df4.reindex(columns=['California', 'Ohio', 'Texas'])

Unnamed: 0,California,Ohio,Texas
b,2,0,1
c,5,3,4
a,8,6,7


### 2.2 丢弃指定轴上的项

使用 drop 方法，该方法返回删除了指定轴的新对象。

In [38]:
obj8 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj8

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [39]:
new_obj = obj8.drop('b')
new_obj

d    4.5
a   -5.3
c    3.6
dtype: float64

对于 DataFrame 也是一样。如果要丢弃某列，使用 columns 关键字。

In [40]:
df5 = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['b', 'c', 'a'], columns=['Ohio', 'Texas', 'California'])
df5

Unnamed: 0,Ohio,Texas,California
b,0,1,2
c,3,4,5
a,6,7,8


In [41]:
nwe_df = df5.drop(columns='Ohio')
nwe_df

Unnamed: 0,Texas,California
b,1,2
c,4,5
a,7,8


如果要删除多个项，传入一个数组即可。

In [42]:
nwe_df = df5.drop(['a', 'c'])
nwe_df

Unnamed: 0,Ohio,Texas,California
b,0,1,2


### 2.3 索引

Series 的索引和 NumPy 的类似，只不过 Series 的索引不止可以是整数。

In [43]:
obj9 = pd.Series(np.arange(4), index=['a', 'b', 'c', 'd'])
obj9

a    0
b    1
c    2
d    3
dtype: int64

In [44]:
print('obj9[1]:', obj9[1], '\ntype:', type(obj9[1]), end='\n\n')
print('obj9[\'b\']:', obj9['b'], '\ntype:', type(obj9['b']), end='\n\n')
print('obj9[1:3]:', obj9[1:3], '\ntype:', type(obj9[1:3]), end='\n\n')
print('obj9[obj9 < 3]:', obj9[obj9 < 3], '\ntype:', type(obj9[obj9 < 3]))

obj9[1]: 1 
type: <class 'numpy.int64'>

obj9['b']: 1 
type: <class 'numpy.int64'>

obj9[1:3]: b    1
c    2
dtype: int64 
type: <class 'pandas.core.series.Series'>

obj9[obj9 < 3]: a    0
b    1
c    2
dtype: int64 
type: <class 'pandas.core.series.Series'>


DataFrame 接受一个标签或一组标签进行列索引。

In [45]:
df6 = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
df6

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [46]:
df6['one']

Ohio         0
Colorado     4
Utah         8
New York    12
Name: one, dtype: int64

In [47]:
df6[['one', 'two']]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5
Utah,8,9
New York,12,13


这种索引方式有几个特殊情况。比如可以通过切片选取行。

In [48]:
df6[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


也可以通过布尔型数组选取行。

In [49]:
df6 < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [50]:
df6[df6 < 5] = 0
df6

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


可以根据列标签对 DataFramae 取值。比如取第3列可使用用如下命令：

In [51]:
df6.iloc[:,2]

Ohio         0
Colorado     6
Utah        10
New York    14
Name: three, dtype: int64

如果需要根据列标签取列名。比如取第3列列名可使用用如下命令：

In [52]:
df6.columns[2]

'three'

### 2.4 算术运算

如果让两个 Series 相加。结果的索引是两个 Series 的索引的并集。索引不重叠的数据相加，会出现 Na 值。

In [53]:
s1 = pd.Series([7, -2, 3, 1], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2, 3, -1, 4, 3], index=['a', 'c', 'e', 'f', 'g'])
s1, s2

(a    7
 c   -2
 d    3
 e    1
 dtype: int64,
 a   -2
 c    3
 e   -1
 f    4
 g    3
 dtype: int64)

In [54]:
s1 + s2

a    5.0
c    1.0
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

对于 DataFrame 也服从上述规律。

In [55]:
df7 = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['Ohio', 'Texas', 'Colorado'], columns=['b', 'c', 'd'])
df7

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [56]:
df8 = pd.DataFrame(np.arange(12).reshape((4, 3)), index=['Utah', 'Ohio', 'Texas', 'Oregon'], columns=['b', 'c', 'e'])
df8

Unnamed: 0,b,c,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [57]:
df7 + df8

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,5.0,,
Oregon,,,,
Texas,9.0,11.0,,
Utah,,,,


### 2.5 算术方法

如果想在上述加法中，为缺失项补0，可以使用 add 方法对其进行运算，并传入一个 fill_value 参数。

In [58]:
df7.add(df8, fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,5.0,2.0,5.0
Oregon,9.0,10.0,,11.0
Texas,9.0,11.0,5.0,8.0
Utah,0.0,1.0,,2.0


与此类似，在用 reindex 对 Series 或 DataFrame 进行索引时，也可以用 fill_value 为缺失值补0。

In [59]:
df7.reindex(columns=df8.columns, fill_value=0)

Unnamed: 0,b,c,e
Ohio,0,1,0
Texas,3,4,0
Colorado,6,7,0


注：其他算术方法包括 sub（减法）、div（除法）、mul（乘法）。

### 2.6 DataFrame 与 Series 之间的运算

和 NumPy 数组一样，DataFrame 与 Series 之间的运算也有明确的规定。先看一个有启发性的例子。

In [60]:
arr = np.arange(12).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [61]:
arr[0]

array([0, 1, 2, 3])

In [62]:
arr - arr[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

这叫作广播（broadcasting），DataFrame 与 Series 之间的运算也差不多是如此。

In [63]:
df9 = pd.DataFrame(np.arange(12).reshape((4,3)), index=['Utah', 'Ohio', 'Texas', 'Oregon'], columns=['b', 'd', 'e'])
df9

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [64]:
series1 = df9.loc['Utah']
series1

b    0
d    1
e    2
Name: Utah, dtype: int64

In [65]:
df9 - series1

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


如果某个索引值在 DataFrame 或 Series 的并集里找不到，则参与运算的两个对象就会被重新索引以形成并集。

In [66]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
df9 - series2

Unnamed: 0,b,d,e,f
Utah,0.0,,1.0,
Ohio,3.0,,4.0,
Texas,6.0,,7.0,
Oregon,9.0,,10.0,


如果你希望匹配行，然后在列上广播，则必须使用算术方法。

In [67]:
df9

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [68]:
df9.sub(df9['b'], axis=0)

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,0,1,2
Texas,0,1,2
Oregon,0,1,2


### 2.7 函数

NumPy 的 ufuncs（元素级数组方法）也可用于操作 pandas 对象。

In [69]:
df10 = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df10

Unnamed: 0,b,d,e
Utah,0.404153,0.059751,1.18454
Ohio,-0.288611,0.840324,1.435247
Texas,-1.013416,1.095018,-0.282958
Oregon,0.694893,-0.154789,0.860811


In [70]:
np.abs(df10)

Unnamed: 0,b,d,e
Utah,0.404153,0.059751,1.18454
Ohio,0.288611,0.840324,1.435247
Texas,1.013416,1.095018,0.282958
Oregon,0.694893,0.154789,0.860811


DataFrame 的 apply 方法可以将函数应用到各行或者各列形成的一维数组上。

In [71]:
df10.apply(lambda x: x.max() - x.min(), axis=0)

b    1.708308
d    1.249807
e    1.718205
dtype: float64

In [72]:
df10.apply(lambda x: x.max() - x.min(), axis=1)

Utah      1.124789
Ohio      1.723858
Texas     2.108433
Oregon    1.015600
dtype: float64

除了返回标量值外，传给 apply 的函数也可以返回 Series。

In [73]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

df10.apply(f)

Unnamed: 0,b,d,e
min,-1.013416,-0.154789,-0.282958
max,0.694893,1.095018,1.435247


此外，元素级的 Python 函数也是可以的。使用 applymap 方法即可。

In [74]:
fmt = lambda x: '{:.2f}'.format(x)
df10.applymap(fmt)

Unnamed: 0,b,d,e
Utah,0.4,0.06,1.18
Ohio,-0.29,0.84,1.44
Texas,-1.01,1.1,-0.28
Oregon,0.69,-0.15,0.86


之所以叫作 applymap，是因为 Series 有一个用于元素级函数的 map 方法。

In [75]:
df10['e'].map(fmt)

Utah       1.18
Ohio       1.44
Texas     -0.28
Oregon     0.86
Name: e, dtype: object

### 2.8 排序

要对行或列按照索引进行排序（sorting），可使用 sort_index 方法，它将返回一个已排序的新对象。

In [76]:
obj10 = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj10

d    0
a    1
b    2
c    3
dtype: int64

In [77]:
obj10.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

对于 DataFrame，则可以根据任意一个轴上的索引进行排序。

In [78]:
df11 = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a','b', 'c'])
df11

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [79]:
df11.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [80]:
df11.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


默认是按升序排序的，也可以降序。

In [81]:
df11.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


如果要按值对 Series 进行排序，可使用 sort_values 方法。

In [82]:
obj11 = pd.Series([4, 7, -3, 2])
obj11.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

也可以降序。

In [83]:
obj11.sort_values(ascending=False)

1    7
0    4
3    2
2   -3
dtype: int64

在排序时，任何缺失值都会被放到 Series 的末尾。

In [84]:
obj12 = pd.Series([4, np.nan , 7, np.nan, -3, 2])
obj12.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

对于 DataFrame，也可以用 sort_value 方法对值进行排序。你可能希望根据一个或多个列中的值进行排序，将一个或多个列的列名传给参数 by 即可达到目的。

In [85]:
df11.sort_values(by='b')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [86]:
df11.sort_values(by=['b', 'a'], ascending=False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


### 2.9 排名

排名（ranking）

In [87]:
obj13 = pd.Series([7, -5, 7, 4, 2, 0, 4, 7])
obj13

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
7    7
dtype: int64

In [88]:
obj13.rank()

0    7.0
1    1.0
2    7.0
3    4.5
4    3.0
5    2.0
6    4.5
7    7.0
dtype: float64

可以根据值在原数据中出现的顺序给出排名。

In [89]:
obj13.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
7    8.0
dtype: float64

也可以按降序进行排名。

In [90]:
obj13.rank(ascending=False, method='max')

0    3.0
1    8.0
2    3.0
3    5.0
4    6.0
5    7.0
6    5.0
7    3.0
dtype: float64

DataFrame 可以在行或者列上计算排名。

In [91]:
df12 = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
df12

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [92]:
df12.rank()

Unnamed: 0,b,a,c
0,3.0,1.5,2.0
1,4.0,3.5,3.0
2,1.0,1.5,4.0
3,2.0,3.5,1.0


In [93]:
df12.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 2.10 带有重复值的轴索引

虽然很多 pandas 函数（如 reindex）都要求标签唯一，但这并不是强制性的。

In [94]:
obj14 = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj14

a    0
a    1
b    2
b    3
c    4
dtype: int64

索引的 is_unique 属性可以告诉你它的值是否是唯一的。

In [95]:
obj14.index.is_unique

False

In [96]:
obj13.index.is_unique

True

对于有重复值的索引，数据选取的行为将会有些不同。如果某个索引对应多个值，将返回一个 Series；如果对应单个值，将返回一个标量值。

In [97]:
obj14['a']

a    0
a    1
dtype: int64

In [98]:
obj14['c']

4

DataFrame 同理。

In [99]:
df15 = pd.DataFrame(np.random.randn(3, 3), index=['a', 'b', 'b'])
df15

Unnamed: 0,0,1,2
a,-2.154066,0.109963,1.097962
b,-0.261306,0.065623,-1.357336
b,0.101826,-0.045321,-0.445999


In [100]:
df15.loc['a']

0   -2.154066
1    0.109963
2    1.097962
Name: a, dtype: float64

In [101]:
df15.loc['b']

Unnamed: 0,0,1,2
b,-0.261306,0.065623,-1.357336
b,0.101826,-0.045321,-0.445999


### 2.11 按行遍历

In [102]:
df16 = pd.DataFrame({'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]})

In [103]:
for index, row in df16.iterrows():
    print(index, list(row))

0 ['Ohio', 2000, 1.5]
1 ['Ohio', 2001, 1.7]
2 ['Ohio', 2002, 3.6]
3 ['Nevada', 2001, 2.4]
4 ['Nevada', 2002, 2.9]


## 3. 统计描述

### 3.1 求和

求和使用 sum() 方法。

In [104]:
df16 = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df16

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [105]:
df16.sum()

one    9.25
two   -5.80
dtype: float64

传入 axis = 1 将会按行求和。

In [106]:
df16.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

NA 值会自动被排除，通过 skipna 参数可以禁用该功能。

In [107]:
df16.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

### 3.2 取到最大值时的索引值

idxmax() 方法返回获取到最大值时的索引值。

In [108]:
df16.idxmax()

one    b
two    d
dtype: object

### 3.3 累计求和

cumsum() 方法用于累计求和。

In [109]:
df16.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


### 3.4 均值

mean() 方法用于求平均值。

In [110]:
df16.mean()

one    3.083333
two   -2.900000
dtype: float64

### 3.5 汇总统计

describe() 方法输出多个汇总统计。

In [111]:
df16.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


对于非数值型数据，describe 会产生另外一种汇总统计。

In [112]:
obj15 =  pd.Series(['a', 'a', 'b', 'c'])
obj15.describe()

count     4
unique    3
top       a
freq      2
dtype: object

### 3.6 相关系数

corr() 方法用于计算相关系数。

In [113]:
df17 = pd.DataFrame([[-2.1, -1, 4.3], [3, 1.1, 0.12], [3, 1.1, 0.12]], index=['one', 'two', 'three'], columns=list('abc'))
df17

Unnamed: 0,a,b,c
one,-2.1,-1.0,4.3
two,3.0,1.1,0.12
three,3.0,1.1,0.12


In [114]:
df17.corr()

Unnamed: 0,a,b,c
a,1.0,1.0,-1.0
b,1.0,1.0,-1.0
c,-1.0,-1.0,1.0


corrwith 可用于计算其行或列跟 DataFrame 之间的相关系数。

In [115]:
df17.corrwith(df17['a'])

a    1.0
b    1.0
c   -1.0
dtype: float64

如果给 corrwith 方法传入一个 DataFrame，则会计算按列名配对的相关系数。

In [116]:
df17.corrwith(df17)

a    1.0
b    1.0
c    1.0
dtype: float64

### 3.7 协方差

cov() 方法用于计算协方差。

In [117]:
df17.cov()

Unnamed: 0,a,b,c
a,8.67,3.57,-7.106
b,3.57,1.47,-2.926
c,-7.106,-2.926,5.824133


### 3.8 去重

unique() 方法用于返回 Series 中的唯一值数组。返回的数组是未经排序的。

In [118]:
obj16 = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj16.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

### 3.9 值计数

value_counts() 方法用于计算 Series 中各值出现的频率。

In [119]:
obj16.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

value_counts 还有一个顶级 pandas 方法，可用于任何数组或序列。

In [120]:
pd.value_counts([1,2,3,2,1])

2    2
1    2
3    1
dtype: int64

我们可能希望 value_counts 应用于 DataFrame 的列。可以使用 DataFrame 的 apply 函数。

In [121]:
df18 = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4], 'Qu2': [2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]}, index=['one', 'two', 'three', 'four', 'five'])
df18

Unnamed: 0,Qu1,Qu2,Qu3
one,1,2,1
two,3,3,5
three,4,1,2
four,3,2,4
five,4,3,4


In [122]:
df18.apply(pd.value_counts).fillna(0)

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### 3.10 成员资格

isin() 方法用于判断成员资格。

In [123]:
mask = obj16.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

## 4. 缺失数据

### 4.1 处理缺失数据

缺失数据在大部分数据分析应用中都很常见。pandas 的设计目标之一就是让缺失数据的处理任务尽量轻松。例如，pandas 对象上的所有描述统计都排除了缺失数据，正如我们在上一节中看到的那样。

pandas 使用浮点值 NaN（Not a Number）表示浮点和非浮点数组中的缺失数据。

In [124]:
np.nan, type(np.nan)

(nan, float)

Python 中的 none 值也会被当作 NA 值处理。

In [125]:
obj17 = pd.Series(['a', 'b', 'c', np.nan, 'e'])
obj17[0] = None
obj17

0    None
1       b
2       c
3     NaN
4       e
dtype: object

In [126]:
obj17.isnull()

0     True
1    False
2    False
3     True
4    False
dtype: bool

### 4.2 过滤缺失数据

dropna() 可以过滤掉缺失数据。对于一个 Series，dropna() 返回一个仅含非空数据和索引值的 Series。

In [127]:
obj18 = pd.Series([1, np.nan, 3.5, np.nan, 7])
obj18

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [128]:
obj18.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

当然，也可以通过布尔型索引达到这个目的。

In [129]:
obj18.notnull()

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [130]:
obj18[obj18.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

对于 DataFrame 对象，事情就有点复杂了。dropna() 默认丢弃任何含有缺失值的行。

In [131]:
df19 = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan], [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])
df19

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [132]:
df19.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


传入 how='all' 将只丢弃全为 NA 的那些行。

In [133]:
df19.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


要用这种方式丢弃列，只需传入 axis=1 即可。

In [134]:
df20 = df19.copy()
df20[3] = np.nan
df20

Unnamed: 0,0,1,2,3
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [135]:
df20.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


参数 thresh=n 表示保留至少有 n 个非 NA 值的行。

In [136]:
df21 = pd.DataFrame(np.random.randn(7, 3))
df21.loc[:4, 1] = np.nan; df21.loc[:2, 2] = np.nan
df21

Unnamed: 0,0,1,2
0,2.630627,,
1,0.170846,,
2,1.230484,,
3,0.224377,,0.567348
4,1.028444,,-0.321882
5,-0.826044,0.42874,-0.613999
6,0.437778,0.66557,0.396024


In [137]:
df21.dropna(thresh=2)

Unnamed: 0,0,1,2
3,0.224377,,0.567348
4,1.028444,,-0.321882
5,-0.826044,0.42874,-0.613999
6,0.437778,0.66557,0.396024


### 4.3 填充缺失数据

fillna() 用于填充缺失数据。

In [138]:
df21

Unnamed: 0,0,1,2
0,2.630627,,
1,0.170846,,
2,1.230484,,
3,0.224377,,0.567348
4,1.028444,,-0.321882
5,-0.826044,0.42874,-0.613999
6,0.437778,0.66557,0.396024


In [139]:
df21.fillna(0)

Unnamed: 0,0,1,2
0,2.630627,0.0,0.0
1,0.170846,0.0,0.0
2,1.230484,0.0,0.0
3,0.224377,0.0,0.567348
4,1.028444,0.0,-0.321882
5,-0.826044,0.42874,-0.613999
6,0.437778,0.66557,0.396024


如果传入的是一个字典，就可以实现对不同的列填充不同的值。

In [140]:
df21.fillna({1: 0.5, 2: -1})

Unnamed: 0,0,1,2
0,2.630627,0.5,-1.0
1,0.170846,0.5,-1.0
2,1.230484,0.5,-1.0
3,0.224377,0.5,0.567348
4,1.028444,0.5,-0.321882
5,-0.826044,0.42874,-0.613999
6,0.437778,0.66557,0.396024


fillna 默认返回新对象，但也可以对现有对象进行就地修改。

In [141]:
df22 = df21.copy()
df22.fillna(0, inplace=True)
df22

Unnamed: 0,0,1,2
0,2.630627,0.0,0.0
1,0.170846,0.0,0.0
2,1.230484,0.0,0.0
3,0.224377,0.0,0.567348
4,1.028444,0.0,-0.321882
5,-0.826044,0.42874,-0.613999
6,0.437778,0.66557,0.396024


传入 method='ffill' 可向前填充，即使用前一个非缺失值填充该缺失值。和向前填充对应的是向后填充 method='bfill'。

In [142]:
df23 = pd.DataFrame(np.random.randn(6,3))
df23.loc[2:, 1] = np.nan; df23.loc[4:,2] = np.nan
df23

Unnamed: 0,0,1,2
0,-0.13118,2.225377,-0.122238
1,0.652131,0.940193,0.579371
2,-0.748608,,1.418505
3,-1.382105,,0.17426
4,-1.376281,,
5,-0.899571,,


In [143]:
df23.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.13118,2.225377,-0.122238
1,0.652131,0.940193,0.579371
2,-0.748608,0.940193,1.418505
3,-1.382105,0.940193,0.17426
4,-1.376281,0.940193,0.17426
5,-0.899571,0.940193,0.17426


In [144]:
df23.fillna(method='bfill')

Unnamed: 0,0,1,2
0,-0.13118,2.225377,-0.122238
1,0.652131,0.940193,0.579371
2,-0.748608,,1.418505
3,-1.382105,,0.17426
4,-1.376281,,
5,-0.899571,,


## 5. 层次化索引

层次化索引（hierarchical indexing）指在一个轴上拥有多个（两个以上）索引级别。

### 5.1 构建层次化索引的 Series

In [145]:
obj19 = pd.Series(np.random.randn(10), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
obj19

a  1   -0.081788
   2    0.612956
   3   -0.165862
b  1    0.036548
   2    1.017192
   3   -0.675632
c  1   -1.100689
   2   -0.496847
d  2   -0.942803
   3   -0.667200
dtype: float64

In [146]:
obj19.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

### 5.2 选取数据子集

对于一个层次化的对象，选取数据子集的操作很简单。

In [147]:
obj19['b']

1    0.036548
2    1.017192
3   -0.675632
dtype: float64

甚至还可以在内层中进行选取。

In [148]:
obj19['a',2]

0.612955758322721

In [149]:
obj19[:,3]

a   -0.165862
b   -0.675632
d   -0.667200
dtype: float64

### 5.3 stack 和 unstack

层次化索引在数据重塑和基于分组的操作中扮演着重要的角色。比如这段数据可以通过 unstack() 方法被重新安排到一个 DataFrame 中。

In [150]:
obj20 = obj19.unstack()
obj20

Unnamed: 0,1,2,3
a,-0.081788,0.612956,-0.165862
b,0.036548,1.017192,-0.675632
c,-1.100689,-0.496847,
d,,-0.942803,-0.6672


unstack 的逆运算是 stack。

In [151]:
obj20.stack()

a  1   -0.081788
   2    0.612956
   3   -0.165862
b  1    0.036548
   2    1.017192
   3   -0.675632
c  1   -1.100689
   2   -0.496847
d  2   -0.942803
   3   -0.667200
dtype: float64

### 5.4 构建层次化索引的 DataFrame

对于一个 DataFrame，每条轴都可以有分层索引。

In [152]:
df24 = pd.DataFrame(np.arange(12).reshape((4,3)),
                   index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                   columns=[['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
df24

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


各层都可以有名字（可以是字符串，也可以是别的 Python 对象）。如果指定了名称，它们就会在控制台输出中显示。注意不要将索引名和轴标签混为一谈！

In [153]:
df24.index.names = ['key1', 'key2']
df24

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [154]:
df24.columns.names = ['state', 'color']
df24

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


有了分层的列索引，可以轻松选取列分组。

In [155]:
df24['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


### 5.5 调整某条轴上索引级别的顺序

有时候，你需要重新调整某条轴上各级别的顺序。swaplevel() 方法接受两个级别编号或名称，并返回一个互换了级别的新对象。

In [156]:
df24.swaplevel(0,1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [157]:
df24.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


### 5.6 根据级别进行汇总统计

许多对 DataFrame 和 Series 的描述和汇总统计都有一个 level 选项，它用于指定在某条轴上进行统计的级别。

以 sun() 方法为例：

In [158]:
df24

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [159]:
df24.sum(level="color", axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### 5.7 将 DataFrame 的列作为索引

人们经常想要将 DataFrame 的一个或多个列当作行索引来用，或者希望行索引变成 DataFrame 的列。

In [160]:
df25 = pd.DataFrame({'a': range(7),
                     'b': range(7,0,-1),
                     'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                     'd': [0, 1, 2, 0, 1, 2, 3]})
df25

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


下面将 df25 的 df25['c'] 和 df25['c'] 两列当作行索引。

In [161]:
df26 = df25.set_index(['c', 'd'])
df26

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


默认会将设为行索引的列从 DataFrame 中移除，但也可以保留下来。

In [162]:
df25.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


reset_index() 方法和 set_index() 方法正好相反，层次化索引的级别会被转移到列里面。

In [163]:
df26.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


## 6. 整数索引

你也许以为下面这段代码不会产生错误。

In [164]:
try:
    ser = pd.Series([1,2,3])
    print(ser[-1])
except Exception as e:
    print('Error:', e)

Error: -1


这里我们有含有 0, 1, 2 的索引，但是我们很难推断出用户想要什么，是基于标签还是基于位置的索引？毕竟标签叫0,1,2，索引也叫0,1,2。所以这里引入了一个 bug 解决这个歧义。

对于一个非整数索引，就不会有这样的歧义。

In [165]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

如果你需要可靠的、不考虑索引类型的、基于位置的索引，可以使用 iloc。

In [166]:
ser3 = pd.Series(range(3), index=[-5,1,3])
ser3.iloc[2]

2

In [167]:
df27 = pd.DataFrame(np.arange(6).reshape(3,2), index=[2,0,1])
df27

Unnamed: 0,0,1
2,0,1
0,2,3
1,4,5


In [168]:
df27.iloc[0]

0    0
1    1
Name: 2, dtype: int64

## 7. 合并

数据集的合并（merge）或连接（join）运算是通过一个或多个键将行连接起来。pandas.merge() 可实现两个 DataFrame 的合并。

### 7.1 默认合并方式

In [169]:
df28 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
df28

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [170]:
df29 = pd.DataFrame({'key': ['a', 'b', 'd'],
                    'data2': range(3)})
df29

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [171]:
pd.merge(df28, df29)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


### 7.2 显式指定作为键的列名

我们并没有指明用哪个列进行连接。如果没有指定，merge 将会将重叠列的列名当作键。不过最好显式指定一下。

In [172]:
pd.merge(df28, df29, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


如果两个对象的列名不同，也可以分别进行指定。

In [173]:
df30 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                     'data1': range(7)})
df30

Unnamed: 0,lkey,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [174]:
df31 = pd.DataFrame({'rkey': ['a', 'b', 'd'],
                     'data1': range(3)})
df31

Unnamed: 0,rkey,data1
0,a,0
1,b,1
2,d,2


In [175]:
pd.merge(df30, df31, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,data1_x,rkey,data1_y
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


### 7.3 连接方式

可能你已经注意到了，结果里面 c 和 d 以及与之相关的数据消失了。默认情况下，merge 做的是 inner 连接，结果中的键是交集。其他方式还有 left, right 以及 outer。外连接取的是键的并集，组合了左连接和右连接的效果。

In [176]:
pd.merge(df30, df31, how='outer')

Unnamed: 0,lkey,data1,rkey
0,b,0,a
1,b,1,b
2,a,2,d
3,c,3,
4,a,4,
5,a,5,
6,b,6,


In [177]:
pd.merge(df30, df31, how='left')

Unnamed: 0,lkey,data1,rkey
0,b,0,a
1,b,1,b
2,a,2,d
3,c,3,
4,a,4,
5,a,5,
6,b,6,


In [178]:
pd.merge(df30, df31, how='right')

Unnamed: 0,lkey,data1,rkey
0,b,0,a
1,b,1,b
2,a,2,d


### 7.4 多对多的合并

多对多的合并操作如下。

In [179]:
df32 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                     'data1': range(6)})
df32

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [180]:
df33 = pd.DataFrame({'key': ['a', 'b', 'a', 'b', 'd'],
                     'data2': range(5)})
df33

Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [181]:
pd.merge(df32, df33, how='inner')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,5,1
5,b,5,3
6,a,2,0
7,a,2,2
8,a,4,0
9,a,4,2


多对多连接产生的是行的笛卡尔积。由于 df32 有 3 个 b，df33 有 2 个 b，因此最终结果就有 6 个 b。

要根据多个键进行合并，传入一个由列名组成的列表即可。

In [182]:
df34 = pd.DataFrame({'key1': ['foo', 'foo', 'bar'], 
                  'key2': ['one', 'two', 'one'],
                  'lval': [1, 2, 3]})
df34

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [183]:
df35 = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'], 
                   'key2': ['one', 'one', 'one', 'two'],
                   'rval': [4, 5, 6, 7]})
df35

Unnamed: 0,key1,key2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


In [184]:
pd.merge(df34, df35, on=['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


结果中出现哪些键组合取决于所选的合并方式。

本文内容来自《利用Python进行数据分析》的第二章和第七章。