## 合并

### 数据库风格的 DataFrame 合并

数据集的合并(merge)或连接(join)运算是通过一个或多个键将行链接起来
的。这些运算是关系型数据库(基于 SQL)的核心。pandas 的 merge 函数是对
数据应用这些算法的主要切入点。

In [3]:
import pandas as pd
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a','b'],'data1': range(7)})

In [4]:
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [11]:
df2 = pd.DataFrame({'key': ['a', 'b', 'd','c'],'data2': range(4)})

In [12]:
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d
3,3,c


In [13]:
pd.merge(df1, df2)

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0
6,3,c,3


注意,我并没有指明要用哪个列进行连接。如果没有指定,merge 就会将重叠
列的列名当做键。不过,最好明确指定一下:

In [16]:
pd.merge(df1, df2, on='key')

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0
6,3,c,3


如果两个对象的列名不同,也可以分别进行指定:

In [18]:
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a','b'],'data1': range(7)})

In [19]:
df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'],'data2': range(3)})

In [23]:
df3

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [24]:
df4

Unnamed: 0,data2,rkey
0,0,a
1,1,b
2,2,d


In [28]:
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


可能你已经注意到了,结果里面 c 和 d 以及与之相关的数据消失了。默认情况
下,merge 做的是“内连接”;结果中的键是交集。其他方式还有"left"、
"right"以及"outer"。外连接求取的是键的并集,组合了左连接和右连接的效
果:

In [32]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,data1,key,data2
0,0.0,b,1
1,1.0,b,1
2,6.0,b,1
3,2.0,a,0
4,4.0,a,0
5,5.0,a,0
6,3.0,c,3
7,,d,2


inner:使用两个表都有的键

left:使用左表中所有的键

right:使用右表中所有的键
    
outer:使用两个表中所有的键

In [34]:
pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],'data1': range(6)})

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,b


In [35]:
pd.DataFrame({'key': ['a', 'b', 'a', 'b', 'd'],'data2': range(5)})

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,a
3,3,b
4,4,d


In [36]:
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,2,a,0
3,3,c,3
4,4,a,0
5,5,a,0
6,6,b,1


left:参与合并的左侧DataFrame
    
right:参与合并的右侧DataFrame
    
how:inner、outer、left、right其中之一，默认是inner

In [38]:
left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'],'value': range(6)})

In [40]:
left1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [41]:
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a','b'])

In [43]:
right1

Unnamed: 0,group_val
a,3.5
b,7.0


In [48]:
pd.merge(left1, right1, left_on='key', right_index=True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


In [50]:
pd.merge(left1, right1, left_on='key', right_index=True,how='outer')

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
5,c,5,


### 轴向连接

另一种数据合并运算也被称作连接(concatenation)、绑定(binding)或堆
叠(stacking)

#### concatenate

In [53]:
import numpy as np
arr = np.arange(12).reshape((3, 4))

In [54]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [55]:
np.concatenate([arr,arr],axis=1)

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

In [56]:
np.concatenate([arr,arr],axis=0)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

#### concat

In [58]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

In [59]:
s1

a    0
b    1
dtype: int64

In [61]:
s2

c    2
d    3
e    4
dtype: int64

In [62]:
s3

f    5
g    6
dtype: int64

In [67]:
pd.concat([s1,s2,s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [68]:
pd.concat([s1,s2,s3],axis=1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [70]:
s4 = pd.concat([s1, s3])

In [71]:
s4

a    0
b    1
f    5
g    6
dtype: int64

In [72]:
pd.concat([s1, s4], axis=1)

Unnamed: 0,0,1
a,0.0,0
b,1.0,1
f,,5
g,,6


In [73]:
pd.concat([s1, s4], axis=1, join='inner')

Unnamed: 0,0,1
a,0,0
b,1,1


In [74]:
pd.concat([s1, s1,s4])

a    0
b    1
a    0
b    1
a    0
b    1
f    5
g    6
dtype: int64

不过有个问题,参与连接的片段在结果中区分不开。假设你想要在连接轴上创
建一个层次化索引。使用 keys 参数即可达到这个目的:

In [76]:
result = pd.concat([s1, s1, s3], keys=['one','two','three'])
result

one    a    0
       b    1
two    a    0
       b    1
three  f    5
       g    6
dtype: int64

In [77]:
result.unstack()

Unnamed: 0,a,b,f,g
one,0.0,1.0,,
two,0.0,1.0,,
three,,,5.0,6.0


### 重塑和轴向旋转

#### 重塑层次化索引

stack:将数据的列“旋转”为行。

unstack:将数据的行“旋转”为列。

In [94]:
data = pd.DataFrame(np.arange(6).reshape((2, 3)),index=pd.Index(['Ohio','Colorado'],name='state'),columns=pd.Index(['one', 'two',
'three'],name='number'))

In [95]:
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [96]:
data.stack()

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int64

In [97]:
data.stack().unstack()

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


默认情况下,unstack 操作的是最内层(stack 也是如此)。传入分层级别的编
号或名称即可对其它级别进行 unstack 操作:

In [98]:
result = data.stack()

In [99]:
result.unstack(0)

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


In [100]:
result.unstack('state')

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


#### 将“宽格式”旋转为“长格式”

In [101]:
df = pd.DataFrame({'key': ['foo', 'bar', 'baz'],'A': [1, 2, 3],'B': [4, 5, 6],'C': [7, 8, 9]})

In [102]:
df

Unnamed: 0,A,B,C,key
0,1,4,7,foo
1,2,5,8,bar
2,3,6,9,baz


key 列可能是分组指标,其它的列是数据值。当使用 pandas.melt,我们必须指
明哪些列是分组指标。下面使用 key 作为唯一的分组指标:

In [105]:
melted = pd.melt(df, ['key'])

In [106]:
melted

Unnamed: 0,key,variable,value
0,foo,A,1
1,bar,A,2
2,baz,A,3
3,foo,B,4
4,bar,B,5
5,baz,B,6
6,foo,C,7
7,bar,C,8
8,baz,C,9


使用 pivot,可以重塑回原来的样子:

In [107]:
reshaped = melted.pivot('key', 'variable', 'value')

因为 pivot 的结果从列创建了一个索引,用作行标签,我们可以使用
reset_index 将数据移回列:

In [108]:
reshaped.reset_index()

variable,key,A,B,C
0,bar,2,5,8
1,baz,3,6,9
2,foo,1,4,7


你还可以指定列的子集,作为值的列:

In [109]:
pd.melt(df, id_vars=['key'], value_vars=['A', 'B'])

Unnamed: 0,key,variable,value
0,foo,A,1
1,bar,A,2
2,baz,A,3
3,foo,B,4
4,bar,B,5
5,baz,B,6


pandas.melt 也可以不用分组指标:

In [111]:
pd.melt(df, value_vars=['A', 'B', 'C'])

Unnamed: 0,variable,value
0,A,1
1,A,2
2,A,3
3,B,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


In [112]:
pd.melt(df, value_vars=['key', 'A', 'B'])

Unnamed: 0,variable,value
0,key,foo
1,key,bar
2,key,baz
3,A,1
4,A,2
5,A,3
6,B,4
7,B,5
8,B,6
