### 数据规整化：清理、转换、合并、重塑

#### 合并数据集

* pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。

* pandas.concat可以沿着一条轴将多个对象堆叠到一起。


In [7]:
from pandas import DataFrame,Series
import pandas as pd

In [8]:
df1 = DataFrame({'key':['b','b','a','c','a','a','b'],
                'data1':range(7)})

In [9]:
df2 = DataFrame({'key':['a','b','d'],
                'data2':range(3)})

In [10]:
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [11]:
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


In [12]:
# 调用merge对象即可完成合并
pd.merge(df1,df2)

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [13]:
# 如果没有指定，merge就会将重叠列的列名当作键
pd.merge(df1,df2,on='key')

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [16]:
#列名不同的话，也可以分别进行指定
df3 = DataFrame({'lkey':['b','b','a','c','a','a','b'],
                'data1':range(7)})

In [18]:
df4 = DataFrame({'rkey':['a','b','d'],
                'data2':range(3)})

In [20]:
df3

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [21]:
df4 

Unnamed: 0,data2,rkey
0,0,a
1,1,b
2,2,d


In [23]:
pd.merge(df3,df4,left_on='lkey',right_on='rkey')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


### 可以注意到，结果里面c和d以及与之相关的数据消失啦，
 默认情况下，merge做的是'inner'连接，结果中的键是交集。
 其他方式还有“left”，‘right’以及“outer”,
 外连接求取的是键的并集，组合了左连接和右连接的效果

In [24]:
pd.merge(df1,df2,how='outer')

Unnamed: 0,data1,key,data2
0,0.0,b,1.0
1,1.0,b,1.0
2,6.0,b,1.0
3,2.0,a,0.0
4,4.0,a,0.0
5,5.0,a,0.0
6,3.0,c,
7,,d,2.0


 ### 多对多的合并操作非常简单，无需额外的工作

In [25]:
df1 = DataFrame({'key':['b','b','a','c','a','b'],
                'data1':range(6)})
df2 = DataFrame({'key':['a','b','a','b','d'],
                'data2':range(5)})

In [26]:
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,b


In [27]:
 df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,a
3,3,b
4,4,d


In [28]:
 pd.merge(df1,df2,on='key',how='left')

Unnamed: 0,data1,key,data2
0,0,b,1.0
1,0,b,3.0
2,1,b,1.0
3,1,b,3.0
4,2,a,0.0
5,2,a,2.0
6,3,c,
7,4,a,0.0
8,4,a,2.0
9,5,b,1.0
