# pandas的拼接操作

pandas的拼接分为两种：
- 级联：pd.concat, pd.append
- 合并：pd.merge

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 0. 回顾numpy的级联

In [None]:
concatenate

============================================

练习12：

1. 生成2个3*3的矩阵，对其分别进行两个维度上的级联

============================================

In [2]:
n1 = np.random.randint(0,100, size=(3,3))
n2 = np.random.randint(0,100, size=(3,3))
display(n1,n2)

array([[ 1, 59, 85],
       [79, 30, 16],
       [75, 56, 62]])

array([[55, 33, 73],
       [16, 56, 82],
       [40, 25, 80]])

In [3]:
np.concatenate((n1,n2), axis=0)

array([[ 1, 59, 85],
       [79, 30, 16],
       [75, 56, 62],
       [55, 33, 73],
       [16, 56, 82],
       [40, 25, 80]])

In [4]:
np.concatenate((n1,n2), axis=1)

array([[ 1, 59, 85, 55, 33, 73],
       [79, 30, 16, 16, 56, 82],
       [75, 56, 62, 40, 25, 80]])

In [5]:
np.hstack((n1,n2))

array([[ 1, 59, 85, 55, 33, 73],
       [79, 30, 16, 16, 56, 82],
       [75, 56, 62, 40, 25, 80]])

In [6]:
np.vstack((n1,n2))

array([[ 1, 59, 85],
       [79, 30, 16],
       [75, 56, 62],
       [55, 33, 73],
       [16, 56, 82],
       [40, 25, 80]])

为方便讲解，我们首先定义一个生成DataFrame的函数：

In [9]:
from pandas import DataFrame

In [7]:
def make_df(index, columns):
    df = DataFrame({key: [key + str(i) for i in index] for key in columns})
    df.index = index
    return df

In [10]:
make_df([1,2,3,4], list('ABCD'))

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


## 1. 使用pd.concat()级联

pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：
```
objs
axis=0
join='outer'
join_axes=None
ignore_index=False
keys = [value1,value2...]
```

In [None]:
numpy 级联: concatenate
pandas级联: concat

In [None]:
pd.concat()

### 1)  简单级联

和np.concatenate一样，优先增加行数（默认axis=0）

In [11]:
df1 = make_df([1,2,3,4], list('ABCD'))
df2 = make_df([1,2,3,4], list('ABCD'))
display(df1, df2)

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [12]:
pd.concat((df1,df2)) # axis=0 

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


可以通过设置axis来改变级联方向

In [13]:
pd.concat((df1,df2), axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3
4,A4,B4,C4,D4,A4,B4,C4,D4


In [14]:
pd.concat((df1,df2), ignore_index=True)

Unnamed: 0,A,B,C,D
0,A1,B1,C1,D1
1,A2,B2,C2,D2
2,A3,B3,C3,D3
3,A4,B4,C4,D4
4,A1,B1,C1,D1
5,A2,B2,C2,D2
6,A3,B3,C3,D3
7,A4,B4,C4,D4


In [15]:
pd.concat((df1,df2), ignore_index=True, axis=1)

Unnamed: 0,0,1,2,3,4,5,6,7
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3
4,A4,B4,C4,D4,A4,B4,C4,D4


In [16]:
pd.concat((df1,df2), keys=['df1', 'df2'])

Unnamed: 0,Unnamed: 1,A,B,C,D
df1,1,A1,B1,C1,D1
df1,2,A2,B2,C2,D2
df1,3,A3,B3,C3,D3
df1,4,A4,B4,C4,D4
df2,1,A1,B1,C1,D1
df2,2,A2,B2,C2,D2
df2,3,A3,B3,C3,D3
df2,4,A4,B4,C4,D4


In [17]:
pd.concat((df1,df2), keys=['df1', 'df2'], axis=1)

Unnamed: 0_level_0,df1,df1,df1,df1,df2,df2,df2,df2
Unnamed: 0_level_1,A,B,C,D,A,B,C,D
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3
4,A4,B4,C4,D4,A4,B4,C4,D4


级连会把该方向上索引相同的元素放在一行（一列），index/columns在级联时可以重复

也可以选择忽略ignore_index，重新索引

或者使用多层索引 keys  

concat([x,y],keys=['x','y'])

============================================

练习13：

1. 想一想级联的应用场景？

2. 使用昨天的知识，建立一个期中考试张三、李四的成绩表ddd

3. 假设新增考试学科"计算机"，如何实现？

4. 新增王老五同学的成绩，如何实现？

============================================

In [20]:
ddd = DataFrame(data=np.random.randint(0,150, size=(3,3)), index=['张三', '李四', '王五'], columns=['语文', '数学', '英语'])
ddd

Unnamed: 0,语文,数学,英语
张三,107,47,40
李四,19,44,129
王五,94,12,138


In [19]:
# 方法一
ddd['计算机'] = np.random.randint(0,150, size=3)
ddd

Unnamed: 0,语文,数学,英语,计算机
张三,34,70,143,4
李四,52,11,22,16
王五,11,81,100,124


In [21]:
computer = DataFrame(data=np.random.randint(0,150, size=(3,1)), index=['张三', '李四', '王五'], columns=['计算机'])
computer

Unnamed: 0,计算机
张三,80
李四,142
王五,74


In [23]:
ddd = pd.concat((ddd, computer), axis=1)
ddd

Unnamed: 0,语文,数学,英语,计算机
张三,107,47,40,80
李四,19,44,129,142
王五,94,12,138,74


In [24]:
laowang = DataFrame(data=np.random.randint(0,150,  size=(1,4)), index=['王老五'], columns=['语文', '数学', '英语', '计算机'])
laowang

Unnamed: 0,语文,数学,英语,计算机
王老五,35,88,67,24


In [25]:
pd.concat((ddd, laowang))

Unnamed: 0,语文,数学,英语,计算机
张三,107,47,40,80
李四,19,44,129,142
王五,94,12,138,74
王老五,35,88,67,24


### 2) 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

In [26]:
df1 = make_df(index=[1,2,3,4], columns=list('ABCD'))
df2 = make_df(index=[2,3,4,5], columns=list('BCDE'))
display(df1, df2)

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


Unnamed: 0,B,C,D,E
2,B2,C2,D2,E2
3,B3,C3,D3,E3
4,B4,C4,D4,E4
5,B5,C5,D5,E5


In [28]:
pd.concat((df1, df2), sort=True)

Unnamed: 0,A,B,C,D,E
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,A4,B4,C4,D4,
2,,B2,C2,D2,E2
3,,B3,C3,D3,E3
4,,B4,C4,D4,E4
5,,B5,C5,D5,E5


有3种连接方式：

- 外连接：补NaN（默认模式）

- 内连接：只连接匹配的项

In [29]:
pd.concat((df1, df2), sort=True, join='inner')

Unnamed: 0,B,C,D
1,B1,C1,D1
2,B2,C2,D2
3,B3,C3,D3
4,B4,C4,D4
2,B2,C2,D2
3,B3,C3,D3
4,B4,C4,D4
5,B5,C5,D5


- 连接指定轴 join_axes

In [30]:
pd.concat((df1, df2), sort=True, join_axes=[df1.columns]) # 只想保留df1的列,相当于左连接


Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
2,,B2,C2,D2
3,,B3,C3,D3
4,,B4,C4,D4
5,,B5,C5,D5


In [31]:
pd.concat((df1, df2), sort=True, join_axes=[df2.columns])

Unnamed: 0,B,C,D,E
1,B1,C1,D1,
2,B2,C2,D2,
3,B3,C3,D3,
4,B4,C4,D4,
2,B2,C2,D2,E2
3,B3,C3,D3,E3
4,B4,C4,D4,E4
5,B5,C5,D5,E5


In [33]:
pd.concat((df1, df2), sort=True, join_axes=[df2.index], axis=1)

Unnamed: 0,A,B,C,D,B.1,C.1,D.1,E
2,A2,B2,C2,D2,B2,C2,D2,E2
3,A3,B3,C3,D3,B3,C3,D3,E3
4,A4,B4,C4,D4,B4,C4,D4,E4
5,,,,,B5,C5,D5,E5


============================================

练习14：

    假设【期末】考试ddd2的成绩没有张三的，只有李四、王老五、赵小六的，使用多种方法级联

============================================

In [34]:
ddd

Unnamed: 0,语文,数学,英语,计算机
张三,107,47,40,80
李四,19,44,129,142
王五,94,12,138,74


In [36]:
ddd2 = DataFrame(data=np.random.randint(0,150, size=(3,4)), index=['赵小六', '李四', '王五'], columns=['语文', '数学', '英语', '计算机'])
ddd2

Unnamed: 0,语文,数学,英语,计算机
赵小六,118,90,104,53
李四,34,109,118,66
王五,131,79,50,23


In [37]:
ddd

Unnamed: 0,语文,数学,英语,计算机
张三,107,47,40,80
李四,19,44,129,142
王五,94,12,138,74


In [39]:
pd.concat((ddd, ddd2), keys=['期中', '期末'])

Unnamed: 0,Unnamed: 1,语文,数学,英语,计算机
期中,张三,107,47,40,80
期中,李四,19,44,129,142
期中,王五,94,12,138,74
期末,赵小六,118,90,104,53
期末,李四,34,109,118,66
期末,王五,131,79,50,23


In [41]:
pd.concat((ddd, ddd2), keys=['期中', '期末'], axis=1, sort=True)

Unnamed: 0_level_0,期中,期中,期中,期中,期末,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,计算机,语文,数学,英语,计算机
张三,107.0,47.0,40.0,80.0,,,,
李四,19.0,44.0,129.0,142.0,34.0,109.0,118.0,66.0
王五,94.0,12.0,138.0,74.0,131.0,79.0,50.0,23.0
赵小六,,,,,118.0,90.0,104.0,53.0


### 3) 使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加

In [42]:
ddd.append(ddd2)

Unnamed: 0,语文,数学,英语,计算机
张三,107,47,40,80
李四,19,44,129,142
王五,94,12,138,74
赵小六,118,90,104,53
李四,34,109,118,66
王五,131,79,50,23


============================================

练习15：

    新建一个只有张三李四王老五的期末考试成绩单ddd3，使用append()与期中考试成绩表ddd级联

============================================

## 2. 使用pd.merge()合并

merge与concat的区别在于，merge需要依据某一共的列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

###  1) 一对一合并

In [43]:
df1 = DataFrame({'name':['张三','李四','Chales'],'id':[1,2,3],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'id':[2,3,4],'group':['sale','search','service']})
display(df1, df2)

Unnamed: 0,name,id,age
0,张三,1,22
1,李四,2,21
2,Chales,3,25


Unnamed: 0,sex,id,group
0,男,2,sale
1,男,3,search
2,女,4,service


In [44]:
pd.merge(df1, df2)

Unnamed: 0,name,id,age,sex,group
0,李四,2,21,男,sale
1,Chales,3,25,男,search


In [45]:
df1.merge(df2)

Unnamed: 0,name,id,age,sex,group
0,李四,2,21,男,sale
1,Chales,3,25,男,search


### 2) 多对一合并

In [46]:
df1 = DataFrame({'name':['张三','李四','Chales'],'id':[1,2,2],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'id':[2,3,4],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,id,age
0,张三,1,22
1,李四,2,21
2,Chales,2,25


Unnamed: 0,sex,id,group
0,男,2,sale
1,男,3,search
2,女,4,service


In [47]:
df1.merge(df2)

Unnamed: 0,name,id,age,sex,group
0,李四,2,21,男,sale
1,Chales,2,25,男,sale


### 3) 多对多合并

In [48]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'name':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,sex,name,group
0,男,张三,sale
1,男,张三,search
2,女,凡凡,service


In [49]:
pd.merge(df1,df2)

Unnamed: 0,name,salary,age,sex,group
0,张三,10000,22,男,sale
1,张三,10000,22,男,search
2,张三,20000,25,男,sale
3,张三,20000,25,男,search


### 4) key的规范化

- 使用on=显式指定哪一列为key,当有多个key相同时使用

In [50]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'age':[21,18,29],'name':['张三','张三','凡凡'],'group':['sale','search','service']})

display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,age,name,group
0,21,张三,sale
1,18,张三,search
2,29,凡凡,service


In [52]:
# 使用on参数指定要合并的列.
pd.merge(df1, df2, on='name', suffixes=['_df1', '_df2'])

Unnamed: 0,name,salary,age_df1,age_df2,group
0,张三,10000,22,21,sale
1,张三,10000,22,18,search
2,张三,20000,25,21,sale
3,张三,20000,25,18,search


- 使用left_on和right_on指定左右两边的列作为key，当左右两边的key都不相等时使用

In [53]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'年龄':[21,18,29],'名字':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,年龄,名字,group
0,21,张三,sale
1,18,张三,search
2,29,凡凡,service


In [54]:
pd.merge(df1, df2, left_on='name', right_on='名字')

Unnamed: 0,name,salary,age,年龄,名字,group
0,张三,10000,22,21,张三,sale
1,张三,10000,22,18,张三,search
2,张三,20000,25,21,张三,sale
3,张三,20000,25,18,张三,search


当左边的列和右边的index相同的时候,使用right_index=True

In [55]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'年龄':[21,18,29],'名字':['张三','张三','凡凡'],'group':['sale','search','service']},
                index = [22,21,25])
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,年龄,名字,group
22,21,张三,sale
21,18,张三,search
25,29,凡凡,service


In [56]:
pd.merge(df1, df2, left_on='age', right_index=True) # left_index=True, right_on=

Unnamed: 0,name,salary,age,年龄,名字,group
0,张三,10000,22,21,张三,sale
1,李四,12000,21,18,张三,search
2,张三,20000,25,29,凡凡,service


============================================

练习16：

1. 假设有两份成绩单，除了ddd是张三李四王老五之外，还有ddd4是张三和赵小六的成绩单，如何合并？

2. 如果ddd4中张三的名字被打错了，成为了张十三，怎么办？

3. 自行练习多对一，多对多的情况  

4. 自学left_index,right_index

============================================

### 5) 内合并与外合并

- 内合并：只保留两者都有的key（默认模式）

In [57]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'age':[21,18,29],'名字':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1, df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,age,名字,group
0,21,张三,sale
1,18,张三,search
2,29,凡凡,service


In [60]:
df1.merge(df2, left_on='name', right_on='名字')

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000,22,21,张三,sale
1,张三,10000,22,18,张三,search
2,张三,20000,25,21,张三,sale
3,张三,20000,25,18,张三,search


- 外合并 how='outer'：补NaN

In [61]:
df1.merge(df2, left_on='name', right_on='名字', how='outer')

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000.0,22.0,21.0,张三,sale
1,张三,10000.0,22.0,18.0,张三,search
2,张三,20000.0,25.0,21.0,张三,sale
3,张三,20000.0,25.0,18.0,张三,search
4,李四,12000.0,21.0,,,
5,,,,29.0,凡凡,service


- 左合并、右合并：how='left'，how='right'，

In [62]:
df1.merge(df2, left_on='name', right_on='名字', how='left')

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000,22,21.0,张三,sale
1,张三,10000,22,18.0,张三,search
2,李四,12000,21,,,
3,张三,20000,25,21.0,张三,sale
4,张三,20000,25,18.0,张三,search


In [63]:
df1.merge(df2, left_on='name', right_on='名字', how='right')

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000.0,22.0,21,张三,sale
1,张三,20000.0,25.0,21,张三,sale
2,张三,10000.0,22.0,18,张三,search
3,张三,20000.0,25.0,18,张三,search
4,,,,29,凡凡,service


============================================

练习17：



1. 考虑应用情景，使用多种方式合并ddd与ddd4

============================================

### 6) 列冲突的解决

当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名

In [64]:
#期中
df1 = DataFrame({'name':['张三','李四','张三'],'degree':[120,118,149],'age':[22,21,25]})

#期末考试
df2 = DataFrame({'degree':[99,97,129],'name':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1, df2)

Unnamed: 0,name,degree,age
0,张三,120,22
1,李四,118,21
2,张三,149,25


Unnamed: 0,degree,name,group
0,99,张三,sale
1,97,张三,search
2,129,凡凡,service


In [67]:
df1.merge(df2, on='name', suffixes=['', '_df2'])

Unnamed: 0,name,degree,age,degree_df2,group
0,张三,120,22,99,sale
1,张三,120,22,97,search
2,张三,149,25,99,sale
3,张三,149,25,97,search


可以使用suffixes=自己指定后缀

============================================

练习18：

    假设有两个同学都叫李四，ddd5、ddd6都是张三和李四的成绩表，如何合并？

============================================

## 作业
## 3. 案例分析：美国各州人口数据分析

作业知识补充

In [69]:
from pandas import Series

In [70]:
# unique() 去重函数
s = Series(['Tom','Lucy','Tom','dancer','Lucy'])
s

0       Tom
1      Lucy
2       Tom
3    dancer
4      Lucy
dtype: object

In [71]:
s.unique()

array(['Tom', 'Lucy', 'dancer'], dtype=object)

In [72]:
n = DataFrame({'name':['Tom','Lucy','Tom','dancer','Lucy'],'age':[12,13,12,11,15]})
n

Unnamed: 0,name,age
0,Tom,12
1,Lucy,13
2,Tom,12
3,dancer,11
4,Lucy,15


In [73]:
# query 条件查询函数
n.query("name=='Lucy' & age > 13")

Unnamed: 0,name,age
4,Lucy,15


首先导入文件，并查看数据样本

In [2]:
s_abb = pd.read_csv('../data/state-abbrevs.csv')
s_abb.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


In [3]:
s_pop = pd.read_csv('../data/state-population.csv')
s_pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [4]:
s_ares = pd.read_csv('../data/state-areas.csv')
s_ares.head()

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


合并pop与abbrevs两个DataFrame，分别依据state/region列和abbreviation列来合并。

为了保留所有信息，使用外合并。

去除abbreviation的那一列（axis=1）

查看存在缺失数据的列。

使用.isnull().any()，只有某一列存在一个缺失数据，就会显示True。

查看缺失数据

根据数据是否缺失情况显示数据，如果缺失为True，那么显示

找到有哪些state/region使得state的值为NaN，使用unique()查看非重复值

为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN！

记住这样清除缺失数据NaN的方法！

合并各州面积数据areas，使用左合并。

思考一下为什么使用外合并？



继续寻找存在缺失数据的列

我们会发现area(sq.mi)这一列有缺失数据，为了找出是哪一行，我们需要找出是哪个state没有数据

去除含有缺失数据的行

查看数据是否缺失

找出2010年的全民人口数据,df.query(查询语句)

对查询结果进行处理，以state列作为新的行索引:set_index

计算人口密度。注意是Series/Series，其结果还是一个Series。

排序，并找出人口密度最高的五个州sort_values()

找出人口密度最低的五个州

要点总结：
- 统一用loc()索引
- 善于使用.isnull().any()找到存在NaN的列
- 善于使用.unique()确定该列中哪些key是我们需要的
- 一般使用外合并、左合并，目的只有一个：宁愿该列是NaN也不要丢弃其他列的信息

## 回顾：Series/DataFrame运算与ndarray运算的区别

- Series与DataFrame没有广播，如果对应index没有值，则记为NaN；或者使用add的fill_value来补缺失值
- ndarray有广播，通过重复已有值来计算