# pandas的拼接操作

pandas的拼接分为两种：
- 级联：pd.concat, pd.append
- 合并：pd.merge, pd.join

In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

## 0. 回顾numpy的级联

============================================

练习12：

1. 生成2个3*3的矩阵，对其分别进行两个维度上的级联

============================================

In [None]:
np.concatenate([n1,n2])

为方便讲解，我们首先定义一个生成DataFrame的函数：

In [14]:
def make_df(inds,cols):
    #字典的key作为列名进行展示
    dic = {key:[key+str(i) for i in inds]for key in cols}
    
    df = DataFrame(dic,index = inds)
    return df

In [6]:
make_df([1,2],list('AB'))

Unnamed: 0,A,B
0,A1,B1
1,A2,B2


## 1. 使用pd.concat()级联

pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：
```
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

### 1)  简单级联

和np.concatenate一样，优先增加行数（默认axis=0）

In [7]:
df1 = make_df([1,2],list('AB'))
df2 = make_df([3,4],list('AB'))

In [8]:
display(df1,df2)

Unnamed: 0,A,B
0,A1,B1
1,A2,B2


Unnamed: 0,A,B
0,A3,B3
1,A4,B4


In [9]:
pd.concat([df1,df2])

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
0,A3,B3
1,A4,B4


In [11]:
pd.concat((df1,df2),axis = 1)

Unnamed: 0,A,B,A.1,B.1
0,A1,B1,A3,B3
1,A2,B2,A4,B4


In [12]:
pd.concat((df1,df2),ignore_index=True)

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
2,A3,B3
3,A4,B4


可以通过设置axis来改变级联方向

注意index在级联时可以重复

也可以选择忽略ignore_index，重新索引

或者使用多层索引 keys  

concat([x,y],keys=['x','y'])

In [13]:
pd.concat([df1,df2],keys=['x','y'])

Unnamed: 0,Unnamed: 1,A,B
x,0,A1,B1
x,1,A2,B2
y,0,A3,B3
y,1,A4,B4


In [None]:
#pd 模块 import pandas as pd

#df1,df2 具体的实例
#级联的方法，属于上一级，DataFrame来自pandas

============================================

练习13：

1. 想一想级联的应用场景？

2. 使用昨天的知识，建立一个期中考试张三、李四的成绩表ddd

3. 假设新增考试学科"计算机"，如何实现？

4. 新增王老五同学的成绩，如何实现？

============================================

### 2) 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

In [15]:
df1 = make_df([1,2,3],list('AB'))
df2 = make_df([3,4],list('BCD'))
display(df1,df2)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3


Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


In [16]:
pd.concat([df1,df2])

Unnamed: 0,A,B,C,D
1,A1,B1,,
2,A2,B2,,
3,A3,B3,,
3,,B3,C3,D3
4,,B4,C4,D4


In [19]:
pd.concat((df1,df2),join = 'inner',axis = 1)

Unnamed: 0,A,B,B.1,C,D
3,A3,B3,B3,C3,D3


有3种连接方式：

- 外连接：补NaN（默认模式）

- 内连接：只连接匹配的项

- 连接指定轴 join_axes

In [25]:
df2.columns

Index(['B', 'C', 'D'], dtype='object')

In [24]:
pd.concat([df1,df2],join_axes=[df2.columns])

Unnamed: 0,B,C,D
1,B1,,
2,B2,,
3,B3,,
3,B3,C3,D3
4,B4,C4,D4


============================================

练习14：

    假设【期末】考试ddd2的成绩没有张三的，只有李四、王老五、赵小六的，使用多种方法级联

============================================

### 3) 使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加

In [26]:
display(df1,df2)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3


Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


In [28]:
#append函数属于DataFrame，concat这函数属于pandas模块
pd.concat((df1,df2))
# df1.append(df2)

Unnamed: 0,A,B,C,D
1,A1,B1,,
2,A2,B2,,
3,A3,B3,,
3,,B3,C3,D3
4,,B4,C4,D4


============================================

练习15：

    新建一个只有张三李四王老五的期末考试成绩单ddd3，使用append()与期中考试成绩表ddd级联

============================================

## 2. 使用pd.merge()合并

merge与concat的区别在于，merge需要依据某一共同的行或列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

###  1) 一对一合并

In [35]:
#merge根据相同的元素进行合并的
df1 = DataFrame({'name':['张三','李四','Chales'],'id':[1,2,3],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'id':[2,3,4],'group':['sale','search','service']})

# pd.concat((df1,df2))

In [36]:
df1.merge(df2)

Unnamed: 0,age,id,name,group,sex
0,21,2,李四,sale,男
1,25,3,Chales,search,男


### 2) 多对一合并

In [37]:
#多对一的合并
df1 = DataFrame({'name':['张三','李四','Chales'],'id':[1,2,2],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'id':[2,3,4],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,age,id,name
0,22,1,张三
1,21,2,李四
2,25,2,Chales


Unnamed: 0,group,id,sex
0,sale,2,男
1,search,3,男
2,service,4,女


In [38]:
df1.merge(df2)

Unnamed: 0,age,id,name,group,sex
0,21,2,李四,sale,男
1,25,2,Chales,sale,男


### 3) 多对多合并

### 4) key的规范化

- 使用on=显式指定哪一列为key,当有多个key相同时使用

- 使用left_on和right_on指定左右两边的列作为key，当左右两边的key都不想等时使用

============================================

练习16：

1. 假设有两份成绩单，除了ddd是张三李四王老五之外，还有ddd4是张三和赵小六的成绩单，如何合并？

2. 如果ddd4中张三的名字被打错了，成为了张十三，怎么办？

3. 自行练习多对一，多对多的情况  

4. 自学left_index,right_index

============================================

### 5) 内合并与外合并

- 内合并：只保留两者都有的key（默认模式）

- 外合并 how='outer'：补NaN

- 左合并、右合并：how='left'，how='right'，

============================================

练习17：

1. 如果只有张三赵小六语数英三个科目的成绩，如何合并？

3. 考虑应用情景，使用多种方式合并ddd与ddd4

============================================

### 6) 列冲突的解决

当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名

可以使用suffixes=自己指定后缀

============================================

练习18：

    假设有两个同学都叫李四，ddd5、ddd6都是张三和李四的成绩表，如何合并？

============================================

## 作业
## 3. 案例分析：美国各州人口数据分析

首先导入文件，并查看数据样本

合并pop与abbrevs两个DataFrame，分别依据state/region列和abbreviation列来合并。

为了保留所有信息，使用外合并。

去除abbreviation的那一列（axis=1）

查看存在缺失数据的列。

使用.isnull().any()，只有某一列存在一个缺失数据，就会显示True。

查看缺失数据

根据数据是否缺失情况显示数据，如果缺失为True，那么显示

找到有哪些state/region使得state的值为NaN，使用unique()查看非重复值

为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN！

记住这样清除缺失数据NaN的方法！

合并各州面积数据areas，使用左合并。

思考一下为什么使用外合并？



继续寻找存在缺失数据的列

我们会发现area(sq.mi)这一列有缺失数据，为了找出是哪一行，我们需要找出是哪个state没有数据

去除含有缺失数据的行

查看数据是否缺失

找出2010年的全民人口数据,df.query(查询语句)

对查询结果进行处理，以state列作为新的行索引:set_index

计算人口密度。注意是Series/Series，其结果还是一个Series。

排序，并找出人口密度最高的五个州sort_values()

找出人口密度最低的五个州

要点总结：
- 统一用loc()索引
- 善于使用.isnull().any()找到存在NaN的列
- 善于使用.unique()确定该列中哪些key是我们需要的
- 一般使用外合并、左合并，目的只有一个：宁愿该列是NaN也不要丢弃其他列的信息

## 回顾：Series/DataFrame运算与ndarray运算的区别

- Series与DataFrame没有广播，如果对应index没有值，则记为NaN；或者使用add的fill_value来补缺失值
- ndarray有广播，通过重复已有值来计算