# pandas的拼接操作

pandas的拼接分为两种：

- 级联：pd.concat, pd.append (没有重复数据)
- 合并：pd.merge, pd.join (有重复数据)

## 0. 回顾numpy的级联

============================================

练习12：

1. 生成2个3*3的矩阵，对其分别进行两个维度上的级联

============================================

In [60]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [66]:
nd1 = np.random.randint(0,10,size=(3,3))
nd2 = np.random.randint(10,100,size=(3,3))
display(nd1,nd2)
np.concatenate((nd1,nd2))
np.concatenate((nd1,nd2),axis=1)

array([[7, 4, 2],
       [2, 7, 9],
       [7, 6, 6]])

array([[69, 93, 71],
       [87, 25, 38],
       [42, 15, 35]])

array([[ 7,  4,  2, 69, 93, 71],
       [ 2,  7,  9, 87, 25, 38],
       [ 7,  6,  6, 42, 15, 35]])

## 1. 使用pd.concat()级联

为方便讲解，我们首先定义一个生成DataFrame的函数：

In [68]:
df1 = DataFrame(nd1)
df2 = DataFrame(nd2)
display(df1,df2)

Unnamed: 0,0,1,2
0,7,4,2
1,2,7,9
2,7,6,6


Unnamed: 0,0,1,2
0,69,93,71
1,87,25,38
2,42,15,35


### 1)  简单级联

pandas使用pd.concat函数，与np.concatenate函数类似

In [72]:
df3 = pd.concat((df1,df2)) #默认 axis是0 是纵向拼接
df3

Unnamed: 0,0,1,2
0,7,4,2
1,2,7,9
2,7,6,6
0,69,93,71
1,87,25,38
2,42,15,35


In [73]:
# 索引有重复 会产生一些问题
df3.loc[0]

Unnamed: 0,0,1,2
0,7,4,2
0,69,93,71


In [81]:
# 可以通过 重置索引的方式 去重新让索引不重复
# ignore_index=False 忽略原索引 建立新索引 默认是False
df3 = pd.concat((df1,df2),ignore_index=True)
df3

Unnamed: 0,0,1,2
0,7,4,2
1,2,7,9
2,7,6,6
3,69,93,71
4,87,25,38
5,42,15,35


In [84]:
df3 = pd.concat((df1,df2),ignore_index=True,axis=0) # 默认是 0 竖直方向
df3 = pd.concat((df1,df2),ignore_index=True,axis=1) # 1 水平方向拼接
df3

Unnamed: 0,0,1,2,3,4,5
0,7,4,2,69,93,71
1,2,7,9,87,25,38
2,7,6,6,42,15,35


### 2) 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

有3种连接方式：

- 外连接：补NaN（默认模式）

- 内连接：只连接匹配的项

- 连接指定轴 join_axes

In [34]:
# 把相同索引的行或列进行级联，如果存在不匹配的行列标签，补nan
df3 = DataFrame(data=nd1,columns=list("ABC"))
df4 = DataFrame(data=nd2,columns=list("BCD"))
# display(df3,df4)
pd.concat((df3,df4),sort="False")

Unnamed: 0,A,B,C,B.1,C.1,D
0,8,1,7,48,57,94
1,9,2,3,96,73,20
2,7,0,9,93,17,13


In [36]:
pd.concat((df3,df4),sort="False",axis=1,ignore_index="True")

Unnamed: 0,0,1,2,3,4,5
0,8,1,7,48,57,94
1,9,2,3,96,73,20
2,7,0,9,93,17,13


In [42]:
# 使用keys参数，可以自动设置为多层级索引，避免索引重复
pd.concat((df3,df4),sort="False")
pd.concat((df3,df4),keys=['期中','期末'],sort="False")

Unnamed: 0,Unnamed: 1,A,B,C,D
期中,0,8.0,1,7,
期中,1,9.0,2,3,
期中,2,7.0,0,9,
期末,0,,48,57,94.0
期末,1,,96,73,20.0
期末,2,,93,17,13.0


In [45]:
pd.concat((df3,df4),sort="False",join="inner")

Unnamed: 0,B,C
0,1,7
1,2,3
2,0,9
0,48,57
1,96,73
2,93,17


In [48]:
pd.concat((df3,df4),sort="False",axis=1)

Unnamed: 0,A,B,C,B.1,C.1,D
0,8,1,7,48,57,94
1,9,2,3,96,73,20
2,7,0,9,93,17,13


In [54]:
axes = pd.Index(["B","C"])
pd.concat((df3,df4),sort="False",join_axes=[axes])

Unnamed: 0,B,C
0,1,7
1,2,3
2,0,9
0,48,57
1,96,73
2,93,17


============================================

练习13：

1. 想一想级联的应用场景？

2. 使用昨天的知识，建立一个期中考试张三、李四的成绩表df

3. 假设新增考试学科"计算机"，如何实现？

4. 新增王老五同学的成绩，如何实现？

============================================

### 3) 使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加

============================================

练习15：

    新建一个只有张三李四王老五的期末考试成绩单ddd3，使用append()与期中考试成绩表ddd级联

============================================

## 2. 使用pd.merge()合并

merge与concat的区别在于，merge需要依据某一共同的行或列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

###  1) 一对一合并

### 2) 多对一合并

### 3) 多对多合并

Unnamed: 0,手机型号,参考价格
0,windowsPhone,2500
1,iPhone,7500
2,Android,4000


Unnamed: 0,手机型号,重量
0,windowsPhone,0.5
1,iPhone,0.4
2,Android,0.45
3,other,0.6


Unnamed: 0,手机型号,参考价格,重量
0,windowsPhone,2500.0,0.5
1,iPhone,7500.0,0.4
2,Android,4000.0,0.45
3,other,,0.6


Unnamed: 0,手机型号,重量,经销商,发货地区
0,windowsPhone,0.5,petter,shenzhen
1,iPhone,0.4,dancer,beijing
2,iPhone,0.4,tom,guangzhou
3,Android,0.45,lucy,beijing
4,Android,0.45,mery,guangzhou


Unnamed: 0,经销商,发货地区_1,手机型号,发货地区_2,价格
0,dancer,beijing,iPhone,beijing,7000
1,dancer,beijing,iPhone,guangzhou,7600
2,dancer,beijing,iPhone,shenzhen,7400
3,tom,guangzhou,iPhone,beijing,7000
4,tom,guangzhou,iPhone,guangzhou,7600
5,tom,guangzhou,iPhone,shenzhen,7400
6,lucy,beijing,Android,beijing,3600
7,lucy,beijing,Android,guangzhou,4200
8,lucy,beijing,Android,shenzhen,3900
9,mery,guangzhou,Android,beijing,3600


Unnamed: 0,经销商,发货地区,手机型号,价格
0,dancer,beijing,iPhone,7000
1,lucy,beijing,Android,3600
2,tom,guangzhou,iPhone,7600
3,petter,shenzhen,windowsPhone,2750
4,mery,guangzhou,Android,4200


Unnamed: 0,发货地区,型号,价格
0,beijing,iPhone,7000
1,beijing,windowsPhone,2300
2,beijing,Android,3600
3,guangzhou,iPhone,7600
4,guangzhou,windowsPhone,2800
5,guangzhou,Android,4200
6,shenzhen,iPhone,7400
7,shenzhen,windowsPhone,2750
8,shenzhen,Android,3900


Unnamed: 0,手机型号,参考价格,发货地区,价格
0,windowsPhone,2500,beijing,2300
1,windowsPhone,2500,guangzhou,2800
2,windowsPhone,2500,shenzhen,2750
3,iPhone,7500,beijing,7000
4,iPhone,7500,guangzhou,7600
5,iPhone,7500,shenzhen,7400
6,Android,4000,beijing,3600
7,Android,4000,guangzhou,4200
8,Android,4000,shenzhen,3900


### 4) key的规范化

- 使用on=显式指定哪一列为key,当有多个key相同时使用

- 使用left_on和right_on指定左右两边的列作为key，当左右两边的key都不想等时使用

============================================

练习16：

1. 假设有两份成绩单，除了ddd是张三李四王老五之外，还有ddd4是张三和赵小六的成绩单，如何合并？

2. 如果ddd4中张三的名字被打错了，成为了张十三，怎么办？

3. 自行练习多对一，多对多的情况  

4. 自学left_index,right_index

============================================

### 5) 内合并与外合并

- 内合并：只保留两者都有的key（默认模式）

- 外合并 how='outer'：补NaN

- 左合并、右合并：how='left'，how='right'，

============================================

练习17：



1. 考虑应用情景，使用多种方式合并ddd与ddd4

============================================

### 6) 列冲突的解决

当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名

可以使用suffixes=自己指定后缀

============================================

练习18：

    假设有两个同学都叫李四，ddd5、ddd6都是张三和李四的成绩表，如何合并？

============================================

## 作业
## 3. 案例分析：美国各州人口数据分析

作业知识补充

array(['Tom', 'Lucy', 'dancer'], dtype=object)

Unnamed: 0,name,age
0,Tom,12
1,Lucy,13
2,Tom,12
3,dancer,11
4,Lucy,15


Unnamed: 0,name,age
4,Lucy,15


首先导入文件，并查看数据样本

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


合并popu与abbrevs两个DataFrame，分别依据state/region列和abbreviation列来合并。

为了保留所有信息，使用外合并。

去除abbreviation的那一列（axis=1）

查看存在缺失数据的列。

使用.isnull().any()，只有某一列存在一个缺失数据，就会显示True。

找到有哪些state/region使得state的值为NaN，使用unique()查看非重复值

为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN！

记住这样清除缺失数据NaN的方法！

合并各州面积数据areas，使用外合并。

思考一下为什么使用外合并？


找出2010年的全民人口数据,df.query(查询语句)

对查询结果进行处理，以state列作为新的行索引:set_index

计算人口密度。注意是Series/Series，其结果还是一个Series。

排序，并找出人口密度最高的五个州sort_values()

找出人口密度最低的五个州

要点总结：
- 统一用loc()索引
- 善于使用.isnull().any()找到存在NaN的列
- 善于使用.unique()确定该列中哪些key是我们需要的
- 一般使用外合并、左合并，目的只有一个：宁愿该列是NaN也不要丢弃其他列的信息