# 5.数据连接与合并(concat & merge )                             


#### 笨办法学 Python 数据分析  / learn data analysis the hard way
- @Author：知行并重


|<h2>技能点</h2> | |
|:-----|:-----|
|**Q057: 将两个数据表按行（索引）方向进行连接(concatenate)**|**Q058: 将两个数据表按列（名）方向进行连接(concatenate)**|
|**Q059: 将两个数据表按行（索引）方向进行连接且只保留公共部分(concatenate)**|**Q060: 将两个数据表按列（名）方向进行连接且只保留公共部分(concatenate)**|
|**Q061: 将多个数据表同时按照行或列方向进行连接**|
|**Q062: 将两个数据表根据某列进行左合并**|**Q063: 将两个数据表根据某列进行合内并**|
|**Q064: 将两个数据表根据某列进行右合并**|**Q065: 根据列和索引对将两个数据表根据某列进行合并**|

## 目录
数据的连接与合并，分别通过下面方式实现
1. concat（连接）

    连接的方式可以是横向、也可以是纵向的； 纵向类似与SQL 中的 `Union all` 操作

2. merge（合并）

    合并是指根于一个或者多个键（列）将数据表`横向`拼接起来。 类似与 SQL 中的 `join`操作

![image.png](attachment:image.png)

## 一、数据读取

In [12]:
### 导入必要的库

import pandas as pd #数据分析
import numpy as np #科学计算

data = pd.read_csv("../input/titanic.csv")

use_cols1 = ['PassengerId','Sex','Fare']
use_cols2 = ['PassengerId','Sex','SibSp','Pclass']

sub_data1 = data.loc[:99,use_cols1] # 前100条
sub_data2 = data.loc[:99,use_cols2] # 前100条
sub_data3 = data.loc[50:150,use_cols1] # 第50 到150条
sub_data4 = data.loc[50:150,use_cols2].set_index('PassengerId')  # 第50 到150条  并将 PassengerId 设置为索引

In [13]:
sub_data1.head()

Unnamed: 0,PassengerId,Sex,Fare
0,1,male,7.25
1,2,female,71.2833
2,3,female,7.925
3,4,female,53.1
4,5,male,8.05


In [4]:
sub_data2.head()

Unnamed: 0,PassengerId,Sex,SibSp,Pclass
0,1,male,1,3
1,2,female,1,1
2,3,female,0,3
3,4,female,1,1
4,5,male,0,3


In [5]:
sub_data3.head()

Unnamed: 0,PassengerId,Sex,Fare
50,51,male,39.6875
51,52,male,7.8
52,53,female,76.7292
53,54,female,26.0
54,55,male,61.9792


In [14]:
sub_data4.head()

Unnamed: 0_level_0,Sex,SibSp,Pclass
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
51,male,4,3
52,male,0,3
53,female,1,1
54,female,1,2
55,male,0,1


## 一、Concat

### Q057: 将两个数据表按列（列名）方向进行连接(concatenate)
将 sub_data1 与 sub_data2 纵向连接（Concatenate）

#### 纵向堆叠，对行 axis = 0 情况(默认)    ====>变长 

<font color='red'>注意变化后的形状</font>

In [15]:
result = pd.concat([sub_data1,sub_data2],axis = 0)

In [16]:
print('data shape:',sub_data1.shape)
print('data shape:',sub_data2.shape)
print('data shape:',result.shape)
result.head()

data shape: (100, 3)
data shape: (100, 4)
data shape: (200, 5)


Unnamed: 0,PassengerId,Sex,Fare,SibSp,Pclass
0,1,male,7.25,,
1,2,female,71.2833,,
2,3,female,7.925,,
3,4,female,53.1,,
4,5,male,8.05,,


### Q058: 将两个数据表按列（列名）方向进行连接且只保留公共部分(concatenate)	
将sub_data1,sub_data2 纵向连接（Concatenate） (内连)
#### 仅保留公共部分 列字段

In [17]:
result = pd.concat([sub_data1,sub_data2],axis = 0, join = 'inner')

In [19]:
print('data shape:',sub_data1.shape)
print('data shape:',sub_data2.shape)
print('data shape:',result.shape)
result.head()

data shape: (100, 3)
data shape: (100, 4)
data shape: (200, 2)


Unnamed: 0,PassengerId,Sex
0,1,male
1,2,female
2,3,female
3,4,female
4,5,male


### Q059: 将两个数据表按行（索引）方向进行连接(concatenate)

将sub_data1,sub_data2 横向连接（Concatenate）

#### 横向堆叠，对列  axis = 1    ====>变宽 

<font color='red'>注意变化后的形状</font>

默认相同列名，也会同时保留，后续需要重命名

In [20]:
result = pd.concat([sub_data1,sub_data2],axis = 1) 

In [21]:
# 其实是按照索引链接
print('data shape:',sub_data1.shape)
print('data shape:',sub_data2.shape)
print('data shape:',result.shape)
result.head()

data shape: (100, 3)
data shape: (100, 4)
data shape: (100, 7)


Unnamed: 0,PassengerId,Sex,Fare,PassengerId.1,Sex.1,SibSp,Pclass
0,1,male,7.25,1,male,1,3
1,2,female,71.2833,2,female,1,1
2,3,female,7.925,3,female,0,3
3,4,female,53.1,4,female,1,1
4,5,male,8.05,5,male,0,3


### Q060: 将两个数据表按行（索引）方向进行连接且只保留公共部分(concatenate)
将sub_data1,sub_data3 按列连接（Concatenate） 内连

In [22]:
result = pd.concat([sub_data1,sub_data3],axis = 1, join = 'inner')  # 只有50 行  默认 outer

In [23]:
print('data shape:',sub_data1.shape)
print('data shape:',sub_data3.shape)
print('data shape:',result.shape)
result.head()

data shape: (100, 3)
data shape: (101, 3)
data shape: (50, 6)


Unnamed: 0,PassengerId,Sex,Fare,PassengerId.1,Sex.1,Fare.1
50,51,male,39.6875,51,male,39.6875
51,52,male,7.8,52,male,7.8
52,53,female,76.7292,53,female,76.7292
53,54,female,26.0,54,female,26.0
54,55,male,61.9792,55,male,61.9792


### Q061: 将多个数据表同时按照行或列方向进行连接 【拓展学习】

concat 的第一个参数是个列表，当有多个数据表需要拼接时 可以 [df1,df2,df3,df4] 进行

查看 `pd.concat??`文档，了解其他字段参数的使用方法。
如 `ignore_index`、`verify_integrity` 等

In [28]:
result = pd.concat([sub_data1,sub_data2,sub_data3,sub_data4],axis = 1) 
result.shape

(152, 13)

In [24]:
pd.concat??

##  二、Merge

merge 一次拼接连一个数据表，但是可以根据多个字段进行拼接

###  Q062: 将两个数据表根据某列进行左合并
将sub_data1 和 sub_data3 数据根据 PassengerId 进行 左 合并

#### 有同名列的情况
同名字段添加后缀left right。`suffixes`  默认_x _y

In [29]:
result = pd.merge(sub_data1,sub_data3,on = ['PassengerId'], how ='left')

In [30]:
print('data shape:',sub_data1.shape)
print('data shape:',sub_data3.shape)
print('data shape:',result.shape)
result.sample(5)

data shape: (100, 3)
data shape: (101, 3)
data shape: (100, 5)


Unnamed: 0,PassengerId,Sex_x,Fare_x,Sex_y,Fare_y
22,23,female,8.0292,,
14,15,female,7.8542,,
30,31,male,27.7208,,
52,53,female,76.7292,female,76.7292
10,11,female,16.7,,


### Q063: 将两个数据表根据某列进行合内并

将sub_data1和 sub_data4数据根据'PassengerId','Age' 进行 内部合并

In [33]:
result = pd.merge(sub_data1,sub_data3,on = ['PassengerId','Sex'], how ='inner' )

In [34]:
print('data shape:',sub_data1.shape)
print('data shape:',sub_data3.shape)
print('data shape:',result.shape)
result.head()

data shape: (100, 3)
data shape: (101, 3)
data shape: (50, 4)


Unnamed: 0,PassengerId,Sex,Fare_x,Fare_y
0,51,male,39.6875,39.6875
1,52,male,7.8,7.8
2,53,female,76.7292,76.7292
3,54,female,26.0,26.0
4,55,male,61.9792,61.9792


### Q064: 将两个数据表根据某列进行右合并

将sub_data1 和 sub_data4 数据根据 PassengerId 公共数据合并
只需将对应参数 `how='right'` 即可

In [31]:
result = pd.merge(sub_data1,sub_data3,on = ['PassengerId','Sex'], how ='right' )

In [32]:
result.shape

(101, 4)

### Q065: 根据列和索引对将两个数据表根据某列进行合并【 拓展学习】


注：对于合并的数据集，有一个键是索引时，可以选择将索引变为列再合并。但是更一般的做法是，通过参数一步实现。

In [39]:
result = pd.merge(sub_data1,sub_data4, 
                     left_on =['PassengerId'],right_index =  True, 
                     how ='inner', suffixes=('_left', '_right'))

In [40]:
print('data shape:',sub_data1.shape)
print('data shape:',sub_data4.shape)
print('data shape:',result.shape)

result.head()

data shape: (100, 3)
data shape: (101, 3)
data shape: (50, 6)


Unnamed: 0,PassengerId,Sex_left,Fare,Sex_right,SibSp,Pclass
50,51,male,39.6875,male,4,3
51,52,male,7.8,male,0,3
52,53,female,76.7292,female,1,1
53,54,female,26.0,female,1,2
54,55,male,61.9792,male,0,1


查看 `pd.merge??`文档，了解其他字段参数的使用方法。
如 `left_index`、`right_on` 等

In [38]:
pd.merge??

# 谢谢观看
Github 代码：https://github.com/kevin-meng/learn-data-analysis-the-hard-way

![](../pics/thankyou.png)
