# 数据整理—拼接与合并数据

In [1]:
import pandas as pd

## 一、拼接数据

### 1.对Dataframe进行纵向拼接

#### （1）列名相同的纵向拼接

In [2]:
df1 = pd.DataFrame({
    '商品名': ['iPhone 12', 'MacBook Air', 'iPad', 'Apple Watch Series 6'],
    '单价（元）': [6799, 8499, 3199, 2699],
    '颜色': ['蓝色', '金色', '灰色', '粉色'],
    '库存数量': [100, 50, 150, 80]
})


df2 = pd.DataFrame({
    '商品名': ['AirPods Pro', 'HomePod mini', 'Apple TV 4K', 'Beats Flex'],
    '单价（元）': [1599, 749, 1499, 399],
    '颜色': ['白色', '空间灰色', '黑色', '黄色'],
    '库存数量': [120, 80, 60, 200]
})

In [3]:
df1

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80


In [4]:
df2

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,AirPods Pro,1599,白色,120
1,HomePod mini,749,空间灰色,80
2,Apple TV 4K,1499,黑色,60
3,Beats Flex,399,黄色,200


In [7]:
#对两个dataframe进行拼接——concat函数（保留原索引）
pd.concat([df1, df2])

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80
0,AirPods Pro,1599,白色,120
1,HomePod mini,749,空间灰色,80
2,Apple TV 4K,1499,黑色,60
3,Beats Flex,399,黄色,200


In [8]:
#对两个dataframe进行拼接——concat函数（忽略索引）
pd.concat([df1, df2],ignore_index=True)

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80
4,AirPods Pro,1599,白色,120
5,HomePod mini,749,空间灰色,80
6,Apple TV 4K,1499,黑色,60
7,Beats Flex,399,黄色,200


补充：通过添加额外参数ignore_index=True，可以忽略原来两个dataframe的索引，重新建立索引。

#### （2）列名不一致的纵向拼接

In [9]:
df3 = pd.DataFrame({
    '商品名': ['iPhone 12', 'MacBook Air', 'iPad', 'Apple Watch Series 6'],
    '单价（元）': [6799, 8499, 3199, 2699],
    '颜色': ['蓝色', '金色', '灰色', '粉色'],
    '库存数量': [100, 50, 150, 80]
})


df4 = pd.DataFrame({
    '商品名': ['AirPods Pro', 'HomePod mini', 'Apple TV 4K', 'Beats Flex'],
    '单价': [1599, 749, 1499, 399],
    '颜色': ['白色', '空间灰色', '黑色', '黄色'],
    '库存数量': [120, 80, 60, 200]
})

In [10]:
df3

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80


In [11]:
df4

Unnamed: 0,商品名,单价,颜色,库存数量
0,AirPods Pro,1599,白色,120
1,HomePod mini,749,空间灰色,80
2,Apple TV 4K,1499,黑色,60
3,Beats Flex,399,黄色,200


In [22]:
#对dataframe进行纵向拼接
pd.concat([df3, df4],ignore_index=True)

Unnamed: 0,商品名,单价（元）,颜色,库存数量,单价
0,iPhone 12,6799.0,蓝色,100,
1,MacBook Air,8499.0,金色,50,
2,iPad,3199.0,灰色,150,
3,Apple Watch Series 6,2699.0,粉色,80,
4,AirPods Pro,,白色,120,1599.0
5,HomePod mini,,空间灰色,80,749.0
6,Apple TV 4K,,黑色,60,1499.0
7,Beats Flex,,黄色,200,399.0


注：此时并不会报错，dataframe会对全部列进行保留，然后匹配不上的地方用NaN进行填充。

### 2.对Dataframe进行横向拼接

In [14]:
df5 = pd.DataFrame({
    '商品名': ['iPhone 12', 'MacBook Air', 'iPad', 'Apple Watch Series 6'],
    '单价（元）': [6799, 8499, 3199, 2699]
})


df6 = pd.DataFrame({
    '颜色': ['蓝色', '金色', '灰色', '粉色'],
    '库存数量': [100, 50, 150, 80]
})

In [15]:
df5

Unnamed: 0,商品名,单价（元）
0,iPhone 12,6799
1,MacBook Air,8499
2,iPad,3199
3,Apple Watch Series 6,2699


In [16]:
df6

Unnamed: 0,颜色,库存数量
0,蓝色,100
1,金色,50
2,灰色,150
3,粉色,80


In [17]:
#对dataframe进行横向拼接——concat函数（设置axis参数为1）
pd.concat([df5, df6], axis=1)

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80


## 二、合并数据

### 1.根据某列合并数据

#### （1）根据一列合并数据

In [18]:
customer_df1 = pd.DataFrame({
    '客户ID': [1, 2, 3, 4],
    '姓名': ['Amy', 'Bill', 'Cathy', 'Dave'],
    '邮箱': ['amy@xxx.com', 'bill@xxx.com', 'cat@xxx.com', 'dave@xxx.com']
})

order_df1 = pd.DataFrame({
    '订单ID': [1, 2, 3, 4, 5],
    '客户ID': [1, 1, 2, 4, 4],
    '销售额': [100, 50, 75, 90, 120]
})

In [19]:
customer_df1

Unnamed: 0,客户ID,姓名,邮箱
0,1,Amy,amy@xxx.com
1,2,Bill,bill@xxx.com
2,3,Cathy,cat@xxx.com
3,4,Dave,dave@xxx.com


In [20]:
order_df1

Unnamed: 0,订单ID,客户ID,销售额
0,1,1,100
1,2,1,50
2,3,2,75
3,4,4,90
4,5,4,120


In [25]:
#通过“客户ID”这列对两个dataframe进行合并——merge函数
pd.merge(customer_df1, order_df1, on="客户ID")

Unnamed: 0,客户ID,姓名,邮箱,订单ID,销售额
0,1,Amy,amy@xxx.com,1,100
1,1,Amy,amy@xxx.com,2,50
2,2,Bill,bill@xxx.com,3,75
3,4,Dave,dave@xxx.com,4,90
4,4,Dave,dave@xxx.com,5,120


注1：此时只有on指定的列的值匹配的样本才能进行合并（因为默认的合并方式how=“inner”）。

注2：merge函数合并两个dataframe不需要用中括号括住两个需要合并的dataframe；

merge函数通过设置on参数来决定根据哪一列进行合并。

#### （2）根据多列合并数据

In [26]:
order_df2 = pd.DataFrame({
    '订单ID': ['A001', 'A002', 'A003', 'A004'],
    '订单日期': ['2000-01-01', '2000-01-02', '2000-01-02', '2000-01-03'],
    '客户ID': ['C001', 'C002', 'C001', 'C003'],
    '销售额': [100, 200, 150, 300]
})

customer_df2 = pd.DataFrame({
    '客户ID': ['C001', 'C002', 'C003'],
    '姓名': ['张三', '李四', '王五'],
    '手机号': ['13512345678', '13612345678', '13712345678'],
    '订单日期': ['2000-01-01', '2000-01-02', '2000-01-03']
})

In [27]:
order_df2

Unnamed: 0,订单ID,订单日期,客户ID,销售额
0,A001,2000-01-01,C001,100
1,A002,2000-01-02,C002,200
2,A003,2000-01-02,C001,150
3,A004,2000-01-03,C003,300


In [28]:
customer_df2

Unnamed: 0,客户ID,姓名,手机号,订单日期
0,C001,张三,13512345678,2000-01-01
1,C002,李四,13612345678,2000-01-02
2,C003,王五,13712345678,2000-01-03


In [29]:
#通过“客户ID”和“订单日期”对两个dataframe进行合并
pd.merge(customer_df2, order_df2, on=["客户ID", "订单日期"])

Unnamed: 0,客户ID,姓名,手机号,订单日期,订单ID,销售额
0,C001,张三,13512345678,2000-01-01,A001,100
1,C002,李四,13612345678,2000-01-02,A002,200
2,C003,王五,13712345678,2000-01-03,A004,300


注：此时要求两个dataframe多列的值同时匹配才能进行合并。

#### （3）列名不一致的多列合并数据

In [30]:
order_df3 = pd.DataFrame({
    '订单ID': ['A001', 'A002', 'A003', 'A004'],
    '订单日期': ['2000-01-01', '2000-01-02', '2000-01-02', '2000-01-03'],
    '客户编号': ['C001', 'C002', 'C001', 'C003'],
    '销售额': [100, 200, 150, 300]
})

customer_df3 = pd.DataFrame({
    '客户ID': ['C001', 'C002', 'C003'],
    '姓名': ['张三', '李四', '王五'],
    '手机号': ['13512345678', '13612345678', '13712345678'],
    '交易日期': ['2000-01-01', '2000-01-02', '2000-01-03']
})

In [31]:
order_df3

Unnamed: 0,订单ID,订单日期,客户编号,销售额
0,A001,2000-01-01,C001,100
1,A002,2000-01-02,C002,200
2,A003,2000-01-02,C001,150
3,A004,2000-01-03,C003,300


In [32]:
customer_df3

Unnamed: 0,客户ID,姓名,手机号,交易日期
0,C001,张三,13512345678,2000-01-01
1,C002,李四,13612345678,2000-01-02
2,C003,王五,13712345678,2000-01-03


In [57]:
#根据order_df3中的“订单日期”和customer_df3中的“交易日期”进行合并
pd.merge(order_df3, customer_df3, left_on=["订单日期"], right_on=["交易日期"])

Unnamed: 0,订单ID,订单日期,客户编号,销售额,客户ID,姓名,手机号,交易日期
0,A001,2000-01-01,C001,100,C001,张三,13512345678,2000-01-01
1,A002,2000-01-02,C002,200,C002,李四,13612345678,2000-01-02
2,A003,2000-01-02,C001,150,C002,李四,13612345678,2000-01-02
3,A004,2000-01-03,C003,300,C003,王五,13712345678,2000-01-03


In [56]:
#根据order_df3中的“客户编号、订单日期”和customer_df3中的“客户ID、交易日期”进行合并
pd.merge(order_df3, customer_df3, left_on=["客户编号", "订单日期"], right_on=["客户ID", "交易日期"])

Unnamed: 0,订单ID,订单日期,客户编号,销售额,客户ID,姓名,手机号,交易日期
0,A001,2000-01-01,C001,100,C001,张三,13512345678,2000-01-01
1,A002,2000-01-02,C002,200,C002,李四,13612345678,2000-01-02
2,A004,2000-01-03,C003,300,C003,王五,13712345678,2000-01-03


补充：通过设置两个dataframe中的参数left_on[list1, list2]和right_on[list3, list4]来进行合并。

注意：left_on与right_on必须和dataframe1与dataframe2进行匹配。

### 2.存在值不一致的合并

#### （1）对存在值不一致的dataframe进行合并

In [39]:
df7 = pd.DataFrame({'日期': ['2000-01-01', '2000-01-02', '2000-01-03'],
                    '店铺': ['A', 'B', 'C'],
                    '销售额': [100, 200, 300]})
df8 = pd.DataFrame({'日期': ['2000-01-02', '2000-01-03', '2000-01-04'],
                    '店铺': ['B', 'C', 'D'],
                    '销售额': [400, 500, 600]})

In [40]:
df7

Unnamed: 0,日期,店铺,销售额
0,2000-01-01,A,100
1,2000-01-02,B,200
2,2000-01-03,C,300


In [41]:
df8

Unnamed: 0,日期,店铺,销售额
0,2000-01-02,B,400
1,2000-01-03,C,500
2,2000-01-04,D,600


In [42]:
# 根据“日期”和“店铺”合并df7和df8
pd.merge(df7, df8, on=['日期', '店铺'])

Unnamed: 0,日期,店铺,销售额_x,销售额_y
0,2000-01-02,B,200,400
1,2000-01-03,C,300,500


注：对于值不一致数据的合并，合并后会把所有的值都保存下来，并重新命名两列。

In [43]:
# 根据“日期”和“店铺”合并df7和df8，让df7的销售额列后缀为'_df7'，df8的销售额列后缀为'_df8'
pd.merge(df7, df8, on=['日期', '店铺'], suffixes=['_df7', '_df8'])

Unnamed: 0,日期,店铺,销售额_df7,销售额_df8
0,2000-01-02,B,200,400
1,2000-01-03,C,300,500


注：设置参数suffixes=[“list1”, “list2”]可以对两个dataframe中不同值的列进行命名。

### 3.四种合并类型

merge有四种合并类型（默认how="inner"）：
- inner：只保留两个dataframe中都有匹配的值；
- outer：保留两个dataframe中所有的值，匹配不上的用NaN值填充；
- left：会保留左边dataframe中所有的值，采用右边dataframe的值进行匹配；
- right：会保留右边dataframe中所有的值，采用左边dataframe的值进行匹配；

In [46]:
#对两个dataframe中匹配的值进行合并——inner
pd.merge(df7, df8, on="店铺", how="inner")

Unnamed: 0,日期_x,店铺,销售额_x,日期_y,销售额_y
0,2000-01-02,B,200,2000-01-02,400
1,2000-01-03,C,300,2000-01-03,500


In [47]:
#对两个dataframe中所有值进行合并——outer
pd.merge(df7, df8, on="店铺", how="outer")

Unnamed: 0,日期_x,店铺,销售额_x,日期_y,销售额_y
0,2000-01-01,A,100.0,,
1,2000-01-02,B,200.0,2000-01-02,400.0
2,2000-01-03,C,300.0,2000-01-03,500.0
3,,D,,2000-01-04,600.0


In [48]:
#以df7为基准，对df8中的值进行合并——left
pd.merge(df7, df8, on="店铺", how="left")

Unnamed: 0,日期_x,店铺,销售额_x,日期_y,销售额_y
0,2000-01-01,A,100,,
1,2000-01-02,B,200,2000-01-02,400.0
2,2000-01-03,C,300,2000-01-03,500.0


In [49]:
#以df8为基准，对df7中的值进行合并——right
pd.merge(df7, df8, on="店铺", how="right")

Unnamed: 0,日期_x,店铺,销售额_x,日期_y,销售额_y
0,2000-01-02,B,200.0,2000-01-02,400
1,2000-01-03,C,300.0,2000-01-03,500
2,,D,,2000-01-04,600


### 4.根据索引合并Dataframe

In [52]:
customers_data = {
    '客户ID': [1, 2, 3, 4, 5],
    '姓名': ['Tom', 'Bob', 'Mary', 'Alice', 'John'],
    '年龄': [20, 35, 27, 19, 42]
}
customer_df4 = pd.DataFrame(customers_data)


orders_data = {
    '订单ID': [1001, 1002, 1003, 1004, 1005, 1006],
    '订单日期': ['2000-03-12', '2000-03-13', '2000-03-13', '2000-03-15', '2000-03-18', '2000-03-21'],
    '客户ID': [1, 1, 2, 6, 5, 3],
    '产品': ['A', 'B', 'C', 'D', 'E', 'F'],
    '数量': [2, 3, 1, 4, 5, 2]
}
order_df4 = pd.DataFrame(orders_data)

In [53]:
customer_df4

Unnamed: 0,客户ID,姓名,年龄
0,1,Tom,20
1,2,Bob,35
2,3,Mary,27
3,4,Alice,19
4,5,John,42


In [54]:
order_df4

Unnamed: 0,订单ID,订单日期,客户ID,产品,数量
0,1001,2000-03-12,1,A,2
1,1002,2000-03-13,1,B,3
2,1003,2000-03-13,2,C,1
3,1004,2000-03-15,6,D,4
4,1005,2000-03-18,5,E,5
5,1006,2000-03-21,3,F,2


In [59]:
#通过索引合并dataframe——join方法
#根据索引合并customer_df4和order_df4，列后缀分别为"_customer"和"_order"
customer_df4.join(order_df4, how='inner', lsuffix="_customer", rsuffix='_order')

Unnamed: 0,客户ID_customer,姓名,年龄,订单ID,订单日期,客户ID_order,产品,数量
0,1,Tom,20,1001,2000-03-12,1,A,2
1,2,Bob,35,1002,2000-03-13,1,B,3
2,3,Mary,27,1003,2000-03-13,2,C,1
3,4,Alice,19,1004,2000-03-15,6,D,4
4,5,John,42,1005,2000-03-18,5,E,5


注：可以通过lsuffix和rsuffix来给两个dataframe中不同值的列进行命名。