# **5.34_merge_data**

在数据清洗干净后，很多时候，我们可以直接开始可视化或分析了，但也有些时候，我们还需要一些额外步骤。

比如：当我们从多个数据源获取相关数据，或者数据集本身包括了多个表格，那就可能涉及一些数据连接或合并等操作。

In [1]:
import pandas as pd

### 一、对DataFrame进行拼接

其中，最简单的操作，就是把两个DataFrame，纵向或横向连接到一起。

#### (一)、对DataFrame进行纵向拼接

1. 可以用Pandas的concat函数，给concat函数传入一个列表，列表里面放上想要拼接的DataFrame，会返回一个前面两个DataFrame纵相拼接后的新DataFrame

2. 索引
  
   **concat函数，默认保留DataFrame索引，包括位置索引。**

   **但位置索引没有啥意义，且拼接后索引会乱掉**

   **可以指定可选参数ignore_index=True，这样拼接时就会对原本DataFrame索引进行忽略，返回的新结果里，索引就是从0开始排序的位置索引**

In [2]:
df1 = pd.DataFrame({
    '商品名': ['iPhone 12', 'MacBook Air', 'iPad', 'Apple Watch Series 6'],
    '单价（元）': [6799, 8499, 3199, 2699],
    '颜色': ['蓝色', '金色', '灰色', '粉色'],
    '库存数量': [100, 50, 150, 80]
})


df2 = pd.DataFrame({
    '商品名': ['AirPods Pro', 'HomePod mini', 'Apple TV 4K', 'Beats Flex'],
    '单价（元）': [1599, 749, 1499, 399],
    '颜色': ['白色', '空间灰色', '黑色', '黄色'],
    '库存数量': [120, 80, 60, 200]
})

In [3]:
df1

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80


In [4]:
df2

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,AirPods Pro,1599,白色,120
1,HomePod mini,749,空间灰色,80
2,Apple TV 4K,1499,黑色,60
3,Beats Flex,399,黄色,200


In [5]:
pd.concat([df1, df2])

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80
0,AirPods Pro,1599,白色,120
1,HomePod mini,749,空间灰色,80
2,Apple TV 4K,1499,黑色,60
3,Beats Flex,399,黄色,200


In [6]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80
4,AirPods Pro,1599,白色,120
5,HomePod mini,749,空间灰色,80
6,Apple TV 4K,1499,黑色,60
7,Beats Flex,399,黄色,200


3. 列名

   **当参与拼接的两个DataFrame，存在列名不同时，并不会产生报错，此时DataFrame的所有列都会被进行保留，匹配不上的地方，就会自动用NaN值进行填充**

In [7]:
df3 = pd.DataFrame({
    '商品名': ['iPhone 12', 'MacBook Air', 'iPad', 'Apple Watch Series 6'],
    '单价（元）': [6799, 8499, 3199, 2699],
    '颜色': ['蓝色', '金色', '灰色', '粉色'],
    '库存数量': [100, 50, 150, 80]
})


df4 = pd.DataFrame({
    '商品名': ['AirPods Pro', 'HomePod mini', 'Apple TV 4K', 'Beats Flex'],
    '单价': [1599, 749, 1499, 399],
    '颜色': ['白色', '空间灰色', '黑色', '黄色'],
    '库存数量': [120, 80, 60, 200]
})

In [8]:
df3

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80


In [9]:
df4

Unnamed: 0,商品名,单价,颜色,库存数量
0,AirPods Pro,1599,白色,120
1,HomePod mini,749,空间灰色,80
2,Apple TV 4K,1499,黑色,60
3,Beats Flex,399,黄色,200


In [11]:
pd.concat([df3, df4], ignore_index=True)

Unnamed: 0,商品名,单价（元）,颜色,库存数量,单价
0,iPhone 12,6799.0,蓝色,100,
1,MacBook Air,8499.0,金色,50,
2,iPad,3199.0,灰色,150,
3,Apple Watch Series 6,2699.0,粉色,80,
4,AirPods Pro,,白色,120,1599.0
5,HomePod mini,,空间灰色,80,749.0
6,Apple TV 4K,,黑色,60,1499.0
7,Beats Flex,,黄色,200,399.0


#### (二)、对DataFrame进行横向拼接

仍然可以用concat函数，额外传入可选参数axis=1。因为此时是沿着列名横向操作，因此拼接的时候就是横向进行拼接。

In [12]:
df5 = pd.DataFrame({
    '商品名': ['iPhone 12', 'MacBook Air', 'iPad', 'Apple Watch Series 6'],
    '单价（元）': [6799, 8499, 3199, 2699]
})


df6 = pd.DataFrame({
    '颜色': ['蓝色', '金色', '灰色', '粉色'],
    '库存数量': [100, 50, 150, 80]
})

In [13]:
df5

Unnamed: 0,商品名,单价（元）
0,iPhone 12,6799
1,MacBook Air,8499
2,iPad,3199
3,Apple Watch Series 6,2699


In [14]:
df6

Unnamed: 0,颜色,库存数量
0,蓝色,100
1,金色,50
2,灰色,150
3,粉色,80


In [15]:
pd.concat([df5, df6], axis=1)

Unnamed: 0,商品名,单价（元）,颜色,库存数量
0,iPhone 12,6799,蓝色,100
1,MacBook Air,8499,金色,50
2,iPad,3199,灰色,150
3,Apple Watch Series 6,2699,粉色,80


## 对DataFrame进行合并

### 二、根据某列的值合并DataFrame

拼接相当于把两坨数据，简单粗暴地拼到一起；而合并是基于某些列的匹配连接。

#### (一)、一般情况

pd.merge(df1, df2, on='列名')

用Pandas的merge函数，传入要合并的DataFrame作为参数，可选参数on，来指定我们根据哪列的值匹配来进行合并

**给on传入的列名，要同时出现在要合并的两个DataFrame里面**

In [16]:
customer_df = pd.DataFrame({
    '客户ID': [1, 2, 3, 4],
    '姓名': ['Amy', 'Bill', 'Cathy', 'Dave'],
    '邮箱': ['amy@xxx.com', 'bill@xxx.com', 'cat@xxx.com', 'dave@xxx.com']
})

order_df = pd.DataFrame({
    '订单ID': [1, 2, 3, 4, 5],
    '客户ID': [1, 1, 2, 4, 4],
    '销售额': [100, 50, 75, 90, 120]
})

In [17]:
customer_df

Unnamed: 0,客户ID,姓名,邮箱
0,1,Amy,amy@xxx.com
1,2,Bill,bill@xxx.com
2,3,Cathy,cat@xxx.com
3,4,Dave,dave@xxx.com


In [18]:
order_df

Unnamed: 0,订单ID,客户ID,销售额
0,1,1,100
1,2,1,50
2,3,2,75
3,4,4,90
4,5,4,120


In [19]:
pd.merge(customer_df, order_df, on='客户ID')

Unnamed: 0,客户ID,姓名,邮箱,订单ID,销售额
0,1,Amy,amy@xxx.com,1,100
1,1,Amy,amy@xxx.com,2,50
2,2,Bill,bill@xxx.com,3,75
3,4,Dave,dave@xxx.com,4,90
4,4,Dave,dave@xxx.com,5,120


如上例子，我们只有把顾客信息和订单信息分开在两个表里面，相同信息才不会多次重复出现。

假设我们只有一个表，里面又有订单数据又有客户信息的话。如果客户1下单了50次，那她的姓名和邮箱，就会在这个表里面重复50次；特别是，如果当客户1更改邮箱，那所有出现了她邮箱信息的行，都得去进行更新；但是如果我们把订单数据和客户信息放在两个表中，我们就只需要更新客户信息表中的一行。

由上可知，把不同的信息分开在不同表中，实际上是一个最佳实践。

**因此，在数据分析中，经常需要对DataFrame进行合并。**

#### (二)、根据多列的值匹配来进行合并

`on=['列名1', '列名2'...]`

在合并的时候根据多列的值，要求它们得同时匹配

In [20]:
order_df2 = pd.DataFrame({
    '订单ID': ['A001', 'A002', 'A003', 'A004'],
    '订单日期': ['2000-01-01', '2000-01-02', '2000-01-02', '2000-01-03'],
    '客户ID': ['C001', 'C002', 'C001', 'C003'],
    '销售额': [100, 200, 150, 300]
})

customer_df2 = pd.DataFrame({
    '客户ID': ['C001', 'C002', 'C003'],
    '姓名': ['张三', '李四', '王五'],
    '手机号': ['13512345678', '13612345678', '13712345678'],
    '订单日期': ['2000-01-01', '2000-01-02', '2000-01-03']
})

In [21]:
order_df2

Unnamed: 0,订单ID,订单日期,客户ID,销售额
0,A001,2000-01-01,C001,100
1,A002,2000-01-02,C002,200
2,A003,2000-01-02,C001,150
3,A004,2000-01-03,C003,300


In [22]:
customer_df2

Unnamed: 0,客户ID,姓名,手机号,订单日期
0,C001,张三,13512345678,2000-01-01
1,C002,李四,13612345678,2000-01-02
2,C003,王五,13712345678,2000-01-03


In [24]:
pd.merge(order_df2, customer_df2, on=['客户ID', '订单日期'])

Unnamed: 0,订单ID,订单日期,客户ID,销售额,姓名,手机号
0,A001,2000-01-01,C001,100,张三,13512345678
1,A002,2000-01-02,C002,200,李四,13612345678
2,A004,2000-01-03,C003,300,王五,13712345678


#### (三)、当某个变量，虽然在两个DataFrame里面出现，但是列名并不统一

1. 对任一DataFrame列名，进行重命名

2. 把可选参数`on`,替换成`left_on`和`right_on`，给`left_on`传入的是左边DataFrame用于合并的列名，给`right_on`传入的是右边DataFrame用于合并的列名

   **合并后，原来的两个DataFrame的列都会保留，用于匹配的列的值一致**

In [25]:
order_df3 = pd.DataFrame({
    '订单ID': ['A001', 'A002', 'A003', 'A004'],
    '订单日期': ['2000-01-01', '2000-01-02', '2000-01-02', '2000-01-03'],
    '客户编号': ['C001', 'C002', 'C001', 'C003'],
    '销售额': [100, 200, 150, 300]
})

customer_df3 = pd.DataFrame({
    '客户ID': ['C001', 'C002', 'C003'],
    '姓名': ['张三', '李四', '王五'],
    '手机号': ['13512345678', '13612345678', '13712345678'],
    '交易日期': ['2000-01-01', '2000-01-02', '2000-01-03']
})

In [26]:
order_df3

Unnamed: 0,订单ID,订单日期,客户编号,销售额
0,A001,2000-01-01,C001,100
1,A002,2000-01-02,C002,200
2,A003,2000-01-02,C001,150
3,A004,2000-01-03,C003,300


In [27]:
customer_df3

Unnamed: 0,客户ID,姓名,手机号,交易日期
0,C001,张三,13512345678,2000-01-01
1,C002,李四,13612345678,2000-01-02
2,C003,王五,13712345678,2000-01-03


In [28]:
pd.merge(order_df3, customer_df3, left_on=['客户编号', '订单日期'], right_on=['客户ID', '交易日期'])

Unnamed: 0,订单ID,订单日期,客户编号,销售额,客户ID,姓名,手机号,交易日期
0,A001,2000-01-01,C001,100,C001,张三,13512345678,2000-01-01
1,A002,2000-01-02,C002,200,C002,李四,13612345678,2000-01-02
2,A004,2000-01-03,C003,300,C003,王五,13712345678,2000-01-03


#### (四)、除了用于匹配的列，两张表还有其它的重名列

不会报错

合并后，为了区分某个重名的列到底来自哪个表，merge函数会自动为列名的结尾加上后缀，'_x'表示来自第一个表，'_y'表示来自第二个表

1. 自定义后缀

   传入可选参数`suffixes=['第一个表的重名列的后缀', '第二个表的重名列的后缀']`

In [30]:
df7 = pd.DataFrame({'日期': ['2000-01-01', '2000-01-02', '2000-01-03'],
                    '店铺': ['A', 'B', 'C'],
                    '销售额': [100, 200, 300]})
df8 = pd.DataFrame({'日期': ['2000-01-02', '2000-01-03', '2000-01-04'],
                    '店铺': ['B', 'C', 'D'],
                    '销售额': [400, 500, 600]})

In [31]:
df7

Unnamed: 0,日期,店铺,销售额
0,2000-01-01,A,100
1,2000-01-02,B,200
2,2000-01-03,C,300


In [32]:
df8

Unnamed: 0,日期,店铺,销售额
0,2000-01-02,B,400
1,2000-01-03,C,500
2,2000-01-04,D,600


In [33]:
pd.merge(df7, df8, on=['日期', '店铺'])

Unnamed: 0,日期,店铺,销售额_x,销售额_y
0,2000-01-02,B,200,400
1,2000-01-03,C,300,500


In [34]:
pd.merge(df7, df8, on=['日期', '店铺'], suffixes=['_df7', '_df8'])

Unnamed: 0,日期,店铺,销售额_df7,销售额_df8
0,2000-01-02,B,200,400
1,2000-01-03,C,300,500


#### (五)、合并类型

1. 合并类型包括：inner、outer、left、right

inner表示合并结果里，只保留左右表都有匹配的值；

outer表示合并结果里，保留左右表的所有值，如果有匹配不上的，用NaN值填充，因此最终结果里所有行都出现了；

left表示合并结果里，会保留左边表的所有值，然后右边表根据左边的值去匹配，如果有匹配不上的用NaN值填充，因此最终结果里左边表的行都会在；

right表示合并结果里，会保留右边表的所有值，然后左边表根据右边的值去匹配，如果有匹配不上的用NaN值填充，因此最终结果里右边表的行都会在

2. 可以给merge函数传入可选参数`how='合并类型'`，用来指定合并类型，默认合并类型是inner

In [35]:
customers_data = {
    '客户ID': [1, 2, 3, 4, 5],
    '姓名': ['Tom', 'Bob', 'Mary', 'Alice', 'John'],
    '年龄': [20, 35, 27, 19, 42]
}
customer_df4 = pd.DataFrame(customers_data)


orders_data = {
    '订单ID': [1001, 1002, 1003, 1004, 1005, 1006],
    '订单日期': ['2000-03-12', '2000-03-13', '2000-03-13', '2000-03-15', '2000-03-18', '2000-03-21'],
    '客户ID': [1, 1, 2, 6, 5, 3],
    '产品': ['A', 'B', 'C', 'D', 'E', 'F'],
    '数量': [2, 3, 1, 4, 5, 2]
}
order_df4 = pd.DataFrame(orders_data)

In [36]:
customer_df4

Unnamed: 0,客户ID,姓名,年龄
0,1,Tom,20
1,2,Bob,35
2,3,Mary,27
3,4,Alice,19
4,5,John,42


In [37]:
order_df4

Unnamed: 0,订单ID,订单日期,客户ID,产品,数量
0,1001,2000-03-12,1,A,2
1,1002,2000-03-13,1,B,3
2,1003,2000-03-13,2,C,1
3,1004,2000-03-15,6,D,4
4,1005,2000-03-18,5,E,5
5,1006,2000-03-21,3,F,2


In [38]:
pd.merge(customer_df4, order_df4, on='客户ID', how='inner')

Unnamed: 0,客户ID,姓名,年龄,订单ID,订单日期,产品,数量
0,1,Tom,20,1001,2000-03-12,A,2
1,1,Tom,20,1002,2000-03-13,B,3
2,2,Bob,35,1003,2000-03-13,C,1
3,3,Mary,27,1006,2000-03-21,F,2
4,5,John,42,1005,2000-03-18,E,5


In [39]:
pd.merge(customer_df4, order_df4, on='客户ID', how='outer')

Unnamed: 0,客户ID,姓名,年龄,订单ID,订单日期,产品,数量
0,1,Tom,20.0,1001.0,2000-03-12,A,2.0
1,1,Tom,20.0,1002.0,2000-03-13,B,3.0
2,2,Bob,35.0,1003.0,2000-03-13,C,1.0
3,3,Mary,27.0,1006.0,2000-03-21,F,2.0
4,4,Alice,19.0,,,,
5,5,John,42.0,1005.0,2000-03-18,E,5.0
6,6,,,1004.0,2000-03-15,D,4.0


In [40]:
pd.merge(customer_df4, order_df4, on='客户ID', how='left')

Unnamed: 0,客户ID,姓名,年龄,订单ID,订单日期,产品,数量
0,1,Tom,20,1001.0,2000-03-12,A,2.0
1,1,Tom,20,1002.0,2000-03-13,B,3.0
2,2,Bob,35,1003.0,2000-03-13,C,1.0
3,3,Mary,27,1006.0,2000-03-21,F,2.0
4,4,Alice,19,,,,
5,5,John,42,1005.0,2000-03-18,E,5.0


In [41]:
pd.merge(customer_df4, order_df4, on='客户ID', how='right')

Unnamed: 0,客户ID,姓名,年龄,订单ID,订单日期,产品,数量
0,1,Tom,20.0,1001,2000-03-12,A,2
1,1,Tom,20.0,1002,2000-03-13,B,3
2,2,Bob,35.0,1003,2000-03-13,C,1
3,6,,,1004,2000-03-15,D,4
4,5,John,42.0,1005,2000-03-18,E,5
5,3,Mary,27.0,1006,2000-03-21,F,2


### 三、根据索引合并DataFrame

join方法

join方法是根据索引去合并DataFrame，会保留两个DataFrame的所有的列

**假如有重名列，会报错，需要传入可选参数`lsuffix='左边DataFrame重名列的后缀'`和`rsuffix='右边DataFrame重名列的后缀'`**

**join是方法，不是函数，所以我们是要用某个DataFrame去调用**

**join方法也可以传入可选参数`how`，来指定去进行哪个类型的合并**

In [42]:
customer_df4

Unnamed: 0,客户ID,姓名,年龄
0,1,Tom,20
1,2,Bob,35
2,3,Mary,27
3,4,Alice,19
4,5,John,42


In [43]:
order_df4

Unnamed: 0,订单ID,订单日期,客户ID,产品,数量
0,1001,2000-03-12,1,A,2
1,1002,2000-03-13,1,B,3
2,1003,2000-03-13,2,C,1
3,1004,2000-03-15,6,D,4
4,1005,2000-03-18,5,E,5
5,1006,2000-03-21,3,F,2


In [44]:
customer_df4.join(order_df4, lsuffix='_customer', rsuffix='_order')

Unnamed: 0,客户ID_customer,姓名,年龄,订单ID,订单日期,客户ID_order,产品,数量
0,1,Tom,20,1001,2000-03-12,1,A,2
1,2,Bob,35,1002,2000-03-13,1,B,3
2,3,Mary,27,1003,2000-03-13,2,C,1
3,4,Alice,19,1004,2000-03-15,6,D,4
4,5,John,42,1005,2000-03-18,5,E,5


随着数据表的数量增加，和分析数据的复杂度的增加，可能会越来越多的用merge做合并数据的操作