# 合并Python数据结构

在某些情况下，合并数据集可能知识将一个数据集添加到另一个数据集的末尾。

In [40]:
orders_2022_02_04 = [
    (9423517, '2022-02-04', 9001),
    (4626232, '2022-02-04', 9003),
    (9423534, '2022-02-04', 9001),
]

orders_2022_02_05 = [
    (9423679, '2022-02-05', 9002),
    (4626377, '2022-02-05', 9003),
    (4626412, '2022-02-05', 9004)
]

order_2022_02_06 = [
    (9423783, '2022-02-06', 9002),
    (4626490, '2022-02-06', 9004)
]

我们可以使用 + 号将两者联合在一起：

In [41]:
orders_total = orders_2022_02_04 + orders_2022_02_05 + order_2022_02_06

In [42]:
orders_total

[(9423517, '2022-02-04', 9001),
 (4626232, '2022-02-04', 9003),
 (9423534, '2022-02-04', 9001),
 (9423679, '2022-02-05', 9002),
 (4626377, '2022-02-05', 9003),
 (4626412, '2022-02-05', 9004),
 (9423783, '2022-02-06', 9002),
 (4626490, '2022-02-06', 9004)]

如果使用 + 号来合并字典，则会发生报错：

In [43]:
dict_01 = {'key_01':'value_01', 'key_02':'value_02'}
dict_02 = {'key_03':'value_03', 'key_04':'value_04'}

In [44]:
try:
    dict_01 + dict_02
except TypeError as te:
    print("字典不能够使用+号来进行合并，会发生报错：{}".format(te))

字典不能够使用+号来进行合并，会发生报错：unsupported operand type(s) for +: 'dict' and 'dict'


字典的合并需要使用 "**"：

In [45]:
dict_combine = {**dict_01, **dict_02}

In [46]:
dict_combine

{'key_01': 'value_01',
 'key_02': 'value_02',
 'key_03': 'value_03',
 'key_04': 'value_04'}

用户常常需要将共享同意列表的一个或者多个数据结构链接为一个结构：

In [47]:
details = [
    (9423517, 'Jeans', 'Rip Curl', 87.0, 1),
    (9423517, 'Jacknet', 'The North Face', 112.0, 1),
    (4626232, 'Socks', 'Vans', 15.0, 1),
    (4626232, 'Jeans', 'Quiksilver', 82.0, 1),
    (9423534, 'Socks', 'Dc', 10.0, 2),
    (9423534, 'Socks', 'Quiksilver', 12.0, 2),
    (9423679, 'T-shirt', 'Patagonia', 35.0, 1),
    (4626377, 'Hoody', 'Animal', 44.0, 1),
    (4626377, 'Cargo Shorts','Animal', 38.0, 1),
    (4626412, 'Shirt', 'Volcom', 78.0, 1),
    (9423783, 'Boxer Shorts', 'Superdry', 30.0, 2),
    (9423783, 'Shorts', 'Globe', 26.0, 1),
    (4626490, 'Cargo Shorts', 'Billabong', 54.0, 1),
    (4626490, 'Sweater', 'Dickies', 56.0, 1)
]

两个列表都包含元组，元组的第一个元素是订单号。

我们需要找到具有匹配订单号的元组，将它们合并为单个元组，并将所有元组存储在列表中：

In [48]:
orders_details = []
for o in orders_total:
    for d in details:
        if d[0] == o[0]:
            orders_details.append(o + d[1:])

In [49]:
orders_details

[(9423517, '2022-02-04', 9001, 'Jeans', 'Rip Curl', 87.0, 1),
 (9423517, '2022-02-04', 9001, 'Jacknet', 'The North Face', 112.0, 1),
 (4626232, '2022-02-04', 9003, 'Socks', 'Vans', 15.0, 1),
 (4626232, '2022-02-04', 9003, 'Jeans', 'Quiksilver', 82.0, 1),
 (9423534, '2022-02-04', 9001, 'Socks', 'Dc', 10.0, 2),
 (9423534, '2022-02-04', 9001, 'Socks', 'Quiksilver', 12.0, 2),
 (9423679, '2022-02-05', 9002, 'T-shirt', 'Patagonia', 35.0, 1),
 (4626377, '2022-02-05', 9003, 'Hoody', 'Animal', 44.0, 1),
 (4626377, '2022-02-05', 9003, 'Cargo Shorts', 'Animal', 38.0, 1),
 (4626412, '2022-02-05', 9004, 'Shirt', 'Volcom', 78.0, 1),
 (9423783, '2022-02-06', 9002, 'Boxer Shorts', 'Superdry', 30.0, 2),
 (9423783, '2022-02-06', 9002, 'Shorts', 'Globe', 26.0, 1),
 (4626490, '2022-02-06', 9004, 'Cargo Shorts', 'Billabong', 54.0, 1),
 (4626490, '2022-02-06', 9004, 'Sweater', 'Dickies', 56.0, 1)]

使用推导式：

In [50]:
orders_details = [[o for o in orders_total if d[0] == o[0]][0] + d[1:] for d in details]

In [51]:
orders_details

[(9423517, '2022-02-04', 9001, 'Jeans', 'Rip Curl', 87.0, 1),
 (9423517, '2022-02-04', 9001, 'Jacknet', 'The North Face', 112.0, 1),
 (4626232, '2022-02-04', 9003, 'Socks', 'Vans', 15.0, 1),
 (4626232, '2022-02-04', 9003, 'Jeans', 'Quiksilver', 82.0, 1),
 (9423534, '2022-02-04', 9001, 'Socks', 'Dc', 10.0, 2),
 (9423534, '2022-02-04', 9001, 'Socks', 'Quiksilver', 12.0, 2),
 (9423679, '2022-02-05', 9002, 'T-shirt', 'Patagonia', 35.0, 1),
 (4626377, '2022-02-05', 9003, 'Hoody', 'Animal', 44.0, 1),
 (4626377, '2022-02-05', 9003, 'Cargo Shorts', 'Animal', 38.0, 1),
 (4626412, '2022-02-05', 9004, 'Shirt', 'Volcom', 78.0, 1),
 (9423783, '2022-02-06', 9002, 'Boxer Shorts', 'Superdry', 30.0, 2),
 (9423783, '2022-02-06', 9002, 'Shorts', 'Globe', 26.0, 1),
 (4626490, '2022-02-06', 9004, 'Cargo Shorts', 'Billabong', 54.0, 1),
 (4626490, '2022-02-06', 9004, 'Sweater', 'Dickies', 56.0, 1)]

这个列表包含了所有details列表的所有元组，每个元组还包含了orders列表所对应的元组的其他信息。

# 合并NumPy数组

numpy数组不能够使用 + 来进行合并，因为NumPy保留了运算符 + 来对多个数组上执行元素相加的操作，如果要进行合并，则需要使用 numpy.concatenate() 函数。

In [52]:
import numpy as np
jeff_salary = [2700, 3000, 3000]
nick_salary = [2600, 2800, 2800]
tom_salary = [2300, 2500, 2500]

base_salary_1 = np.array([jeff_salary, nick_salary, tom_salary])

In [53]:
base_salary_1

array([[2700, 3000, 3000],
       [2600, 2800, 2800],
       [2300, 2500, 2500]])

In [54]:
base_salary_1[0]

array([2700, 3000, 3000])

新的numpy数组：

In [55]:
maya_salary = [2200, 2400, 2400]
john_salary = [2500, 2700, 2700]
base_salary_2 = np.array([maya_salary, john_salary])

In [56]:
base_salary_2

array([[2200, 2400, 2400],
       [2500, 2700, 2700]])

接着开始进行合并：

In [57]:
base_salary = np.concatenate((base_salary_1, base_salary_2), axis = 0)
base_salary

array([[2700, 3000, 3000],
       [2600, 2800, 2800],
       [2300, 2500, 2500],
       [2200, 2400, 2400],
       [2500, 2700, 2700]])

假设已经收到了下一个月的工资，我们可以将工资存储到另一个NumPy数组中：

In [58]:
new_month_salary = np.array([[3000], [2900], [2500], [2500], [2700]])
new_month_salary

array([[3000],
       [2900],
       [2500],
       [2500],
       [2700]])

In [59]:
base_salary = np.concatenate((base_salary, new_month_salary), axis = 1)
base_salary

array([[2700, 3000, 3000, 3000],
       [2600, 2800, 2800, 2900],
       [2300, 2500, 2500, 2500],
       [2200, 2400, 2400, 2500],
       [2500, 2700, 2700, 2700]])

# 合并pandas数据结构

首先创建数据框：

In [60]:
import pandas as pd
salary_df_1 = pd.DataFrame(
    {'jeff' : jeff_salary,
    'nick' : nick_salary,
    'tom' : tom_salary}
)

In [61]:
salary_df_1

Unnamed: 0,jeff,nick,tom
0,2700,2600,2300
1,3000,2800,2500
2,3000,2800,2500


使用月份作为索引应该更加的有意义：

In [62]:
salary_df_1.index = ['June', 'July', 'August']
salary_df_1

Unnamed: 0,jeff,nick,tom
June,2700,2600,2300
July,3000,2800,2500
August,3000,2800,2500


进行转置：

In [63]:
salary_df_1 = salary_df_1.T
salary_df_1

Unnamed: 0,June,July,August
jeff,2700,3000,3000
nick,2600,2800,2800
tom,2300,2500,2500


接着创建一个有着相同列的数据框：

In [64]:
salary_df_2 = pd.DataFrame(
    {'maya': maya_salary,
    'john': john_salary
    },
    index = ['June', 'July', 'August']
).T

salary_df_2

Unnamed: 0,June,July,August
maya,2200,2400,2400
john,2500,2700,2700


In [65]:
# 开始进行合并
salary_df = pd.concat([salary_df_1, salary_df_2])

In [66]:
salary_df

Unnamed: 0,June,July,August
jeff,2700,3000,3000
nick,2600,2800,2800
tom,2300,2500,2500
maya,2200,2400,2400
john,2500,2700,2700


In [67]:
salary_df_axis_1 = pd.concat([salary_df_1.T, salary_df_2.T], axis = 1)
salary_df_axis_1

Unnamed: 0,jeff,nick,tom,maya,john
June,2700,2600,2300,2200,2500
July,3000,2800,2500,2400,2700
August,3000,2800,2500,2400,2700


可以使用DataFrame.drop()函数来删除行列：

In [68]:
salary_df_axis_1 = salary_df_axis_1.drop(['tom'], axis = 1)
salary_df_axis_1

Unnamed: 0,jeff,nick,maya,john
June,2700,2600,2200,2500
July,3000,2800,2400,2700
August,3000,2800,2400,2700


In [69]:
salary_df_axis_1 = salary_df_axis_1.drop(['August'], axis = 0)
salary_df_axis_1

Unnamed: 0,jeff,nick,maya,john
June,2700,2600,2200,2500
July,3000,2800,2400,2700


现在，我们可以合并多索引的数据框：

In [70]:
df_date_region_1 = pd.DataFrame(
    [
        ('2022-02-04', 'East', 97.0),
        ('2022-02-04', 'West', 243.0),
        ('2022-02-05', 'East', 160.0),
        ('2022-02-05', 'West', 35.0),
        ('2022-02-06', 'East', 110.0),
        ('2022-02-06', 'West', 86.0)
    ],
    columns = ['Date', 'Region', 'Total']).set_index(['Date', 'Region'])

现在还需要一个数据框，这个数据框也按照Date列和Region列索引。

In [74]:
df_date_region_2 = pd.DataFrame(
    [
        ('2022-02-04', 'South', 114.0),
        ('2022-02-05', 'South', 325.0),
        ('2022-02-06', 'South', 212.0)
    ],
    columns = ['Date', 'Region', 'Total']).set_index(['Date', 'Region'])

第二个数据框的时间和第一个数据框的时间相同，但是有新的地区 South 的数据。

In [76]:
df_date_region = pd.concat([df_date_region_1,
                           df_date_region_2]).sort_index(level=['Date', 'Region'])

In [77]:
df_date_region

Unnamed: 0_level_0,Unnamed: 1_level_0,Total
Date,Region,Unnamed: 2_level_1
2022-02-04,East,97.0
2022-02-04,South,114.0
2022-02-04,West,243.0
2022-02-05,East,160.0
2022-02-05,South,325.0
2022-02-05,West,35.0
2022-02-06,East,110.0
2022-02-06,South,212.0
2022-02-06,West,86.0


右合并。

In [78]:
orders_total

[(9423517, '2022-02-04', 9001),
 (4626232, '2022-02-04', 9003),
 (9423534, '2022-02-04', 9001),
 (9423679, '2022-02-05', 9002),
 (4626377, '2022-02-05', 9003),
 (4626412, '2022-02-05', 9004),
 (9423783, '2022-02-06', 9002),
 (4626490, '2022-02-06', 9004)]

In [79]:
details

[(9423517, 'Jeans', 'Rip Curl', 87.0, 1),
 (9423517, 'Jacknet', 'The North Face', 112.0, 1),
 (4626232, 'Socks', 'Vans', 15.0, 1),
 (4626232, 'Jeans', 'Quiksilver', 82.0, 1),
 (9423534, 'Socks', 'Dc', 10.0, 2),
 (9423534, 'Socks', 'Quiksilver', 12.0, 2),
 (9423679, 'T-shirt', 'Patagonia', 35.0, 1),
 (4626377, 'Hoody', 'Animal', 44.0, 1),
 (4626377, 'Cargo Shorts', 'Animal', 38.0, 1),
 (4626412, 'Shirt', 'Volcom', 78.0, 1),
 (9423783, 'Boxer Shorts', 'Superdry', 30.0, 2),
 (9423783, 'Shorts', 'Globe', 26.0, 1),
 (4626490, 'Cargo Shorts', 'Billabong', 54.0, 1),
 (4626490, 'Sweater', 'Dickies', 56.0, 1)]

In [80]:
import pandas as pd

orders_total = pd.DataFrame(orders_total, columns = ['OrderNo', 'Date', 'Empno'])
details = pd.DataFrame(details, columns = ['OrderNo', 'Item', 'Brand', 'Price', 'Quantity'])

In [81]:
orders_total

Unnamed: 0,OrderNo,Date,Empno
0,9423517,2022-02-04,9001
1,4626232,2022-02-04,9003
2,9423534,2022-02-04,9001
3,9423679,2022-02-05,9002
4,4626377,2022-02-05,9003
5,4626412,2022-02-05,9004
6,9423783,2022-02-06,9002
7,4626490,2022-02-06,9004


In [82]:
details

Unnamed: 0,OrderNo,Item,Brand,Price,Quantity
0,9423517,Jeans,Rip Curl,87.0,1
1,9423517,Jacknet,The North Face,112.0,1
2,4626232,Socks,Vans,15.0,1
3,4626232,Jeans,Quiksilver,82.0,1
4,9423534,Socks,Dc,10.0,2
5,9423534,Socks,Quiksilver,12.0,2
6,9423679,T-shirt,Patagonia,35.0,1
7,4626377,Hoody,Animal,44.0,1
8,4626377,Cargo Shorts,Animal,38.0,1
9,4626412,Shirt,Volcom,78.0,1


In [85]:
import pandas as pd

# 创建一个新的字典，包含要添加的数据
new_data = {
    'OrderNo': 4626592,
    'Item': 'Shorts',
    'Brand': 'Protest',
    'Price': 48.0,
    'Quantity': 1
}

# 使用pd.concat()函数将新的数据添加到原始DataFrame中
details = pd.concat([details, pd.DataFrame([new_data])], ignore_index=True)

print(details)

    OrderNo          Item           Brand  Price  Quantity
0   9423517         Jeans        Rip Curl   87.0         1
1   9423517       Jacknet  The North Face  112.0         1
2   4626232         Socks            Vans   15.0         1
3   4626232         Jeans      Quiksilver   82.0         1
4   9423534         Socks              Dc   10.0         2
5   9423534         Socks      Quiksilver   12.0         2
6   9423679       T-shirt       Patagonia   35.0         1
7   4626377         Hoody          Animal   44.0         1
8   4626377  Cargo Shorts          Animal   38.0         1
9   4626412         Shirt          Volcom   78.0         1
10  9423783  Boxer Shorts        Superdry   30.0         2
11  9423783        Shorts           Globe   26.0         1
12  4626490  Cargo Shorts       Billabong   54.0         1
13  4626490       Sweater         Dickies   56.0         1
14  4626592        Shorts         Protest   48.0         1


ignore_index=True 在 pandas 中用于重置索引。当你使用 append() 或 concat() 等函数将两个 DataFrame 合并时，如果设置了 ignore_index=True，那么新的 DataFrame 的索引将会从 0 开始重新生成，而不是继续使用原来的索引。这样做的好处是可以避免索引冲突和重复，使得合并后的 DataFrame 更加整洁。


使用 merge() 方法来合并 orders_total 和 details：

In [86]:
orders_details_right = orders_total.merge(details, how = 'right',
                                         left_on = 'OrderNo', right_on = 'OrderNo')

In [87]:
orders_details_right

Unnamed: 0,OrderNo,Date,Empno,Item,Brand,Price,Quantity
0,9423517,2022-02-04,9001.0,Jeans,Rip Curl,87.0,1
1,9423517,2022-02-04,9001.0,Jacknet,The North Face,112.0,1
2,4626232,2022-02-04,9003.0,Socks,Vans,15.0,1
3,4626232,2022-02-04,9003.0,Jeans,Quiksilver,82.0,1
4,9423534,2022-02-04,9001.0,Socks,Dc,10.0,2
5,9423534,2022-02-04,9001.0,Socks,Quiksilver,12.0,2
6,9423679,2022-02-05,9002.0,T-shirt,Patagonia,35.0,1
7,4626377,2022-02-05,9003.0,Hoody,Animal,44.0,1
8,4626377,2022-02-05,9003.0,Cargo Shorts,Animal,38.0,1
9,4626412,2022-02-05,9004.0,Shirt,Volcom,78.0,1


这段代码是使用 pandas 库中的 merge() 函数来合并两个 DataFrame。下面是对这段代码中参数的解释：

- `orders_total`: 这是第一个要合并的 DataFrame，它包含了订单的总信息。
- `details`: 这是第二个要合并的 DataFrame，它包含了订单的详细信息。
- `how = 'right'`: 这是 merge() 函数的一个参数，表示合并的方式。在这里，设置为 'right' 表示以右侧的 DataFrame（即 details）作为主表进行合并。
- `left_on = 'OrderNo'`: 这是 merge() 函数的另一个参数，表示左侧 DataFrame（即 orders_total）中用于匹配的列名。在这里，设置为 'OrderNo'，表示以 'OrderNo' 列作为键值进行匹配。
- `right_on = 'OrderNo'`: 这是 merge() 函数的最后一个参数，表示右侧 DataFrame（即 details）中用于匹配的列名。在这里，也设置为 'OrderNo'，表示以 'OrderNo' 列作为键值进行匹配。

通过设置 `how = 'right'` 和指定相同的键值列名，这段代码将根据 'OrderNo' 列的值将两个 DataFrame 进行右连接合并。结果将会包含来自两个 DataFrame 的所有行，如果某个键值在右侧 DataFrame 中不存在，则对应的值会显示为 NaN。

需要注意的是，数据框中NaN，这会导致一个问题，就是NaN不能够存储再整型列中，因此pandas库会再插入NaN时候自动将整型转换为浮点型列：

In [89]:
print(orders_details_right.dtypes)

OrderNo       int64
Date         object
Empno       float64
Item         object
Brand        object
Price       float64
Quantity      int64
dtype: object


可以看到Empno列的类型为float64，如果我们查看最初的数据的类型：

In [90]:
orders_total.dtypes

OrderNo     int64
Date       object
Empno       int64
dtype: object

可以清除的看到Empno的类型为int64。

这样的转变是不可以被接受的，因为员工的编号不应该有小数，所以一种方法是将NaN转换为0，只要员工的编号不会出现0就可以接受这样的转换：

In [91]:
orders_details_right = orders_details_right.fillna({'Empno':0}).astype({'Empno': 'int64'})

In [92]:
orders_details_right.dtypes

OrderNo       int64
Date         object
Empno         int64
Item         object
Brand        object
Price       float64
Quantity      int64
dtype: object

这里首先使用了 fillna() 函数来将 NaN 替换为0.接着将整个 Empno 列转换为 int64。