# 合并数据

In [None]:
import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)
# 设置每列最大宽度（比如 100）
pd.set_option('display.max_colwidth', 100)

# 设置显示的最大列数（比如 20）
pd.set_option('display.max_columns', 20)

# 设置显示宽度（比如 1000）
pd.set_option('display.width', 1000)


“合并数据”是数据预处理中的一个重要步骤，指的是将来自不同来源或结构的数据集合并成一个统一的数据集，以便进行后续的分析、建模或展示。

## 什么是合并数据（Data Merging）


合并数据是指将两个或多个数据表、数据文件或数据源按照某种规则整合在一起的过程。常见的合并方式包括：
- 按行合并（纵向合并）：将多个结构相同的数据表“堆叠”在一起。
- 按列合并（横向合并）：根据某个共同的“键”（如 ID、姓名）将多个表“拼接”在一起。
- 多源合并：将来自不同系统、数据库或文件的数据整合为一个统一视图。


## 为什么要合并数据



合并数据的目的主要包括以下几个方面：
1. 整合信息，构建完整数据集
- 不同表中可能包含同一对象的不同信息（如学生基本信息和成绩），合并后才能全面分析。
2. 提升数据分析的准确性
- 分散的数据可能导致分析片面，合并后可以更全面地挖掘规律和趋势。
3. 支持机器学习建模
- 训练模型通常需要一个结构化、完整的数据集，合并是构建特征矩阵的关键步骤。
4. 简化数据处理流程
- 合并后可以统一清洗、转换、分析，减少重复操作，提高效率。
5. 对接多系统数据
- 在企业中，数据可能分布在多个系统（如 CRM、ERP、销售平台），合并是实现数据驱动决策的前提。


# 堆叠合并数据

```
pandas.concat(objs,axis=0,join='outer',ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,sort=False,copy=True)
```
|参数名称|参数说明|
|-|-|
|objs|接收多个df、series、panel，表示参与连接的pandas对象的列表组合|
|axis|接收int，表示连接轴|
|join|表示使用内连接（inner）还是外连接（outer）；默认使用outer|

当两个表的索引/列名不完全一样时，可以选择内连接还是外连接；内连接仅仅返回索引/列名重叠部分的数据，外连接则显示索引/列名并集的部分数据，不足的地方使用空值补齐。

## 横向堆叠

“横向堆叠”是数据预处理中的一种合并方式，指的是按列将多个数据集并排拼接在一起，通常是基于某个共同的“键”或索引。它也被称为横向合并、列合并、宽表拼接

在使用concat函数时，axis=1表示横向堆叠

横向堆叠的特点：
|特性|描述说明|
|-|-|
|合并方向|按列拼接（横向扩展）|
|关键字段|通常需要一个共同的键（如 ID、时间戳）|
|应用场景|多表关联、特征扩展、宽表构建|

In [None]:
user_all_info = pd.read_csv('pd_data/user_all_info.csv')
df1 = user_all_info.iloc[:, :3]  # 取出user_all_info的前3列数据
df2 = user_all_info.iloc[:, 3:]  # 取出user_all_info的后1列数据

In [None]:
df1

In [None]:
df2

当两份数据的索引完全一样时，不论使用内连接还是外连接，结果都是将两个表拼接起来

In [None]:
print(df1.shape, df2.shape)

In [None]:
pd.concat([df1, df2], axis=1,join='outer')

In [None]:
pd.concat([df1, df2], axis=1,join='inner')

## 纵向堆叠

“纵向堆叠”是数据预处理中的一种常见操作，指的是按行将多个数据集上下拼接在一起，也叫按行合并、行追加、垂直合并。

在使用concat函数时，axis=0表示纵向堆叠

纵向堆叠的特点
|特性|描述说明|
|-|-|
|合并方向|按行拼接（上下堆叠）|
|要求|各数据集列结构一致或重合（列名和顺序）|
|应用场景|多批数据追加、日志合并、表格扩展|


除了concat之外，还可以使用append()方法纵向合并两张表，但使用append需要两张表列名完全一致
```
pandas.DataFrame.append(other,ignore_index=False,verify_integrity=False,sort=False)
```
但是append在pandas2.0及以上版本中被移除

In [None]:
# 取出user_all_info前500行数据
df3 = user_all_info.iloc[:500, :] 
# 取出user_all_info的500后的数据
df4 = user_all_info.iloc[500:, :] 


In [None]:
print(df3.shape, df4.shape)

In [None]:
df3

In [None]:
df4

In [None]:
pd.concat([df3, df4],axis=0, join='outer')

In [None]:
df3.append(df4).shape
#AttributeError: 'DataFrame' object has no attribute 'append'

# 主键合并数据

主键合并，即通过一个或多个键将两个表连接起来

针对两张包含不同特征的表，将根据某几个特征一一对应拼接起来。

```
pandas.merge(left,right,how='ommer',on=None,left_on=None,right_on=None)
```

In [None]:
pay_info = pd.read_csv('pd_data/user_pay_info.csv')
download_info = pd.read_csv('pd_data/user_download.csv')

In [None]:
pay_info

In [None]:
download_info

In [None]:
download_and_pay = pd.merge(download_info, pay_info,left_on='用户编号', right_on='编号')

In [None]:
download_and_pay

除了使用merge以外，join方法也可以实现部分主键合并功能，但使用join时，主键名字必须相同
```
pandas.DataFrame.join()
```

In [None]:
pay_info.rename({'编号': '用户编号'}, inplace=True)
download_and_pay1 = download_info.join(pay_info, on='用户编号', rsuffix='1')


In [None]:
download_and_pay1

# 重叠合并数据

重叠合并在其他工具中并不常见

在pandas中，通常使用combine_first函数
```
pandas.DataFrame.combine_first(other)
```

In [None]:
import numpy as np
#建立两个字典，除了ID外，别的特征互补
dict1 = {'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9],'System': ['win10', 'win10', np.nan, 'win10',np.nan, np.nan, 'win7', 'win7', 'win8'], 
        'cpu': ['i7', 'i5', np.nan, 'i7', np.nan, np.nan, 'i5', 'i5', 'i3']}
dict2 = {'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9], 
        'System': [np.nan, np.nan, 'win7', np.nan, 'win8', 'win7', np.nan, np.nan, np.nan], 
        'cpu': [np.nan, np.nan, 'i3', np.nan, 'i7', 'i5', np.nan, np.nan, np.nan]}


In [None]:
df_d1 = pd.DataFrame(dict1)
df_d2 = pd.DataFrame(dict2)


In [None]:
df_d1

In [None]:
df_d2

In [None]:
df_d1.combine_first(df_d2)