In [1]:
'''
@Author: Haihui Pan
@Date: 2021-12-25
@Ref: https://pandas.pydata.org/docs/user_guide/10min.html
'''
import pandas as pd

## 数据拼接
* 垂直拼接(pd.concat)
* 水平拼接(pd.merge)

### 垂直拼接

* 有时候我们收集的数据可能会分散在多个不同的表格中，但这些表格的数据列都是相同的，我们希望将这些表格的数据进行垂直拼接为一个最终表格
* pd.concat([df1,df2],ignore_index=True)可以垂直拼接数据
  * 拼接的列一致
  * 拼接的列不一致

In [4]:
# 读取数据
df_student=pd.read_csv('student.csv')

#输出shape
print(df_student.shape)

df_student

(6, 3)


Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M
5,Jim,8,M


In [5]:
#垂直拼接数据
df_concat=pd.concat([df_student,df_student],ignore_index=True)

#拼接之后的数据为原来的两倍
df_concat.shape

(12, 3)

#### 拼接不同列

In [6]:
#假定只有name，age两列
name_list=['Kite','Sam']
age_list=[9,8]

df_data=pd.DataFrame({'name':name_list,'age':age_list})
df_data

Unnamed: 0,name,age
0,Kite,9
1,Sam,8


In [7]:
df_concat=pd.concat([df_student,df_data],ignore_index=True)

#拼接不同列时，多出的列会用None来填充
df_concat

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M
5,Jim,8,M
6,Kite,9,
7,Sam,8,


### 水平拼接

* 水平拼接类似SQL中对多表数据进行join的情况，在指定水平拼接的列之后，就可以将表格数据的列进行合并
* pandas通过pd.merge(left,right,how='left',on=[])来实现多表的水平拼接
   * left: 拼接的左表
   * right:拼接的右表
   * how: 拼接的形式，取值有left,right,outer,inner. left表示以左表为基准、right表示以右表为准，outer取并集，inner取交集
   * on:表示对齐的列

In [8]:
#基础信息
name_list=['Kite','Sam','Tom']
age_list=[9,8,7]
score_list=[89,88,90]

#年龄信息
df_age=pd.DataFrame({'name':name_list,'age':age_list})

#成绩信息
df_score=pd.DataFrame({'name':name_list,'score':score_list})

#以name为基准，将age,score进行水平拼接
df_merge=pd.merge(df_age,df_score,how='left',on=['name'])
df_merge

Unnamed: 0,name,age,score
0,Kite,9,89
1,Sam,8,88
2,Tom,7,90
