## DataFrame的连接

### 准备数据

首先，我们创建两个拥有相同列名的DataFrame：

In [4]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5)
})
print(df1)

df2 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5)
})
print(df2)


    a   b   c
0  18   3  96
1  70   2  87
2  85  56  14
3   9  64  46
4  17  29  53
    a   b   c
0  34  20  88
1  61  60   8
2  30  49  47
3  62   3  97
4  64   9   4


然后，要做的工作便是将这两个DataFrame进行连接，这里“连接”的意思是“在列上面进行连接”。我们不使用“合并”这个词，因为“合并”的概念涉及到数据库里面的连接操作。“连接”的时候需要指定“轴”，而“合并”需要指定键值。

这个时候我们可以使用`concat()`函数，该函数可以通过`axis`参数指定连接轴，默认是`axis=0`，表示在列的方向上连接（按照列标签进行）。

### 在列上连接：`axis`参数和`ignore_index`参数

In [5]:
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,18,3,96
1,70,2,87
2,85,56,14
3,9,64,46
4,17,29,53
0,34,20,88
1,61,60,8
2,30,49,47
3,62,3,97
4,64,9,4


如上默认在列上进行连接，不过index依然重复，这个时候可以使用`ignore_index`参数

In [6]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,a,b,c
0,18,3,96
1,70,2,87
2,85,56,14
3,9,64,46
4,17,29,53
5,34,20,88
6,61,60,8
7,30,49,47
8,62,3,97
9,64,9,4


### 在行上连接

如果我们设定`ignore_index=1`，即在行上面进行连接，此时的连接是按照“行标签”进行，那么我们看到的结果是这样：

In [7]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b,c,a.1,b.1,c.1
0,18,3,96,34,20,88
1,70,2,87,61,60,8
2,85,56,14,30,49,47
3,9,64,46,62,3,97
4,17,29,53,64,9,4


也就是多增加了几列。**不过，这里相同的列标签该怎么处理呢？**

### `join`参数

`join`参数有两个值：`inner`和`outter`，前者表示内部合并，只提取和连接轴一致的数据；后者表示外部合并，会返回连接轴的所有数据。

In [10]:
df3 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5)
})
print(df3)

df4 = pd.DataFrame({
    'd':np.random.randint(0, 100, 5),
    'e':np.random.randint(0, 100, 5),
    'f':np.random.randint(0, 100, 5)
})
print(df4)

    a   b   c
0  91   1  12
1  76  43  84
2   2  77  32
3  86  49  83
4  15  69  20
    d   e   f
0  45  63  37
1  18  53  88
2  92  63  81
3  82  45  13
4  55  10  13


In [17]:
# 在列上连接，默认为“outer”
concat_on_col = pd.concat([df3, df4], axis=0)
print(concat_on_col)

      a     b     c     d     e     f
0  91.0   1.0  12.0   NaN   NaN   NaN
1  76.0  43.0  84.0   NaN   NaN   NaN
2   2.0  77.0  32.0   NaN   NaN   NaN
3  86.0  49.0  83.0   NaN   NaN   NaN
4  15.0  69.0  20.0   NaN   NaN   NaN
0   NaN   NaN   NaN  45.0  63.0  37.0
1   NaN   NaN   NaN  18.0  53.0  88.0
2   NaN   NaN   NaN  92.0  63.0  81.0
3   NaN   NaN   NaN  82.0  45.0  13.0
4   NaN   NaN   NaN  55.0  10.0  13.0


In [18]:
concat_on_col = pd.concat([df3, df4], axis=0, join='inner')
print(concat_on_col)

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4, 0, 1, 2, 3, 4]


可以将需要连接的DataFrame的任一行索引指定给`join_axes`，该参数默认为None。不过，这个参数已经在0.25版本之后废弃了，可以使用reindex来完成。

In [20]:
df4.columns = ['b', 'c', 'd']
print(df4)

    b   c   d
0  45  63  37
1  18  53  88
2  92  63  81
3  82  45  13
4  55  10  13


In [29]:
pd.concat([df3, df4], axis=0, join='inner', ignore_index=True)


Unnamed: 0,b,c
0,1,12
1,43,84
2,77,32
3,49,83
4,69,20
5,45,63
6,18,53
7,92,63
8,82,45
9,55,10
