## DataFrame的连接

### 准备数据

- 先创建两个拥有相同列名的DataFrame。
- 再将这两个DataFrame进行连接。

这里“连接”的意思是“在列上面进行连接”。我们不使用“合并”这个词，因为“合并”的概念涉及到数据库里面的连接操作。“连接”的时候需要指定“轴”，而“合并”需要指定键值。

这个时候我们可以使用`concat()`函数，该函数可以通过`axis`参数指定连接轴，默认是`axis=0`，表示在列的方向上连接（按照列标签进行）。

In [1]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5)
})
print(df1)

df2 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5)
})
print(df2)


    a   b   c
0  67  29  58
1  13  79   4
2  58  70  77
3  46  81  73
4  41  32   4
    a   b   c
0  50   3  88
1  86   6  78
2  71  29  24
3  84  92  43
4  12  51  77


### 纵向连接

纵向连接就是将不同的行在列的方向上连接，此时需要将`axis`参数设置为`0`，这也是它的默认值。另外通常也需要将`ignore_index`参数设置为`True`来重排合并之后的行索引值。

还有有一个关键的参数：`join`：

- `join`参数默认值为`outter`，会连接轴的所有数据，也就是如果合并之前的两个dataframe具有同名的列，那么合并之后会出现相同的列表签。
- `join`参数设置为`inner`和`outter`，前者表示内部合并，只提取和连接轴一致的数据。

In [2]:
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,67,29,58
1,13,79,4
2,58,70,77
3,46,81,73
4,41,32,4
0,50,3,88
1,86,6,78
2,71,29,24
3,84,92,43
4,12,51,77


In [3]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,a,b,c
0,67,29,58
1,13,79,4
2,58,70,77
3,46,81,73
4,41,32,4
5,50,3,88
6,86,6,78
7,71,29,24
8,84,92,43
9,12,51,77


#### 纵向连接时列无交集

In [5]:
df3 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5)
})
print(df3)

df4 = pd.DataFrame({
    'd':np.random.randint(0, 100, 5),
    'e':np.random.randint(0, 100, 5),
    'f':np.random.randint(0, 100, 5)
})
print(df4)

    a   b   c
0  40  36  35
1  51  35  60
2  91  47   8
3  17  62  30
4  61  11  22
    d   e   f
0  92  75  93
1  15  87  75
2  98  56  28
3  24  39  88
4  62  94  65


In [6]:
# 横向连接，默认为“outer”
concat_on_col = pd.concat([df3, df4], axis=0)
print(concat_on_col)

      a     b     c     d     e     f
0  40.0  36.0  35.0   NaN   NaN   NaN
1  51.0  35.0  60.0   NaN   NaN   NaN
2  91.0  47.0   8.0   NaN   NaN   NaN
3  17.0  62.0  30.0   NaN   NaN   NaN
4  61.0  11.0  22.0   NaN   NaN   NaN
0   NaN   NaN   NaN  92.0  75.0  93.0
1   NaN   NaN   NaN  15.0  87.0  75.0
2   NaN   NaN   NaN  98.0  56.0  28.0
3   NaN   NaN   NaN  24.0  39.0  88.0
4   NaN   NaN   NaN  62.0  94.0  65.0


In [7]:
pd.concat([df3, df4], axis=0, join='inner', ignore_index=True)

0
1
2
3
4
5
6
7
8
9


#### 纵向连接时列有交集

In [15]:
df3 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'd':np.random.randint(0, 100, 5)
})
print(df3)

df4 = pd.DataFrame({
    'd':np.random.randint(0, 100, 5),
    'e':np.random.randint(0, 100, 5),
    'f':np.random.randint(0, 100, 5)
})
print(df4)

    a   b   d
0  98  33  51
1  31   4   5
2  59  11  26
3  12   6  83
4  26  37  85
    d   e   f
0  44  43  89
1  20   7  71
2  23   7  21
3  80  69  63
4  12  99  59


In [17]:
pd.concat([df3, df4], axis=0, join='inner')

Unnamed: 0,d
0,51
1,5
2,26
3,83
4,85
0,44
1,20
2,23
3,80
4,12


### 纵向连接时部分交集

In [2]:
import pandas as pd
import numpy as np

df3 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5),
    'd':np.random.randint(0, 100, 5)
})
print(df3)

df4 = pd.DataFrame({
    'a':np.random.randint(0, 100, 5),
    'b':np.random.randint(0, 100, 5),
    'c':np.random.randint(0, 100, 5),
    'd':np.random.randint(0, 100, 5)
})
print(df4)
pd.concat([df3, df4], axis=0, join='outer')

NameError: name 'np' is not defined

### 横向连接

我们设定`axis=1`，即在横向对列进行连接，此时的连接是按照“行标签”进行，也就是多增加了几列。

In [12]:
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,a,b,c,a.1,b.1,c.1
0,67,29,58,50,3,88
1,13,79,4,86,6,78
2,58,70,77,71,29,24
3,46,81,73,84,92,43
4,41,32,4,12,51,77


In [14]:
pd.concat([df3, df4], axis=1, join='inner')

Unnamed: 0,a,b,c,d,e,f
0,40,36,35,92,75,93
1,51,35,60,15,87,75
2,91,47,8,98,56,28
3,17,62,30,24,39,88
4,61,11,22,62,94,65
