# 连接 

## 横向连接

In [2]:
df1 = pd.DataFrame({'id': [1, 2, 3], 'col1': ['a', 'b', 'c']})
df1

Unnamed: 0,id,col1
0,1,a
1,2,b
2,3,c


In [3]:
df2 = pd.DataFrame({'id': [4, 3], 'col2': ['d', 'e']})
df2

Unnamed: 0,id,col2
0,4,d
1,3,e


### 使用 DataFrame 对象的 merge 方法，指定连接字段

In [4]:
# 内连接
df1.merge(df2, how='inner', left_on='id', right_on='id')

Unnamed: 0,id,col1,col2
0,3,c,e


In [6]:
# 外连接
df1.merge(df2, how='outer', left_on='id', right_on='id')

Unnamed: 0,id,col1,col2
0,1,a,
1,2,b,
2,3,c,e
3,4,,d


In [7]:
# 左连接，数据条数和左表相同
df1.merge(df2, how='left', on='id')

Unnamed: 0,id,col1,col2
0,1,a,
1,2,b,
2,3,c,e


In [8]:
# 右连接，数据条数和右表相同
df1.merge(df2, how='right', on='id')

Unnamed: 0,id,col1,col2
0,3,c,e
1,4,,d


## 行索引连接

In [9]:
df1 = pd.DataFrame(
    {
        'id1': [1, 2, 3],
        'col1': ['a', 'b', 'c']
    }, index=[1, 2, 3])
df1

Unnamed: 0,id1,col1
1,1,a
2,2,b
3,3,c


In [10]:
df2 = pd.DataFrame(
    {
        'id2': [1, 2, 3],
        'col2': ['aa', 'bb', 'cc']
    }, index=[1, 3, 2])
df2

Unnamed: 0,id2,col2
1,1,aa
3,2,bb
2,3,cc


### 设置 axis = 1 

In [12]:
# 相当于 append ，追加在后面
pd.concat([df1, df2], axis=0)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,col1,col2,id1,id2
1,a,,1.0,
2,b,,2.0,
3,c,,3.0,
1,,aa,,1.0
3,,bb,,2.0
2,,cc,,3.0


### 如果是根据行索引进行连接，使用 pd 的 concat 方法和 DataFrame 的 join 方法是等价的

In [11]:
# concat 根据行索引合并
pd.concat([df1, df2], axis=1)

Unnamed: 0,id1,col1,id2,col2
1,1,a,1,aa
2,2,b,3,cc
3,3,c,2,bb


In [14]:
df1.join(df2)

Unnamed: 0,id1,col1,id2,col2
1,1,a,1,aa
2,2,b,3,cc
3,3,c,2,bb


## 纵向合并

In [15]:
df1 = pd.DataFrame({
    'id': [1, 1, 1, 2, 3, 4, 6],
    'col': ['a', 'a', 'b', 'c', 'v', 'e', 'q']
})
df1

Unnamed: 0,id,col
0,1,a
1,1,a
2,1,b
3,2,c
4,3,v
5,4,e
6,6,q


In [16]:
df2 = pd.DataFrame({'id': [1, 2, 3, 3, 5], 'col': ['x', 'y', 'z', 'v', 'w']})
df2

Unnamed: 0,id,col
0,1,x
1,2,y
2,3,z
3,3,v
4,5,w


axis = 0 相当于 append 方法。

### 注意 ignore_index 的设置

In [18]:
pd.concat([df1, df2], ignore_index=False, axis=0)

Unnamed: 0,id,col
0,1,a
1,1,a
2,1,b
3,2,c
4,3,v
5,4,e
6,6,q
0,1,x
1,2,y
2,3,z


In [21]:
# 不建议这么用
df1.append(df2)

Unnamed: 0,id,col
0,1,a
1,1,a
2,1,b
3,2,c
4,3,v
5,4,e
6,6,q
0,1,x
1,2,y
2,3,z


In [17]:
pd.concat([df1, df2], ignore_index=True, axis=0)

Unnamed: 0,id,col
0,1,a
1,1,a
2,1,b
3,2,c
4,3,v
5,4,e
6,6,q
7,1,x
8,2,y
9,3,z


## 去掉重复

默认 concat 的 axis 参数的值是 0。

In [23]:
pd.concat([df1, df2], ignore_index=True).drop_duplicates()

Unnamed: 0,id,col
0,1,a
2,1,b
3,2,c
4,3,v
5,4,e
6,6,q
7,1,x
8,2,y
9,3,z
11,5,w


In [27]:
df1

Unnamed: 0,id,col
0,1,a
1,1,a
2,1,b
3,2,c
4,3,v
5,4,e
6,6,q


In [28]:
df2

Unnamed: 0,id,col
0,1,x
1,2,y
2,3,z
3,3,v
4,5,w


### rename 方法可以修改字段名或者索引名

In [30]:
df3 = df1.rename(columns = {'col':'new_col'})

<span class="burk">只有有相同字段的时候，才会追加在下面，字段名不同的时候，会产生错位</span>。

In [32]:
pd.concat([df3, df2], ignore_index=True).drop_duplicates()

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,col,id,new_col
0,,1,a
2,,1,b
3,,2,c
4,,3,v
5,,4,e
6,,6,q
7,x,1,
8,y,2,
9,z,3,
10,v,3,


In [None]:








# In[46]:




# In[47]:

