## 表格合并，实现VLOOKUP

- 读取时选择具体的sheet sheet_name = 'xxx'
- 修改列名 rename()
- 设置索引和重设索引 set_index(), reset_index()
- merge函数 pd.merge()，基本介绍以及和vlookup的区别！
- merge函数 on/left_on/right_on
- merge函数 how = inner/outer/left/right

In [2]:
# 导入两个表（一个表的两个sheet）
import pandas as pd
import numpy as np

df_1 = pd.read_excel('数据/data3.2.xlsx',sheet_name = '交易币币种',dtype = {'国家':str,'币种':str})
df1 = df_1.copy()
df_2 = pd.read_excel('数据/data3.2.xlsx',sheet_name = '交易币金额',dtype = {'交易币金额':str,'TC_AMOUNT':float})
df2 = df_2.copy()

In [3]:
df1

Unnamed: 0,国家,币种
0,科威特,KWD
1,卡塔尔,QAR
2,巴林,BHD
3,阿联酋,USD


In [4]:
df2

Unnamed: 0,Country,TC_AMOUNT
0,巴林,500.0
1,科威特,1000.0
2,卡塔尔,1500.0
3,巴林,600.0
4,科威特,900.0
5,卡塔尔,800.0
6,沙特,500.0


#### 修改列名

rename(columns={'旧列名':'新列名'})

In [7]:
df1 = df1.rename(columns = {'国家':'Country', '币种': 'Currency'})
df1

Unnamed: 0,Country,Currency
0,科威特,KWD
1,卡塔尔,QAR
2,巴林,BHD
3,阿联酋,USD


#### 设置索引和重设索引

 - set_index('索引列名')
 - reset_index()

In [8]:
# 设置索引
df1 = df_1.copy()
df1 = df1.set_index('国家')
df1


Unnamed: 0_level_0,币种
国家,Unnamed: 1_level_1
科威特,KWD
卡塔尔,QAR
巴林,BHD
阿联酋,USD


In [9]:
df1.loc['巴林',:]

币种    BHD
Name: 巴林, dtype: object

In [10]:
# 重设索引
df1 = df1.reset_index()
df1

Unnamed: 0,国家,币种
0,科威特,KWD
1,卡塔尔,QAR
2,巴林,BHD
3,阿联酋,USD


#### Merge函数

pd.merge(左表,右表,on = '索引',how = '方法')

In [11]:
# 当两个表格的索引列列名相同时 on='索引列'
# 一般先将需要索引的列的列名设置为相同

df1 = df1.rename(columns={'国家':'Country'})
df1

Unnamed: 0,Country,币种
0,科威特,KWD
1,卡塔尔,QAR
2,巴林,BHD
3,阿联酋,USD


In [12]:
result = pd.merge(df1,df2,on='Country',how='outer')
result

Unnamed: 0,Country,币种,TC_AMOUNT
0,卡塔尔,QAR,1500.0
1,卡塔尔,QAR,800.0
2,巴林,BHD,500.0
3,巴林,BHD,600.0
4,沙特,,500.0
5,科威特,KWD,1000.0
6,科威特,KWD,900.0
7,阿联酋,USD,


当两个表格的索引列列名不同时，使用 left_on= '表1索引列'，right_on = '表2索引列'

但是一般不这么做，因为会多一列。一般先rename成相同的列名。

In [13]:
df1 = df_1.copy()
result = pd.merge(df1,df2,left_on ='国家',right_on='Country',how='outer')
result

Unnamed: 0,国家,币种,Country,TC_AMOUNT
0,卡塔尔,QAR,卡塔尔,1500.0
1,卡塔尔,QAR,卡塔尔,800.0
2,巴林,BHD,巴林,500.0
3,巴林,BHD,巴林,600.0
4,,,沙特,500.0
5,科威特,KWD,科威特,1000.0
6,科威特,KWD,科威特,900.0
7,阿联酋,USD,,


##### how = inner/outer/left/right

In [14]:
# how = 'outer' （并集）
df1 = df1.rename(columns={'国家':'Country'})
result = pd.merge(df1,df2,on='Country',how='outer')
result

Unnamed: 0,Country,币种,TC_AMOUNT
0,卡塔尔,QAR,1500.0
1,卡塔尔,QAR,800.0
2,巴林,BHD,500.0
3,巴林,BHD,600.0
4,沙特,,500.0
5,科威特,KWD,1000.0
6,科威特,KWD,900.0
7,阿联酋,USD,


In [15]:
# how = 'inner' （交集）
df1 = df1.rename(columns={'国家':'Country'})
result = pd.merge(df1,df2,on='Country',how='inner')
result

Unnamed: 0,Country,币种,TC_AMOUNT
0,科威特,KWD,1000.0
1,科威特,KWD,900.0
2,卡塔尔,QAR,1500.0
3,卡塔尔,QAR,800.0
4,巴林,BHD,500.0
5,巴林,BHD,600.0


In [16]:
# how = 'left'
df1 = df1.rename(columns={'国家':'Country'})
result = pd.merge(df1,df2,on='Country',how='left')
result

Unnamed: 0,Country,币种,TC_AMOUNT
0,科威特,KWD,1000.0
1,科威特,KWD,900.0
2,卡塔尔,QAR,1500.0
3,卡塔尔,QAR,800.0
4,巴林,BHD,500.0
5,巴林,BHD,600.0
6,阿联酋,USD,


In [17]:
# how = 'right'
df1 = df1.rename(columns={'国家':'Country'})
result = pd.merge(df1,df2,on='Country',how='right')
result

Unnamed: 0,Country,币种,TC_AMOUNT
0,巴林,BHD,500.0
1,科威特,KWD,1000.0
2,卡塔尔,QAR,1500.0
3,巴林,BHD,600.0
4,科威特,KWD,900.0
5,卡塔尔,QAR,800.0
6,沙特,,500.0
