In [1]:
%%HTML
<style type='text/css'>
    *{
        # background-color:#E3EDCD;
        # background-color:black;
        # color:white;
        
    }
    h1{
        color:#1976d2;
    }
    h2{
        color:#f57c00;
    }
    h3{
        color:#ba37ff;
    }
    h4{
        color:green;
    }
    table{
        border:1px solid black !important;
        border-collapse:collapse !important;
    }
    th{
        background-color:blueviolet !important;
        text-align:center;
        color:white;
    }
    th,td{
        border:0.1px solid black !important;
        transition:0.2s all liner;
        
    }
    td:hover{
        transform:scale(1.1);
        background-color:orange;
        color:blueviolet;
    }
    .raw{
        white-space:pre;
        color:green;
    }
    #imp{
        color:red;
    }
    #ct{
        text-align:center;
    }
    }
</style>

In [3]:
import pandas as pd
import numpy as np

## 3.8 合并数据集：合并与连接

Pandas 的基本特性之一就是高性能的内存式数据连接（join）与合并
（merge）操作。如果你有使用数据库的经验，那么对这类操作一定很
熟悉。Pandas 的主接口是 pd.merge 函数，下面让我们通过一些示例来
介绍它的用法。


### 3.8.1 关系代数

pd.merge() 实现的功能基于关系代数（relational algebra）的一部分。  
关系代数是处理关系型数据的通用理论，绝大部分数据库的可用操作都  
以此为理论基础。关系代数方法论的强大之处在于，它提出的若干简单  
操作规则经过组合就可以为任意数据集构建十分复杂的操作。借助在数  
据库或程序里已经高效实现的基本操作规则，你可以完成许多非常复杂  
的操作。  
Pandas 在 pd.merge() 函数与 Series 和 DataFrame 的 join() 方法里   
实现了这些基本操作规则。下面来看看如何用这些简单的规则连接不同  
数据源的数据。  

### 3.8.2 数据连接的类型

pd.merge() 函数实现了三种数据连接的类型：一对一、多对一和多对
多。这三种数据连接类型都通过 pd.merge() 接口进行调用，根据不同
的数据连接需求进行不同的操作。下面将通过一些示例来演示这三种类
型，并进一步介绍更多的细节。


01. 一对一连接

一对一连接可能是最简单的数据合并类型了，与 3.7 节介绍的按列
合并十分相似。如下面示例所示，有两个包含同一所公司员工不同
信息的 DataFrame：

In [4]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
'hire_date': [2004, 2008, 2012, 2014]})
print(df1)
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


若想将这两个 DataFrame 合并成一个 DataFrame，可以用
pd.merge() 函数实现：

In [5]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


pd.merge() 方法会发现两个 DataFrame 都有“employee”列，并会
自动以这列作为键进行连接。两个输入的合并结果是一个新的
DataFrame。需要注意的是，共同列的位置可以是不一致的。例如
在这个例子中，虽然 df1 与 df2 中“employee”列的位置是不一样
的，但是 pd.merge() 函数会正确处理这个问题。另外还需要注意
的是，pd.merge() 会默认丢弃原来的行索引，不过也可以自定义
（详情请参见 3.8.3 节）。


02. 多对一连接

In [6]:
 df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
'supervisor': ['Carly', 'Guido', 'Steve']})
print(df3);print(df4);print(pd.merge(df3,df4))

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


在结果 DataFrame 中多了一个“supervisor”列，<span id='imp'>里面有些值会因为
输入数据的对应关系而有所重复。</span>


<p class='raw'>
    简单理解上面代码,因为我们创建的df4中写了group和
    supervisor的对应关系,所以在合并两个df时候,
    df3即使行数多,但是只要有一个公共的列group,那么就会对应的
    从df4中的group和supervisor的对应关系中“推测”出应该补全什么样
    的数据
</p>

03. 多对多连接

多对多连接是个有点儿复杂的概念，不过也可以理解。如果左右两  
个输入的共同列都包含重复值，那么合并的结果就是一种多对多连  
接。用一个例子来演示可能更容易理解。来看下面的例子，里面有  
一个 DataFrame 显示不同岗位人员的一种或多种能力。  
通过多对多链接，就可以得知每位员工所具备的能力：  

In [7]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
'Engineering', 'Engineering', 'HR', 'HR'],
'skills': ['math', 'spreadsheets', 'coding', 'linux',
           'spreadsheets', 'organization']})
print(df1);print(df5);print(pd.merge(df1,df5))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization
  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


这三种数据连接类型可以直接与其他 Pandas 工具组合使用，从而
实现各种各样的功能。但是工作中的真实数据集往往并不像示例中
演示的那么干净、整洁。下面就来介绍 pd.merge() 的一些功能，
它们可以让你更好地应对数据连接中的问题。


### 3.8.3 设置数据合并的键

我们已经见过 pd.merge() 的默认行为：它会将两个输入的一个或多个
共同列作为键进行合并。但由于两个输入要合并的列通常都不是同名
的，因此 pd.merge() 提供了一些参数处理这个问题。

01. 参数on的用法

最简单的方法就是直接将参数 on 设置为一个列名字符串或者一个
包含多列名称的列表：


In [8]:
print(df1); print(df2); 
print(pd.merge(df1, df2, on='employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


这个参数只能在两个 DataFrame 有共同列名的时候才可以使用。

02. left_on与right_on参数

有时你也需要合并<span id='imp'>两个列名不同</span>的数据集，例如前面的员工信息表
中有一个字段不是“employee”而是“name”。在这种情况下，就可以
用 left_on 和 right_on 参数来指定列名：

In [9]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3);
print(pd.merge(df1, df3, left_on="employee", right_on="name"))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


获取的结果中会有一个多余的列，可以通过 DataFrame 的 drop()
方法将这列去掉：

In [11]:
pd.merge(df1,df3,left_on='employee',right_on='name').\
drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


03. left_index与right_index参数


除了合并列之外，你可能还需要合并索引。就像下面例子中的数据
那样：

In [12]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
print(df1a)
print(df2a)

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014


你可以通过设置 pd.merge() 中的 <span id='imp'>left_index 和 / 或
right_index </span>参数将索引设置为按<span id='imp'>键</span>来实现合并：


In [14]:
print(df1a); print(df2a);
print(pd.merge(df1a, df2a, left_index=True, right_index=True))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


为了方便考虑，<span id='imp'>DataFrame 实现了 join() 方法</sapn>，它可以按照索引
进行数据合并：

In [15]:
print(df1a)
print(df2a)
print(df1a.join(df2a))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


如果想将索引与列混合使用，那么可以通过结合 left_index 与
right_on，或者结合 left_on 与 right_index 来实现：

In [16]:
print(df1a)
print(df3)
print(pd.merge(df1a,df3,left_index=True,right_on='name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
         group  name  salary
0   Accounting   Bob   70000
1  Engineering  Jake   80000
2  Engineering  Lisa  120000
3           HR   Sue   90000


<p class='raw'>
简单理解上面的代码,融合了left/right_index和left/right_on,
因为left/right_index指定的是按照键合并,且必须是两个表有公共
的列才行,但是df1a和df3的列名称不同,但是可以使用left/right_on
的功能指定列名
</p>

当然，这些参数都适用于多个索引和 / 或多个列名，函数接口非常
简单。若想了解 Pandas 数据合并的更多信息，请参考 Pandas 文档
中“Merge, Join, and Concatenate”（http://pandas.pydata.org/pandasdocs/stable/merging.html）节。

### 3.8.4 设置数据连接的集合操作规则

通过前面的示例，我们总结出数据连接的一个重要条件：集合操作规
则。当一个值出现在一列，却没有出现在另一列时，就需要考虑集合操
作规则了。来看看下面的例子：

In [29]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
'food': ['fish', 'beans', 'bread']},
columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
'drink': ['wine', 'beer']},
columns=['name', 'drink'])
print(df6)
print(df7)
print(pd.merge(df6,df7))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
   name   food drink
0  Mary  bread  wine


我们合并两个数据集，在“name”列中只有一个共同的值：Mary。默认
情况下，结果中只会包含两个输入集合的交集，这种连接方式被称为内
连接（inner join）。<span id='imp'>我们可以用 how 参数设置连接方式，默认值为
'inner'：</span>

In [30]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


how 参数支持的数据连接方式还有 'outer'、'left' 和 'right'。外
连接（outer join）<span id='imp'>返回两个输入列的交集，所有缺失值都用 NaN 填充：</span>

<p class='raw'>
注意,结合mysql的外连接来思考
</p>

In [31]:
print(df6); print(df7); 
print(pd.merge(df6, df7, how='outer'))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
     name   food drink
0  Joseph    NaN  beer
1    Mary  bread  wine
2    Paul  beans   NaN
3   Peter   fish   NaN


左连接（left join）和右连接（right join）返回的结果分别只包含左列和
右列，如下所示：

<p>例如下面的左链接:
结合mysql的外连接中的左链接,
左链接就是左边的表作为主表,从表中出现与主表不匹配的内容
就用Nan填充,反之右链接也可以推断</p>

In [32]:
print(df6); print(df7); print(pd.merge(df6, df7, how='left'))


    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
    name   food drink
0  Peter   fish   NaN
1   Paul  beans   NaN
2   Mary  bread  wine


In [33]:
print(df6); print(df7); print(pd.merge(df6, df7, how='right'))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
     name   food drink
0    Mary  bread  wine
1  Joseph    NaN  beer


现在输出的行中只包含左边输入列的值。如果用 how='right' 的话，
输出的行则只包含右边输入列的值。    
这四种数据连接的集合操作规则都可以直接应用于前面介绍过的连接类
型。


### 3.8.5 重复列名：suffixes参数

最后，你可能会遇到两个输入 DataFrame 有重名列的情况。来看看下
面的例子：

In [34]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'rank': [3, 1, 4, 2]})
print(df8); print(df9); print(pd.merge(df8, df9, on="name"))

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_x  rank_y
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


suffixes 参数同样适用于任何连接方式，即使有三个及三个以上的重
复列名时也同样适用。
关于关系代数的更多信息，请参见 3.9 节，里面对关系代数进行了更加
深入的介绍。另外，还可以参考 Pandas 文档中“Merge, Join, and
Concatenate”（http://pandas.pydata.org/pandas-docs/stable/merging.html）
节。


###  3.8.6 案例：美国各州的统计数据

数据的合并与连接是组合来源不同的数据的最常用方法。下面通过美国
各州的统计数据来进行一个演示，请到 https://github.com/jakevdp/dataUSstates/ 下载数据：

```shell
# 请使用下面的shell下载数据
!curl -O https://raw.githubusercontent.com/jakevdp/ data-USstates/master/state-population.csv
!curl -O https://raw.githubusercontent.com/jakevdp/
data-USstates/master/state-areas.csv
!curl -O https://raw.githubusercontent.com/jakevdp/
data-USstates/master/state-abbrevs.csv
```

用 Pandas 的 read_csv() 函数看看这三个数据集：

In [43]:
pop = pd.read_csv('../data/state-population.csv')
areas = pd.read_csv('../data/state-areas.csv')
abbrevs = pd.read_csv('../data/state-abbrevs.csv')
print(pop.head())
print(area.head())
print(abbrevs.head())

  state/region     ages  year  population
0           AL  under18  2012   1117489.0
1           AL    total  2012   4817528.0
2           AL  under18  2010   1130966.0
3           AL    total  2010   4785570.0
4           AL  under18  2011   1125763.0
        state  area (sq. mi)
0     Alabama          52423
1      Alaska         656425
2     Arizona         114006
3    Arkansas          53182
4  California         163707
        state abbreviation
0     Alabama           AL
1      Alaska           AK
2     Arizona           AZ
3    Arkansas           AR
4  California           CA


看过这些数据之后，我们想要计算一个比较简单的指标：美国各州的人  
口密度排名。虽然可以直接通过计算每张表获取结果，但这次试着用数  
据集连接来解决这个问题。   
首先用一个多对一合并获取人口（pop）DataFrame 中各州名称缩写对  
应的全称。我们需要将 pop 的 state/region 列与 abbrevs 的  
abbreviation 列进行合并，还需要通过 how='outer' 确保数据没有  
丢失。  


In [36]:
merged = pd.merge(pop,abbrevs,how='outer',
                 left_on='state/region',right_on='abbreviation')
merged = merged.drop('abbreviation',axis=1) #丢弃重复信息
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AK,total,1990,553290.0,Alaska
1,AK,under18,1990,177502.0,Alaska
2,AK,total,1992,588736.0,Alaska
3,AK,under18,1991,182180.0,Alaska
4,AK,under18,1992,184878.0,Alaska


来全面检查一下数据是否有缺失，我们可以对每个字段逐行检查是否有
缺失值：

In [37]:
merged.isnull().sum()

state/region     0
ages             0
year             0
population      20
state           96
dtype: int64

部分 population 是缺失值，让我们仔细看看那些数据！

In [38]:
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
1872,PR,under18,1990,,
1873,PR,total,1990,,
1874,PR,total,1991,,
1875,PR,under18,1991,,
1876,PR,total,1993,,


好像所有的人口缺失值都出现在 2000 年之前的波多黎各 ，此前并没有
统计过波多黎各的人口。

更重要的是，我们还发现一些新的州的数据也有缺失，可能是由于名称
缩写没有匹配上全程！来看看究竟是哪个州有缺失：

In [39]:
merged.loc[merged['state'].isnull(),'state/region'].unique()

array(['PR', 'USA'], dtype=object)

我们可以快速解决这个问题：人口数据中包含波多黎各（PR）和全国
总数（USA），但这两项没有出现在州名称缩写表中。来快速填充对应
的全称：


In [41]:
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

现在 state 列没有缺失值了，万事俱备！
让我们用类似的规则将面积数据也合并进来。用两个数据集共同的
state 列来合并：


In [44]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AK,total,1990,553290.0,Alaska,656425.0
1,AK,under18,1990,177502.0,Alaska,656425.0
2,AK,total,1992,588736.0,Alaska,656425.0
3,AK,under18,1991,182180.0,Alaska,656425.0
4,AK,under18,1992,184878.0,Alaska,656425.0


再检查一下数据，看看哪些列还有缺失值，没有匹配上：

In [45]:
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

面积 area 列里面还有缺失值。来看看究竟是哪些地区面积缺失：

In [46]:
final['state'][final['area (sq. mi)'].isnull()].unique()

array(['United States'], dtype=object)

我们发现面积（areas）DataFrame 里面不包含全美国的面积数据。可
以插入全国总面积数据（对各州面积求和即可），但是针对本案例，我
们要去掉这个缺失值，因为全国的人口密度在此无关紧要：

In [47]:
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AK,total,1990,553290.0,Alaska,656425.0
1,AK,under18,1990,177502.0,Alaska,656425.0
2,AK,total,1992,588736.0,Alaska,656425.0
3,AK,under18,1991,182180.0,Alaska,656425.0
4,AK,under18,1992,184878.0,Alaska,656425.0


现在所有的数据都准备好了。为了解决眼前的问题，先选择 2000 年的
各州人口以及总人口数据。让我们用 query() 函数进行快速计算（这
需要用到 numexpr 程序库，详情请参见 3.13 节）：

In [48]:
data2010 = final.query("year == 2010 & ages == 'total'")
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
43,AK,total,2010,713868.0,Alaska,656425.0
51,AL,total,2010,4785570.0,Alabama,52423.0
141,AR,total,2010,2922280.0,Arkansas,53182.0
149,AZ,total,2010,6408790.0,Arizona,114006.0
197,CA,total,2010,37333601.0,California,163707.0


现在来计算人口密度并按序排列。首先对索引进行重置，然后再计算结
果：


In [49]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']

In [50]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

计算结果是美国各州加上华盛顿特区（Washington, DC）、波多黎各在  
2010 年的人口密度排序，以万人 / 平方英里为单位。我们发现人口密度  
最高的地区是华盛顿特区的哥伦比亚地区（the District of Columbia）。 
在各州的人口密度中，新泽西州（New Jersey）是最高的。  

还可以看看人口密度最低的几个州的数据：

In [51]:
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64

可以看出，人口密度最低的州是阿拉斯加（Alaska），刚刚超过 1 万人  
/ 平方英里。  
当人们用现实世界的数据解决问题时，合并这类脏乱的数据是十分常见  
的任务。希望这个案例可以帮你把前面介绍过的工具串起来，从而在数  
据中找到想要的答案 