# pandas的拼接操作

pandas的拼接分为两种：
- 级联：pd.concat, pd.append
- 合并：pd.merge

## 0. 回顾numpy的级联

============================================

练习12：

1. 生成2个3*3的矩阵，对其分别进行两个维度上的级联

============================================

In [2]:
import numpy as np

In [2]:
n1 = np.random.randint(0,150, size=(3,3))
n2 = np.random.randint(0,150, size=(3,3))
display(n1,n2)

array([[106, 110,  89],
       [ 79,  75,  10],
       [117,  77,  57]])

array([[128,  46,  67],
       [ 86, 135,   0],
       [130,  11, 105]])

In [3]:
# 垂直级联
np.concatenate((n1,n2))

array([[106, 110,  89],
       [ 79,  75,  10],
       [117,  77,  57],
       [128,  46,  67],
       [ 86, 135,   0],
       [130,  11, 105]])

In [4]:
# 水平方向
np.concatenate((n1,n2), axis=1)

array([[106, 110,  89, 128,  46,  67],
       [ 79,  75,  10,  86, 135,   0],
       [117,  77,  57, 130,  11, 105]])

In [5]:
# 垂直级联
np.vstack((n1,n2))

array([[106, 110,  89],
       [ 79,  75,  10],
       [117,  77,  57],
       [128,  46,  67],
       [ 86, 135,   0],
       [130,  11, 105]])

In [6]:
# 水平方向
np.hstack((n1,n2))

array([[106, 110,  89, 128,  46,  67],
       [ 79,  75,  10,  86, 135,   0],
       [117,  77,  57, 130,  11, 105]])

为方便讲解，我们首先定义一个生成DataFrame的函数：

In [3]:
import pandas as pd
from pandas import DataFrame, Series

In [8]:
# 传入行索引和列索引,返回一个DataFrame
def mk_df(inds, cols):
    data = {col: [col + str(i) for i in inds]  for col in cols}
    return DataFrame(data=data, index=inds, columns=cols)

In [9]:
mk_df([1,2,3,4], list('ABCD'))

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


## 1. 使用pd.concat()级联

pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：
```
objs
axis=0
join='outer'
join_axes=None
ignore_index=False
keys = [value1,value2...]
```

### 1)  简单级联

和np.concatenate一样，优先增加行数（默认axis=0）

In [10]:
df1 = mk_df([1,2,3,4], list('ABCD'))
df2 = mk_df([1,2,3,4], list('ABCD'))

In [11]:
display(df1,df2)

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [12]:
pd.concat((df1,df2))

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [13]:
# 忽略原索引,重新进行索引
pd.concat((df1,df2), ignore_index=True)

Unnamed: 0,A,B,C,D
0,A1,B1,C1,D1
1,A2,B2,C2,D2
2,A3,B3,C3,D3
3,A4,B4,C4,D4
4,A1,B1,C1,D1
5,A2,B2,C2,D2
6,A3,B3,C3,D3
7,A4,B4,C4,D4


可以通过设置axis来改变级联方向

In [15]:
pd.concat((df1,df2), axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3
4,A4,B4,C4,D4,A4,B4,C4,D4


级连会把该方向上索引相同的元素放在一行（一列），index/columns在级联时可以重复

In [None]:
pd.concat((df1,df2))

也可以选择忽略ignore_index，重新索引

或者使用多层索引 keys  

concat([x,y],keys=['x','y'])

In [17]:
# 通过keys可以给拼接起来的索引做一个说明.
pd.concat((df1,df2), keys=['df1', 'df2'])

Unnamed: 0,Unnamed: 1,A,B,C,D
df1,1,A1,B1,C1,D1
df1,2,A2,B2,C2,D2
df1,3,A3,B3,C3,D3
df1,4,A4,B4,C4,D4
df2,1,A1,B1,C1,D1
df2,2,A2,B2,C2,D2
df2,3,A3,B3,C3,D3
df2,4,A4,B4,C4,D4


============================================

练习13：

1. 想一想级联的应用场景？

2. 使用昨天的知识，建立一个期中考试张三、李四的成绩表ddd

3. 假设新增考试学科"计算机"，如何实现？

4. 新增王老五同学的成绩，如何实现？

============================================

In [19]:
data = np.random.randint(0,150,size=(4,4))
index = ['张三', '李四', '王五', '赵六']
columns = ['语文', '数学', '英语', 'python']
ddd = DataFrame(data=data,index=index, columns=columns)
ddd

Unnamed: 0,语文,数学,英语,python
张三,86,95,75,30
李四,124,92,63,80
王五,83,91,40,75
赵六,87,129,84,110


In [20]:
index = ['张三', '李四', '王五', '赵六']
temp = DataFrame(data=np.random.randint(0,150,size=4), columns=['计算机'], index=index)
temp

Unnamed: 0,计算机
张三,148
李四,70
王五,82
赵六,93


In [22]:
ddd = pd.concat((ddd, temp), axis=1)

In [23]:
ddd

Unnamed: 0,语文,数学,英语,python,计算机
张三,86,95,75,30,148
李四,124,92,63,80,70
王五,83,91,40,75,82
赵六,87,129,84,110,93


In [26]:
columns = ['语文', '数学', '英语', 'python', '计算机']
temp2 = DataFrame(data=np.random.randint(0,150,size=(1,5)), index=['王老五'], columns=columns)
temp2

Unnamed: 0,语文,数学,英语,python,计算机
王老五,144,101,48,126,7


In [35]:
ddd = pd.concat((ddd,temp2))

### 2) 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

In [28]:
df3 = mk_df([3,4,5,6], list('CDEF'))
df3

Unnamed: 0,C,D,E,F
3,C3,D3,E3,F3
4,C4,D4,E4,F4
5,C5,D5,E5,F5
6,C6,D6,E6,F6


In [30]:
pd.concat((df1,df3), sort=True)

Unnamed: 0,A,B,C,D,E,F
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
4,A4,B4,C4,D4,,
3,,,C3,D3,E3,F3
4,,,C4,D4,E4,F4
5,,,C5,D5,E5,F5
6,,,C6,D6,E6,F6


In [31]:
pd.concat((df1,df3), sort=True, axis=1)

Unnamed: 0,A,B,C,D,C.1,D.1,E,F
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,C3,D3,E3,F3
4,A4,B4,C4,D4,C4,D4,E4,F4
5,,,,,C5,D5,E5,F5
6,,,,,C6,D6,E6,F6


有3种连接方式：

- 外连接：补NaN（默认模式）

- 内连接：只连接匹配的项

In [32]:
# 内连接,只有匹配的索引才显示
pd.concat((df1,df3), sort=True, axis=1, join='inner')

Unnamed: 0,A,B,C,D,C.1,D.1,E,F
3,A3,B3,C3,D3,C3,D3,E3,F3
4,A4,B4,C4,D4,C4,D4,E4,F4


- 连接指定轴 join_axes

In [33]:
# 相当于左外连接
pd.concat((df1,df3), sort=True, axis=1, join_axes=[df1.index])

Unnamed: 0,A,B,C,D,C.1,D.1,E,F
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,C3,D3,E3,F3
4,A4,B4,C4,D4,C4,D4,E4,F4


In [34]:
# 右外连接
pd.concat((df1,df3), sort=True, axis=1, join_axes=[df3.index])

Unnamed: 0,A,B,C,D,C.1,D.1,E,F
3,A3,B3,C3,D3,C3,D3,E3,F3
4,A4,B4,C4,D4,C4,D4,E4,F4
5,,,,,C5,D5,E5,F5
6,,,,,C6,D6,E6,F6


============================================

练习14：

    假设【期末】考试ddd2的成绩没有张三的，只有李四、王老五、赵小六的，使用多种方法和上一题的ddd级联

============================================

In [36]:
ddd

Unnamed: 0,语文,数学,英语,python,计算机
张三,86,95,75,30,148
李四,124,92,63,80,70
王五,83,91,40,75,82
赵六,87,129,84,110,93
王老五,144,101,48,126,7


In [37]:
data = np.random.randint(0,150,size=(3,5))
index = [ '李四', '王老五', '赵小六']
columns = ['语文', '数学', '英语', 'python', '计算机']
ddd2 = DataFrame(data=data,index=index, columns=columns)
ddd2

Unnamed: 0,语文,数学,英语,python,计算机
李四,2,18,78,107,75
王老五,27,142,100,23,46
赵小六,106,76,41,106,88


In [38]:
ddd

Unnamed: 0,语文,数学,英语,python,计算机
张三,86,95,75,30,148
李四,124,92,63,80,70
王五,83,91,40,75,82
赵六,87,129,84,110,93
王老五,144,101,48,126,7


In [40]:
# 行级联
pd.concat((ddd, ddd2), keys=['ddd', 'ddd2'])

Unnamed: 0,Unnamed: 1,语文,数学,英语,python,计算机
ddd,张三,86,95,75,30,148
ddd,李四,124,92,63,80,70
ddd,王五,83,91,40,75,82
ddd,赵六,87,129,84,110,93
ddd,王老五,144,101,48,126,7
ddd2,李四,2,18,78,107,75
ddd2,王老五,27,142,100,23,46
ddd2,赵小六,106,76,41,106,88


In [43]:
pd.concat((ddd, ddd2), keys=['期中', '期末'], axis=1, sort=True)

Unnamed: 0_level_0,期中,期中,期中,期中,期中,期末,期末,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,python,计算机,语文,数学,英语,python,计算机
张三,86.0,95.0,75.0,30.0,148.0,,,,,
李四,124.0,92.0,63.0,80.0,70.0,2.0,18.0,78.0,107.0,75.0
王五,83.0,91.0,40.0,75.0,82.0,,,,,
王老五,144.0,101.0,48.0,126.0,7.0,27.0,142.0,100.0,23.0,46.0
赵六,87.0,129.0,84.0,110.0,93.0,,,,,
赵小六,,,,,,106.0,76.0,41.0,106.0,88.0


### 3) 使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加

In [44]:
ddd.append(ddd2)

Unnamed: 0,语文,数学,英语,python,计算机
张三,86,95,75,30,148
李四,124,92,63,80,70
王五,83,91,40,75,82
赵六,87,129,84,110,93
王老五,144,101,48,126,7
李四,2,18,78,107,75
王老五,27,142,100,23,46
赵小六,106,76,41,106,88


In [None]:
# append方法是DataFrame对象所拥有的pandas本身没有.
pd.append()

============================================

练习15：

    新建一个只有张三李四王老五的期末考试成绩单ddd3，使用append()与期中考试成绩表ddd级联

============================================

## 2. 使用pd.merge()合并

- 合并:需要依据某行或者列,也就说,需要某行或者某列中含有一模一样的数据

merge与concat的区别在于，merge需要依据某一共同的行或列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

###  1) 一对一合并

In [45]:
df1 = DataFrame({'name':['张三','李四','Chales'],'id':[1,2,3],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'id':[2,3,4],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,id,age
0,张三,1,22
1,李四,2,21
2,Chales,3,25


Unnamed: 0,sex,id,group
0,男,2,sale
1,男,3,search
2,女,4,service


In [46]:
pd.merge(df1, df2)

Unnamed: 0,name,id,age,sex,group
0,李四,2,21,男,sale
1,Chales,3,25,男,search


### 2) 多对一合并

In [47]:
df1 = DataFrame({'name':['张三','李四','Chales'],'id':[1,2,2],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'id':[2,3,4],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,id,age
0,张三,1,22
1,李四,2,21
2,Chales,2,25


Unnamed: 0,sex,id,group
0,男,2,sale
1,男,3,search
2,女,4,service


In [None]:
merge,即可用pd.merge,也可以df1.merge

In [48]:
df1.merge(df2)

Unnamed: 0,name,id,age,sex,group
0,李四,2,21,男,sale
1,Chales,2,25,男,sale


### 3) 多对多合并

In [49]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'sex':['男','男','女'],'name':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,sex,name,group
0,男,张三,sale
1,男,张三,search
2,女,凡凡,service


In [50]:
pd.merge(df1,df2)

Unnamed: 0,name,salary,age,sex,group
0,张三,10000,22,男,sale
1,张三,10000,22,男,search
2,张三,20000,25,男,sale
3,张三,20000,25,男,search


### 4) key的规范化

- 使用on=显式指定哪一列为key,当有多个key相同时使用

In [51]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'age':[21,18,29],'name':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,age,name,group
0,21,张三,sale
1,18,张三,search
2,29,凡凡,service


In [53]:
pd.merge(df1,df2, on='name', suffixes=['_df1', '_df2'])

Unnamed: 0,name,salary,age_df1,age_df2,group
0,张三,10000,22,21,sale
1,张三,10000,22,18,search
2,张三,20000,25,21,sale
3,张三,20000,25,18,search


- 使用left_on和right_on指定左右两边的列作为key，当左右两边的key都不相等时使用

In [54]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'年龄':[21,18,29],'名字':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,年龄,名字,group
0,21,张三,sale
1,18,张三,search
2,29,凡凡,service


In [55]:
pd.merge(df1,df2, left_on='name', right_on='名字')

Unnamed: 0,name,salary,age,年龄,名字,group
0,张三,10000,22,21,张三,sale
1,张三,10000,22,18,张三,search
2,张三,20000,25,21,张三,sale
3,张三,20000,25,18,张三,search


当左边的列和右边的index相同的时候,left_index：使用左则DataFrame中的行索引做为连接键
right_index：使用右则DataFrame中的行索引做为连接键

In [56]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'年龄':[21,18,29],'名字':['张三','张三','凡凡'],'group':['sale','search','service']},
                index = [22,21,25])
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,年龄,名字,group
22,21,张三,sale
21,18,张三,search
25,29,凡凡,service


In [57]:
pd.merge(df1, df2, left_on='age', right_index=True)

Unnamed: 0,name,salary,age,年龄,名字,group
0,张三,10000,22,21,张三,sale
1,李四,12000,21,18,张三,search
2,张三,20000,25,29,凡凡,service


============================================

练习16：

1. 假设有两份成绩单，除了ddd是张三李四王老五之外，还有ddd4是张三和赵小六的成绩单，如何合并？

2. 如果ddd4中张三的名字被打错了，成为了张十三，怎么办？

3. 自行练习多对一，多对多的情况  

4. 自学left_index,right_index

============================================

### 5) 内合并与外合并

- 内合并：只保留两者都有的key（默认模式）

In [58]:
df1 = DataFrame({'name':['张三','李四','张三'],'salary':[10000,12000,20000],'age':[22,21,25]})

df2 = DataFrame({'age':[21,18,29],'名字':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,salary,age
0,张三,10000,22
1,李四,12000,21
2,张三,20000,25


Unnamed: 0,age,名字,group
0,21,张三,sale
1,18,张三,search
2,29,凡凡,service


In [59]:
pd.merge(df1,df2,left_on='name', right_on='名字') 
# 默认是内连接 ,即显示匹配的内容,不匹配的内容不显示.

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000,22,21,张三,sale
1,张三,10000,22,18,张三,search
2,张三,20000,25,21,张三,sale
3,张三,20000,25,18,张三,search


- 外合并 how='outer'：补NaN

In [60]:
# 外合并会显示两张表的全部信息.
pd.merge(df1,df2,left_on='name', right_on='名字', how='outer') 

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000.0,22.0,21.0,张三,sale
1,张三,10000.0,22.0,18.0,张三,search
2,张三,20000.0,25.0,21.0,张三,sale
3,张三,20000.0,25.0,18.0,张三,search
4,李四,12000.0,21.0,,,
5,,,,29.0,凡凡,service


- 左合并、右合并：how='left'，how='right'，

In [61]:
# left左合并只显示左侧表的所有信息.
pd.merge(df1,df2,left_on='name', right_on='名字', how='left') 

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000,22,21.0,张三,sale
1,张三,10000,22,18.0,张三,search
2,李四,12000,21,,,
3,张三,20000,25,21.0,张三,sale
4,张三,20000,25,18.0,张三,search


In [62]:
# right 右合并,只显示右侧表的所有信息. 
pd.merge(df1,df2,left_on='name', right_on='名字', how='right') 

Unnamed: 0,name,salary,age_x,age_y,名字,group
0,张三,10000.0,22.0,21,张三,sale
1,张三,20000.0,25.0,21,张三,sale
2,张三,10000.0,22.0,18,张三,search
3,张三,20000.0,25.0,18,张三,search
4,,,,29,凡凡,service


============================================

练习17：



1. 考虑应用情景，使用多种方式合并ddd与ddd4

============================================

### 6) 列冲突的解决

当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名

In [63]:
#期中
df1 = DataFrame({'name':['张三','李四','张三'],'degree':[120,118,149],'age':[22,21,25]})

#期末考试
df2 = DataFrame({'degree':[99,97,129],'name':['张三','张三','凡凡'],'group':['sale','search','service']})
display(df1,df2)

Unnamed: 0,name,degree,age
0,张三,120,22
1,李四,118,21
2,张三,149,25


Unnamed: 0,degree,name,group
0,99,张三,sale
1,97,张三,search
2,129,凡凡,service


In [67]:
pd.merge(df1,df2,on='name', suffixes=['_df1','_df2'])

Unnamed: 0,name,degree_df1,age,degree_df2,group
0,张三,120,22,99,sale
1,张三,120,22,97,search
2,张三,149,25,99,sale
3,张三,149,25,97,search


可以使用suffixes=自己指定后缀

============================================

练习18：

    假设有两个同学都叫李四，ddd5、ddd6都是张三和李四的成绩表，如何合并？

============================================

In [68]:
index = ['语文', '数学', '英语']
columns = ['张三', '李四']
data = np.random.randint(0,150, size=(3,2))
ddd5 = DataFrame(data=data, index=index, columns=columns)
ddd5

Unnamed: 0,张三,李四
语文,63,59
数学,6,69
英语,129,144


In [69]:
index = ['语文', '数学', '英语']
columns = ['张三', '李四']
data = np.random.randint(0,150, size=(3,2))
ddd6 = DataFrame(data=data, index=index, columns=columns)
ddd6

Unnamed: 0,张三,李四
语文,109,93
数学,53,77
英语,144,132


In [70]:
# 虽然有了相同的列名,但是里面的数据不一样,没有办法进行合并.
# 改数据
ddd6['张三'] = ddd5['张三']

In [71]:
display(ddd5, ddd6)

Unnamed: 0,张三,李四
语文,63,59
数学,6,69
英语,129,144


Unnamed: 0,张三,李四
语文,63,93
数学,6,77
英语,129,132


In [72]:
# 可以合并
pd.merge(ddd5,ddd6, on='张三', suffixes=['_ddd5', '_ddd6'])

Unnamed: 0,张三,李四_ddd5,李四_ddd6
0,63,59,93
1,6,69,77
2,129,144,132


## 作业
## 3. 案例分析：美国各州人口数据分析

作业知识补充

In [73]:
# unique() 去重函数
s = Series(['Tom','Lucy','Tom','dancer','Lucy'])

In [74]:
s

0       Tom
1      Lucy
2       Tom
3    dancer
4      Lucy
dtype: object

In [75]:
# 可以去除Series中的重复数据.
s.unique()

array(['Tom', 'Lucy', 'dancer'], dtype=object)

In [76]:
n = DataFrame({'name':['Tom','Lucy','Tom','dancer','Lucy'],'age':[12,13,12,11,15]})
n

Unnamed: 0,name,age
0,Tom,12
1,Lucy,13
2,Tom,12
3,dancer,11
4,Lucy,15


In [1]:
# query 条件查询函数
n.query("name == 'Lucy' & age>14")  

NameError: name 'n' is not defined

In [78]:
# 列名不要加引号, 相等判断是用两个等于号, 值要加引号,一班是单引号
# 如果有多个条件,用& 或者and
# query是专门用来在DataFrame中根据条件查询数据的.
n.query("name=='Lucy' and age>14")
# 返回的结果还是一个DataFrame


Unnamed: 0,name,age
4,Lucy,15


首先导入文件，并查看数据样本

In [7]:
s_abb = pd.read_csv('../data/state-abbrevs.csv')
s_abb.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


In [5]:
s_pop = pd.read_csv('../data/state-population.csv')
s_pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [6]:
s_ares = pd.read_csv('../data/state-areas.csv')
s_ares.head()

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


合并pop与abbrevs两个DataFrame，分别依据state/region列和abbreviation列来合并。

为了保留所有信息，使用外合并。

去除abbreviation的那一列（axis=1）

查看存在缺失数据的列。

使用.isnull().any()，只有某一列存在一个缺失数据，就会显示True。

查看缺失数据

根据数据是否缺失情况显示数据，如果缺失为True，那么显示

找到有哪些state/region使得state的值为NaN，使用unique()查看非重复值

为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN！

记住这样清除缺失数据NaN的方法！

合并各州面积数据areas，使用左合并。

思考一下为什么使用外合并？



继续寻找存在缺失数据的列

我们会发现area(sq.mi)这一列有缺失数据，为了找出是哪一行，我们需要找出是哪个state没有数据

去除含有缺失数据的行

查看数据是否缺失

找出2010年的全民人口数据,df.query(查询语句)

对查询结果进行处理，以state列作为新的行索引:set_index

计算人口密度。注意是Series/Series，其结果还是一个Series。

排序，并找出人口密度最高的五个州sort_values()

找出人口密度最低的五个州

要点总结：
- 统一用loc()索引
- 善于使用.isnull().any()找到存在NaN的列
- 善于使用.unique()确定该列中哪些key是我们需要的
- 一般使用外合并、左合并，目的只有一个：宁愿该列是NaN也不要丢弃其他列的信息

## 回顾：Series/DataFrame运算与ndarray运算的区别

- Series与DataFrame没有广播，如果对应index没有值，则记为NaN；或者使用add的fill_value来补缺失值
- ndarray有广播，通过重复已有值来计算