# pandas入门
> pandas和numpy最大的不同：
- pandas是用来处理表格型或异质型数据的
- numpy更适合处理同质型的数值类数组数据

In [1]:
import pandas as pd

In [30]:
from pandas import Series, DataFrame

## pandas数据结构介绍
两个常用的工具数据结构：
- Series
    - 是一种一维的数组型对象，它包含了一个值序列，并且包含了数据标签，称为索引(index)
- DataFrame


### Series

In [3]:
# 最简单的序列可以仅仅由一个数组组成
obj = pd.Series([4, 7, -5, 3])

In [4]:
# Series的字符串表示：索引在左边，值在右边
# 默认生成的索引是从0到N-1（N是数据的长度）
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
# 可以通过values属性和index属性分别获取Series对象的值和索引
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
# 通常需要创建一个索引序列，用标签标识每个数据点
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [8]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
# 与numpy的数组相比，可以在从数据中选择数据的时候使用标签来进行索引
obj2['a']

-5

In [12]:
obj2['d'] = 6

In [13]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [14]:
# 使用numpy的函数或numpy风格的操作，
# 比如使用布尔值数组进行过滤，与标量相乘，或是应用数学函数，这些操作将保存索引值连接
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [15]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [18]:
import numpy as np

# np.exp()函数：求e的幂次方
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [19]:
# 另一个角度考虑Series，可以认为它是一个长度固定且有序的字典
# 因为它将索引值和数据值按位置配对
# 可以使用字典的上下文中，也可以使用Series
'b' in obj2

True

In [20]:
'e' in obj2

False

In [33]:
# 如果由数据包含在python字典中，可以使用字典生成一个Series
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon':16000, 'Utah': 5000}
obj3 = pd.Series(sdata)

In [22]:
# 当把字典传递给Series构造函数时，产生的Series的索引将时排好序的字典键
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [34]:
# 可以将字典键按照想要的顺序传递给构造函数，从而生成的Series的索引顺序符合预期
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)

In [24]:
# pandas中标记缺失值或NA值的方式是NAN
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [25]:
# pandas中使用isnull和notnull函数来检查缺失数据
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [26]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [27]:
# isnull 和 notnull 也是Series的实例方法
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
# 数学操作中自动对齐索引是Series的一个非常有用的特性
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [29]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [30]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [33]:
# Series对象自身和其索引都有name属性
obj4.name = 'population'
obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [34]:
# Series的索引可以通过按位置赋值的方式进行改变
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [35]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [36]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame
> DataFrame表示的是矩阵的数据表
- 它包含已排序的列集合，每一列可以是不同的值类型（数据值、字符串、布尔值）
- DataFrame既有行索引也有列索引，
- 可以被视为一个共享相同索引的Series的字典
- 在DataFrame中，数据被存储为一个以上的二维块，而不是列表、字典或其他一维数组的集合
- 尽管DataFrame是二维的，但可以利用分层索引在DataFrame中展现更高维度的数据

In [38]:
# 构建DataFrame
# 最常用的方式是利用包含等长度列表或numpy数组的字典来形成DataFrame
# 产生的DataFrame会自动为Series分配索引，并且列会按照排序的顺序排列
data = {
       'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
       }
frame = pd.DataFrame(data)

In [39]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [40]:
# 对于大型DataFrame，head方法将会只选出头部的五行
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [41]:
# 如果指定了列的顺序，DataFrame的列将会按照指定顺序排列
pd.DataFrame(data, columns=['pop', 'state', 'year'])

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [43]:
# 如果传入的列不包含在字典中，将会在结果中出现缺失值
frame2 = pd.DataFrame(data, 
                      columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

In [44]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [45]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [46]:
# DataFrame中的一列，可以按字典型标记或属性那样检索为Series
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [47]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [48]:
# 行可以通过位置或特殊属性loc进行选取
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [49]:
# 列的引用时可以修改的
# 如：debt 列可以赋值为标量值或值数组
frame2['debt'] = 16.5

In [50]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [52]:
frame2['debt'] = np.arange(6)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4
six,2003,Nevada,3.2,5


In [53]:
# 当将列表或数组赋值给一个列时，值的长度必须和DataFrame的长度相匹配
# 如果将Series赋值给一列时，Series的索引将会按照DataFrame的索引重新排列，
# 并在空缺的地方填充缺失值
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [54]:
# 如果被赋值的列并不存在，则会生成一个新的列
# del关键字可以像在字典中那样对DataFrame删除列
# 新增一列bool值，判断条件是state列是否为'Ohio'
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [55]:
# del方法可以用于移除之前新建的列
del frame2['eastern']

In [56]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [10]:
# 从DataFrame中选取的列是数据的视图，而不是拷贝。
# 因此，对Series的修改会映射到DataFrame中。
# 如果需要复制，则应当显式地使用Series的copy方法
# 另一种常用的数据形式是包含字典的嵌套字典
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
      'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [11]:
# 如果嵌套字典被赋值给DataFrame，pandas会将字典的键作为列，内部字典的键作为行索引
frame3 = pd.DataFrame(pop)

In [12]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [61]:
# 可以使用类似numpy的语法对DataFrame进行转置操作
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [62]:
# 内部字典的键被联合、排序后形成了结果的索引
# 如果已经显示指明索引的话，内部字典的键将不会被排序
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [63]:
# 包含Series的字典也可以用于构造DataFrame
pdata = {'Ohio': frame3['Ohio'][:-1], 
        'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [13]:
# 如果DataFrame的索引和列拥有name属性，则这些name属性也会被显示：
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [65]:
# 和Series类似，DataFrame的values属性将包含在DataFrame中的数据以二维ndarray的形式返回
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [66]:
# 如果DataFrame的列是不同的dtypes，则values的dtype会自动选择适合所偶列的类型
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 索引对象
> pandas中的索引对象是用于存储轴标签和其他元数据的（例如轴名称或标签）
- 在构造Series或DataFrame时，所使用的任意数组或标签序列都可以在内部转换为索引对象

In [1]:
import pandas as pd

In [2]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [3]:
index[1:]

Index(['b', 'c'], dtype='object')

> - 索引对象是不可变的，因此无法修改索引对象

In [4]:
index[1] = 'd'

TypeError: Index does not support mutable operations

> - 不变性使得在多种数据结构中分享索引对象更为安全

In [2]:
import numpy as np
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [7]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [8]:
obj2.index is labels

True

> - 除了类似数组，索引对象也可以是一个固定大小的集合

In [14]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [15]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [16]:
'Ohio' in frame3.columns

True

In [19]:
2003 in frame3.index

False

> - pandas索引对象可以包含重复标签
- 根据重复标签进行筛选，会选取所有重复标签对应的数据

In [20]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## 基本功能
### 重建索引
> - reindex是pandas对象的重要方法
    - 该方法用于创建一个符合新索引的新对象

In [22]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

> - Series调用reindex方法时，会将数据按照新的索引进行排列，如果某个索引值之前并不存在，则会引入缺失值

In [23]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

> - 对于顺序数据，比如时间序列，在重建索引时可能会需要进行插值或填值
- method可选参数允许使用诸如ffill等方法在重建索引时插值，ffill方法会将值前向填充

In [25]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [26]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

> - 在DataFrame中，reindex可以改变行索引、列索引，也可以同时改变二者。
- 当仅传入一个序列时，结果中的行会重建索引

In [12]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), 
                    index=['a', 'c', 'd'],
                    columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [13]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


> - 列可以使用columns关键字重建索引

In [23]:
states = ['Texas', 'Utah', 'California']
frame = frame.reindex(columns=states)

> - 可以使用loc进行更为简洁的标签索引

In [32]:
frame = frame.reindex(['a', 'b', 'c', 'd'])

In [33]:
frame

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [34]:
states

['Texas', 'Utah', 'California']

In [35]:
frame.loc[['a', 'b', 'c', 'd'], states]

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


### 轴向上删除条目
> 如果已经拥有索引数组或不含条目的列表，在轴向上删除一个或更多的条目就非常容易。但这样需要一些数据操作和集合逻辑
- drop方法会返回一个含有指示值或轴向上删除值的新对象

In [36]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [37]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [38]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

> 在DataFrame中，索引值可以从轴向上删除

In [39]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [40]:
# 在调用drop时使用标签序列会根据行标签删除值（轴0）
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [43]:
# 可以通过传递axis=1或axis='columns'来从列中删除值
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [44]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [45]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [46]:
# 很多函数，如drop，会修改Series或DaraFrame的尺寸或形状，这些方法直接操作原对象而不返回新对象
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [47]:
# inplace属性会清除被删除的数据
obj.drop('c', inplace=True)

In [48]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### 索引、选择与过滤
> - Series的索引（obj[...]）与Numpy数组索引的功能类似
- 只不过Series的索引值可以不仅仅时整数

In [49]:
obj = pd.Series(np.arange(4), index=['a', 'b', 'c', 'd'])
obj

a    0
b    1
c    2
d    3
dtype: int32

In [50]:
obj['b']

1

In [51]:
obj[1]

1

In [52]:
obj[2:4]

c    2
d    3
dtype: int32

In [53]:
obj[['b', 'a', 'd']]

b    1
a    0
d    3
dtype: int32

In [54]:
obj[[1, 3]]

b    1
d    3
dtype: int32

In [55]:
obj[obj<2]

a    0
b    1
dtype: int32

In [56]:
# 普通的python切片是不包含尾部的，Series的切片与之不同
obj['b':'c']

b    1
c    2
dtype: int32

In [57]:
# 使用这些方法设值会修改Series相应的部分
obj['b':'c'] = 5

In [58]:
obj

a    0
b    5
c    5
d    3
dtype: int32

In [60]:
# 使用单个值或序列，可以从DataFrame中索引出一个或多个列
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [61]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [62]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [63]:
# 这种索引方式也有特殊案例
# 首先，可以根据一个布尔值数组切片或选择数据
data[: 2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [64]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 使用loc和iloc选择数据
> 针对DataFrame在行上的标签索引，介绍特殊的索引符号loc和iloc
- 它们允许你使用轴标签（loc）或者整数标签（iloc）以numpy风格的语法从DataFrame中选出数组的行和列的子集

In [65]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [66]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [67]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [68]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [69]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [71]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [70]:
# 除了单个标签或标签列表之外，索引功能还可以用于切片
data.loc[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [72]:
data.iloc[:, :3]

Unnamed: 0,one,two,three
Ohio,0,1,2
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [73]:
data.iloc[:, :3][data.three>5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


### 整数索引
> 在pandas对象上使用整数索引对新用户来说经常会产生歧义，这是因为它和在列表、元组等python内建数据结构上进行索引有写不同

In [76]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [78]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

> - 为了保持一致性，如果你有一个包含整数的轴索引，数据选择时请始终使用标签索引
- 为了更加精确的处理，可以使用loc(用于标签)或iloc(用于整数)

In [79]:
ser[: 1]

0    0.0
dtype: float64

In [80]:
ser.loc[: 1]

0    0.0
1    1.0
dtype: float64

In [81]:
ser.iloc[:1]

0    0.0
dtype: float64

### 算术和数据对齐
> 不同索引的对象之间的算术行为是pandas提供给一些应用的一项重要特性
- 当将对象相加时，如果存在某个索引对不相同，则返回结果的索引将时索引对的并集
- 对数据库用户来说，这个特性类似于索引标签的自动外连接

In [82]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [83]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [84]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [85]:
# 将这些对象相加会产生：
# 没有交叠的标签位置上，内部数据对齐会产生缺失值。缺失值在后续的算术操作上会产生影响
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [86]:
# 在DataFrame的示例中，行和列上都会执行对齐
df1 = pd.DataFrame(np.arange(9).reshape((3, 3)),
                  columns=list('bcd'),
                  index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12).reshape((4, 3)),
                  columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [87]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [88]:
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [90]:
# 将这些对象加在一起，返回一个DataFrame，它的索引、列是每个DataFrame的索引、列的并集
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [92]:
# 如果将两个行或列完全不同的DataFrame对象相加，结果全部为空
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})

In [93]:
df1

Unnamed: 0,A
0,1
1,2


In [94]:
df2

Unnamed: 0,B
0,3
1,4


In [95]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


#### 使用填充值的算术方法
> 在两个不同的索引化对象之间进行算术操作时，可能会想要使用特殊填充值，
- 比如，当轴标签在一个对象中存在，在另一个对象中不存在时，想将缺失值填充为0

In [96]:
df1 = pd.DataFrame(np.arange(12).reshape((3, 4)),
                  columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20).reshape((4, 5)),
                  columns=list('abcde'))

In [97]:
df2.loc[1, 'b'] = np.nan

In [98]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [99]:
df2

Unnamed: 0,a,b,c,d,e
0,0,1.0,2,3,4
1,5,,7,8,9
2,10,11.0,12,13,14
3,15,16.0,17,18,19


In [100]:
# 将这些df添加到一起会导致在一些不重叠的位置出现NaN值
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [101]:
# 在df1上使用add方法，将df2和一个fill_value作为参数传入
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
# Series和DataFrame的算术方法