In [20]:
import pandas as pd
import numpy as np

In [2]:
from pandas import Series,DataFrame

#### series 是一种类似与一维数组的对象，他有一维数组（numpy）和一维数组的标签组成，仅有一维数组就可以产生最简单的series

In [4]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

#### series的字符串表现形式为：索引在左边，值在右边，由于我们没有为数据指定索引，于是会自动创建一个0到n-1的整数索引，你可以通过series的value 和 index 进行索引

In [5]:
obj.values

array([ 4,  7, -5,  3])

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

#### 通常我们希望所创建的series带有一个可以对各个数据点进行标记的索引

In [7]:
obj2 = pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

#### 与普通numpy相比，你可以通过索引的方式选取series中的单个或一组值：

In [9]:
obj2['a']

-5

In [16]:
obj2[['c','a']] #需要加两个「」

c    3
a   -5
dtype: int64

In [17]:
obj2[obj2>0]

d    4
b    7
c    3
dtype: int64

In [18]:
obj2*2

d     8
b    14
a   -10
c     6
dtype: int64

In [21]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [22]:
'b' in obj2

True

#### 如果数据存放在一个Python字典中，也可以直接通过这个字典来建立

In [23]:
sdata = {'Ohio':3500,'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)
obj3

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [25]:
states = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata,index=states)
obj4

California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### 在这个例子中，sdata 中跟 states 索引相匹配的那 3 个值会被找出来并放到相 应的位置上，但由于"California"所对应的 sdata 值找不到，所以其结果就为 NaN(即“非数字”(not a number)，在 pandas 中，它用于表示缺失或 NA 值)。因为‘Utah’不在 states 中，它被从结果中除去。


##### 我将使用缺失(missing)或 NA 表示缺失数据。pandas 的 isnull 和 notnull 函数可用于检测缺失数据:

In [26]:
pd.isnull(obj4)


California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [29]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

#### 也有类似的方法

In [30]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

#### series最重要的一个功能是，他会根据运动的索引标签自动对齐数据

In [31]:
obj3 + obj4

California         NaN
Ohio            7000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

#### series 本身有一个及其有一个name属性

In [32]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio           3500.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

#### Series 的索引可以通过赋值的方式就地修改:

In [33]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [34]:
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

#### DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同 的值类型(数值、字符串、布尔值等)。DataFrame 既有行索引也有列索引， 它可以被看做由 Series 组成的字典(共用同一个索引)。DataFrame 中的数据 是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。有 关 DataFrame 内部的技术细节远远超出了本书所讨论的范围。建 DataFrame 的办法有很多，最常用的一种是直接传入一个由等长列表或 NumPy 数组组成的字典:


In [37]:
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002,2003],
       'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


#### 对于特别大的 DataFrame，head 方法会选取前五行:

#### 如果指定了列序列，则 DataFrame 的列就会按照指定顺序进行排列:

In [38]:
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


#### 如果传入的列在数据中找不到，就会在结果中产生缺失值:

In [39]:
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five','six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [40]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

#### 通过类似字典标记的方式或属性的方式，可以将 DataFrame 的列获取为一个series

In [42]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [43]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

#### 行也可以通过位置或名称的方式进行获取，比如用 loc 属性(稍后将对此进行 详细讲解):


In [44]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

#### 列可以通过赋值的方式进行修改。例如，我们可以给那个空的"debt"列赋上一 个标量值或一组值:


In [45]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [47]:
frame2['debt'] = np.arange(6)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4
six,2003,Nevada,3.2,5


#### 将列表或数组赋值给某个列时，其长度必须跟 DataFrame 的长度相匹配。如果 赋值的是一个 Series，就会精确匹配 DataFrame 的索引，所有的空位都将被填 上缺失值:


In [48]:
val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


#### 为不存在的列赋值会创建出一个新列。关键字 del 用于删除列。作为 del 的例子，我先添加一个新的布尔值的列，state 是否为'Ohio': 

In [49]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


#### 注意不能用 frame2.eastern 进行创建

#### del 方法可以用来删除这列

In [51]:
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


#### 注意:通过索引方式返回的列只是相应数据的视图而已，并不是副本。因此， 对返回的 Series 所做的任何就地修改全都会反映到源 DataFrame 上。通过 Series 的 copy 方法即可指定复制列。另一种常见的数据形式是嵌套字典:

In [52]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
....:        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}


#### 如果嵌套字典传给 DataFrame，pandas 就会被解释为:外层字典的键作为列， 内层键则作为行索引:


In [54]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


#### 你也可以使用类似 NumPy 数组的方法，对 DataFrame 进行转置(交换行和 列):


In [55]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


#### 内层字典的键会被合并、排序以形成最终索引。如果明确指定了索引则不会这样

In [57]:
pd.DataFrame(pop,index=[2001,2002,2003])


Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


#### 由 Series 组成的字典差不多也是一样的用法:

In [60]:
pdata = {'Ohio': frame3['Ohio'][:-1],
....:          'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [61]:
obj = pd.Series(range(3),index=['a','b','c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [62]:
index[1:]

Index(['b', 'c'], dtype='object')

#### Index 对象是不可变的，因此用户不能对其进行修改:

In [63]:
index[1] = 'd'

TypeError: Index does not support mutable operations

#### 不可变可以使 Index 对象在多个数据结构之间安全共享:

In [64]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [65]:
obj2= pd.Series([1.5,-2.5,0],index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [67]:
obj2.index is labels

True

#### 虽然用户不需要经常使用index的功能，但是因为一些操作会生成包含呗索引化的数据，理解他们的工作原理是非常重要的，除了类似于数组，Index 的功能也类似一个固定大小的集合:

In [68]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [70]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object')

In [71]:
'Ohio' in frame3.columns

True

In [72]:
2003 in frame3.index

False

#### 与 python 的集合不同，pandas 的 Index 可以包含重复的标签:

In [74]:
dup_labels = pd.Index(['foo','foo','bar','bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

#### 每个索引都有一些方法和属性，它们可用于设置逻辑并回答有关该索引所包含 的数据的常见问题

#### 本节中，我将介绍操作 Series 和 DataFrame 中的数据的基本手段。后续章节将 更加深入地挖掘 pandas 在数据分析和处理方面的功能。本书不是 pandas 库的 详尽文档，主要关注的是最重要的功能，那些不大常用的内容(也就是那些更 深奥的内容)就交给你自己去摸索吧。

#### pandas 对象的一个重要方法是 reindex，其作用是创建一个新对象，它的数据 符合新的索引。看下面的例子:

In [75]:
obj = pd.Series([4.5,7.2,-5.3,3.6],index = ['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

#### 用该 Series 的 reindex 将会根据新索引进行重排。如果某个索引值当前不存 在，就引入缺失值:


In [77]:
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

#### 对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method 选项即可达到此目的，例如，使用 ffill 可以实现前向值填充:

In [78]:
obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [81]:
obj3.reindex(range(6),method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

#### 借助 DataFrame，reindex 可以修改(行)索引和列。只传递一个序列时，会重 新索引结果的行:

In [82]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
   ....:                      index=['a', 'c', 'd'],
   ....:                      columns=['Ohio', 'Texas',
'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [83]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


#### 列可以用 columns 关键字重新索引:

In [84]:
states = ['Texas','Utah','California']
frame.reindex(columns = states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


####  丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于 需要执行一些数据整理和集合逻辑，所以 drop 方法返回的是一个在指定轴上删 除了指定值的新对象:


In [85]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd',
'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [86]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [88]:
obj.drop(['a','b'])

c    2.0
d    3.0
e    4.0
dtype: float64

#### 对于 DataFrame，可以删除任意轴上的索引值。为了演示，先新建一个 DataFrame 例子:

In [90]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
   .....:                     index=['Ohio', 'Colorado', 'Utah', 'NewYork'],
   .....:                     columns=['one', 'two', 'three','four'])
data                                     

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
NewYork,12,13,14,15


#### 用标签序列调用 drop 会从行标签(axis 0)删除值:

In [91]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
NewYork,12,13,14,15


#### 通过传递 axis=1 或 axis='columns'可以删除列的值:

In [92]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
NewYork,12,14,15


In [93]:
data.drop(['two','four'],axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
NewYork,12,14


#### 许多函数，如 drop，会修改 Series 或 DataFrame 的大小或形状，可以就地修 改对象，不会返回新的对象:

In [95]:
obj.drop('c',inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

#### Series 索引(obj[...])的工作方式类似于 NumPy 数组的索引，只不过 Series 的索引值不只是整数。下面是几个例子:


In [96]:
obj = pd.Series(np.arange(4.),index = ['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [97]:
obj['b']

1.0

In [98]:
obj[1]

1.0

In [99]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [100]:
obj[obj>2]

d    3.0
dtype: float64

#### 利用标签的切片运算与普通的 Python 切片运算不同，其末端是包含的:

In [101]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

#### 用切片可以对 Series 的相应部分进行设置:

In [102]:
obj['b':'c']= 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

#### 用一个值或序列对 DataFrame 进行索引其实就是获取一个或多个列:

In [103]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
   .....:                     index=['Ohio', 'Colorado', 'Utah', 'NewYork'],
   .....:                     columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
NewYork,12,13,14,15


In [104]:
data['two']

Ohio         1
Colorado     5
Utah         9
NewYork     13
Name: two, dtype: int64

#### 这种索引方式有几个特殊的情况。首先通过切片或布尔型数组选取数据:

In [105]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [106]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
NewYork,12,13,14,15


#### 选取行的语法 data[:2]十分方便。向[ ]传递单一的元素或列表，就可选择 列

#### 另一种用法是通过布尔型 DataFrame(比如下面这个由标量比较运算得出的) 进行索引:


In [107]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
NewYork,False,False,False,False


In [109]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
NewYork,12,13,14,15


#### 这使得 DataFrame 的语法与 NumPy 二维数组的语法很像。

#### 对于 DataFrame 的行的标签索引，我引入了特殊的标签运算符 loc 和 iloc。它 们可以让你用类似 NumPy 的标记，使用轴标签(loc)或整数索引(iloc)，从 DataFrame 选择行和列的子集。


#### 作为一个初步示例，让我们通过标签选择一行和多列:

In [110]:
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

#### 然后用 iloc 和整数进行选取:

In [111]:
data.iloc[2,[3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [112]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [113]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


#### 这两个索引函数也适用于一个或者多个标签

In [114]:
data.loc[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [116]:
data.iloc[:,:3][data.three>5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
NewYork,12,13,14


#### 所以，在 pandas 中，有多个方法可以选取和重新组合数据。对于 DataFrame， 表 5-4 进行了总结。后面会看到，还有更多的方法进行层级化索引。笔记:在一开始设计 pandas 时，我觉得用 frame[:, col]选取列过于繁琐(也 容易出错)，因为列的选择是非常常见的操作。我做了些取舍，将花式索引的 功能(标签和整数)放到了 ix 运算符中。在实践中，这会导致许多边缘情况， 数据的轴标签是整数，所以 pandas 团队决定创造 loc 和 iloc 运算符分别处理 严格基于标签和整数的索引。ix 运算符仍然可用，但并不推荐。

#### 处理整数索引的 pandas 对象常常难住新手，因为它与 Python 内置的列表和元 组的索引语法不同。例如，你可能不认为下面的代码会出错:


In [118]:
ser = pd.Series(np.arange(3.))


In [119]:
ser2 = pd.Series(np.arange(3.),index = ['a','b','c'])
ser2[-1]

2.0

#### 为了进行统一，如果轴索引含有整数，数据选取总会使用标签。为了更准确， 请使用 loc(标签)或 iloc(整数):

In [120]:
ser[:1]

0    0.0
dtype: float64

In [121]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [122]:
ser.iloc[:1]

0    0.0
dtype: float64

#### pandas 最重要的一个功能是，它可以对不同索引的对象进行算术运算。在将对 象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。对于 有数据库经验的用户，这就像在索引标签上进行自动外连接。看一个简单的例 子:


In [123]:
s1 = pd.Series([7.3,-2.5,3.4,1.5],index = ['a','c','d','e'])
s2 = pd.Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [124]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [125]:
s1 + s2


a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

#### 自动的数据对齐操作在不重叠的索引处引入了 NA 值。缺失值会在算术运算过程 中传播。



#### 对于 DataFrame，对齐操作会同时发生在行和列上:

In [130]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)),columns=list('bcd'),
   .....:                    index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
columns=list('bde'),
   .....:                    index=['Utah', 'Ohio', 'Texas','Oregon'])
df1
#df2

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [131]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


#### 因为'c'和'e'列均不在两个 DataFrame 对象中，在结果中以缺省值呈现。行也 是同样。

#### 如果 DataFrame 对象相加，没有共用的列或行标签，结果都会是空: 

In [132]:
df1 = pd.DataFrame({'A':[1,2]})
df1

Unnamed: 0,A
0,1
1,2


In [133]:
df2 = pd.DataFrame({'B': [3, 4]})
df2

Unnamed: 0,B
0,3
1,4


In [134]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


#### 在对不同索引的对象进行算术运算时，你可能希望当一个对象中某个轴标签在 另一个对象中找不到时填充一个特殊值(比如 0):


In [135]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),
.....:             columns=list('abcd'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [136]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
   .....:                    columns=list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


#### 将它们相加时，没有重叠的位置就会产生 NA 值:

In [137]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


#### 使用 df1 的 add 方法，传入 df2 以及一个 fill_value 参数:

In [138]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


#### 跟不同维度的 NumPy 数组一样，DataFrame 和 Series 之间算术运算也是有明确 规定的。先来看一个具有启发性的例子，计算一个二维数组与其某行之间的 差

In [139]:
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [140]:
arr[0]

array([0., 1., 2., 3.])

In [141]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

#### 当我们从 arr 减去 arr[0]，每一行都会执行这个操作。这就叫做广播 (broadcasting)，附录 A 将对此进行详细讲解。DataFrame 和 Series 之间的 运算差不多也是如此:


In [145]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
   .....:                      columns=list('bde'),
   .....:                      index=['Utah', 'Ohio', 'Texas',
'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [144]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

#### 默认情况下，DataFrame 和 Series 之间的算术运算会将 Series 的索引匹配到 DataFrame 的列，然后沿着行一直向下广播:


In [146]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


#### 如果某个索引值在 DataFrame 的列或 Series 的索引中找不到，则参与运算的两 个对象就会被重新索引以形成并集:


In [148]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


#### 如果你希望匹配行且在列上广播，则必须使用算术运算方法。例如:

In [149]:
series3 = frame['d']
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [150]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [151]:
frame.sub(series3,axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


#### 传入的轴号就是希望匹配的轴。在本例中，我们的目的是匹配 DataFrame 的行 索引(axis='index' or axis=0)并进行广播。


#### NumPy 的 ufuncs(元素级数组方法)也可用于操作 pandas 对象:

In [153]:
frame = pd.DataFrame(np.random.randn(4, 3),
columns=list('bde'),index=['Utah', 'Ohio', 'Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-1.423253,-0.949861,-1.439958
Ohio,-0.043834,-0.921897,0.255899
Texas,-0.280696,-0.078022,0.983191
Oregon,1.158573,0.374018,0.531713


In [154]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.423253,0.949861,1.439958
Ohio,0.043834,0.921897,0.255899
Texas,0.280696,0.078022,0.983191
Oregon,1.158573,0.374018,0.531713


#### 另一个常见的操作是，将函数应用到由各列或行所形成的一维数组上。 DataFrame 的 apply 方法即可实现此功能:

In [155]:
f = lambda x:x.max()-x.min()
frame.apply(f)

b    2.581826
d    1.323878
e    2.423149
dtype: float64

#### 这里的函数 f，计算了一个 Series 的最大值和最小值的差，在 frame 的每列都 执行了一次。结果是一个 Series，使用 frame 的列作为索引。如果传递 axis='columns'到 apply，这个函数会在每行执行:

In [156]:
frame.apply(f,axis='columns')

Utah      0.490097
Ohio      1.177796
Texas     1.263887
Oregon    0.784556
dtype: float64

#### 许多最为常见的数组统计功能都被实现成 DataFrame 的方法(如 sum 和 mean)，因此无需使用 apply 方法。


#### 传递到 apply 的函数不是必须返回一个标量，还可以返回由多个值组成的 Series:


In [157]:
def f(x): return pd.Series([x.min(), x.max()], index=['min','max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.423253,-0.949861,-1.439958
max,1.158573,0.374018,0.983191


#### apply函数是`pandas`里面所有函数中自由度最高的函数。该函数如下：DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)    该函数最有用的是第一个参数，这个参数是函数，相当于C/C++的函数指针。
这个函数需要自己实现，函数的传入参数根据axis来定，比如axis = 1，就会把一行数据作为Series的数据
结构传入给自己实现的函数中，我们在函数中实现对Series不同属性之间的计算，返回一个结果，则apply函数
会自动遍历每一行DataFrame的数据，最后将所有结果组合成一个Series数据结构并返回。

#### 元素级的 Python 函数也是可以用的。假如你想得到 frame 中各个浮点值的格式 化字符串，使用 applymap 即可:


In [158]:
format = lambda x: '%.2f' %x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-1.42,-0.95,-1.44
Ohio,-0.04,-0.92,0.26
Texas,-0.28,-0.08,0.98
Oregon,1.16,0.37,0.53


#### 之所以叫做 applymap，是因为 Series 有一个用于应用元素级函数的 map 方 法:


In [159]:
frame['e'].map(format)

Utah      -1.44
Ohio       0.26
Texas      0.98
Oregon     0.53
Name: e, dtype: object

#### 根据条件对数据集排序(sorting)也是一种重要的内置运算。要对行或列索引 进行排序(按字典顺序)，可使用 sort_index 方法，它将返回一个已排序的新 对象:


In [160]:
obj = pd.Series(range(4),index = ['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

#### 对于 DataFrame，则可以根据任意一个轴上的索引进行排序:

In [161]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),index=['three', 'one'],columns=['d', 'a', 'b', 'c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [163]:
frame.sort_index(axis = 1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


#### 数据默认是按升序排序的，但也可以降序排序:

In [164]:
frame.sort_index(axis=1,ascending=False) # axis = 1列 axis = 0 行

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


#### 若要按值对 Series 进行排序，可使用其 sort_values 方法:

In [165]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

#### 在排序时，任何缺失值默认都会被放到 Series 的末尾:

In [166]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

#### 当排序一个 DataFrame 时，你可能希望根据一个或多个列中的值进行排序。将 一个或多个列的名字传递给 sort_values 的 by 选项即可达到该目的:


In [167]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [168]:
frame.sort_values('b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


#### 要根据多个列进行排序，传入名称的列表即可:

In [169]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


#### 排名会从 1 开始一直到数组中有效数据的数量。接下来介绍 Series 和 DataFrame 的 rank 方法。默认情况下，rank 是通过“为各组分配一个平均排 名”的方式破坏平级关系的:


In [174]:
 obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()


0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

#### 也可以根据值在原数据中出现的顺序给出排名:

In [175]:
 obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [181]:
obj2=Series(np.random.randint(-15,20,size=20))   #在-15和20间随机生成20个整数

'''对以下三个进行比较'''
print(obj2)  #原始序列
print("____________")
print(obj2.sort_values())     #将原始序列排序
obj2.rank()            #将原始序列排名


0      1
1     -9
2     -2
3     -9
4     12
5      7
6     -6
7     15
8     11
9     -7
10    13
11    13
12    14
13   -13
14    16
15    15
16    -8
17    10
18    -1
19    18
dtype: int64
____________
13   -13
1     -9
3     -9
16    -8
9     -7
6     -6
2     -2
18    -1
0      1
5      7
17    10
8     11
4     12
10    13
11    13
12    14
7     15
15    15
14    16
19    18
dtype: int64


0      9.0
1      2.5
2      7.0
3      2.5
4     13.0
5     10.0
6      6.0
7     17.5
8     12.0
9      5.0
10    14.5
11    14.5
12    16.0
13     1.0
14    19.0
15    17.5
16     4.0
17    11.0
18     8.0
19    20.0
dtype: float64

#### 从上表比较可以发现：

原始序列index为8和19的两个数值相同，均为13，它们在obj2.sort_values()按大小排序为第17、18位，两者的平均值为17.5，这个17.5就是obj2.rank()中index为8和19对应的值。同样地，在obj2.sort_values()中数值为-4的有两个，对应原始序列index为15和5，它们在obj2.sort_values()中拍第7、8位，因此在obj2.rank()中的数值等于(7+8）/2=7.5。

再看obj2.sort_values()中三个数值同为-11的3行分别是第2、3、4位，其平均值为（2+3+4）/3=3，因此在obj2.rank()中的数值等于3的有三个，对应的index为0,4,11.

最后，看看obj2.sort_values()中没有多个相同数值的行，如第12行数值为1只有一个，其在原始序列中为第6行，也就是说obj2.rank()中index为6对应的就是12。


#### 直到目前为止，我所介绍的所有范例都有着唯一的轴标签(索引值)。虽然许 多 pandas 函数(如 reindex)都要求标签唯一，但这并不是强制性的。我们来 看看下面这个简单的带有重复索引值的 Series:


In [182]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

#### 索引的 is_unique 属性可以告诉你它的值是否是唯一的: 

In [183]:
obj.index.is_unique

False

#### 对于带有重复值的索引，数据选取的行为将会有些不同。如果某个索引对应多 个值，则返回一个 Series;而对应单个值的，则返回一个标量值:


In [184]:
obj['a']

a    0
a    1
dtype: int64

In [185]:
obj['c']

4

#### 这样会使代码变复杂，因为索引的输出类型会根据标签是否有重复发生变化。对 DataFrame 的行进行索引时也是如此:

In [186]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a','b', 'b'])
df

Unnamed: 0,0,1,2
a,0.002171,0.870424,1.275076
a,-1.028248,0.420885,-0.264393
b,0.165623,1.285028,-0.048234
b,-0.487804,-0.152017,-0.24151


In [187]:
df.loc['b']

Unnamed: 0,0,1,2
b,0.165623,1.285028,-0.048234
b,-0.487804,-0.152017,-0.24151


#### pandas 对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统 计，用于从 Series 中提取单个值(如 sum 或 mean)或从 DataFrame 的行或列 中提取一个 Series。跟对应的 NumPy 数组方法相比，它们都是基于没有缺失数 据的假设而构建的。看一个简单的 DataFrame:


In [189]:
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],columns = ['one','two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


#### 调用 DataFrame 的 sum 方法将会返回一个含有列的和的 Series:

In [190]:
df.sum()

one    9.25
two   -5.80
dtype: float64

#### 传入 axis='columns'或 axis=1 将会按行进行求和运算:

In [191]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

#### NA 值会自动被排除，除非整个切片(这里指的是行或列)都是 NA。通过 skipna 选项可以禁用该功能:


In [192]:
df.mean(axis = 'columns',skipna = False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

#### 有些方法(如 idxmin 和 idxmax)返回的是间接统计(比如达到最小值或最大 值的索引):

In [194]:
df.idxmax()

one    b
two    d
dtype: object

#### 另一些方法则是累计型的:

In [195]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


#### 还有一种方法，它既不是约简型也不是累计型。describe 就是一个例子，它用 于一次性产生多个汇总统计:

In [196]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


#### 对于非数值型数据，describe 会产生另外一种汇总统计:

In [197]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [198]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

#### 有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。我们来看几 个 DataFrame，它们的数据来自 Yahoo!Finance 的股票价格和成交量，使用的 是 pandas-datareader 包(可以用 conda 或 pip 安装):


In [199]:
conda install pandas-datareader

Collecting package metadata: done
Solving environment: done

## Package Plan ##

  environment location: /anaconda3

  added / updated specs:
    - pandas-datareader


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    conda-4.7.5                |           py37_0         3.0 MB
    conda-package-handling-1.3.10|           py37_0         259 KB
    pandas-datareader-0.7.0    |           py37_0         141 KB
    ------------------------------------------------------------
                                           Total:         3.4 MB

The following NEW packages will be INSTALLED:

  conda-package-han~ pkgs/main/osx-64::conda-package-handling-1.3.10-py37_0
  pandas-datareader  pkgs/main/osx-64::pandas-datareader-0.7.0-py37_0

The following packages will be UPDATED:

  conda                                       4.6.14-py37_0 --> 4.7.5-py37_0



Downloading and Extracting Packages
conda-pac

In [200]:
import pandas_datareader.data as web

In [203]:
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker:data['Adj Close'] for ticker,data in all_data.items()})
volume = pd.DataFrame({ticker:data['Volume'] for ticker,data in all_data.items()})
price

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-12-31,26.372231,98.137283,24.152580,307.986847
2010-01-04,26.782711,99.299347,24.525019,311.349976
2010-01-05,26.829010,98.099792,24.532942,309.978882
2010-01-06,26.402260,97.462532,24.382378,302.164703
2010-01-07,26.353460,97.125160,24.128809,295.130463
2010-01-08,26.528664,98.099792,24.295214,299.064880
2010-01-11,26.294640,97.072685,23.986179,298.612823
2010-01-12,25.995537,97.844872,23.827694,293.332153
2010-01-13,26.362217,97.634964,24.049570,291.648102
2010-01-14,26.209538,99.194389,24.532942,293.019196


In [202]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-06-21,-0.003409,0.002521,0.000146,0.009411
2019-06-24,-0.001006,0.001078,0.005914,-0.005669
2019-06-25,-0.015158,-0.007104,-0.031572,-0.026149
2019-06-26,0.021629,0.001156,0.003747,-0.006029
2019-06-27,-0.0003,0.0,0.001643,-0.00351


#### Series 的 corr 方法用于计算两个 Series 中重叠的、非 NA 的、按索引对齐的 值的相关系数。与此类似，cov 用于计算协方差:


In [204]:
 returns['MSFT'].corr(returns['IBM'])

0.48705882962740715

In [205]:
returns['MSFT'].cov(returns['IBM'])

8.673574150391201e-05

#### 另一方面，DataFrame 的 corr 和 cov 方法将以 DataFrame 的形式分别返回完整 的相关系数或协方差矩阵:


In [206]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.379289,0.453041,0.460715
IBM,0.379289,1.0,0.487059,0.403078
MSFT,0.453041,0.487059,1.0,0.537951
GOOG,0.460715,0.403078,0.537951,1.0


In [207]:
returns.cov()


Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000266,7.6e-05,0.000107,0.000116
IBM,7.6e-05,0.000152,8.7e-05,7.7e-05
MSFT,0.000107,8.7e-05,0.000209,0.00012
GOOG,0.000116,7.7e-05,0.00012,0.000239


#### 利用 DataFrame 的 corrwith 方法(关注一个变量与其他变量的关系)，你可以计算其列或行跟另一个 Series 或 DataFrame 之间的相关系数。传入一个 Series 将会返回一个相关系数值 Series (针对各列进行计算):


In [209]:
returns.corrwith(returns.IBM) #其他三个和ibm 的关系

AAPL    0.379289
IBM     1.000000
MSFT    0.487059
GOOG    0.403078
dtype: float64

#### 传入一个 DataFrame 则会计算按列名配对的相关系数。这里，我计算百分比变 化与成交量的相关系数:


In [210]:
returns.corrwith(volume)

AAPL   -0.062332
IBM    -0.156070
MSFT   -0.090094
GOOG   -0.020286
dtype: float64

#### 传入 axis='columns'即可按行进行计算。无论如何，在计算相关系数之前，所 有的数据项都会按标签对齐。


#### 还有一类方法可以从一维 Series 的值中抽取信息。看下面的例子:

In [211]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c',
'c'])

#### 第一个函数是 unique，它可以得到 Series 中的唯一值数组:

In [214]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

#### 返回的唯一值是未排序的，如果需要的话，可以对结果再次进行排序 (uniques.sort())。相似的，value_counts 用于计算一个 Series 中各值出 现的频率:


In [215]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

#### 为了便于查看，结果 Series 是按值频率降序排列的。value_counts 还是一个 顶级 pandas 方法，可用于任何数组或序列:

In [216]:
pd.value_counts(obj.values,sort = False)

b    2
a    3
d    1
c    3
dtype: int64

#### isin 用于判断矢量化集合的成员资格，可用于过滤 Series 中或 DataFrame 列 中数据的子集:


In [217]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [219]:
 mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [220]:
obj[mask] # 调出序列号

0    c
5    b
6    b
7    c
8    c
dtype: object

#### 与 isin 类似的是 Index.get_indexer 方法，它可以给你一个索引数组，从可能 包含重复值的数组到另一个不同值的数组:
