#    第5章 pandas⼊⻔   Getting Started with pandas

*  pandas含有使数据清洗和分析⼯作变得更快更简单的数据结构和操作⼯具。
*  pandas经常和其它⼯具⼀同使⽤，如数值计算⼯具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。
*  pandas是基于NumPy数组构建的，特别是基于数组的函数和不使⽤for循环的数据处理。
* pandas是专⻔为处理表格和混杂数据设计的。⽽NumPy更适合处理统⼀的数值数组数据。

In [5]:
# 在代码中看到pd.，就得想到这是pandas。
import pandas as pd

In [6]:
# 因为Series和DataFrame⽤的次数⾮常多，所以将其引⼊本地命名空间中会更⽅便：
from pandas import Series, DataFrame

## 5.1 pandas的数据结构介绍  Introduction to pandas Data Structures

*  两个主要数据结构： Series和DataFrame。
*  虽然它们并不能解决所有问题，但它们为⼤多数应⽤提供了⼀种可靠的、易于使⽤的基础。

### Series

*  Series是⼀种类似于⼀维数组的对象，它由⼀组数据（各种NumPy数据类型）以及⼀组与之相关的数据标签（即索引）组成。仅由⼀组数据即可产⽣最简单的Series：

In [7]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

* Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会⾃动创建⼀个0到N-1（N为数据的⻓度）的整数型索引。你可以通过Series 的values和index属性获取其数组表示形式和索引对象

In [8]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [9]:
obj.index  # like range 范围 (4)

RangeIndex(start=0, stop=4, step=1)

* 通常，我们希望所创建的Series带有⼀个可以对各个数据点进⾏标记的索引：

In [10]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [11]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

* 与普通NumPy数组相⽐，你可以通过索引的⽅式选取Series中的单个或⼀组值：

In [12]:
obj2['a']

-5

In [13]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [14]:
# ['c', 'a', 'd']是索引列表，即使它包含的是字符串⽽不是整数。
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

*  使⽤NumPy函数或类似NumPy的运算（如根据布尔型数组进⾏过滤、标量乘法、应用数学函数等）都会保留索引值的链接：

In [15]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [16]:
obj2[obj2 < 6]

a   -5
c    3
dtype: int64

In [17]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [213]:
# 保留索引值的链接
np.exp(obj2)  # exp函数为求以e为底的指数

0    4.481689
1    0.082085
2    1.000000
dtype: float64

* 还可以将Series看成是⼀个定⻓的有序字典，因为它是索引值到数据值的⼀个映射。它可以⽤在许多原本需要字典参数的函数中：

In [19]:
'b' in obj2.index

True

In [20]:
'e' in obj2

False

*  如果数据被存放在⼀个Python字典中，也可以直接通过这个字典来创建Series：

In [21]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
sdata

{'Ohio': 35000, 'Oregon': 16000, 'Texas': 71000, 'Utah': 5000}

In [22]:
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

* 如果只传⼊⼀个字典，则结果Series中的索引就是原字典的键（有序排列）。你可以传⼊排好序的字典的键以改变顺序：

In [23]:
states = [ 'Ohio', 'Oregon', 'Texas','California','Utah','d','ilank']
obj4 = pd.Series(sdata, index=states)
obj4

Ohio          35000.0
Oregon        16000.0
Texas         71000.0
California        NaN
Utah           5000.0
d                 NaN
ilank             NaN
dtype: float64

* 在这个例⼦中， sdata中跟states索引相匹配的那3个值会被找出来并放到相应的位置上，但由于"California"所对应的sdata值找不到，所以其结果就为NaN（即“⾮数字”（not a number），在pandas中，它⽤于表示缺失或NA值）。因为‘Utah’不在states中，它被从结果中除去。

* 我将使⽤缺失（missing）或NA表示缺失数据。 pandas的isnull和notnull函数可⽤于检测缺失数据：

In [24]:
pd.isnull(obj4)

Ohio          False
Oregon        False
Texas         False
California     True
Utah          False
d              True
ilank          True
dtype: bool

In [25]:
pd.notnull(obj4)

Ohio           True
Oregon         True
Texas          True
California    False
Utah           True
d             False
ilank         False
dtype: bool

* Series也有类似的实例⽅法：

In [26]:
obj4.isnull()

Ohio          False
Oregon        False
Texas         False
California     True
Utah          False
d              True
ilank          True
dtype: bool

* 对于许多应⽤⽽⾔， Series最重要的⼀个功能是，它会根据运算的索引标签⾃动对⻬数据

In [27]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [28]:
obj4

Ohio          35000.0
Oregon        16000.0
Texas         71000.0
California        NaN
Utah           5000.0
d                 NaN
ilank             NaN
dtype: float64

In [29]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah           10000.0
d                  NaN
ilank              NaN
dtype: float64

* Series对象本身及其索引都有⼀个name属性，该属性跟pandas其他的关键功能关系⾮常密切

In [30]:
obj4.name = 'population'  # 调用该对象的名字为 'population'
obj4.index.name = 'state'  #调用索引的名字为‘state’
obj4

state
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
California        NaN
Utah           5000.0
d                 NaN
ilank             NaN
Name: population, dtype: float64

* Series的索引可以通过赋值的⽅式就地修改：

In [31]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [32]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

*  DataFrame是⼀个表格型的数据结构，它含有⼀组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。
*  DataFrame既有⾏索引也有列索引，它可以被看做由Series组成的字典（共⽤同⼀个索引）
*  DataFrame中的数据是以⼀个或多个⼆维块存放的（⽽不是列表、字典或别的⼀维数据结构）
*  虽然DataFrame是以⼆维结构保存数据的，但你仍然可以轻松地将其表示为更⾼维度的数据（层次化索引的表格型结构)

In [33]:
# 建DataFrame的办法有很多，最常⽤的⼀种是直接传⼊⼀个由等⻓列表或NumPy数组组成的字典
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002, 2003],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

* 结果DataFrame会⾃动加上索引（跟Series⼀样），且全部列会被有序排列：

In [34]:
# 如果你使⽤的是Jupyter notebook,pandas DataFrame对象会以对浏览器友好的HTML表格的⽅式呈现。
frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


* 对于特别⼤的DataFrame， head⽅法会选取前五⾏

In [35]:
frame.head()

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


* 如果指定了列序列，则DataFrame的列就会按照指定顺序进⾏排列：

In [36]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


* 如果传⼊的列在数据中找不到，就会在结果中产⽣缺失值：

In [37]:
frame2 = pd.DataFrame(data,
                      columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


* 通过类似字典标记的⽅式或属性的⽅式，可以将DataFrame的列获取为⼀个Series：

In [38]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [39]:
frame2.year  # 和上面一样的效果

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

* frame2[column]适⽤于任何列的名，但是frame2.column只有在列名是⼀个合理的Python变量名时才适⽤。

* ⾏也可以通过位置或名称的⽅式进⾏获取，⽐如⽤loc属性

In [40]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

* 列可以通过赋值的⽅式进⾏修改。例如，我们可以给那个空的"debt"列赋上⼀个标量值或⼀组值：

In [41]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [214]:
frame2['debbt'] = np.array(6.)
frame2

Unnamed: 0,Ohio,Texas,California,debbt
a,0.0,1.0,2.0,6.0
b,,,,6.0
c,3.0,4.0,5.0,6.0
d,6.0,7.0,8.0,6.0


* 将列表或数组赋值给某个列时，其⻓度必须跟DataFrame的⻓度相匹配。如果赋值的是⼀个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值：

In [43]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [44]:
frame2['debbt'] = val
frame2

Unnamed: 0,year,state,pop,debt,debbt
one,2000,Ohio,1.5,16.5,
two,2001,Ohio,1.7,16.5,-1.2
three,2002,Ohio,3.6,16.5,
four,2001,Nevada,2.4,16.5,-1.5
five,2002,Nevada,2.9,16.5,-1.7
six,2003,Nevada,3.2,16.5,


* 为不存在的列赋值会创建出⼀个新列。关键字del⽤于删除列。作为del的例⼦，我先添加⼀个新的布尔值的列， state是否为'Ohio'：

In [45]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,debbt,eastern
one,2000,Ohio,1.5,16.5,,True
two,2001,Ohio,1.7,16.5,-1.2,True
three,2002,Ohio,3.6,16.5,,True
four,2001,Nevada,2.4,16.5,-1.5,False
five,2002,Nevada,2.9,16.5,-1.7,False
six,2003,Nevada,3.2,16.5,,False


In [46]:
# 不能⽤frame2.eastern创建新的列。
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt', 'debbt'], dtype='object')

* 不能⽤frame2.eastern创建新的列。

In [47]:
frame2

Unnamed: 0,year,state,pop,debt,debbt
one,2000,Ohio,1.5,16.5,
two,2001,Ohio,1.7,16.5,-1.2
three,2002,Ohio,3.6,16.5,
four,2001,Nevada,2.4,16.5,-1.5
five,2002,Nevada,2.9,16.5,-1.7
six,2003,Nevada,3.2,16.5,


* 另⼀种常⻅的数据形式是嵌套字典

In [48]:
pop = {
    'Nevada': {
        2001: 2.4,
        2002: 2.9
    },
    'Ohio': {
        2000: 1.5,
        2001: 1.7,
        2002: 3.6
    }
}

In [49]:
pop

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

* 如果嵌套字典传给DataFrame， pandas就会被解释为：外层字典的键作为列，内层键则作为⾏索引

In [50]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


* 使⽤类似NumPy数组的⽅法，对DataFrame进⾏转置（交换⾏和列）：

In [51]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


* 内层字典的键会被合并、排序以形成最终的索引。如果明确指定了索引，则不会这样 

In [52]:
pd.DataFrame(pop,columns=['Nevada', 'Ohio'], index=[2001, 2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [53]:
pd.DataFrame(pop,index = pd.Series([2001, 2002,2003]))

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


* 由Series组成的字典差不多也是⼀样的⽤法：

In [54]:
pdata = {'Ohio': frame3['Ohio'][:], 'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,,3.6


* 如果设置了DataFrame的index和columns的name属性，则这些信息也会被显示出来：

In [55]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


* 跟Series⼀样， values属性也会以⼆维ndarray的形式返回DataFrame中的数据

In [56]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

* 如果DataFrame各列的数据类型不同，则值数组的dtype就会选⽤能兼容所有列的数据类型

In [57]:
frame2.values # dtype = object

array([[2000, 'Ohio', 1.5, 16.5, nan],
       [2001, 'Ohio', 1.7, 16.5, -1.2],
       [2002, 'Ohio', 3.6, 16.5, nan],
       [2001, 'Nevada', 2.4, 16.5, -1.5],
       [2002, 'Nevada', 2.9, 16.5, -1.7],
       [2003, 'Nevada', 3.2, 16.5, nan]], dtype=object)

###  索引对象   Index Objects

* pandas的索引对象负责管理轴标签和其他元数据（⽐如轴名称等）。构建Series或DataFrame时，所⽤到的任何数组或其他序列的标签都会被转换成⼀个Index：

In [200]:
import numpy as np
import pandas as pd
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [201]:
index[1:]

Index(['b', 'c'], dtype='object')

* Index对象是不可变的，因此⽤户不能对其进⾏修改：

In [215]:
index[1] = 'd'  # TypeError

TypeError: Index does not support mutable operations

* 不可变可以使Index对象在多个数据结构之间安全共享：

In [203]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [204]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [205]:
obj2.index is labels

True

* 虽然⽤户不需要经常使⽤Index的功能，但是因为⼀些
操作会⽣成包含被索引化的数据，理解它们的⼯作原理是很
重要的。

In [206]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [65]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [66]:
'Ohio' in frame3.columns

True

In [67]:
2003 in frame3.index

False

* 与python的集合不同， pandas的Index可以包含重复的标签：

In [68]:
# 选择重复的标签，会显示所有的结果
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

##   5.2 基本功能 Essential Functionality

### 重新索引 Reindexing

* pandas对象的⼀个重要⽅法是reindex，其作⽤是创建⼀个新对象，它的数据符合新的索引。看下⾯的例⼦

In [69]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

* ⽤该Series的reindex将会根据新索引进⾏重排。如果某个索引值当前不存在，就引⼊缺失值

In [70]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

* 对于时间序列这样的有序数据，重新索引时可能需要做⼀些插值处理。 method选项即可达到此⽬的，例如，使⽤ffill可以实现前向值填充：

In [71]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [72]:
obj3.reindex(range(7), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
6    yellow
dtype: object

* 借助DataFrame， reindex可以修改（⾏）索引和列。只传递⼀个序列时，会重新索引结果的⾏：

In [208]:
import numpy as np
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [209]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


* 列可以⽤columns关键字重新索引

In [210]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [211]:
frame.loc[['a', 'b', 'c', 'd'], states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  if __name__ == '__main__':


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


### 丢弃指定轴上的项 Dropping Entries from an Axis

In [212]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [78]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [79]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

* 对于DataFrame，可以删除任意轴上的索引值。为了演示，先新建⼀个DataFrame例⼦

In [80]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [81]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


* 通过传递axis=1或axis='columns'可以删除列的值：

In [82]:
# axis=1为横向，axis=0为纵向，而不是行和列（？）
data.drop('two',axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [83]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


* 许多函数，如drop，会修改Series或DataFrame的⼤⼩或形状，可以就地修改对象，不会返回新的对象
* ⼩⼼使⽤inplace，它会销毁所有被删除的数据，选择是否进行覆盖运算，意思是是否将得到的值计算得到的值覆盖之前的值
* index节省运算内存，不用多存储其他变量

In [84]:
# inplace  所有的操作都是”就地“操作，不允许进行移动，或者称作 原位操作
obj.drop('c', inplace=True) 
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

###   索引、选取和过滤       Indexing, Selection, and Filtering

In [85]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [86]:
obj['b']

1.0

In [87]:
obj[1]

1.0

In [88]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [89]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [90]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [91]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

* 利⽤标签的切⽚运算与普通的Python切⽚运算不同，其末端是包含的

In [93]:
obj['a':'c']

a    0.0
b    1.0
c    2.0
dtype: float64

* ⽤切⽚可以对Series的相应部分进⾏设置：

In [94]:
obj['a':'c'] = 5
obj

a    5.0
b    5.0
c    5.0
d    3.0
dtype: float64

* ⽤⼀个值或序列对DataFrame进⾏索引其实就是获取⼀个或多个列：

In [95]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [96]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [97]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


* 这种索引⽅式有⼏个特殊的情况。⾸先通过切⽚或布尔型数组选取数据：

In [98]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [99]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


*  选取⾏的语法data[:2]⼗分⽅便。向[ ]传递单⼀的元素或列表，就可选择列。
*  另⼀种⽤法是通过布尔型DataFrame（⽐如下⾯这个由标量⽐较运算得出的）进⾏索引：

In [100]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [101]:
# 这使得DataFrame的语法与NumPy⼆维数组的语法很像
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


####   ⽤loc和iloc进⾏选取  Selection with loc and iloc

* 对于DataFrame的⾏的标签索引，我引⼊了特殊的标签运算符loc和iloc。它们可以让你⽤类似NumPy的标记，使⽤轴标签（loc）或整数索引（iloc），从DataFrame选择⾏和列的⼦集。

In [102]:
# 通过标签选择⼀⾏和多列：
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [103]:
# 然后用iloc和整数进行选取
data.iloc[3, [3, 0, 1]]

four    15
one     12
two     13
Name: New York, dtype: int32

In [104]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [105]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


*  这两个索引函数也适⽤于⼀个标签或多个标签的切⽚：

In [106]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [107]:
data.iloc[:3, :2][data.three > 5]

  if __name__ == '__main__':


Unnamed: 0,one,two
Colorado,0,5
Utah,8,9


* ，在pandas中，有多个⽅法可以选取和重新组合数据。对于DataFrame

###   整数索引Integer Indexes

* 处理整数索引的pandas对象常常难住新⼿，因为它与Python内置的列表和元组的索引语法不同。

In [217]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [218]:
ser[1]

1.0

* 这⾥， pandas可以勉强进⾏整数索引，但是会导致⼩bug。我们有包含0,1,2的索引，但是引⼊⽤户想要的东⻄（基于标签或位置的索引）很难

In [219]:
ser[-1]

KeyError: -1

In [111]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

* 另外，对于⾮整数索引，不会产⽣歧义

In [112]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

In [113]:
ser2[-1]

2.0

* 为了进⾏统⼀，如果轴索引含有整数，数据选取总会使⽤标签。为了更准确，请使⽤loc（标签）或iloc（整数）：

In [114]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [115]:
ser[:1]

0    0.0
dtype: float64

In [116]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [117]:
ser.iloc[:1]

0    0.0
dtype: float64

###  算术运算和数据对⻬ Arithmetic and Data Alignment

* pandas最重要的⼀个功能是，它可以对不同索引的对象进⾏算术运算。在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。对于有数据库经验的⽤户，这就像在索引标签上进⾏⾃动外连接。

In [118]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [119]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [120]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [121]:
s1 + s2 # 有加无等于无

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

*  ⾃动的数据对⻬操作在不重叠的索引处引⼊了NAN值。缺失值会在算术运算过程中传播。

* 对于DataFrame，对⻬操作会同时发⽣在⾏和列上：

In [122]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1


Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [123]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


* 把它们相加后将会返回⼀个新的DataFrame，其索引和列为原来那两个DataFrame的并集

In [124]:
# 因为'c'和'e'列均不在两个DataFrame对象中，在结果中以缺省值 呈现。⾏也是同样
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


* 如果DataFrame对象相加，没有共⽤的列或⾏标签，结果都会是空：

In [125]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [126]:
df2

Unnamed: 0,B
0,3
1,4


In [127]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


####  在算术方法中填充值 Arithmetic methods with fill values

*  在对不同索引的对象进⾏算术运算时，你可能希望当⼀个对象中某个轴标签在另⼀个对象中找不到时填充⼀个特殊值（⽐如0）：

In [128]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [129]:
df2.loc[1, 'b'] = np.nan
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


*  将它们相加时，没有重叠的位置就会产⽣NA值

In [130]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [131]:
# 使⽤df1的add⽅法，传⼊df2以及⼀个fill_value参数：
df1.add(df2, fill_value=2)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,6.0
1,9.0,7.0,13.0,15.0,11.0
2,18.0,20.0,22.0,24.0,16.0
3,17.0,18.0,19.0,20.0,21.0


In [132]:
df1.add(df2, fill_value=3)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,7.0
1,9.0,8.0,13.0,15.0,12.0
2,18.0,20.0,22.0,24.0,17.0
3,18.0,19.0,20.0,21.0,22.0


In [133]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [134]:
# 与上面的效果一样的
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [135]:
df1.div(2) #  2除以df1

Unnamed: 0,a,b,c,d
0,0.0,0.5,1.0,1.5
1,2.0,2.5,3.0,3.5
2,4.0,4.5,5.0,5.5


In [136]:
df1.add(2)

Unnamed: 0,a,b,c,d
0,2.0,3.0,4.0,5.0
1,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0


In [137]:
df1.radd(2)

Unnamed: 0,a,b,c,d
0,2.0,3.0,4.0,5.0
1,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0


In [138]:
df1.pow(2)

Unnamed: 0,a,b,c,d
0,0.0,1.0,4.0,9.0
1,16.0,25.0,36.0,49.0
2,64.0,81.0,100.0,121.0


* 与此类似，在对Series或DataFrame重新索引时，也可以指定⼀个填充值：

In [139]:
df1.reindex(columns=df2.columns, fill_value=1)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,1
1,4.0,5.0,6.0,7.0,1
2,8.0,9.0,10.0,11.0,1


#### DataFrame和Series之间的运算 Operations between DataFrame and Series

* 跟不同维度的NumPy数组⼀样， DataFrame和Series之间算术运算也是有明确规定的。先来看⼀个具有启发性的例⼦，计算⼀个⼆维数组与其某⾏之间的差：

In [140]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [141]:
arr[0]

array([0., 1., 2., 3.])

In [142]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

*  当我们从arr减去arr[0]，每⼀⾏都会执⾏这个操作。这就叫做⼴播（broadcasting），附录A将对此进⾏详细讲解。 DataFrame和Series之间的运算差不多也是如此：

In [143]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[2]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [144]:
series

b    6.0
d    7.0
e    8.0
Name: Texas, dtype: float64

* 默认情况下， DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，然后沿着⾏⼀直向下⼴播

In [145]:
frame - series

Unnamed: 0,b,d,e
Utah,-6.0,-6.0,-6.0
Ohio,-3.0,-3.0,-3.0
Texas,0.0,0.0,0.0
Oregon,3.0,3.0,3.0


* 如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集：

In [146]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

In [147]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [148]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


* 如果你希望匹配⾏且在列上⼴播，则必须使⽤算术运算⽅法。例如：

In [149]:
series3 = frame['d']
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [150]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [151]:
frame.sub(series3, axis='index') # axis 轴

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


* 传⼊的轴号就是希望匹配的轴。在本例中，我们的⽬的是匹配DataFrame的⾏索引（axis='index' or axis=0）并进⾏⼴播。

### 函数应⽤和映射  Function Application and Mapping

* NumPy的ufuncs（元素级数组⽅法）也可⽤于操作pandas对象

In [152]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.43053,0.093035,-0.393237
Ohio,1.528841,-0.749159,-0.466841
Texas,0.053128,-1.196692,1.099073
Oregon,-1.112484,-0.612052,-0.57508


In [153]:
np.abs(frame)  # abs 绝对值函数

Unnamed: 0,b,d,e
Utah,0.43053,0.093035,0.393237
Ohio,1.528841,0.749159,0.466841
Texas,0.053128,1.196692,1.099073
Oregon,1.112484,0.612052,0.57508


* 另⼀个常⻅的操作是，将函数应⽤到由各列或⾏所形成的⼀维数组上。 DataFrame的apply⽅法即可实现此功能：

In [154]:
f = lambda x: x.max() - x.min()
f

<function __main__.<lambda>(x)>

In [155]:
frame.apply(f)

b    2.641325
d    1.289727
e    1.674153
dtype: float64

*   这⾥的函数f，计算了⼀个Series的最⼤和第二大的和，在frane的每列都执⾏了⼀次。结果是⼀个Series，使⽤frame的列作为索引。

* 如果传递axis='columns'到apply，这个函数会在每⾏执⾏：

In [156]:
frame.apply(f, axis='columns')

Utah      0.823767
Ohio      2.278000
Texas     2.295765
Oregon    0.537404
dtype: float64

*  许多最为常⻅的数组统计功能都被实现成DataFrame的⽅法（如sum和mean），因此⽆需使⽤apply⽅法。

*  传递到apply的函数不是必须返回⼀个标量，还可以返回由多个值组成的Series：

In [220]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,Ohio,Texas,California
min,0,1,2
max,6,7,8


* 元素级的Python函数也是可以⽤的。假如你想得到frame中各个浮点值的格式化字符串，使⽤applymap即可：

In [158]:
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,0.43,0.09,-0.39
Ohio,1.53,-0.75,-0.47
Texas,0.05,-1.2,1.1
Oregon,-1.11,-0.61,-0.58


* 之所以叫做applymap，是因为Series有⼀个⽤于应⽤元素级函数
的map⽅法：

In [159]:
frame['e'].map(format)

Utah      -0.39
Ohio      -0.47
Texas      1.10
Oregon    -0.58
Name: e, dtype: object

###  排序和排名 Sorting and Ranking

*  根据条件对数据集排序（sorting）也是⼀种重要的内置运算。要对⾏或列索引进⾏排序（按字典顺序），可使⽤sort_index⽅法，它将返回⼀个已排序的新对象：

In [161]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

* 对于DataFrame，则可以根据任意⼀个轴上的索引进⾏排序

In [221]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [222]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


* 数据默认是按升序排序的，但也可以降序排序

In [223]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


* 若要按值对Series进⾏排序，可使⽤其sort_values⽅法

In [224]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

* 在排序时，任何缺失值默认都会被放到Series的末尾

In [165]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

* 当排序⼀个DataFrame时，你可能希望根据⼀个或多个列中的值进⾏排序。将⼀个或多个列的名字传递给sort_values的by选项即可达到该⽬的：

In [225]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [226]:
frame.sort_values(by='b')

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


* 要根据多个列进⾏排序，传⼊名称的列表即可：

In [227]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


* 排名会从1开始⼀直到数组中有效数据的数量。接下来介绍series和DataFrame的rank⽅法。默认情况下， rank是通过“为各组分配⼀个平均排名”的⽅式破坏平级关系的：

In [232]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

* 也可以根据值在原数据中出现的顺序给出排名

In [233]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

* 这⾥，条⽬0和2没有使⽤平均排名6.5，它们被设成了6和7，因
为数据中标签0位于标签2的前⾯。

In [234]:
# 你也可以按降序进⾏排名
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [235]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [236]:
frame.rank(axis='columns')

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


### 带有重复标签的轴索引 Axis Indexes with Duplicate Labels

* 直到⽬前为⽌，我所介绍的所有范例都有着唯⼀的轴标签（索引值）。虽然许多pandas函数（如reindex）都要求标签唯⼀，但这并不是强制性的。我们来看看下⾯这个简单的带有重复索引值的Series

In [245]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [246]:
obj.index.is_unique

False

* 对于带有重复值的索引，数据选取的⾏为将会有些不同。如果某个索引对应多个值，则返回⼀个Series；⽽对应单个值的，则返
回⼀个标量值

In [247]:
obj['a']

a    0
a    1
dtype: int64

In [248]:
obj['c']

4

*  这样会使代码变复杂，因为索引的输出类型会根据标签是否有重复发⽣变化。

* 对DataFrame的⾏进⾏索引时也是如此

In [249]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.135677,-0.638895,0.315394
a,-0.839564,-0.67847,-1.837572
b,0.146289,-1.546021,0.68506
b,-0.243775,0.252152,-0.461539


In [250]:
df.loc['b']

Unnamed: 0,0,1,2
b,0.146289,-1.546021,0.68506
b,-0.243775,0.252152,-0.461539


##  5.3 汇总和计算描述统计Summarizing and Computing Descriptive Statistics

* pandas对象拥有⼀组常⽤的数学和统计⽅法。它们⼤部分都属于约简和汇总统计，⽤于从Series中提取单个值（如sum或mean）或从DataFrame的⾏或列中提取⼀个Series。跟对应的NumPy数组⽅法相⽐，它们都是基于没有缺失数据的假设⽽构建的。看⼀个简单的DataFrame：

In [252]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


* 调⽤DataFrame的sum⽅法将会返回⼀个含有列的和的Series：

In [253]:
adf.sum()

one    9.25
two   -5.80
dtype: float64

* 传⼊axis='columns'或axis=1将会按⾏进⾏求和运算：

In [257]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

* NA值会⾃动被排除，除⾮整个切⽚（这⾥指的是⾏或列）都是NA。通过skipna选项可以禁⽤该功能：

In [258]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

* 有些⽅法（如idxmin和idxmax）返回的是间接统计（⽐如达到最⼩值或最⼤值的索引）

In [259]:
df.idxmax()

one    b
two    d
dtype: object

* 另⼀些⽅法则是累计型的

In [261]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


* 还有⼀种⽅法，它既不是约简型也不是累计型。 describe就是⼀个例⼦，它⽤于⼀次性产⽣多个汇总统计

In [263]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


* 对于⾮数值型数据， describe会产⽣另外⼀种汇总统计：

In [264]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 相关系数与协⽅差 Correlation and Covariance

* 有些汇总统计（如相关系数和协⽅差）是通过参数对计算出来的。我们来看⼏个DataFrame，它们的数据来⾃Yahoo!Finance的股票价格和成交量，使⽤的是pandas-datareader包（可以⽤conda或pip安装）

conda install pandas-datareader

In [267]:
price = pd.read_pickle('G:/test/pydata-book/examples/yahoo_price.pkl')
volume = pd.read_pickle('G:/test/pydata-book/examples/yahoo_volume.pkl')

import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})

* 现在计算价格的百分数变化，时间序列的操作会在第11章介绍

In [268]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


* Series的corr⽅法⽤于计算两个Series中重叠的、⾮NA的、按索引对⻬的值的相关系数。与此类似， cov⽤于计算协⽅差：

In [283]:
returns['MSFT'].corr(returns['IBM'])

0.4997636114415114

In [284]:
returns['MSFT'].cov(returns['IBM'])

8.870655479703546e-05

* 因为MSTF是⼀个合理的Python属性，我们还可以⽤更简洁的语法选择列：

In [285]:
returns.MSFT.corr(returns.IBM)

0.4997636114415114

* 另⼀⽅⾯， DataFrame的corr和cov⽅法将以DataFrame的形式分别返回完整的相关系数或协⽅差矩阵： 

In [286]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [287]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215


* 利⽤DataFrame的corrwith⽅法，你可以计算其列或⾏跟另⼀个Series或DataFrame之间的相关系数。传⼊⼀个Series将会返回⼀个相关系数值Series（针对各列进⾏计算）：

In [288]:
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

In [None]:
* 传⼊⼀个DataFrame则会计算按列名配对的相关系数。这⾥我计算百分⽐变化与成交量的相关系数

In [289]:
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

*  传⼊axis='columns'即可按⾏进⾏计算。⽆论如何，在计算相关系数之前，所有的数据项都会按标签对⻬。

###  唯⼀值、值计数以及成员资格 Unique Values, Value Counts, and Membership

* 还有⼀类⽅法可以从⼀维Series的值中抽取信息。看下⾯的例⼦：

In [274]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

* 第⼀个函数是unique，它可以得到Series中的唯⼀值数组：

In [290]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

* 返回的唯⼀值是未排序的，如果需要的话，可以对结果再次进⾏排序（uniques.sort()）。相似的， value_counts⽤于计算⼀个Series中各值出现的频率：

In [291]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

* 为了便于查看，结果Series是按值频率降序排列的。value_counts还是⼀个顶级pandas⽅法，可⽤于任何数组或序列：

In [277]:
pd.value_counts(obj.values, sort=False)

a    3
b    2
d    1
c    3
dtype: int64

* isin⽤于判断⽮量化集合的成员资格，可⽤于过滤Series中或
DataFrame列中数据的⼦集： 

In [278]:
obj

0    c
5    b
6    b
7    c
8    c
dtype: object

In [292]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [293]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

* 与isin类似的是Index.get_indexer⽅法，它可以给你⼀个索引数组，从可能包含重复值的数组到另⼀个不同值的数组：

In [294]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [295]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [198]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
