In [1]:
# 操作 Series DataFrame 中数据的基本手段
import numpy as np
import pandas as pd
from pandas import Series, DataFrame


In [2]:
# 1 重新索引
# pandas对象的一个重要方法是reindex
# 其作用是创建一个新对象， 它的数据符合新的索引
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
print(obj)
print("=====================================")

# 用该Series的reindex将会根据新索引进行重排。 如果某个索引值当前不存在， 就引入缺失值
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
print(obj2)
print("=======================================")

# 对于 时间序列 这样的有序数据， 重新索引时可能需要做一些插值处理
# 其中 method 选项 即可达到此目的， 例如， 使用ffill可以实现前向值填充
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)
print("========================================")
obj3.reindex(range(6), method='ffill')

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64
0      blue
2    purple
4    yellow
dtype: object


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [3]:
# 借助DataFrame， reindex可以修改（行） 索引和列。
# 只传递一个序列时， 会重新索引结果的行：
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])

print(frame)
print("============================")

frame2 = frame.reindex(['a', 'b', 'c', 'd'])
print(frame2)
print("=============================")

# 列可以用columns关键字重新索引
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0


Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [4]:
# 2 丢弃指定轴上的项
# 丢弃某条轴上的一个或多个项很简单， 只要有一个索引数组或列表即可
# 由于需要执行一些数据整理和集合逻辑， drop方法返回的是一个在指定轴上删除了指定值的新对象
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [5]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [6]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [7]:
# 对于DataFrame， 可以删除任意轴上的索引值
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [10]:
# 用标签序列调用drop会从行标签（axis 0） 删除值
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [11]:
# 通过传递axis=1或axis='columns'可以删除列的值
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [15]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [17]:
# 许多函数， 如drop，会修改Series或DataFrame的大小或形状，可以就地修改对象，不会返回新的对象
#obj.drop('c', inplace=True)
# 它会销毁所有被删除的数据。


In [18]:
# 3 索引、 选取和过滤

# Series索引（obj[...]） 的工作方式类似于NumPy数组的索引， 只不过Series的索引值不只是整数
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [19]:
obj['b']

1.0

In [20]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [21]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [22]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [23]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [24]:
# 利用标签的切片运算与普通的Python切片运算不同， 其末端是包含的
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [26]:
# 用切片可以对Series的相应部分进行设置
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [27]:
# 用一个值或序列对DataFrame进行索引其实就是获取一个或多个列
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [28]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [29]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [30]:
# 这种索引方式有几个特殊的情况。 首先通过切片或布尔型数组选取数据
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [31]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [32]:
# 另一种用法是通过布尔型DataFrame（比如下面这个由标量比较运算得出的） 进行索引
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [34]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [35]:
# 对于 DataFrame 的行标签索引，使用标签运算符 loc——轴标签 iloc——整数索引
# 从 DataFrame 选择行和列的子集
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [36]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [37]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [38]:
# 这两个索引函数也适用于一个标签或多个标签的切片
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [39]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [40]:
# 处理整数索引的pandas对象常常难住新手， 因为它与Python内置的列表和元组的索引语法不同
# 为了进行统一， 如果轴索引含有整数， 数据选取总会使用标签。 
# 为了更准确， 请使用loc（标签）或iloc（整数） 

In [41]:
# 算术运算和数据对齐
# pandas最重要的一个功能是， 它可以对不同索引的对象进行算术运算。 
# 在将对象相加时， 如果存在不同的索引对， 则结果的索引就是该索引对的并集。 
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [42]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [43]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [48]:
# 自动的数据对齐操作在不重叠的索引处引入了NA值。 
# 缺失值会在算术运算过程中传播。

# 对于DataFrame， 对齐操作会同时发生在行和列上
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), 
                   columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])

df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                   columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [49]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [50]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [51]:
# 把它们相加后将会返回一个新的DataFrame， 其索引和列为原来那两个DataFrame的并集
# 因为'c'和'e'列均不在两个DataFrame对象中， 在结果中以缺省值呈现。 行也是同样。

# 如果DataFrame对象相加， 没有共用的列或行标签， 结果都会是空
df3 = pd.DataFrame({'A': [1, 2]})
df4 = pd.DataFrame({'B': [3, 4]})

df3

Unnamed: 0,A
0,1
1,2


In [52]:
df4

Unnamed: 0,B
0,3
1,4


In [53]:
df3 + df4

Unnamed: 0,A,B
0,,
1,,


In [54]:
# 在对不同索引的对象进行算术运算时,当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值（比如0）
df5 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df6 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))

df6.loc[1, 'b'] = np.nan

df5

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [55]:
df6

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [56]:
df5 + df6

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [57]:
# 使用df5的add方法， 传入df6以及一个fill_value参数
df5.add(df6, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [58]:
# 在对Series或DataFrame重新索引时， 也可以指定一个填充值：
df5.reindex(columns=df6.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [59]:
# DataFrame和Series之间的运算
# 跟不同维度的NumPy数组一样， DataFrame和Series之间算术运算也是有明确规定的。 
# 先来看一个具有启发性的例子， 计算一个二维数组与其某行之间的差：
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [60]:
arr[0]

array([0., 1., 2., 3.])

In [61]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [62]:
# arr - arr[0] 每一行都会执行这个操作 —— 广播 broadcasting
# DataFrame 和 Series 之间运算差不多这样
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

series = frame.iloc[0]

frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [63]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [64]:
# 默认情况下， DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，
#  然后沿着行一直向下广播：
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [65]:
# 如果某个索引值在DataFrame的列或Series的索引中找不到， 
# 则参与运算的两个对象就会被重新索引以形成并集
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [66]:
# 希望匹配行且在列上广播， 则必须使用算术运算方法
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [67]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [68]:
# 传入轴号就是希望匹配的轴
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [69]:
# 函数应用和映射

# numpy 中那些 元素级数组方法 可用于操作pandas对象
frame = pd.DataFrame(np.random.randn(4, 3), 
                     columns=list('bde'), 
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,1.708955,-1.056406,0.437239
Ohio,-0.739124,0.532389,0.628942
Texas,0.857728,-0.584552,-0.234056
Oregon,0.764716,1.085663,0.08212


In [70]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.708955,1.056406,0.437239
Ohio,0.739124,0.532389,0.628942
Texas,0.857728,0.584552,0.234056
Oregon,0.764716,1.085663,0.08212


In [71]:
# 将这些函数应用到列或者行形成的一维数组上
# DataFrame 的 appply 方法即可实现
f = lambda x: x.max() - x.min()

frame.apply(f)

b    2.448079
d    2.142069
e    0.862998
dtype: float64

In [72]:
# frame 的每一列都执行了一次，结果是一个 Series 使用frame的列索引

# 传递 axis= 'columns' 到apply 函数会执行每一行
frame.apply(f, axis='columns')

Utah      2.765361
Ohio      1.368066
Texas     1.442280
Oregon    1.003543
dtype: float64

In [73]:
# 排序和排名

# 根据条件对数据集排序（sorting） 也是一种重要的内置运算
# 要对行或列索引进行排序（按字典顺序），可使用sort_index方法， 它将返回一个已排序的新对象
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [74]:
# 对于DataFrame， 则可以根据任意一个轴上的索引进行排序：
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])

frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [75]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [76]:
# 数据默认是按升序排序的， 但也可以降序排序：
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [78]:
# 若要按值对Series进行排序， 可使用其sort_values方法：
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [79]:
# 在排序时， 任何缺失值默认都会被放到Series的末尾
obj1 = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj1.sort_values(ascending=False)

2    7.0
0    4.0
5    2.0
4   -3.0
1    NaN
3    NaN
dtype: float64

In [80]:
# 当排序一个DataFrame时，希望根据一个或多个列中的值进行排序。 
# 将一个或多个列的名字传递给sort_values的by选项即可达到该目的：
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [81]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [82]:
# 要根据多个列进行排序， 传入名称的列表即可：
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [83]:
# 排名会从1开始一直到数组中有效数据的数量。 
# 接下来介绍Series和DataFrame的rank方法。 默认情况下， rank是通过“为各组分配一个平均排名”的方式破坏平级关系的
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [84]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [85]:
# 也可以根据值在原数据中出现的顺序给出排名：
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [86]:
# 你也可以按降序进行排名：
# Assign tie values the maximum rank in the group
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [87]:
# DataFrame可以在行或列上计算排名：
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 
                      'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [88]:
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


In [89]:
# 带有重复标签的轴索引
# 直到目前为止， 我所介绍的所有范例都有着唯一的轴标签（索引值） 。 
# 虽然许多pandas函数（如reindex） 都要求标签唯一， 但这并不是强制性的。 
# 下面这个简单的带有重复索引值的
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [90]:
# 索引的is_unique属性可以告诉你它的值是否是唯一的：
obj.index.is_unique


False

In [91]:
# 对于带有重复值的索引， 数据选取的行为将会有些不同。 
# 如果某个索引对应多个值， 则返回一个Series； 而对应单个值的， 则返回一个标量值：
obj['a']

a    0
a    1
dtype: int64

In [92]:
obj['c']


4

In [93]:
# 这样会使代码变复杂， 因为索引的输出类型会根据标签是否有重复发生变化。
# 对DataFrame的行进行索引时也是如此：
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.44112,-0.246417,0.773325
a,-0.554137,-0.533489,-1.67981
b,-1.37467,-0.350709,0.713743
b,-0.114747,-1.120071,1.651272


In [94]:
df.loc['b']

Unnamed: 0,0,1,2
b,-1.37467,-0.350709,0.713743
b,-0.114747,-1.120071,1.651272


In [95]:
# 汇总和计算描述统计

# pandas对象拥有一组常用的数学和统计方法。 它们大部分都属于约简和汇总统计， 
# 用于从Series中提取单个值（如sum或mean） 或从DataFrame的行或列中提取一个Series。 
# 跟对应的NumPy数组方法相比， 它们都是基于没有缺失数据的假设而构建的。 

df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                  [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [96]:
# 调用DataFrame的sum方法将会返回一个含有列的和的Series
df.sum()

one    9.25
two   -5.80
dtype: float64

In [97]:
# 传入axis='columns'或axis=1将会按行进行求和运算：
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [98]:
# NA值会自动被排除， 除非整个切片（这里指的是行或列） 都是NA。 
# 通过skipna选项可以禁用该功能： 默认 Ture
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [99]:
# 有些方法（如idxmin和idxmax） 返回的是间接统计（比如达到最小值或最大值的索引） 
df.idxmax()

one    b
two    d
dtype: object

In [100]:
# 有些方法则是累计型
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [101]:
# descibe 产生多个汇总统计
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [102]:
# 对于非数值型，describe 产生另外一种汇总统计
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [2]:
# 相关系数 与 协方差
# 这种统计参数 是需要 参数对 进行计算的
# pandas-datareader 包
import pandas_datareader.data as web

  from pandas.util.testing import assert_frame_equal


In [4]:
import pandas as pd
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                      for ticker, data in all_data.items()})

volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})


In [6]:
# 现在计算价格的百分数变化，
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-06-16,0.026502,0.028771,0.024505,0.016107
2020-06-17,-0.001392,-0.00799,0.003461,0.005822
2020-06-18,0.000398,8.1e-05,0.010708,-0.010447
2020-06-19,-0.005715,-0.013611,-0.00596,-0.002953
2020-06-22,0.026164,-0.011431,0.027774,0.014067


In [9]:
# Series 的方法 corr 计算 两个 Series 中重叠的、非NA的、按索引对齐的值的相关系数
# Series 的方法 cov 计算 两个 Series 中重叠的、非NA的、按索引对齐的值的协方差
returns['MSFT'].corr(returns['IBM'])

0.5945701747982904

In [10]:
returns['MSFT'].cov(returns['IBM'])

0.00016591478959423605

In [11]:
# DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵：
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.529199,0.714135,0.644647
IBM,0.529199,1.0,0.59457,0.527061
MSFT,0.714135,0.59457,1.0,0.751792
GOOG,0.644647,0.527061,0.751792,1.0


In [12]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000332,0.000155,0.000226,0.000202
IBM,0.000155,0.00026,0.000166,0.000146
MSFT,0.000226,0.000166,0.0003,0.000224
GOOG,0.000202,0.000146,0.000224,0.000295


In [13]:
# 利用DataFrame的corrwith方法， 你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。

# 传入一个Series将会返回一个相关系数值Series（针对各列进行计算） 
returns.corrwith(returns.IBM)

AAPL    0.529199
IBM     1.000000
MSFT    0.594570
GOOG    0.527061
dtype: float64

In [14]:
# 传入一个DataFrame则会计算按列名配对的相关系数。 
# 这里， 我计算百分比变化与成交量的相关系数
returns.corrwith(volume)

AAPL   -0.140441
IBM    -0.112983
MSFT   -0.065149
GOOG   -0.039715
dtype: float64

In [15]:
# 传入 axis = 'columns' 即可按照 行 进行计算
# 无论怎样，计算相关系数之前，所有数据项都会按标签对齐


In [16]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

# 第一个函数是unique， 它可以得到Series中的唯一值数组：
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [17]:
# value_counts用于计算一个Series中各值出现的频率
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [18]:
# value_counts 还是一个顶级 pandas 方法，可用于任何数组或者序列
pd.value_counts(obj.values, sort=False)

a    3
d    1
b    2
c    3
dtype: int64