# Pandas

## Pandas数据结构

In [1]:
import pandas as pd
import numpy as np

尽管pandas采用了很多NumPy的代码风格，但最大
的不同在于pandas是用来处理表格型或异质型数据的。
而NumPy则相反，它更适合处理同质型的数值类数组
数据。
两个常用的工具数据
结构：Series和DataFrame。

### Series

Series是一种一维的数组型对象，它包含了一个值
序列（与NumPy中的类型相似），并且包含了数据标
签，称为索引（index）。最简单的序列可以仅仅由一
个数组形成

In [4]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [8]:
# 通过values属性和index属性分别获得Series对象的值和索引
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [10]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
# 用标签标识每个数据
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a','e'])
print(obj2)

# 使用标签来索引
obj2['a']

d    4
b    7
a   -5
e    3
dtype: int64


-5

In [16]:
# 用布尔值数组过滤
obj2[obj2 > 0]

d    4
b    7
e    3
dtype: int64

In [17]:
# 与标量相乘
obj2 * 2

d     8
b    14
a   -10
e     6
dtype: int64

In [20]:
# 应用数学函数
np.exp(obj2)


d      54.598150
b    1096.633158
a       0.006738
e      20.085537
dtype: float64

另一个角度考虑Series，可以认为它是一个长度
固定且有序的字典，因为它将索引值和数据值按位置配
对。在你可能会使用字典的上下文中，也可以使用Series

In [22]:
"b" in obj2

True

In [23]:
"e" in obj2

True

In [26]:
# 已经有数据包含在Python字典中，可使用字典生成Series
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 1600}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon     1600
dtype: int64

In [27]:
# index 传参 从而使生成的Series的索引顺序符合你的预期
new_index = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index = new_index)
obj4

California        NaN
Ohio          35000.0
Oregon         1600.0
Texas         71000.0
dtype: float64

In [28]:
# pandas中使用isnull和notnull函数来检查缺失数据
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [29]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [30]:
# isnull和notnull也是Series的实例方法
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [31]:
# 数据对齐特性与数据库的join操作是非常相似
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon          3200.0
Texas         142000.0
dtype: float64

In [35]:
# Series对象自身和其索引都有name属性，
# 这个特性与pandas其他重要功能集成在一起
obj4.name = 'population'
obj4.index.name = 'state'

In [36]:
obj4

state
California        NaN
Ohio          35000.0
Oregon         1600.0
Texas         71000.0
Name: population, dtype: float64

In [40]:
# Series的索引可以通过按位置赋值的方式进行改变
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

DataFrame:
矩阵的数据表[已排序的列集合数值、字符串、布尔值]
DataFrame既有行索引也有列索引，可以视为一个共享相同索引的Series的字典。
DataFrame是二维的，可利用分层索引在DataFrame中展现更高维度数据

构建DataFrame:包含等长度列表或NumPy数组的字典

In [6]:
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada','Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [8]:
# 指定列的顺序 DataFrame的列将会按照指定顺序排列
pd.DataFrame(data, columns=['year','state','pop','debt'])
# 传的列不包含在字典中，将会在结果中出现缺失值

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [11]:
# 指定index
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'],index=['one','two','five','three','four','six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
five,2002,Ohio,3.6,
three,2001,Nevada,2.4,
four,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [18]:
frame2['year']

one      2000
two      2001
five     2002
three    2001
four     2002
six      2003
Name: year, dtype: int64

In [21]:
frame2['pop']

one      1.5
two      1.7
five     3.6
three    2.4
four     2.9
six      3.2
Name: pop, dtype: float64

In [22]:
# 行也可以通过位置或特殊属性loc进行选取
frame2.loc['three']

year       2001
state    Nevada
pop         2.4
debt        NaN
Name: three, dtype: object

In [23]:
# 列的引用是可以修改的。例如，空的'debt'列可以赋值为标量值或值数组
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
five,2002,Ohio,3.6,16.5
three,2001,Nevada,2.4,16.5
four,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [25]:
frame2['debt'] = np.arange(6.)
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
five,2002,Ohio,3.6,2.0
three,2001,Nevada,2.4,3.0
four,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [26]:
frame2['debt'] = [1,2,3,4,5,2]
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,1
two,2001,Ohio,1.7,2
five,2002,Ohio,3.6,3
three,2001,Nevada,2.4,4
four,2002,Nevada,2.9,5
six,2003,Nevada,3.2,2


In [30]:
# 利用series传入一列数据到dataframe
val = pd.Series(np.arange(6,12), index =['one','two','five','three','four','six'])
val

one       6
two       7
five      8
three     9
four     10
six      11
dtype: int32

In [31]:
frame2['insert_val'] = val
frame2

Unnamed: 0,year,state,pop,debt,insert_val
one,2000,Ohio,1.5,1,6
two,2001,Ohio,1.7,2,7
five,2002,Ohio,3.6,3,8
three,2001,Nevada,2.4,4,9
four,2002,Nevada,2.9,5,10
six,2003,Nevada,3.2,2,11


In [4]:
# 删除列
# del frame2['debt']
# frame2

In [38]:
# 另一种常用的数据形式是包含字典的嵌套字典

# pandas会将字典的键作为列，将内部字典的键作为行索引
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame3 = pd.DataFrame(pop)

In [39]:
# Dataframe行列转置
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [40]:
# 含Series的字典也可用于构造DataFrame
pdata = {'Ohio': frame3['Ohio'][:-1], 
        'Nevada': frame3['Nevada'][:2]}

# 可以将frame3['Ohio']看做一个Series，然后字典键看做列。
# frame3['Ohio'][:-1] 等同于一个字典，内部字典的键作为行索引
# 简单看来，字典套字典
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [45]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [48]:
# DataFrame中的数据以二维ndarray的形式返回
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [49]:
# 如果DataFrame的列是不同的dtypes
# 则values的dtype会自动选择适合所有列的类型
frame2.values

array([[2000, 'Ohio', 1.5, 6],
       [2001, 'Ohio', 1.7, 7],
       [2002, 'Ohio', 3.6, 8],
       [2001, 'Nevada', 2.4, 9],
       [2002, 'Nevada', 2.9, 10],
       [2003, 'Nevada', 3.2, 11]], dtype=object)

### 索引对象

pandas中的索引对象是用于存储轴标签和其他元数
据的（例如轴名称或标签）。

在构造Series或DataFrame时，你所使用的任意数组或标签序列都可以在内部转换为索引对象

In [54]:
obj = pd.DataFrame(range(3), index=['a','b','c'])
index = obj.index
print(index)
index[1:]

Index(['a', 'b', 'c'], dtype='object')


Index(['b', 'c'], dtype='object')

In [57]:
# 索引对象是不可变的，因此用户是无法修改索引对象的
index[1]='d'

TypeError: Index does not support mutable operations

In [64]:
# 不变性使得在多种数据结构中分享索引对象更为安全
labels = pd.Index(np.arange(3))
labels
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2
obj2.index is labels

True

In [68]:
# 除了类似数组，索引对象也像一个固定大小的集合
frame3
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [70]:
# 与Python集合不同，pandas索引对象可以包含重复标签
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

### 基本功能

#### 重建索引

In [118]:
# reindex是pandas对象的重要方法，
# 该方法用于创建一个符合新索引的新对象。
# Series调用reindex方法时，会将数据按照新的索引进行排列，
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'a','b','c'])
obj

obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a    7.2
b   -5.3
c    3.6
d    4.5
e    NaN
dtype: float64

In [119]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0,2,4])
obj3
# 在重建索引时可能会需要进行插值或填值,ffill方法会将值前向填充
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [120]:
frame = pd.DataFrame(np.arange(9).reshape(3,3),
index = ['z','x','y'],columns=['a','b','c'])
frame

Unnamed: 0,a,b,c
z,0,1,2
x,3,4,5
y,6,7,8


In [123]:
# 在DataFrame中，reindex可以改变行索引、列索引，也可以同时改变二者。
# 当仅传入一个序列时，结果中的行会重建索引。
# reindex只是对排序进行调整，如果出现了新的indexname则会多创建一列（行）
frame2 = frame.reindex(columns=['c','a','b'])
frame2

Unnamed: 0,c,a,b
z,2,0,1
x,5,3,4
y,8,6,7


In [127]:
# 以使用loc进行更为简洁的标签索引

# 列可以使用columns关键字重建索引
states = ['b','a','california']
frame = frame.reindex(columns = states)


In [128]:
# loc[[行的Index数组], 列的index_name]
frame.loc[['y','z','x'], states]

Unnamed: 0,b,a,california
y,7,6,
z,1,0,
x,4,3,


#### 轴向上删除条目

如果你已经拥有索引数组或不含条目的列表，在轴
向上删除一个或更多的条目就非常容易，但这样需要一
些数据操作和集合逻辑，drop方法会返回一个含有指示
值或轴向上删除值的新对象：

In [134]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [133]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [135]:
obj.drop(['d', 'c']) # 临时删除

a    0.0
b    1.0
e    4.0
dtype: float64

In [144]:
# 在DataFrame中，索引值可以从轴向上删除。
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])

data.drop('two', axis=1) # 未加inplace 不直接操作原对象 

# data.drop('one', axis = 1, inplace=True)
# inplace 直接操作原对象


Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


#### 索引、选择与过滤


Series的索引（obj[...]）与NumPy数组索引的功能类似，只不过Series的索引值可以不仅仅是整数。

In [145]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [149]:
print(obj['b'],"\n")
print(obj[1],"\n")
print(obj[['b', 'a', 'd']], "\n")

1.0 

1.0 

b    1.0
a    0.0
d    3.0
dtype: float64 



In [151]:
# 普通的Python切片中是不包含尾部的，Series的切片与之不同
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [152]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [3]:
# 使用单个值或序列，可以从DataFrame中索引出一个或多个列
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])
data

data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [4]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [157]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [158]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [159]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [162]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


同时行列索引：使用loc和iloc选择数据:特殊的索引符号loc和iloc。

In [5]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [6]:
data.iloc[2, [3, 0, 1]] # 2代表第三行，[3,0,1]代表 four, one, two

four    11
one      8
two      9
Name: Utah, dtype: int32

In [8]:
# 整数标签iloc
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [9]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [10]:
data.loc[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [13]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


#### 整数索引

In [27]:
ser = pd.Series(np.arange(3.))
ser
# ser[-1] 报错
# 在上面的例子中，pandas可以“回退”到整数索引，但这样的方式会引起错误


0    0.0
1    1.0
2    2.0
dtype: float64

假设我们有一个索引，它包含了0、1、2，但是推断用户所需要
的索引方式（标签索引或位置索引）是很难的

另一方面，对于非整数索引，则不会有潜在的歧义：


In [26]:
# ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
# ser2[-1]

2.0

为了更精确地处理，可以使用loc（用于标签）或iloc（用于整数）：

In [28]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [31]:
ser[:1]
ser.iloc[:1]

0    0.0
dtype: float64

#### 算术和数据对齐

当对象相加时，如果存在某个索引对不相同，则返回结果的索引将是索引对的并集。没有交叠的标签位置上，内部数据对齐会产生缺失
值。

In [33]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], 
index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
index=['a', 'c', 'e', 'f', 'g'])

In [34]:
s2 + s1
# 没有交叠的标签位置上，内部数据对齐会产生缺失值。

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [35]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [36]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [37]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


如果你将两个行或列完全不同的DataFrame对象相加，结果将全部为空：


In [38]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})

df2-df1

Unnamed: 0,A,B
0,,
1,,


使用填充值的算术方法

对象之间进行算术操作时缺失值填充为0：

In [48]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [49]:
df2.loc[1, 'b'] = np.nan

In [50]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


在df1上使用add方法，我将df2和一个fill_value作为
参数传入

In [53]:
df1.add(df2,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [66]:
1/df1
df1-1

Unnamed: 0,a,b,c,d
0,-1.0,0.0,1.0,2.0
1,3.0,4.0,5.0,6.0
2,7.0,8.0,9.0,10.0


In [56]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


与此相关的一点，当对Series或DataFrame重建索引时，你也可以指定一个不同的填充值。


In [59]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [60]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [62]:
df1.reindex(columns=df2.columns,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [65]:
df1.rsub(1) # 1-x

Unnamed: 0,a,b,c,d
0,-1.0,0.0,1.0,2.0
1,3.0,4.0,5.0,6.0
2,7.0,8.0,9.0,10.0


DataFrame和Series间的操作

In [70]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [71]:
arr[0]

array([0., 1., 2., 3.])

In [73]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

当我们从arr中减去arr[0]时，减法在每一行都进行了操作。这就是所谓的广播机制，

In [81]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
columns=list('bde'),
index=['Utah', 'Ohio', 'Texas', 'Oregon'])

series = frame.iloc[0]
series
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [75]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


如果一个索引值不在DataFrame的列中，也不在
Series的索引中，则对象会重建索引并形成联合

In [83]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

In [78]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


如果你想改为在列上进行广播，在行上匹配，你必
须使用算术方法中的一种。

In [86]:
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

你传递的axis值是用于匹配轴的。上面的示例中表
示我们需要在DataFrame的行索引上对行匹配
（axis='index'或axis=0），并进行广播。

In [92]:
print(frame)
frame.sub(series3, axis=0)

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0


Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


函数应用和映射

In [93]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-1.425407,0.04405,-0.132653
Ohio,1.944665,-1.251005,1.462701
Texas,-0.488953,2.519588,0.47739
Oregon,-0.232388,-0.671673,-0.821779


In [95]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.425407,0.04405,0.132653
Ohio,1.944665,1.251005,1.462701
Texas,0.488953,2.519588,0.47739
Oregon,0.232388,0.671673,0.821779


另一个常用的操作是将函数应用到一行或一列的一
维数组上

In [96]:
f = lambda x: x.max() - x.min()

In [99]:
# 应用到列上
frame.apply(f)

b    3.370072
d    3.770593
e    2.284480
dtype: float64

如果你传递axis='columns'给apply函数，函数将会
被每行调用一次

In [101]:
frame.apply(f, axis='columns')

Utah      1.469457
Ohio      3.195670
Texas     3.008541
Oregon    0.589391
dtype: float64

大部分最常用的数组统计（比如sum和mean）都是
DataFrame的方法，因此计算统计值时使用apply并不是
必需的。


In [103]:
def f(x):
     return pd.Series([x.min(), x.max()], 
     index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.425407,-1.251005,-0.821779
max,1.944665,2.519588,1.462701


In [112]:
format2 = lambda x: '%.3f' % x
frame.applymap(format2)

Unnamed: 0,b,d,e
Utah,-1.425,0.044,-0.133
Ohio,1.945,-1.251,1.463
Texas,-0.489,2.52,0.477
Oregon,-0.232,-0.672,-0.822


In [108]:
frame

Unnamed: 0,b,d,e
Utah,-1.425407,0.04405,-0.132653
Ohio,1.944665,-1.251005,1.462701
Texas,-0.488953,2.519588,0.47739
Oregon,-0.232388,-0.671673,-0.821779


使用applymap作为函数名是因为Series有map方
法，可以将一个逐元素的函数应用到Series上：

In [114]:
frame['e'].map(format)

Utah      -0.13
Ohio       1.46
Texas      0.48
Oregon    -0.82
Name: e, dtype: object

#### 排序和排名

如需按行或列索引进行字典型排序，需要使用
sort_index方法，

In [118]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [123]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['three', 'one'],
columns=['d', 'a', 'b', 'c'])
frame
frame.sort_index()
frame.sort_index(axis=1)
frame.sort_index(axis=1, ascending=False)


In [127]:
# 根据Series的值进行排序
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [129]:
# 默认情况下，所有的缺失值都会被排序至Series的尾部
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

当对DataFrame排序时，你可以使用一列或多列作
为排序键。为了实现这个功能，传递一个或多个列名给
sort_values的可选参数by：

In [133]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame
frame.sort_values(by="b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [135]:
# 对多列排序时，传递列名的列表：
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [4]:
# Series和DataFrame的rank方法是实现排名的方法，
# 默认情况下，rank通过将平均排名分配到每个组来打破平级关系
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [139]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [140]:
obj.rank(method='first')


0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [143]:
# 你可以按降序排名 max:将值分配给组中的最大排名
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [144]:
# DataFrame可以对行或列计算排名：
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [145]:
# 对行排列
frame.rank(axis='columns') 

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 描述性统计的概述与计算

In [3]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
index=['a', 'b', 'c', 'd'],
columns=['one', 'two'])

In [14]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [15]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [18]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [21]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [22]:
# 比如idxmin和idxmax，返回的是间接统计信息，比如最小值或最大值的索引值
df.idxmax()

one    b
two    d
dtype: object

In [23]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [25]:
# 既不是归约型方法也不是积累型方法。describe就是其中之一，它一次性产生多个汇总统计
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [28]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

In [5]:
# 对于非数值型数据，describe产生另一种汇总统计
obj.describe()

count    7.000000
mean     2.714286
std      4.231402
min     -5.000000
25%      1.000000
50%      4.000000
75%      5.500000
max      7.000000
dtype: float64

#### 相关性和协方差

In [33]:
### 协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。
### 而方差是协方差的一种特殊情况，即当两个变量是相同的情况。
# 协方差作为描述X和Y相关程度的量，在同一物理量纲之下有一定的作用，
# 但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念：随机变量X和Y的(Pearson)相关系数。

### 协方差如何实现
s1 = pd.Series([.2,.0,.6,.2])
s2 = pd.Series([.3,.6,.0,.1])
print("1.调用pd.Series.cov()协方差的结果:",s1.cov(s2))

def covraince(x,y):
    meanx = x.mean()
    meany = y.mean()
    covraince=0
    for i in range(len(x)):
        covraince += (x[i]-meanx)*(y[i]-meany)
    return covraince/(len(x)-1)
print("2.用公式定义函数的协方差的结果:",covraince(s1,s2))

print("3.调用pd.Series.corr()相关系数的结果:",s1.corr(s2))
import math
def correlation(x,y):
    # 计算x的方差
    meanx = x.mean()
    meany = y.mean()
    
    tx = ty = 0
    for i in range(len(x)):
        tx += (x[i]-meanx) * (x[i]-meanx)
        ty += (y[i]-meany) * (y[i]-meany)
    
    dd = math.sqrt(tx/(len(x)-1))*math.sqrt(ty/(len(y)-1))
    res = covraince(x,y)/dd
    return res

print("4.用公式定义函数的相关系数的结果:",correlation(s1,s2))

1.调用pd.Series.cov()协方差的结果: -0.05666666666666666
2.用公式定义函数的协方差的结果: -0.056666666666666664
3.调用pd.Series.corr()相关系数的结果: -0.85106449634699
4.用公式定义函数的相关系数的结果: -0.8510644963469901


#### 唯一值、计数和成员属性

In [35]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [40]:
uniques = obj.unique()
uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

In [41]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [45]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [48]:
# isin执行向量化的成员属性检查
# 还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集

obj
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [49]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [56]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a','d'])
unique_value = pd.Series(['c', 'a', 'b'])

to_match.isin(unique_value)

pd.Index(unique_value).get_indexer(to_match)

array([ 0,  1,  2,  2,  0,  1, -1])

In [58]:
# 某些情况下，你可能想要计算DataFrame多个相关 列的直方图
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],'Qu2': [2, 3, 1, 2, 3],'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [67]:
# 将pandas.value_counts传入DataFrame的apply函数可以得到
result = data.apply(pd.value_counts).fillna(0)
result

#  这里，结果中的行标签是所有列中出现的不同值，数值则是这些不同值在每个列中出现的次数。

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
