# 2 pandas入门
    pandas所包含的数据结构和数据处理工具使得在Python中进行数据清洗和分析非常快捷

# 2.1 pandas 数据结构介绍
    pandas主要的工具数据结构：Series和DataFrame

### 2.1.1 Series

In [1]:
import numpy as np
import pandas as pd
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [2]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [3]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
obj2 = pd.Series([4, 7, -5, 3], index = ['a', 'b','c', 'd'])
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [5]:
obj2['a'] # 可以使用标签来进行索引， 从而从数据中选择数据

4

In [6]:
obj2[obj2 > 0] # 可以对Series对象使用NumPy的函数或NumPy风格的操作

a    4
b    7
d    3
dtype: int64

In [7]:
obj2 * 2

a     8
b    14
c   -10
d     6
dtype: int64

In [8]:
np.exp(obj2)

a      54.598150
b    1096.633158
c       0.006738
d      20.085537
dtype: float64

In [9]:
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata) # 可以使用字典生成一个Series
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [10]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4 # 结果中没有Utah， California对应的值为NAN

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [11]:
pd.isnull(obj4) # pandas 中使用isnull和notnull函数来检查缺失数据

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [12]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [13]:
obj4.isnull() # isnull和notnull也是Series的实例方法

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [14]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [15]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [16]:
obj3 + obj4 # 在数学操作中自动对齐索引是Series的一个非常有用的特性

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [17]:
obj4.index.name = 'state' # Series对象自身和其索引都有name属性
obj4.name = 'population'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [18]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [19]:
obj.index = ['Bob', 'Steve','Jeff', 'Ryan'] # Series的索引可以通过按位置索引的方式进行改变
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 2.1.2 DataFrame

In [20]:
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year':[2000, 2001, 2002, 2001, 2002, 2003],
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data) # 利用包含等长度列表或NumPy数组的字典
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [21]:
frame.head(2) # 对于大型的DataFrame，可以使用head方法显示其头部若干项

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7


In [22]:
pd.DataFrame(data, columns=['year', 'state', 'pop']) # 可以通过columns参数指定列的顺序

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [23]:
frame2 = pd.DataFrame(data, columns=['year', 'state','pop', 'debt'], # 若传入的column列不在字典中，结果中会出现缺失值
                      index=['one', 'two','three', 'four', 'five','six']) 
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [24]:
# DataFrame 中的一列可以按字典型标记或属性那样检索为Series
# 返回的Series与原DataFrame有相同的索引
# 且Series的name属性被合理地设置
frame2.year # 按属性检索

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [25]:
frame2.year.name 

'year'

In [26]:
frame2['state'] # 按字典索引检索

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [27]:
# DataFrame对象的行也可以通过特殊属性loc进行选取
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [28]:
frame2['debt'] = np.random.rand(6)*20 # 列的引用是原数据的一个视图，对其进行的修改将反映在原数据中
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.716246
two,2001,Ohio,1.7,16.876334
three,2002,Ohio,3.6,8.171858
four,2001,Nevada,2.4,12.669402
five,2002,Nevada,2.9,0.274874
six,2003,Nevada,3.2,9.022494


In [29]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val # 将Series赋值给一列时， Series的索引会按照DataFrame的索引重新排列，
                     # 并在空缺的地方填充缺失值
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [30]:
frame2['eastern'] = frame2.state == 'Ohio' # 如果被赋值的列不存在，则会产生一个新的列
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [31]:
del frame2['eastern'] # del方法可以移除DataFrame对象中的列
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [32]:
pop = {'Nevada':{2001:2.4, 2002:2.9,},
       'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop) # 也可以利用包含字典的嵌套字典来建立DataFrame对象
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [33]:
frame3.T # 可以使用类似NumPy的语法对DataFrame进行转置操作(调换行和列)

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [34]:
pdata = {'Ohio':frame3['Ohio'][:-1],
         'Nevada':frame3['Nevada'][:2]}
pd.DataFrame(pdata) # 可以利用包含Series的字典来创建DataFrame

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [35]:
frame3.index.name = 'year' # 如果DataFrame的索引和列拥有name属性，则这些属性也会被显示
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [36]:
frame3.values # 与Series类似，DataFrame的values属性会将包含在DataFrame中的数据以二维ndarray的形式返回

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

### 2.1.3 索引对象

In [37]:
obj = pd.Series(range(3), index=['a','b', 'c']) 
# 在构造Series或DataFrame时，任意数组或标签序列都可以在内部转换为索引对象
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [38]:
# 索引对象是不可变的，因此用户是无法修改索引对象的
index[1] = ['d'] 

TypeError: Index does not support mutable operations

In [None]:
# 不变性使得在多种数据结构中分享索引对象更为安全
labels = pd.Index(np.arange(3)) # 利用构造函数创建索引对象
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

In [None]:
obj2.index is labels

In [None]:
# pandas索引对象可以包含重复标签
# 根据重复标签进行筛选，会选取所有重复标签对应的数据
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar']) 
dup_labels

### 一些索引对象的方法和属性
方法|属性
:-:|:-:
append|将额外的索引对象粘贴到索引对象后，产生一个新的索引
difference|计算两个索引的差集
intersection|计算两个索引的交集
union|计算两个索引的并集
isin|计算索引对象中的元素是否在序列中，返回一个布尔值对象
delete|将位置i的元素删除，并返回新的索引
drop|根据传参删除指定的索引值，并返回新的索引
insert|在位置i插入元素，并产生新的索引
is_monotonic|如果索引序列递增则返回True
is_unique|如果索引序列中的元素唯一则返回True
unique|计算索引的唯一值序列

## 2.2 基本功能

### 2.2.1 重建索引

In [39]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [40]:
# reindex用于创建一个符合新索引的新对象
# Series在调用reindex方法时，会将数据按照新的索引进行排序，如果某个索引值之前不存在，则会引入缺失值
obj2 = obj.reindex(list('abcde')) 
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [41]:
obj3 = pd.Series(['blue', 'yellow', 'purple'], index=[0, 2, 4])
obj3

0      blue
2    yellow
4    purple
dtype: object

In [42]:
# 对于顺序数据，在重建索引时可能会需要进行插值或填值
# method参数允许我们使用诸如ffill等方法在重建索引时插值
# ffill方法会将值前向填充
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    yellow
3    yellow
4    purple
5    purple
dtype: object

In [43]:
# DataFrame中，reindex可以改变行索引，列索引，也可以同时改变二者
frame = pd.DataFrame(np.arange(9).reshape(3, 3), index=['a','c','d'], columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [44]:
frame.reindex(list('abcd')) # 仅传入一个序列时，结果中的行会重建索引

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [45]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states) # 列可以使用columns关键字重建索引

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 2.2.2 轴向上删除条目

In [46]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [47]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [48]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [49]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [50]:
data = pd.DataFrame(np.arange(16).reshape(4,4), index=['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [51]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [52]:
data.drop('two', axis=1) # 可以通过传递axis=1 或axis='columns'来从列中删除值

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [53]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [54]:
data.drop(['one', 'two', 'three'], axis=1, inplace=True) # 通过inplace=True进行原位置修改， 而不返回新的对象
data

Unnamed: 0,four
Ohio,3
Colorado,7
Utah,11
New York,15


### 2.2.3 索引、选择与过滤

In [55]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [56]:
obj['b'] # Series的索引(obj[…])与NumPy数组索引的功能类似，但Series的索引值可以不仅仅是整数

1.0

In [57]:
obj[1] # 使用整数索引

1.0

In [59]:
obj[2:4] # 使用数字切片索引

c    2.0
d    3.0
dtype: float64

In [61]:
obj['b':'c'] # 使用标签切片索引
             # 注意标签切片索引与数字切片索引不同，包含了尾部数据

b    1.0
c    2.0
dtype: float64

In [58]:
obj[['b', 'a', 'd']] # 使用标签列表索引

b    1.0
a    0.0
d    3.0
dtype: float64

In [60]:
obj[[1, 3]] # 使用整数列表索引

b    1.0
d    3.0
dtype: float64

In [62]:
obj[obj<2] # 使用布尔值数组索引

a    0.0
b    1.0
dtype: float64

In [65]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [66]:
data['two'] # 使用单个值或序列，可以从DataFrame中索引出一个或多个列

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [68]:
data[['one', 'two']]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5
Utah,8,9
New York,12,13


In [69]:
data[:2] # 使用数字切片索引

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [70]:
data[data['three'] > 5] # 使用布尔值数组索引, 过滤出符合特定条件的列

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 2.2.3.1 使用loc和iloc选择数据
    特殊的索引符号loc和iloc针对DataFrame在行上的标签索引。允许使用轴标签(loc)或整数标签(iloc)以NumPy风格的语法从DataFrame中选出特定的行和列的子集

In [71]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [72]:
data.loc['Colorado', ['two', 'three']] # loc通过标签选出单行多列的数据

two      5
three    6
Name: Colorado, dtype: int32

In [73]:
data.iloc[2, [3, 0, 1]] # iloc使用整数标签选出单行多列的数据

four    11
one      8
two      9
Name: Utah, dtype: int32

In [74]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [75]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [76]:
data.loc[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [77]:
data.iloc[:,:3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [78]:
data.at['Ohio', 'one'] # 通过行列标签选择单个元素

0

In [79]:
data.iat[0, 0] # 通过行列整数偏移选择单个元素

5

### 2.2.4 整数索引

In [90]:
# 整数索引和标签索引经常会产生歧义
ser = pd.Series(np.arange(3.0)) 
ser[:1] # 整数索引

0    0.0
dtype: float64

In [91]:
ser.loc[:1] # 标签索引

0    0.0
1    1.0
dtype: float64

In [92]:
ser.iloc[:1] # 整数索引

0    0.0
dtype: float64

### 2.2.5 算术和数据对齐

In [101]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=list('acde'))
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=list('acefg'))

In [94]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [95]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [97]:
s1+s2 # 对于Series对象的数学运算，会根据标签位置进行对齐，没有交叠的标签位置上，内部数据对齐会产生缺失值

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [105]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [106]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [107]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [110]:
df1 + df2 # 对于DataFrame对象的数学运算，行和列都会执行对齐，没有交叠的标签位置上，内部数据对齐会产生缺失值
          # DataFrame对象相加，返回一个DataFrame对象，它的索引，列是每个DataFrame的索引，列的并集

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [111]:
df3 = pd.DataFrame({'A':[1, 2]})
df4 = pd.DataFrame({'B':[3, 4]})
df3+df4 # 将两个行或列完全不同的DataFrame对象相加， 结果将全部为空

Unnamed: 0,A,B
0,,
1,,


#### 2.2.5.1 使用填充值的算数方法
    在两个不同的索引化对象之间进行算术操作时，可使用特殊的填充值对缺失值进行填充

In [112]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [113]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [115]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [116]:
# 当对Series或DataFrame对象重建索引时，也可以指定一个填充值
df1.reindex(columns = df2.columns, fill_value=0) 

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


### 常用的算术方法
方法|描述
:-:|:-:
add,radd|加法(+)
sub,rsub|减法(-)
div,rdiv|除法(/)
floordiv,rfloordiv|整除(//)
mul,rmul|乘法(\*)
pow,rpow|幂次方(\*\*)

#### 2.2.5.2 DataFrame和Series间的操作

In [124]:
frame = pd.DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'), 
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]

In [125]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [126]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [127]:
# 默认情况下，DataFrame和Series的数学操作中会将Series的索引和DataFrame的列进行匹配，并广播到各行
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [128]:
series2 = pd.Series(range(3), index=list('bef'))
frame + series2 # 若一个索引值不同时在DataFrame的列中和Series的索引中，则结果会重建索引形成联合

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [129]:
# 可以传入axis='index'或axis=0,在列上进行广播，在行上进行匹配
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [131]:
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [135]:
frame.add(series3, axis=0)

Unnamed: 0,b,d,e
Utah,1.0,2.0,3.0
Ohio,7.0,8.0,9.0
Texas,13.0,14.0,15.0
Oregon,19.0,20.0,21.0


In [138]:
data=np.arange(12).reshape(3,4)
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

### 2.2.6 函数应用和映射
    Numpy的通用函数(逐元素数组方法)对pandas对象也有效

In [143]:
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.072483,1.45928,0.332496
Ohio,-0.482861,0.380803,-1.006052
Texas,0.531538,-1.161632,2.141485
Oregon,-0.17894,1.480238,1.457333


In [144]:
np.fabs(frame)

Unnamed: 0,b,d,e
Utah,0.072483,1.45928,0.332496
Ohio,0.482861,0.380803,1.006052
Texas,0.531538,1.161632,2.141485
Oregon,0.17894,1.480238,1.457333


In [147]:
f = lambda x: x.max() - x.min()
frame.apply(f) # 使用DataFrame的apply方法将函数应用到一行或一列的一维数组上

b    1.014399
d    2.641870
e    3.147537
dtype: float64

In [148]:
# 传入axis=1或axis='index', 函数将会被每行调用一次
# 大部分常用的数组统计(比如sum和mean)都是DataFrame方法，因此计算统计值时使用apply并不是必需的
frame.apply(f, axis=1) 

Utah      1.386797
Ohio      1.386854
Texas     3.303117
Oregon    1.659178
dtype: float64

In [150]:
# 传递给apply的函数并不一定要返回一个标量值，也可以返回带有多个值的Series
def f(x):
    return pd.Series([x.min(), x.max()],index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.482861,-1.161632,-1.006052
max,0.531538,1.480238,2.141485


In [151]:
frame.apply(f, axis=1)

Unnamed: 0,min,max
Utah,0.072483,1.45928
Ohio,-1.006052,0.380803
Texas,-1.161632,2.141485
Oregon,-0.17894,1.480238


In [155]:
# Series对象有map方法，可以将一个逐元素的函数应用到Series上
frame['e'].map(abs)

Utah      0.332496
Ohio      1.006052
Texas     2.141485
Oregon    1.457333
Name: e, dtype: float64

In [154]:
# 逐元素的Python函数可以通过applymap方法应用于DataFrame对象
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,0.07,1.46,0.33
Ohio,-0.48,0.38,-1.01
Texas,0.53,-1.16,2.14
Oregon,-0.18,1.48,1.46


### 2.2.7 排序和排名

In [160]:
obj = pd.Series(np.arange(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int32

In [161]:
# 如需根据行或列索引进行字典型排序，需要使用sort_index方法。该方法返回一个新的，排序好的对象
obj.sort_index() 

a    1
b    2
c    3
d    0
dtype: int32

In [163]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)), index=['three', 'one'], columns=list('dabc'))
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [165]:
frame.sort_index() # 在DataFrame中，可以在各个轴上按索引排序

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [166]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [167]:
frame.sort_index(axis=1, ascending=False) # 数据默认会升序排序，但也可以按照降序排序

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [168]:
# 如果要根据值排序，可以使用sort_value方法
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [170]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values() # 默认情况下所有缺失值会被排序至Series的尾部

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [175]:
frame = pd.DataFrame({'a':[0, 1, 0, 1],'b':[4, 7, -3, 2]})
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [176]:
frame.sort_values(by='b') # 对DataFrame排序时，可以传入关键字by，使用一列或多列作为排序键

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


In [177]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


In [179]:
# 排名是指对1到有效数据点总数分配名次的操作。Series和DataFrame的rank方法可以实现排名
# 默认情况下，rank通过将平均排名分配到每个组来打破平局关系
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [180]:
obj.rank() # 根据值的大小进行升序排名，出现平局关系则将平均排名赋给对应的平局小组里的成员

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [183]:
# 对于平局关系，也可以根据元素在数据中的观察顺序进行排名
obj.rank(method='first') # 条目0和2的名次为6和7，是因为在数据中标签0在标签2的前面

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [185]:
pd.DataFrame({'data':obj, 'rank':obj.rank(method='first')})

Unnamed: 0,data,rank
0,7,6.0
1,-5,1.0
2,7,7.0
3,4,4.0
4,2,3.0
5,0,2.0
6,4,5.0


In [188]:
pd.DataFrame({'data':obj, 'rank':obj.rank(ascending=False, method='first')})

Unnamed: 0,data,rank
0,7,1.0
1,-5,7.0
2,7,2.0
3,4,3.0
4,2,5.0
5,0,6.0
6,4,4.0


In [190]:
# DataFrame 可以对行或列进行排名
frame = pd.DataFrame({ 'a':[0, 1, 0, 1],
                       'b':[4.3, 7, -3, 2],
                       'c':[-2, 5, 8, -2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [191]:
frame.rank(axis='columns')

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


### 2.2.8 含有重复标签的轴索引

In [193]:
obj = pd.Series(range(5), index=list('aabbc'))
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [194]:
obj.index.is_unique # 索引的is_unique属性可以显示它的标签是否唯一

False

In [197]:
# 带有重复索引的情况下，根据一个标签索引多个条目会返回一个序列，索引单个条目会返回标量值
# 来自索引的输出可能因为标签是否重复而有所不同
obj['a']

a    0
a    1
dtype: int64

In [199]:
# 相同的逻辑可以拓展到DataFrame中进行行索引
df = pd.DataFrame(np.random.randn(4,3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.873998,-1.176704,0.637457
a,-0.68909,1.451512,1.956434
b,-0.889807,-0.311312,-0.833191
b,0.345485,-0.324727,-0.018767


In [200]:
df.loc['b']

Unnamed: 0,0,1,2
b,-0.889807,-0.311312,-0.833191
b,0.345485,-0.324727,-0.018767


## 2.3 描述性统计的概述与计算

In [202]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -1.3],
                   [np.nan, np.nan], [0.75, -1.3]], index=list('abcd'), columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-1.3
c,,
d,0.75,-1.3


In [203]:
df.sum() # DataFrame的sum方法返回一个包含列上加和的Series

one    9.25
two   -2.60
dtype: float64

In [204]:
df.sum(axis='columns') # 传入axis='columns'或axis=1，则会将一行上的各个列的值相加

a    1.40
b    5.80
c    0.00
d   -0.55
dtype: float64

In [208]:
# 除非整个切片上(在本例中是行或列)都是NA，否则NA值是被自动排除。
df.mean(axis='columns')

a    1.400
b    2.900
c      NaN
d   -0.275
dtype: float64

In [207]:
df.mean(axis='columns', skipna=False) # 可以通过禁用skipna来实现不排除NA值

a      NaN
b    2.900
c      NaN
d   -0.275
dtype: float64

### 规约方法可选参数
方法|描述
:-:|:-:
axis|规约轴，0为行向，1为列向
skipna|排除缺失值，默认为True
level|如果轴是多层索引的(MultiIndex)，该参数可以缩减分组层级

In [210]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-1.3
c,,
d,0.75,-1.3


In [209]:
df.idxmax() # idxmax和idxmin 返回最大值和最小值的索引值

one    b
two    b
dtype: object

In [211]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-1.3
c,,
d,9.25,-2.6


In [212]:
df.describe() # describe方法一次性产生多个汇总统计

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-1.3
std,3.493685,0.0
min,0.75,-1.3
25%,1.075,-1.3
50%,1.4,-1.3
75%,4.25,-1.3
max,7.1,-1.3


In [213]:
obj = pd.Series(list('aabc')*4)
obj.describe() # 对于非数值型数据，describe产生另一种汇总统计

count     16
unique     3
top        a
freq       8
dtype: object

### 描述性统计和汇总统计
方法|描述
:-:|:-:
count|非NA值的个数
describe|计算Series或DataFrame各列的汇总统计集合
min，max|计算最小值，最大值
argmin，argmax|计算最小值，最大值所在的索引位置(整数)
idxmin, idxmax|计算最小值，最大值所在的索引标签
quantile|计算样本从0到1间的分位数
sum|加和
mean|均值
meidan|中位数(50%分位数)
mad|平均值的平均绝对偏差
prod|乘积
var|方差
std|标准差
skew|样本偏度(第三时刻)值
kurt|样本峰度(第四时刻)值
cumsum|累计加和
cumprod|累计乘积
pct_change|计算百分比

### 2.3.1 相关性和协方差

### 2.3.2 唯一值、计数和成员属性