### Pandas

- 数值计算工具NumPy和SciPy；
- 分析库statsmodels和scikit-learn；
- 数据可视化库matplotlib

pandas是基于NumPy数组构建的。


#### 1 pandas与NumPy的区别 

- pandas是处理**表格和混杂数据**设计的；
- NumPy适合处理统一的**数值数组数据**。

In [2]:
import pandas as pd
from pandas import Series,DataFrame

#### 2 pandas的数据结构

##### 2.1 Series

        一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

In [3]:
obj=pd.Series([4,7,-5,3])

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

第一列是索引。

Series的字符串表现形式为：索引在左边，值在右边。

可以通过Series的values和index属性获取其数组表现形式和索引对象：

In [5]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
obj2=pd.Series([1,3,5,9],index=['a','d','b','c'])

In [8]:
obj2

a    1
d    3
b    5
c    9
dtype: int64

In [9]:
obj2.values

array([1, 3, 5, 9], dtype=int64)

In [10]:
obj2.index

Index(['a', 'd', 'b', 'c'], dtype='object')

In [11]:
obj2[obj2>2]

d    3
b    5
c    9
dtype: int64

In [12]:
obj2*3

a     3
d     9
b    15
c    27
dtype: int64

In [14]:
import numpy as np

In [15]:
np.exp(obj2)

a       2.718282
d      20.085537
b     148.413159
c    8103.083928
dtype: float64

可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。

In [16]:
'b' in obj2

True

In [17]:
'e' in obj2

False

如果数据被存放在Python字典中，可以直接通过这个字典来创建Series：

In [1]:
sdata={'Ohio':35000,'Texas':7100,'Oregon':1600,'Utah':5200}

In [3]:
obj3=pd.Series(sdata)

In [4]:
obj3

Ohio      35000
Texas      7100
Oregon     1600
Utah       5200
dtype: int64

如果只传入一个字典，则结果Series中的索引就是原字典的键。

In [8]:
states=['Cali','Ohio','orgin','tesx']

In [9]:
obj4=pd.Series(sdata,index=states)

In [10]:
obj4

Cali         NaN
Ohio     35000.0
orgin        NaN
tesx         NaN
dtype: float64

上面的键如果在对应的Series没有找到对应的值，其结果就为NaN。

在pandas中，用于表示缺失或NA值。

注意：原先的Series中存在的，但是在传入的字典的键中没有找到，就会被从结果中除去。也就是说，以传入的字典为准。

**当出现数据缺失时，使用pandas的isnull和notnull函数检测缺失函数。**

In [11]:
pd.isnull(obj4)

Cali      True
Ohio     False
orgin     True
tesx      True
dtype: bool

In [12]:
pd.notnull(obj4)

Cali     False
Ohio      True
orgin    False
tesx     False
dtype: bool

In [13]:
obj4.isnull()

Cali      True
Ohio     False
orgin     True
tesx      True
dtype: bool

缺失数据的处理先不做了解。

**Series最重要的一个功能是，它会根据运算的索引的标签自动对齐数据：**

In [14]:
obj3

Ohio      35000
Texas      7100
Oregon     1600
Utah       5200
dtype: int64

In [15]:
obj4

Cali         NaN
Ohio     35000.0
orgin        NaN
tesx         NaN
dtype: float64

In [16]:
obj3+obj4

Cali          NaN
Ohio      70000.0
Oregon        NaN
Texas         NaN
Utah          NaN
orgin         NaN
tesx          NaN
dtype: float64

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系密切：

In [17]:
obj4.name='pop'

In [18]:
obj4.index.name='state'

In [19]:
obj4

state
Cali         NaN
Ohio     35000.0
orgin        NaN
tesx         NaN
Name: pop, dtype: float64

##### 2.2 DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。

DataFrame既有行索引也有列索引，它可以别看成是由Series组成的字典（共用同一个索引）。


**创建DataFrame**

直接传入一个由等长列表或NumPy数组组成的字典：

In [3]:
import pandas as pd
data={'state':['ohio','Ohin','Neva','LEIN'],
        'year':[2090,2013,2021,2050],
         'pop':[1.1,1.9,2.0,3.1]}
frame=pd.DataFrame(data)

In [4]:
frame

Unnamed: 0,state,year,pop
0,ohio,2090,1.1
1,Ohin,2013,1.9
2,Neva,2021,2.0
3,LEIN,2050,3.1


In [5]:
frame.head()

Unnamed: 0,state,year,pop
0,ohio,2090,1.1
1,Ohin,2013,1.9
2,Neva,2021,2.0
3,LEIN,2050,3.1


指定列序列：

In [6]:
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2090,ohio,1.1
1,2013,Ohin,1.9
2,2021,Neva,2.0
3,2050,LEIN,3.1


In [7]:
frame2=pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four'])

In [8]:
frame2

Unnamed: 0,year,state,pop,debt
one,2090,ohio,1.1,
two,2013,Ohin,1.9,
three,2021,Neva,2.0,
four,2050,LEIN,3.1,


In [9]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [10]:
frame2['state']

one      ohio
two      Ohin
three    Neva
four     LEIN
Name: state, dtype: object

通过loc属性，对行进行位置或名称的获取。

In [13]:
frame2.loc['three']

year     2021
state    Neva
pop         2
debt      NaN
Name: three, dtype: object

列可以通过复制的方式进行修改。

In [14]:
frame2['debt']=16.5

In [15]:
frame2

Unnamed: 0,year,state,pop,debt
one,2090,ohio,1.1,16.5
two,2013,Ohin,1.9,16.5
three,2021,Neva,2.0,16.5
four,2050,LEIN,3.1,16.5


In [17]:
import numpy as np
frame2['debt']=np.arange(4)

In [18]:
frame2

Unnamed: 0,year,state,pop,debt
one,2090,ohio,1.1,0
two,2013,Ohin,1.9,1
three,2021,Neva,2.0,2
four,2050,LEIN,3.1,3


**将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。**

如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值。

In [19]:
val=pd.Series([-1.2,1.0,3.6],index=['one','three','four'])

In [20]:
frame2['debt']=val

In [21]:
frame2

Unnamed: 0,year,state,pop,debt
one,2090,ohio,1.1,-1.2
two,2013,Ohin,1.9,
three,2021,Neva,2.0,1.0
four,2050,LEIN,3.1,3.6


**为不存的列赋值，会创建一个新列。**

**关键字del用于删除列。**

In [25]:
frame2['add1']=val

注意：不能用frame2.add1创建新列。

In [26]:
frame2

Unnamed: 0,year,state,pop,debt,add1
one,2090,ohio,1.1,-1.2,-1.2
two,2013,Ohin,1.9,,
three,2021,Neva,2.0,1.0,1.0
four,2050,LEIN,3.1,3.6,3.6


del方删除：

In [32]:
del frame2['add1']

In [33]:
frame2

Unnamed: 0,year,state,pop,debt
one,2090,ohio,1.1,-1.2
two,2013,Ohin,1.9,
three,2021,Neva,2.0,1.0
four,2050,LEIN,3.1,3.6


**另一种常见的数据形式是嵌套字典：**

如果嵌套字典传给DataFrame，pandas就会解释为：**外层字典的键作为列，内层键则作为行索引**：

In [35]:
pop={'Neav':{2001:2.1,2002:13},
    'ohio':{2000:1.5,2001:1.7,2002:3.9}}

In [36]:
pop

{'Neav': {2001: 2.1, 2002: 13}, 'ohio': {2000: 1.5, 2001: 1.7, 2002: 3.9}}

In [37]:
frame3=pd.DataFrame(pop)

In [38]:
frame3

Unnamed: 0,Neav,ohio
2000,,1.5
2001,2.1,1.7
2002,13.0,3.9


对DataFrame进行转置（交换行和列）：

In [39]:
frame3.T

Unnamed: 0,2000,2001,2002
Neav,,2.1,13.0
ohio,1.5,1.7,3.9


从上面可以看出，内层字典的键会被合并、排序以形成最终的索引。

如果明确指定了索引 ，则不会这样：

In [40]:
pd.DataFrame(pop,index=[2001,2002,2003])

Unnamed: 0,Neav,ohio
2001,2.1,1.7
2002,13.0,3.9
2003,,


In [41]:
frame3.index.name='year'
frame3.columns.name='state'

In [42]:
frame3

state,Neav,ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.1,1.7
2002,13.0,3.9


In [43]:
frame3.values

array([[ nan,  1.5],
       [ 2.1,  1.7],
       [13. ,  3.9]])

In [44]:
frame2.values

array([[2090, 'ohio', 1.1, -1.2],
       [2013, 'Ohin', 1.9, nan],
       [2021, 'Neva', 2.0, 1.0],
       [2050, 'LEIN', 3.1, 3.6]], dtype=object)

##### 2.3 索引对象

pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。

构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index：

In [45]:
obj=pd.Series(range(3),index=['a','b','c'])

In [46]:
obj

a    0
b    1
c    2
dtype: int64

In [47]:
index=obj.index

In [48]:
index

Index(['a', 'b', 'c'], dtype='object')

In [49]:
index[1:]

Index(['b', 'c'], dtype='object')

Index对象是不可变的，用户不能对齐进行修改。

In [50]:
labels=pd.Index(np.arange(3))

In [51]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [53]:
obj2=pd.Series([1.2,2.3,4.1],index=labels)

In [54]:
obj2

0    1.2
1    2.3
2    4.1
dtype: float64

In [55]:
obj2.index is labels

True

In [56]:
frame3

state,Neav,ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.1,1.7
2002,13.0,3.9


In [71]:
frame3.columns

Index(['Neav', 'ohio'], dtype='object', name='state')

与python的集合不同，pandas的index可以包含重复的标签：

#### 3 基本功能

##### 3.1 重新索引

pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引。

In [72]:
obj=pd.Series([3.3,2,6,8.1],index=['a','d','c','b'])

In [73]:
obj

a    3.3
d    2.0
c    6.0
b    8.1
dtype: float64

In [74]:
obj2=obj.reindex(['a','b','c','d','e'])

In [75]:
obj2

a    3.3
b    8.1
c    6.0
d    2.0
e    NaN
dtype: float64

对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method，使用ffill实现前向值填充：

In [87]:
obj3=pd.Series(['blue','purple','yellow'],index=[2,4,9]) #之前索引是0，2，4

In [88]:
obj3

2      blue
4    purple
9    yellow
dtype: object

In [89]:
obj3.reindex(range(6),method='ffill')# 向前填充
#当之前的索引是0，2，4时，向前填充，所有的值都不存在缺失；
#当索引改为2，4，9时，向前填充，如果之前没有值，就会填充缺失值NaN；

0       NaN
1       NaN
2      blue
3      blue
4    purple
5    purple
dtype: object

In [91]:
frame=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','calif'])

In [92]:
frame

Unnamed: 0,ohio,texas,calif
a,0,1,2
c,3,4,5
d,6,7,8


In [93]:
frame2=frame.reindex(['a','b','c','d'])

In [94]:
frame2

Unnamed: 0,ohio,texas,calif
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


列用columns关键字重新索引：

In [97]:
states=['texas','utah','calif']

In [98]:
frame.reindex(columns=states)

Unnamed: 0,texas,utah,calif
a,1,,2
c,4,,5
d,7,,8


##### 3.2 丢弃指定轴上的项

丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。

由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象：

In [99]:
obj=pd.Series(np.arange(5.),index=['a','b','c','d','e'])

In [100]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [101]:
new_obj=obj.drop('c')

In [102]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [103]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

对于DataFrame，可以删除任意轴上的索引值。

In [104]:
data=pd.DataFrame(np.arange(16).reshape((4,4)),
                  index=['ohio','china','new york','jan'],
                  columns=['one','two','three','four'])

In [105]:
data

Unnamed: 0,one,two,three,four
ohio,0,1,2,3
china,4,5,6,7
new york,8,9,10,11
jan,12,13,14,15


用标签序列调用drop会从行标签（axis 0）删除值：

In [106]:
data.drop(['ohio','jan'])

Unnamed: 0,one,two,three,four
china,4,5,6,7
new york,8,9,10,11


通过传递axis=1或者axis='columns'可以删除列的值：

In [107]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
ohio,0,2,3
china,4,6,7
new york,8,10,11
jan,12,14,15


In [108]:
data.drop(['two','four'],axis=1)

Unnamed: 0,one,three
ohio,0,2
china,4,6
new york,8,10
jan,12,14


In [109]:
data

Unnamed: 0,one,two,three,four
ohio,0,1,2,3
china,4,5,6,7
new york,8,9,10,11
jan,12,13,14,15


In [110]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

许多函数，如drop，会修改Series或DataFrame的大小或形状，可以就地修改对象，不会返回新的对象。

In [111]:
obj.drop('c',inplace=True)

In [112]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

小心使用inplace，会销毁所有被删除的数据。

In [113]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

##### 3.3 索引、选取和过滤

In [114]:
obj=pd.Series(np.arange(4.),index=['a','b','c','d'])

In [115]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [116]:
obj['b']

1.0

In [117]:
obj[1]

1.0

In [118]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [119]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [121]:
obj[obj<2]

a    0.0
b    1.0
dtype: float64

利用标签的切片运算与普通的python切片运算不同，其末端是包含的：

In [122]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

用一个值或序列对DataFrame进行索引其实就是获取一个或多个列：

In [123]:
data=pd.DataFrame(np.arange(16).reshape((4,4)),
                  index=['ohio','color','utha','New York'],
                  columns=['one','two','three','four'])

In [124]:
data

Unnamed: 0,one,two,three,four
ohio,0,1,2,3
color,4,5,6,7
utha,8,9,10,11
New York,12,13,14,15


In [125]:
data['two']

ohio         1
color        5
utha         9
New York    13
Name: two, dtype: int32

In [126]:
data[['three','one']]

Unnamed: 0,three,one
ohio,2,0
color,6,4
utha,10,8
New York,14,12


In [127]:
data[:2]

Unnamed: 0,one,two,three,four
ohio,0,1,2,3
color,4,5,6,7


In [128]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
color,4,5,6,7
utha,8,9,10,11
New York,12,13,14,15


通过布尔型DataFrame进行索引：

In [129]:
data<5

Unnamed: 0,one,two,three,four
ohio,True,True,True,True
color,True,False,False,False
utha,False,False,False,False
New York,False,False,False,False


In [130]:
data[data<5]=0

In [131]:
data

Unnamed: 0,one,two,three,four
ohio,0,0,0,0
color,0,5,6,7
utha,8,9,10,11
New York,12,13,14,15


##### 3.4 用loc和iloc进行选取

对DataFrame的行的标签索引，引入特殊的标签运算loc和iloc。

    轴标签（loc）、整数索引（iloc），选择DataFrame的行和列的子集。

In [132]:
data.loc['color',['two','three']]

two      5
three    6
Name: color, dtype: int32

In [133]:
data.iloc[2,[3,0,1]]

four    11
one      8
two      9
Name: utha, dtype: int32

In [134]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: utha, dtype: int32

In [135]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
color,7,0,5
utha,11,8,9


##### 3.5 整数索引

为了进行统一，如果轴索引含有整数，数据选取总会使用标签。

In [143]:
ser=pd.Series(np.arange(4.))

In [144]:
ser

0    0.0
1    1.0
2    2.0
3    3.0
dtype: float64

In [146]:
ser[:1]

0    0.0
dtype: float64

In [147]:
ser[:2]

0    0.0
1    1.0
dtype: float64

In [148]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [149]:
ser.iloc[:1]

0    0.0
dtype: float64

##### 3.5 算术运算和数据对齐

对不同索引的对象进行算术运算。在对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。

对于有数据库经验的用户，这就像在索引标签上进行自动外连接。

In [150]:
s1=pd.Series([7.3,-2.5,3.4,1.5],index=['a','b','c','e'])

In [151]:
s2=pd.Series([-2.1,3.6,-1.5,4,3.9],index=['a','c','e','f','g'])

In [152]:
s1

a    7.3
b   -2.5
c    3.4
e    1.5
dtype: float64

In [153]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.9
dtype: float64

In [154]:
s1+s2

a    5.2
b    NaN
c    7.0
e    0.0
f    NaN
g    NaN
dtype: float64

自动的数据对齐操作在不重叠的索引处引入了NaN值。缺失值会在算术运算过程中传播。

对于DataFrame，对齐操作会同时发生在行和列上：

In [156]:
df1=pd.DataFrame(np.arange(9.).reshape((3,3)),
                 columns=list('bcd'),
                 index=['ohio','texas','color'])

In [157]:
df2=pd.DataFrame(np.arange(12.).reshape((4,3)),
                 columns=list('bde'),
                 index=['Uhta','ohio','texas','oregn'])

In [158]:
df1

Unnamed: 0,b,c,d
ohio,0.0,1.0,2.0
texas,3.0,4.0,5.0
color,6.0,7.0,8.0


In [159]:
df2

Unnamed: 0,b,d,e
Uhta,0.0,1.0,2.0
ohio,3.0,4.0,5.0
texas,6.0,7.0,8.0
oregn,9.0,10.0,11.0


In [160]:
df1+df2

Unnamed: 0,b,c,d,e
Uhta,,,,
color,,,,
ohio,3.0,,6.0,
oregn,,,,
texas,9.0,,12.0,


##### 3.6 在算术方法中填充值

在对不同索引的对像进行算术运算时，比如希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值（比如0）：

In [161]:
df1=pd.DataFrame(np.arange(12.).reshape((3,4)),
                columns=list('abcd'))

In [162]:
df2=pd.DataFrame(np.arange(20.).reshape((4,5)),
                 columns=list('abcde'))

In [163]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [164]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [165]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [166]:
df1.add(df2,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [167]:
1/df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [170]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [171]:
df1.reindex(columns=df2.columns,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


##### 3.7 DataFrame和Series之间的运算

In [172]:
arr=np.arange(12.).reshape((3,4))

In [173]:
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [174]:
arr[0]

array([0., 1., 2., 3.])

In [175]:
arr-arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

当从arr减去arr[0]，每一行都会执行这个操作，这叫做广播。

In [180]:
frame=pd.DataFrame(np.arange(12.).reshape((4,3)),
               columns=list('bde'),
               index=['Uhta','ohio','tesx','orgen'])

In [181]:
series=frame.iloc[0]

In [182]:
frame

Unnamed: 0,b,d,e
Uhta,0.0,1.0,2.0
ohio,3.0,4.0,5.0
tesx,6.0,7.0,8.0
orgen,9.0,10.0,11.0


In [183]:
series

b    0.0
d    1.0
e    2.0
Name: Uhta, dtype: float64

In [184]:
frame-series

Unnamed: 0,b,d,e
Uhta,0.0,0.0,0.0
ohio,3.0,3.0,3.0
tesx,6.0,6.0,6.0
orgen,9.0,9.0,9.0


In [185]:
series-frame

Unnamed: 0,b,d,e
Uhta,0.0,0.0,0.0
ohio,-3.0,-3.0,-3.0
tesx,-6.0,-6.0,-6.0
orgen,-9.0,-9.0,-9.0


默认情况下，DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，然后沿着行一直向下广播.

如果某个索引值在DataFrame的列或者Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集：

In [186]:
series2=pd.Series(range(3),index=['b','e','f'])

In [187]:
series2

b    0
e    1
f    2
dtype: int64

In [188]:
frame+series2

Unnamed: 0,b,d,e,f
Uhta,0.0,,3.0,
ohio,3.0,,6.0,
tesx,6.0,,9.0,
orgen,9.0,,12.0,


匹配行并且在列上广播，必须使用算术运算方法。

In [189]:
series3=frame['d']

In [190]:
frame

Unnamed: 0,b,d,e
Uhta,0.0,1.0,2.0
ohio,3.0,4.0,5.0
tesx,6.0,7.0,8.0
orgen,9.0,10.0,11.0


In [191]:
series3

Uhta      1.0
ohio      4.0
tesx      7.0
orgen    10.0
Name: d, dtype: float64

In [195]:
frame.sub(series3,axis='index')  #匹配行索引

Unnamed: 0,b,d,e
Uhta,-1.0,0.0,1.0
ohio,-1.0,0.0,1.0
tesx,-1.0,0.0,1.0
orgen,-1.0,0.0,1.0


##### 3.8 函数应用和映射

NumPy的ufuncs（元素级数组方法）也可用于操作pandas对象：

In [196]:
frame=pd.DataFrame(np.random.randn(4,3),
                  columns=list('bde'),
                  index=['utha','ohio','texas','oregon'])

In [197]:
frame

Unnamed: 0,b,d,e
utha,0.459236,2.867346,0.014807
ohio,0.868967,0.088495,-1.020246
texas,-1.315557,0.843249,1.493732
oregon,-0.711196,1.15281,0.369647


In [198]:
np.abs(frame)

Unnamed: 0,b,d,e
utha,0.459236,2.867346,0.014807
ohio,0.868967,0.088495,1.020246
texas,1.315557,0.843249,1.493732
oregon,0.711196,1.15281,0.369647


**常见的操作是，将函数应用到由各列或行所形成的一维数组上。DataFrame的apply方法即可实现此功能：**

In [199]:
f=lambda x:x.max()-x.min()

In [200]:
frame.apply(f)  #列方向

b    2.184525
d    2.778851
e    2.513978
dtype: float64

In [201]:
frame.apply(f,axis='columns')  #行方向

utha      2.852539
ohio      1.889214
texas     2.809289
oregon    1.864006
dtype: float64

传递到apply的函数不是必须返回一个标量，还可以返回有多个值组成的Series：

In [203]:
def f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])

In [204]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.315557,0.088495,-1.020246
max,0.868967,2.867346,1.493732


##### 3.9 排序和排名

根据条件对数据集排序，要对行或列索引进行排序（按字典排序），可使用sort_index方法，它将返回一个已排序的新对象：

In [205]:
obj=pd.Series(range(5),index=['d','a','b','c','e'])

In [206]:
obj

d    0
a    1
b    2
c    3
e    4
dtype: int64

In [207]:
obj.sort_index()

a    1
b    2
c    3
d    0
e    4
dtype: int64

对DataFrame，则可以根据任意一个轴上的索引进行排序：

In [213]:
frame=pd.DataFrame(np.arange(8).reshape((2,4)),
                  index=['three','one'],
                  columns=['d','a','b','c'])

In [214]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [215]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


数据默认是按升序排序的，也可以降序排序。

In [216]:
frame.sort_index(axis=1,ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


如果按值对Series进行排序，可使用sort_values方法：

在排序时，任何缺失值默认都会被放到Series的末尾。

当排序一个DataFrame时，你可能希望根据一个或多个列中的值进行排序。将一个或多个列的名字传递给sort_values的by选项即可达到目的：

In [223]:
frame=pd.DataFrame({'a':[0,1,0,1],'b':[4,7,-3,2]})

In [224]:
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [227]:
frame.sort_values(by='a')

Unnamed: 0,a,b
0,0,4
2,0,-3
1,1,7
3,1,2


要根据多个列进行排序，传入名称的列表即可：

In [226]:
frame.sort_values(by=['a','b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


##### 3.10 带有重复标签的轴索引

In [228]:
obj=pd.Series(range(5),index=['a','a','b','b','c'])

In [229]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [230]:
obj.index.is_unique

False

对于带有重复值得索引，数据选取的行为将会有些不同。如果某个索引对应多个值，则返回一个Series；而对应单个值的，则返回一个标量值。

In [231]:
obj['a']

a    0
a    1
dtype: int64

In [245]:
obj['c']

4

#### 4 汇总和计算描述统计

有些方法返回的是间接统计（如idxmin和idmax）；也有是累计型。

还有一种方法，既不是约简型也不是累计型，describe用于一次性产生多个汇总统计：

In [233]:
frame.describe()

Unnamed: 0,a,b
count,4.0,4.0
mean,0.5,2.5
std,0.57735,4.203173
min,0.0,-3.0
25%,0.0,0.75
50%,0.5,3.0
75%,1.0,4.75
max,1.0,7.0


**相关系数与协方差**

有些汇总统计是通过参数对计算出来的。使用pandas-datareader包。

In [235]:
import pandas_datareader.data as web

In [236]:
all_data={ticker:web.get_data_yahoo(ticker)
         for ticker in ['AAPL','IBM','MSFT','GOOG']}

In [237]:
price=pd.DataFrame({ticker:data['Adj Close']
                   for ticker,data in all_data.items()})

In [238]:
price

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,26.782711,99.299347,24.525019,311.349976
2010-01-05,26.829010,98.099792,24.532942,309.978882
2010-01-06,26.402260,97.462532,24.382378,302.164703
2010-01-07,26.353460,97.125160,24.128809,295.130463
2010-01-08,26.528664,98.099792,24.295214,299.064880
2010-01-11,26.294640,97.072685,23.986179,298.612823
2010-01-12,25.995537,97.844872,23.827694,293.332153
2010-01-13,26.362217,97.634964,24.049570,291.648102
2010-01-14,26.209538,99.194389,24.532942,293.019196
2010-01-15,25.771528,98.797028,24.453693,288.126007


In [240]:
volume=pd.DataFrame({ticker:data['Volume']
                    for ticker,data in all_data.items()})

In [241]:
returns=price.pct_change()

In [242]:
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-06-20,0.008036,0.012912,0.009286,0.008246
2019-06-21,-0.003409,0.002521,0.000146,0.009411
2019-06-24,-0.001006,0.001078,0.005914,-0.005669
2019-06-25,-0.015158,-0.007104,-0.031572,-0.026149
2019-06-26,0.021629,0.001156,0.003747,-0.006029


In [243]:
returns['MSFT'].corr(returns['IBM']) #相关系数

0.48685509594787635

In [244]:
returns['MSFT'].cov(returns['IBM']) #协方差

8.673739753102845e-05

##### 4.1 唯一值、值计数以及成员资格

有一类方法可以从一维Series的值中抽取信息。

In [246]:
obj=pd.Series(['c','c','a','d','b','b','a'])

In [247]:
uniques=obj.unique()   #unigue函数

In [248]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

相似的，values_counts用于计算一个Series中各值出现的频率：

In [249]:
obj.value_counts()

c    2
a    2
b    2
d    1
dtype: int64