**以下介绍pandas的基础结构**

In [7]:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame

**Series**

In [4]:
''''Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。仅由一组数据即可产生最简单的Series'''
obj=pd.Series([4,7,-5,3])
print(obj)
'''
Series的字符串表现形式为：索引在左边，值在右边。
由于我们没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引。
'''
print(obj.values)#获取series的数组表示形式
print(obj.index)#获取series的索引

0    4
1    7
2   -5
3    3
dtype: int64
[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [6]:
obj2=pd.Series([4,7,-5,3],index=['a','b','c','d'])
print(obj2)
print(obj2.index)

a    4
b    7
c   -5
d    3
dtype: int64
Index(['a', 'b', 'c', 'd'], dtype='object')


In [14]:
'''
可以通过索引的方式选取Series中的单个或一组值
'''
print(obj2['a'])
print(obj2[['a','c','d']])

4
a    4
c   -5
d    3
dtype: int64


In [16]:
'''
使用NumPy函数或类似NumPy的运算（如根据布尔型数组进行过滤、标量乘法、应用数学函数等）都会保留索引值的链接
'''
print(obj2[obj2>0])
print(obj2**2)
print(np.exp(obj2))

a    4
b    7
d    3
dtype: int64
a    16
b    49
c    25
d     9
dtype: int64
a      54.598150
b    1096.633158
c       0.006738
d      20.085537
dtype: float64


**Series与dict**

In [18]:
'''
还可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中
'''
print('b' in obj2)#判断某一个索引是否在series中
print('e'in obj2)

True
False


In [22]:
'''使用字典来创建Series'''
sdata={'Ohio':35000,'Texas':71000, 'Oregon': 16000, 'Utah': 5000}
obj3=pd.Series(sdata)
print(obj3)

'''
如果只传入一个字典，则结果Series中的索引就是原字典的键（有序排列）。你可以传入排好序的字典的键以改变顺序
'''
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4=pd.Series(sdata,index=states)
print(obj4)
'''
在这个例子中，sdata中跟states索引相匹配的那3个值会被找出来并放到相应的位置上，
但由于"California"所对应的sdata值找不到，
所以其结果就为NaN（即“非数字”（not a number），
在pandas中，它用于表示缺失或NA值）。
因为‘Utah’不在states中，它被从结果中除去
'''


Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [26]:
'''缺失值判断函数'''
print(pd.isnull(obj4))
print(pd.notnull(obj4))#模块方法
print(obj4.isnull())#实例方法

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool
California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


**Series的对齐操作**

In [27]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [28]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [30]:
'''
可以认为是类似join的操作,注意在对齐的过程中，不匹配的索引均按照nan处理
'''
obj3+obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [31]:
'''
Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切
'''
obj4.name='population'
obj4.index.name='state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [33]:
'''
Series的索引可以通过赋值的方式就地修改
'''
print(obj)
obj.index=['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


**DataFrame**

In [34]:
'''
DataFrame是一个表格型的数据结构，它含有一组有序的列，
每列可以是不同的值类型（数值、字符串、布尔值等）。
DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。
DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。
'''
#建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [35]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [40]:
print(frame.head())#前五行
print(pd.DataFrame(data,columns=['year','state','pop']))#如果指定了列序列，则DataFrame的列就会按照指定顺序进行排列
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],index=['one', 'two', 'three', 'four','five', 'six'])
print(frame2)#如果传入的列在数据中找不到，就会在结果中产生缺失值


    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9
5  2003  Nevada  3.2
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN


In [45]:
'''
通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series
Series的name属性是DataFrame的列索引（所以我们说DataFrame可以看作是多个Series共用一个索引）
注意，返回的Series拥有原DataFrame相同的索引，且其name属性也已经被相应地设置好了
'''
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [55]:
'''
行也可以通过位置或名称的方式进行获取，比如用loc属性
'''
print(frame2.loc['one'])
'''
列可以通过赋值的方式进行修改。例如，我们可以给那个空的"debt"列赋上一个标量值或一组值
'''
frame2['debt']='16.5'
print(frame2)
'''将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。'''
frame2['debt']=np.arange(6.)
print(frame2)
'''如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有不匹配的空位都将被填上缺失值'''
val=pd.Series([-1.2,-1.5,-1.7],index=['one','three','five'])
frame2['debt']=val
print(frame2)

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object
       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
six    2003  Nevada  3.2  16.5
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0
       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   NaN
three  2002    Ohio  3.6  -1.5
four   2001  Nevada  2.4   NaN
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


In [73]:
'''
为不存在的列赋值会创建出一个新列。关键字del用于删除列
注意：不能用frame2.eastern创建新的列。
'''
frame2['eastern']=frame2.state=='Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,-1.2,True
two,2001,Ohio,1.7,,True
three,2002,Ohio,3.6,-1.5,True
four,2001,Nevada,2.4,,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [74]:
del frame2['eastern']#使用del删除该列
print(frame2)

'''
注意：通过索引方式返回的列只是相应数据的视图而已，并不是副本。
因此，对返回的Series所做的任何就地修改全都会反映到源DataFrame上。
通过Series的copy方法即可指定复制列。
'''


       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   NaN
three  2002    Ohio  3.6  -1.5
four   2001  Nevada  2.4   NaN
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


'\n注意：通过索引方式返回的列只是相应数据的视图而已，并不是副本。\n因此，对返回的Series所做的任何就地修改全都会反映到源DataFrame上。\n通过Series的copy方法即可指定复制列。\n'

In [80]:

'''
另一种常见的数据形式是嵌套字典,如果嵌套字典传给DataFrame，
pandas就会被解释为：外层字典的键作为列，内层键则作为行索引
'''
pop = {'Nevada': {2001: 2.4, 2002: 2.9},'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3=pd.DataFrame(pop)
print(frame3)
print(f'转置{frame3.T}')


      Nevada  Ohio
2001     2.4   1.7
2002     2.9   3.6
2000     NaN   1.5
转置        2001  2002  2000
Nevada   2.4   2.9   NaN
Ohio     1.7   3.6   1.5


In [81]:
print(frame2)
print(f'列索引:\n{frame2.columns}')
print(f'行索引:\n{frame2.index}')
print(f'二维数组:\n{frame2.values}')

       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7   NaN
three  2002    Ohio  3.6  -1.5
four   2001  Nevada  2.4   NaN
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN
列索引:
Index(['year', 'state', 'pop', 'debt'], dtype='object')
行索引:
Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')
二维数组:
[[2000 'Ohio' 1.5 -1.2]
 [2001 'Ohio' 1.7 nan]
 [2002 'Ohio' 3.6 -1.5]
 [2001 'Nevada' 2.4 nan]
 [2002 'Nevada' 2.9 -1.7]
 [2003 'Nevada' 3.2 nan]]


**DatFrame索引对象**

In [82]:
'''
pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。
构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index
Index对象是不可变的，因此用户不能对其进行修改
不可变可以使Index对象在多个数据结构之间安全共享
'''

obj = pd.Series(range(3), index=['a', 'b', 'c'])
index=obj.index

In [83]:
index

Index(['a', 'b', 'c'], dtype='object')

In [85]:
index[1]='d'#TypeError

TypeError: Index does not support mutable operations

In [87]:
labels=pd.Index(np.arange(3))
obj2=pd.Series([1.5,-2.5,0],index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [88]:
obj2.index is labels

True

In [90]:
'''
除了类似于数组，Index的功能也类似一个固定大小的集合,
与python的集合不同，pandas的Index可以包含重复的标签
'''
print('Ohio'in frame3.columns)
print('2003'in frame3.index)
dup_labels=pd.Index(['foo', 'foo', 'bar', 'b'])
print(dup_labels)

True
False
Index(['foo', 'foo', 'bar', 'b'], dtype='object')


### 基本功能

**重新索引**

In [91]:
'''
pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引
'''
obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b', 'a', 'c'])
print(obj)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64


In [92]:
#用Series的reindex将会根据新的索引重新排序。如果某一个索引值不存在，就引入缺失值。
obj2=obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [94]:
'''
对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。
method选项即可达到此目的，例如，使用ffill可以实现前向值填充
'''
obj3=pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [95]:
obj3.reindex(np.arange(6),method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [115]:
'''
借助DataFrame，reindex可以修改（行）索引和列。只传递一个序列时，会重新索引结果的行
'''
frame=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [117]:
frame2=frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


In [98]:
states = ['Texas', 'Utah', 'California']
frame3=frame.reindex(columns=states)
frame3

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


**丢弃轴上的项**

In [99]:
'''
弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。
由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象
'''
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [101]:
new_obj1=obj.drop('c')
print(new_obj1)
new_obj2=obj.drop(['d','c'])
print(new_obj2)

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64
a    0.0
b    1.0
e    4.0
dtype: float64


In [118]:
#DataFrame的操作类似
frame=pd.DataFrame(np.arange(16).reshape((4, 4)), 
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
frame

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [119]:
#用标签序列调用drop会从行标签（axis 0）删除值
frame.drop(['Ohio','Colorado'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [121]:
#通过传递axis=1或axis='columns'可以删除列的值
frame.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


**索引，选取，过滤**

In [122]:
'''
Series索引（obj[...]）的工作方式类似于NumPy数组的索引，只不过Series的索引值不只是整数。下面是几个例子
'''
obj=pd.Series(np.arange(4.),index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [128]:
print(obj['b'])#使用索引标签
print(obj[1])#使用位置
'''
警告的意思是目前允许你在obj[]的情况下，既使用索引标签，又使用位置进行访问。
如果索引标签是整数索引，那么就会产生歧义，建议使用loc和iloc。
'''
print(obj[['b','a','d']])#使用索引列表
print(obj[obj<2])#使用布尔索引

'''
利用标签的切片运算与普通的Python切片运算不同，其末端是包含的
'''
print(obj['a':'c'])#使用切片
obj['b':'c']=5#使用切片修改Serise的值，原地操作
print(obj)

5.0
5.0
b    5.0
a    0.0
d    3.0
dtype: float64
a    0.0
dtype: float64
a    0.0
b    5.0
c    5.0
dtype: float64
a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64


  print(obj[1])#使用位置


In [129]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                        index=['Ohio', 'Colorado', 'Utah', 'New York'],
                        columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [135]:
#向[ ]传递单一的元素或列表，就可选择列
print(data['one'])#取某一列，返回一个Series
print(data[['one','three']])#使用索引列表
#print(data['one':'three'])注意这种写法是错误的，frame[start:end]默认对行进行切片

Ohio         0
Colorado     4
Utah         8
New York    12
Name: one, dtype: int64
          one  three
Ohio        0      2
Colorado    4      6
Utah        8     10
New York   12     14


In [139]:
print(data[0:2])#对行进行切片
print(data[data['three']>5])#使用布尔索引

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


In [140]:
data<5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [142]:
data[data<5]=-1
data

Unnamed: 0,one,two,three,four
Ohio,-1,-1,-1,-1
Colorado,-1,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**用loc和iloc进行选取**

In [None]:
'''
对于DataFrame的行的标签索引，我引入了特殊的标签运算符loc和iloc。
它们可以让你用类似NumPy的标记，使用轴标签（loc）或整数索引（iloc），
从DataFrame选择行和列的子集
'''

In [143]:
data

Unnamed: 0,one,two,three,four
Ohio,-1,-1,-1,-1
Colorado,-1,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [150]:
print(data.loc['Colorado', ['two', 'three']]) #frame.loc[index,columns]
print(data.iloc[2])#第三行
print(data.iloc[2, [3, 0, 1]])
print(data.iloc[[1, 2], [3, 0, 1]])

two      5
three    6
Name: Colorado, dtype: int64
one       8
two       9
three    10
four     11
Name: Utah, dtype: int64
four    11
one      8
two      9
Name: Utah, dtype: int64
          four  one  two
Colorado     7   -1    5
Utah        11    8    9


In [153]:
print(data.loc[:'Utah','two'])#一个标签或多个标签的切片
print(data.iloc[:, :3][data.three > 5])

Ohio       -1
Colorado    5
Utah        9
Name: two, dtype: int64
          one  two  three
Colorado   -1    5      6
Utah        8    9     10
New York   12   13     14


In [None]:
'''
Series:
由于Series是一个维度的，所以无论是单个值，还是列表，或者是布尔索引都只针对这一个维度，
切片操作也是同样的道理
DataFrame：
由于DataFrame是二维的，当传入单个值或者是一个列表是对列的选取，
但传入一维布尔索引，或者直接传入切片frame[start:end]是对行进行的选取
dataframe提供了loc和iloc两个函数统一了行列的访问，loc[index,columns]，
这里的index,columns支持单值，列表，切片混合使用
loc与iloc：
创造loc和iloc运算符是为了分别处理严格基于标签和整数的索引
'''

**算术运算和数据对齐**

In [159]:
'''
pandas最重要的一个功能是，它可以对不同索引的对象进行算术运算。
在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。
对于有数据库经验的用户，这就像在索引标签上进行自动外连接
'''
s1 = pd.Series([7.3, -2.5, 3.4, 1.5],index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)
print(s1+s2)


a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64


In [163]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)),
                columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1)
print(df2)
print(df1+df2)
'''
把它们相加后将会返回一个新的DataFrame，其索引和列为原来那两个DataFrame的并集
因为'c'和'e'列均不在两个DataFrame对象中，在结果中以缺省值呈现
如果DataFrame对象相加，没有共用的列或行标签，结果都会是空
'''

df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
print(df1)
print(df1)
print(df1+df2)

            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN
   A
0  1
1  2
   A
0  1
1  2
    A   B
0 NaN NaN
1 NaN NaN


**在算术方法中填充值**

In [172]:
'''
在对不同索引的对象进行算术运算时，你可能希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值（比如0）
'''
df1=pd.DataFrame(np.arange(12.).reshape((3,4)),columns=list('abcd'))
df2=pd.DataFrame(np.arange(20.).reshape((4,5)),columns=list('abcde'))
df2.loc[1,'b']=np.nan
print(df1)
print(df2)
print(df1+df2)#这时会产生很多nan
print(df1.add(df2,fill_value=0))
#与此类似，在对Series或DataFrame重新索引时，也可以指定一个填充值
print(df2.columns)
df3=df1.reindex(columns=df2.columns, fill_value=0)
print(df3)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0
      a     b     c     d   e
0   0.0   2.0   4.0   6.0 NaN
1   9.0   NaN  13.0  15.0 NaN
2  18.0  20.0  22.0  24.0 NaN
3   NaN   NaN   NaN   NaN NaN
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0   5.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
     a    b     c     d  e
0  0.0  1.0   2.0   3.0  0
1  4.0  5.0   6.0   7.0  0
2  8.0  9.0  10.0  11.0  0


**DataFrame与Series之间的运算** 

In [177]:
'''
DataFrame和Series之间的运算差不多也是如此
默认情况下，DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，然后沿着行一直向下广播
'''
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                      columns=list('bde'),
                      index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series=frame.iloc[0]
print(frame)
print(series)
print(frame-series)

'''
如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集
'''
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
print(series2)
print(frame+series2)

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0
b    0
e    1
f    2
dtype: int64
          b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN


In [180]:
#如果你希望匹配行且在列上广播，则必须使用算术运算方法
series3 = frame['d']
print(series3)
print(frame)
print(frame.sub(series3,axis='index'))

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0


**函数应用与映射**

In [181]:
#apply函数将一个函数应用在dataframe上，返回一个series或者dataframe
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                      index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.69498,1.764659,-1.151984
Ohio,-0.526063,-0.393878,0.012831
Texas,-1.150828,1.276793,-0.956783
Oregon,1.49167,-0.668749,-0.320929


In [188]:
f=lambda x:x.max()-x.min()
print(frame.apply(f))#默认应用在每一列
print(frame.apply(f,axis='columns'))#使用axis指定行或者列
'''
许多最为常见的数组统计功能都被实现成DataFrame的方法（如sum和mean），因此无需使用apply方法
传递到apply的函数不是必须返回一个标量，还可以返回由多个值组成的Series
'''
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
print(frame.apply(f))


b    2.642498
d    2.433407
e    1.164815
dtype: float64
Utah      2.916642
Ohio      0.538894
Texas     2.427621
Oregon    2.160419
dtype: float64
            b         d         e
min -1.150828 -0.668749 -1.151984
max  1.491670  1.764659  0.012831


In [192]:
'''
元素级的Python函数也是可以用的。假如你想得到frame中各个浮点值的格式化字符串，使用applymap即可
之所以叫做applymap，是因为Series有一个用于应用元素级函数的map方法
注意在最新的标准里applymap已不再使用，统一使用map
'''
format=lambda x:'%.2f'% x
print(frame['e'].map(format))#series的元素级函数
print(frame.map(format))

Utah      -1.15
Ohio       0.01
Texas     -0.96
Oregon    -0.32
Name: e, dtype: object
            b      d      e
Utah     0.69   1.76  -1.15
Ohio    -0.53  -0.39   0.01
Texas   -1.15   1.28  -0.96
Oregon   1.49  -0.67  -0.32


**排序与排名**

In [194]:
'''
根据条件对数据集排序（sorting）也是一种重要的内置运算。
要对行或列索引进行排序（按字典顺序），可使用sort_index方法，它将返回一个已排序的新对象
'''
#按照索引进行排序
obj=pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [199]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                      index=['three', 'one'],
                      columns=['d', 'a', 'b', 'c'])
print(frame.sort_index())#默认按照行索引排序
print(frame.sort_index(axis='columns'))#按照列索引排序
print(frame.sort_index(axis='columns',ascending=False))#降序排序

       d  a  b  c
one    4  5  6  7
three  0  1  2  3
       a  b  c  d
three  1  2  3  0
one    5  6  7  4
       d  c  b  a
three  0  3  2  1
one    4  7  6  5


In [204]:
#按照值进行排序
obj=pd.Series([4, 7, -3, 2])
print(obj.sort_values())
#在排序时，任何缺失值默认都会被放到Series的末尾
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
print(obj.sort_values())

2   -3
3    2
0    4
1    7
dtype: int64
4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64


In [207]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
print(frame.sort_values(by='b'))#需要一个参数指定按照哪一列排序
print(frame.sort_values(by=['a','b']))#要根据多个列进行排序，传入名称的列表即可

   b  a
2 -3  0
3  2  1
0  4  0
1  7  1
   b  a
2 -3  0
0  4  0
3  2  1
1  7  1


In [211]:
'''
排名会从1开始一直到数组中有效数据的数量。接下来介绍Series和DataFrame的rank方法。
默认情况下，rank是通过“为各组分配一个平均排名”的方式破坏平级关系的
'''
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
print(obj.rank())
print(obj.rank(method='first'))#也可以根据值在原数据中出现的顺序给出排名
print(obj.rank(ascending=False,method='first'))#你也可以按降序进行排名

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64
0    1.0
1    7.0
2    2.0
3    3.0
4    5.0
5    6.0
6    4.0
dtype: float64
