In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1. pandas 介绍
1.1 Pandas处理以下三个数据结构，这些数据结构构建在Numpy数组之上，这意味着它们很快。 
- 系列(Series)
- 数据帧(DataFrame)
- 面板(Panel)  


# 2. pandas数据结构：Series，dataframe and Index Objects（索引对象）
## 2.1 series
- 它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引index）组成。  
- Series的**字符串表现形式**为：索引在左边，值在右边。如果没有为数据指定索引会自动创建一个0到N-1（N为长度）的整数型索引。
- Series看成是一个定长的有序字典

所有Pandas数据结构是**值可变的**(可以更改)，除了Series(系列)都是大小可变的。Series是大小不变的。  
  
### 2.1.1 用list和dict创建Series

In [3]:
# 通过list 创建一个含有对各个数据点进行标记的index 的 Series
print('-----------------通过list创建--------------')
obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj)
print('\nobj.index:',obj.index)
print('\nobj.values:',obj.values)

# 通过字典创建Series
print('\n-------------通过字典创建Series------------')
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj2 = pd.Series(sdata)
print(obj2)

# index参数：通过传入排过序的字典key 改变Series顺序
print('\nindex参数：通过传入排过序的字典key 改变Series顺序\n')
s_index = ['California', 'Ohio', 'Oregon', 'Texas']
obj3 = pd.Series(sdata,index=s_index)
print(obj3)

-----------------通过list创建--------------
d    4
b    7
a   -5
c    3
dtype: int64

obj.index: Index(['d', 'b', 'a', 'c'], dtype='object')

obj.values: [ 4  7 -5  3]

-------------通过字典创建Series------------
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

index参数：通过传入排过序的字典key 改变Series顺序

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


### 2.1.2 用index选取Series中的值并进行修改

In [4]:
print('obj[\'a\']=',obj['a'])
print()

obj['a']=2222

# 用列表进行多值索引
print('obj[[\'a\',\'b\',\'c\']] =')
print(obj[['a','b','c']])

obj['a']= -5

obj[['a','b','c']] =
a    2222
b       7
c       3
dtype: int64


### 2.1.3 修改index
- 直接对其index赋值
- reindex方法

In [5]:
print(obj)
print()
# 直接赋值进行修改
obj.index = ['aa','bb','c','d']

print(obj)

d       4
b       7
a    2222
c       3
dtype: int64

aa       4
bb       7
c     2222
d        3
dtype: int64


### 2.1.4 Series的运算
以下是数值计算及逻辑计算，它能够根据index自动对齐。

In [6]:
print('obj[obj>0]=')
print(obj[obj>0])
print()

print('obj*2=')
print(obj*2)
print()

print('np.exp(obj)=')
print(np.exp(obj))

obj[obj>0]=
aa       4
bb       7
c     2222
d        3
dtype: int64

obj*2=
aa       8
bb      14
c     4444
d        6
dtype: int64

np.exp(obj)=
aa      54.598150
bb    1096.633158
c             inf
d       20.085537
dtype: float64


In [7]:
print(obj2)
print()
print(obj3)
print()

print(obj2+obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


## 2.2 DataFrame  
DataFrame是一个表格型的数据结构，它包含有**一组**有序的**列**，每列可以是不同的值类型（数值，字符串，布尔值等）。  
it can be thought of as a dict of Series all sharing the same index.  
### 2.2.1 创建一个DataFrame
- 最常用的方法是传入 a dict of equal-length lists or NumPy arrays
- 把嵌套字典传给DataFrame，外层字典的键作为列，内层键则作为行索引

In [8]:
# 直接传入一个由 等长的 列表或NumPy数组 组成的字典
data = {
        'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
       }
df = pd.DataFrame(data)
print(df)
print()

df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print("pd.DataFrame(np.arange(12).reshape((3,4))):")
print(df1)

print("--"*16)
print('\n创建时指定列的顺序及index:')

# 创建时指定列的顺序及index
print(pd.DataFrame(data,columns=['year','state','pop'],index=['one', 'two', 'three', 'four','five', 'six']))

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2

pd.DataFrame(np.arange(12).reshape((3,4))):
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
--------------------------------

创建时指定列的顺序及index:
       year   state  pop
one    2000    Ohio  1.5
two    2001    Ohio  1.7
three  2002    Ohio  3.6
four   2001  Nevada  2.4
five   2002  Nevada  2.9
six    2003  Nevada  3.2


In [9]:
# 把嵌套字典传给DataFrame，外层字典的键作为列，内层键则作为行索引
pop = {
        'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
      }

df2 = pd.DataFrame(pop)

print(df2)
print(type(df2))

print(df2['Ohio'][:-1])
print(type(df2['Ohio'][:-1]))

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6
<class 'pandas.core.frame.DataFrame'>
2000    1.5
2001    1.7
Name: Ohio, dtype: float64
<class 'pandas.core.series.Series'>


### 2.2.2 查看一个DataFrame
- head方法:对于特别大的DataFrame，head方法会选取前五行
- 类似字典属性：**A column** in a DataFrame can be retrieved as **a Series**
- loc属性：通过位置或名称的方式获取dataframe的一行
- index以及index的name属性：获取index以及命名
- columns属性以及columns的name属性：获取表头以及表头的命名
- values属性:以二维ndarray的形式返回DataFrame中的数据。如果DataFrame各列的数据类型不同， 则值数组的dtype就会选用能兼容所有列的数据类型。

In [10]:
data = {
        'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
       }
df = pd.DataFrame(data)

#head 方法选取前五行
print(df.head())
print('--'*20)

# 将DataFrame的列获取为一个Series：
print('△df[\'state\']=')
print(df['state'])


# frame2[column]适用于任何列的名， 但是frame2.column只有在列名是一个合理的Python变量名时才适用。
print('△df.state=')
print(df.state)
print('--'*20)

print('loc属性：获取dataframe的一行')
print('df.loc[[2,0]]=')
print(df.loc[[2,0]])
print()

print
print('--'*20)

print('df.index=')
print(df.index)
print('设置index的name属性：')
df.index.name='no.'
print(df)
print('--'*20)

# columns:通过位置或名称的方式获取dataframe的一行
print('df.columns:')
print(df.columns)
print('设置columns的name属性：')
df.columns.name='state'
print(df)
print('--'*20)

# values属性
print('values属性')
print(df.values)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
----------------------------------------
△df['state']=
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
△df.state=
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
----------------------------------------
loc属性：获取dataframe的一行
df.loc[[2,0]]=
  state  year  pop
2  Ohio  2002  3.6
0  Ohio  2000  1.5

----------------------------------------
df.index=
RangeIndex(start=0, stop=6, step=1)
设置index的name属性：
      state  year  pop
no.                   
0      Ohio  2000  1.5
1      Ohio  2001  1.7
2      Ohio  2002  3.6
3    Nevada  2001  2.4
4    Nevada  2002  2.9
5    Nevada  2003  3.2
----------------------------------------
df.columns:
Index(['state', 'year', 'pop'], dtype='object')
设置columns的name属性：
state   state  year  pop
no.                     
0        Ohio  2000

### 2.2.3 对DataFrame进行操作
- 对列赋值
    - 将列表或数组赋值给**某个列**时， 其长度必须跟DataFrame的长度相匹配
    - 用Series进行赋值，则会**精确匹配DataFrame的index**，**所有空位都会被填上缺失值**
    - 为不存在的列赋值会创建出一个新列。
- 删除列：del
- 转置操作（DataFrame.T）

In [11]:
print(df)
print()

df['pop'] = np.arange(6)
print('df[\'pop\'] = np.arange(6):')
print(df)
print('--'*20)

val = pd.Series([-1.2, -1.5, -1.7],index=[3,1,2])
df['pop'] = val
print('df[\'pop\'] = Series:')
print(df)
print('--'*20)

# 为不存在的列赋值会创建出一个新列。
df['to_be_del'] = (df.state=='Ohio')
print(df)

state   state  year  pop
no.                     
0        Ohio  2000  1.5
1        Ohio  2001  1.7
2        Ohio  2002  3.6
3      Nevada  2001  2.4
4      Nevada  2002  2.9
5      Nevada  2003  3.2

df['pop'] = np.arange(6):
state   state  year  pop
no.                     
0        Ohio  2000    0
1        Ohio  2001    1
2        Ohio  2002    2
3      Nevada  2001    3
4      Nevada  2002    4
5      Nevada  2003    5
----------------------------------------
df['pop'] = Series:
state   state  year  pop
no.                     
0        Ohio  2000  NaN
1        Ohio  2001 -1.5
2        Ohio  2002 -1.7
3      Nevada  2001 -1.2
4      Nevada  2002  NaN
5      Nevada  2003  NaN
----------------------------------------
state   state  year  pop  to_be_del
no.                                
0        Ohio  2000  NaN       True
1        Ohio  2001 -1.5       True
2        Ohio  2002 -1.7       True
3      Nevada  2001 -1.2      False
4      Nevada  2002  NaN      False
5      Nevada  2003

In [12]:
# del方法用来删除列：
del df['to_be_del']
print(df.columns)

Index(['state', 'year', 'pop'], dtype='object', name='state')


In [13]:
print(df.T)

no.       0     1     2       3       4       5
state                                          
state  Ohio  Ohio  Ohio  Nevada  Nevada  Nevada
year   2000  2001  2002    2001    2002    2003
pop     NaN  -1.5  -1.7    -1.2     NaN     NaN


## 2.3 Index Objects（索引对象）
pandas’s Index objects are responsible for holding the axis labels(轴标签) and other metadata(like the axis name).  
构建Series或DataFrame时， 所用到的任何数组或其他序列的标签都会被转换成一个Index。    
Index对象是不可变的， 因此用户不能对其进行修改，这使Index对象在多个数据结构之间安全共享。

In [14]:
# 除了类似于数组， Index的功能也类似一个固定大小的Set：
print(df)
print('--'*20)
print('df.columns=')
print(df.columns)
print()

print('state'in df.columns)
print(2 in df.index)

state   state  year  pop
no.                     
0        Ohio  2000  NaN
1        Ohio  2001 -1.5
2        Ohio  2002 -1.7
3      Nevada  2001 -1.2
4      Nevada  2002  NaN
5      Nevada  2003  NaN
----------------------------------------
df.columns=
Index(['state', 'year', 'pop'], dtype='object', name='state')

True
True


In [15]:
labels = pd.Index(np.ones(3))
print(labels)

# Index对象是不可变的
try:
    labels[1]='d'
except BaseException as e:
    print('Index does not support mutable operations')

# Index对象可在多个数据结构之间安全共享
print()
obj2 = pd.DataFrame(np.arange(12).reshape((3,4)),index=labels)
print(obj2)

print('\n obj2.index is labels:',obj2.index is labels)
print()

# 与python的集合不同， pandas的Index可以包含重复的标签：
print('选择重复的标签， 会显示所有的结果')
print(obj2.loc[1])

Float64Index([1.0, 1.0, 1.0], dtype='float64')
Index does not support mutable operations

     0  1   2   3
1.0  0  1   2   3
1.0  4  5   6   7
1.0  8  9  10  11

 obj2.index is labels: True

选择重复的标签， 会显示所有的结果
     0  1   2   3
1.0  0  1   2   3
1.0  4  5   6   7
1.0  8  9  10  11


- index的 **is_unique** 属性：可以告诉你它的值是否是唯一的

In [16]:
print(obj2.index.is_unique)

False


# 3. Essential Functionality(基本功能)
## 3.1 Reindexing（重新索引）
reindex方法：创建一个新对象， 它的数据根据新索引进行重排，如果某个索引值当前不存在， 就引入缺失值：

In [17]:
# reindex方法修改Series
obj = pd.Series([4.5, 7.2, -5.3, 3.6],index=['d', 'b','a', 'c'])
print(obj)
print('--'*16+'reindex方法修改Series')
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
print(obj2)

# reindex方法修改DataFrame（行）索引和列。 
#只传递一个序列时，会重新索引结果的行
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['Ohio','Texas','California'])
print('\n\nDataFrame:')
print(frame)
print('--'*16+'reindex方法修改DataFrame')
frame2 = frame.reindex(['a','b','c','d'])
print(frame2)
# 同时修改行和列（列使用columns关键字）
states = ['Texas','Utah','California']
frame3 = frame.reindex(['a','b','c','d'],columns=states)
print('--'*16+'reindex同时修改DataFrame行和列（列使用columns关键字）:')
print(frame3)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
--------------------------------reindex方法修改Series
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64


DataFrame:
   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
--------------------------------reindex方法修改DataFrame
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0
--------------------------------reindex同时修改DataFrame行和列（列使用columns关键字）:
   Texas  Utah  California
a    1.0   NaN         2.0
b    NaN   NaN         NaN
c    4.0   NaN         5.0
d    7.0   NaN         8.0


- method选项：对于时间序列这样的有序数据，重新索引时可能需要做一些**插值处理**（填充一些数据）。
    - eg:method='ffill'可以实现前向值填充：
- fill_value选项：找不到值时指定一个填充值。
- limit选项
- tolerance选项
- level选项
- copy选项

In [18]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)
print('--'*6+'ffill可以实现前向值填充'+'--'*6)
obj3 = obj3.reindex(range(6),method='ffill',fill_value=0)
print(obj3)

0      blue
2    purple
4    yellow
dtype: object
------------ffill可以实现前向值填充------------
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


## 3.2 Dropping Entries from an Axis（丢弃指定轴上的项）
指定一个索引数组或列表即可。返回的是一个在指定轴上删除了指定值的**新对象**。

In [19]:
# Series
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
print('obj:\n',obj)
print()

print('--'*16+'丢弃Series：obj.drop(\'c\')')
new_obj = obj.drop('c')
print(new_obj)

print('--'*16+'丢弃Series：obj.drop([\'c\',\'d\'])')
new_obj = obj.drop(['c','d'])
print(new_obj)

obj:
 a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

--------------------------------丢弃Series：obj.drop('c')
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64
--------------------------------丢弃Series：obj.drop(['c','d'])
a    0.0
b    1.0
e    4.0
dtype: float64


In [20]:
# Pandas
data = pd.DataFrame(np.arange(16).reshape((4, 4)),index=['Ohio', 'Colorado', 'Utah','New York'],columns=['one', 'two', 'three', 'four'])
print('DataFrame:')
print(data)
print()

print('--'*16+'用标签序列会从行标签（axis=0）删除值')
print(data.drop(['Colorado', 'Ohio']))
print('--'*16+'通过传递axis=1或axis=\'columns\'可以删除列的值：')
print(data.drop('two',axis=1))
print(data.drop(['two', 'four'], axis='columns'))


DataFrame:
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

--------------------------------用标签序列会从行标签（axis=0）删除值
          one  two  three  four
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------通过传递axis=1或axis='columns'可以删除列的值：
          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15
          one  three
Ohio        0      2
Colorado    4      6
Utah        8     10
New York   12     14


- inplace参数：就地修改对象， 不会返回新的对象(小心使用inplace， 它会销毁所有被删除的数据。)

In [21]:
obj.drop('c', inplace=True)
print(obj)

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64


## 3.3 Indexing, Selection, and Filtering(索引、 选取和过滤)

In [22]:
# Indexing for Series
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
print(obj)
print()

print('obj[\'b\']=')
print(obj['b'])
print()

print('obj[[\'b\', \'a\', \'d\']]=')
print(obj[['b', 'a', 'd']])
print()

print('标签的切片运算,其末端是包含的:obj[\'a\':\'c\']')
print(obj['a':'c'])
print()

print('obj[1]=')
print(obj[1])
print()

print('obj[2:4]=')
print(obj[2:4])
print()

print('obj < 2=')
print(obj < 2)
print('obj[obj < 2]=')
print(obj[obj < 2])

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

obj['b']=
1.0

obj[['b', 'a', 'd']]=
b    1.0
a    0.0
d    3.0
dtype: float64

标签的切片运算,其末端是包含的:obj['a':'c']
a    0.0
b    1.0
c    2.0
dtype: float64

obj[1]=
1.0

obj[2:4]=
c    2.0
d    3.0
dtype: float64

obj < 2=
a     True
b     True
c    False
d    False
dtype: bool
obj[obj < 2]=
a    0.0
b    1.0
dtype: float64


In [41]:
# indexing for DataFrame
data = pd.DataFrame(np.arange(16).reshape((4, 4)),index=['Ohio', 'Colorado', 'Utah',
'New York'],columns=['one', 'two', 'three', 'four'])
print('data=')
print(data)
print()

print('-'*32+'向[ ]传递单一的元素或列表选择列')
print('data[\'two\']=')
print(data['two'])
print()


print('data[[\'three\', \'one\']]=')
print(data[['three', 'one']])
print()

# 通过切片选取
print('-'*32+'选取行')
print('通过切片选取data[:2]=')
print(data[:2])
print()

# 通过布尔型数组选取数据
print('通过布尔型数组选取数据data[\'three\'] > 5=')
print(data['three'] > 5)
print('data[data[\'three\'] > 5]=')
print(data[data['three'] > 5])

# 通过布尔型DataFrame进行选取
print('data<5=')
print(data<5)
data[data < 5] = 0
print('data=')
print(data)

data=
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

--------------------------------向[ ]传递单一的元素或列表选择列
data['two']=
Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

data[['three', 'one']]=
          three  one
Ohio          2    0
Colorado      6    4
Utah         10    8
New York     14   12

--------------------------------选取行
通过切片选取data[:2]=
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7

通过布尔型数组选取数据data['three'] > 5=
Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool
data[data['three'] > 5]=
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
data<5=
            one    two  three   four
Ohio       True   True   True   True
Colorado   True  False  False  False
Utah   

- loc（标签索引）与 iloc（整数索引）:避免轴索引中含有整数时引发歧义

In [24]:
ser = pd.Series(np.arange(3.))
print(ser)
print('如果轴索引含有整数，数据选取总会使用标签,ser[-1]会报错')
#print(ser[-1])
print('为了更准确，请使用loc（标签）或iloc（整数）')

0    0.0
1    1.0
2    2.0
dtype: float64
如果轴索引含有整数，数据选取总会使用标签,ser[-1]会报错
为了更准确，请使用loc（标签）或iloc（整数）


In [25]:
# Selection with loc(轴标签) and iloc（整数索引） 
print(data.loc[:'Colorado', ['two', 'three']])
print()

print(data.iloc[[1,2], [3, 0, 1]])
print()

print(data.iloc[:, :3][data.three > 5])

          two  three
Ohio        0      0
Colorado    5      6

          four  one  two
Colorado     7    0    5
Utah        11    8    9

          one  two  three
Colorado    0    5      6
Utah        8    9     10
New York   12   13     14


## 3.4 Arithmetic and Data Alignment(算术运算和数据对齐)
pandas最重要的一个功能是， 它可以对不同索引的对象进行算术运算.  
自动的数据对齐操作在不重叠的索引处引入了NA值。 缺失值会在算术运算过程中传播

In [26]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c','d', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],index=['a', 'c', 'e', 'f', 'g'])

print('s1=')
print(s1)
print('s2=')
print(s2)
print()

print('s1+s2=')
print(s1+s2)

s1=
a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
s2=
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

s1+s2=
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64


In [27]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(list('bde'))
print('df1=')
print(df1)
print('df2=')
print(df2)
print()

print('print(df1+df2)=')
print(df1+df2)

['b', 'd', 'e']
df1=
            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0
df2=
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

print(df1+df2)=
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN


- Arithmetic methods with fll values(在算术方法中填充值):  
在对不同索引的对象进行算术运算时，你可能希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值（比如0）：因此Series和DataFrame的算术方法都有一个副本，以字母r开头，它会翻转参数。这两个语句是等价的。

In [28]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),columns=list('abcde'))
print('df1=')
print(df1)

df2.loc[1, 'b'] = np.nan
print('df2=')
print(df2)
print()

print('df1+df2=')
print(df1+df2)
print()

# 使用df1的add方法， 传入df2以及一个fill_value参数：
print(df1.add(df2, fill_value=0))
print(df1.radd(df2, fill_value=0))

df1=
     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
df2=
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0

df1+df2=
      a     b     c     d   e
0   0.0   2.0   4.0   6.0 NaN
1   9.0   NaN  13.0  15.0 NaN
2  18.0  20.0  22.0  24.0 NaN
3   NaN   NaN   NaN   NaN NaN

      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0   5.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0   5.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0


- DataFrame和Series之间的运算:
默认情况下， DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列， 然后沿着行一直向下广播：

In [45]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
print('frame=')
print(frame)
print('series=')
print(series)
print()

#默认情况下， DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列， 然后沿着行一直向下广播：
print('frame - series')
print(frame - series)
print()


# 如果某个索引值在DataFrame的列或Series的索引中找不到， 则参与运算的两个对象就会被重新索引以形成并集：
print('如果某个索引值在DataFrame的列或Series的索引中找不到， 则参与运算的两个对象就会被重新索引以形成并集：')
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
print('seires2=')
print(series2)
print('frame + series2')
print(frame + series2)

print('--'*16)
print('如果希望匹配行索引并且在列上广播， 则必须使用算术运算方法且传入轴号（ axis=\'index\' or axis=0）。 例如：')
series3 = frame['d']
print('series3=')
print(series3)
print()

print('frame.sub(series3, axis=\'index\')')
print(frame.sub(series3, axis=0))

frame=
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
series=
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

frame - series
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0

如果某个索引值在DataFrame的列或Series的索引中找不到， 则参与运算的两个对象就会被重新索引以形成并集：
seires2=
b    0
e    1
f    2
dtype: int64
frame + series2
          b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN
--------------------------------
如果希望匹配行索引并且在列上广播， 则必须使用算术运算方法且传入轴号（ axis='index' or axis=0）。 例如：
series3=
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

frame.sub(series3, axis='index')
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0


## 3.5 Function Application and Mapping(函数应用和映射)
NumPy的ufuncs（ 元素级数组方法） 也可用于操作pandas对象：

In [30]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(frame)
print()

print(np.abs(frame))

               b         d         e
Utah   -1.444361 -0.273533  0.472929
Ohio   -0.540647 -1.322840 -0.073766
Texas   1.274084  0.219660 -0.546461
Oregon -0.063869 -0.735520  0.620448

               b         d         e
Utah    1.444361  0.273533  0.472929
Ohio    0.540647  1.322840  0.073766
Texas   1.274084  0.219660  0.546461
Oregon  0.063869  0.735520  0.620448


另一个常见的操作是， 将函数应用到由各列或行所形成的一维数组上。   
DataFrame的apply方法(默认**每列执行一次**)即可实现此功能：  
如果传递axis='columns'到apply， 这个函数会在每行执行：

In [31]:
f = lambda x: x.max() - x.min()
print(frame.apply(f))
print()
print(frame.apply(f, axis='columns'))

b    2.718445
d    1.542499
e    1.166909
dtype: float64

Utah      1.917290
Ohio      1.249074
Texas     1.820545
Oregon    1.355968
dtype: float64


传递到apply的函数不是必须返回一个标量， 还可以返回由多个值组成的Series：

In [32]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

print(frame.apply(f))

            b        d         e
min -1.444361 -1.32284 -0.546461
max  1.274084  0.21966  0.620448


如你想得到frame中各个浮点值的格式化字符串，使用applymap即可；  
之所以叫做applymap， 是因为Series有一个用于应用元素级函数的map方法。

In [33]:
format = lambda x: '%.2f' % x
print(frame.applymap(format))
print()
print( frame['e'].map(format))

            b      d      e
Utah    -1.44  -0.27   0.47
Ohio    -0.54  -1.32  -0.07
Texas    1.27   0.22  -0.55
Oregon  -0.06  -0.74   0.62

Utah       0.47
Ohio      -0.07
Texas     -0.55
Oregon     0.62
Name: e, dtype: object


许多最为常见的数组统计功能都被实现成DataFrame的方法（ 如sum和mean） ， 因此无需使用apply方法。

## 3.6 Sorting and Ranking(排序和排名)
### 3.6.1 sort
在排序时， **任何缺失值默认都会被放到Series的末尾**：
- sort_index方法:要对行或列索引进行排序（按字典顺序）它将返回一个已排序的**新对象**：
    - 默认升序，指定降序时：ascending=False
- sort_values方法：按值对Series进行排序

In [34]:
# Series
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
print(obj)
print()

print(obj.sort_index())

print('--'*16+'DataFrame排序')
# DataFrame
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),index=['three', 'one'],columns=['d', 'a', 'b', 'c'])
print('frame=')
print(frame)
print()

print('frame.sort_index()=')
print(frame.sort_index())
print()

print('frame.sort_index(axis=1,ascending=False)=')
print(frame.sort_index(axis=1,ascending=False))

d    0
a    1
b    2
c    3
dtype: int64

a    1
b    2
c    3
d    0
dtype: int64
--------------------------------DataFrame排序
frame=
       d  a  b  c
three  0  1  2  3
one    4  5  6  7

frame.sort_index()=
       d  a  b  c
one    4  5  6  7
three  0  1  2  3

frame.sort_index(axis=1,ascending=False)=
       d  c  b  a
three  0  3  2  1
one    4  7  6  5


In [35]:
# sort_values
obj = pd.Series([4, 7, -3, 2])
print(obj.sort_values())

2   -3
3    2
0    4
1    7
dtype: int64


- by option of sort_values：指定一个或多个列中的值进行排序

In [36]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
print(frame)
print()

print(frame.sort_values(by='b'))
print()

print(frame.sort_values(by=['a','b']))

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1

   b  a
2 -3  0
3  2  1
0  4  0
1  7  1

   b  a
2 -3  0
0  4  0
3  2  1
1  7  1


### 3.6.2 rank
rank方法：默认通过“为各组分配一个平均排名”的方式破坏平级关系
- method 选项
    - 'average'(Default): assign the average rank to each entry in the equal group
    - 'min' Use the minimum rank for the whole group
    - 'max' Use the maximum rank for the whole group
    - 'first' Assign ranks in the order the values appear in the data
    - 'dense' Like method='min', but ranks always increase by 1 in between groups rather than the number of equal elements in a group

In [46]:
# Series
obj = pd.Series([1,1,0,2,2,2])
print(obj)
print()

print('-'*32+'平均排名')
print(obj.rank())

print('-'*32+'排名（同大小的以出现顺序为依据）')
print(obj.rank(method='first'))

print('-'*32+'dense方法(ranks only increase by 1 in between groups)')
print(obj.rank(method='dense'))

print('-'*32+'平均降序排名')
print(obj.rank(ascending=False))


print('-'*32+'降序排名（以分组中max值的rank为组中各值统一排名）')
print(obj.rank(ascending=False,method='max'))

0    1
1    1
2    0
3    2
4    2
5    2
dtype: int64

--------------------------------平均排名
0    2.5
1    2.5
2    1.0
3    5.0
4    5.0
5    5.0
dtype: float64
--------------------------------排名（同大小的以出现顺序为依据）
0    2.0
1    3.0
2    1.0
3    4.0
4    5.0
5    6.0
dtype: float64
--------------------------------dense方法(ranks only increase by 1 in between groups)
0    2.0
1    2.0
2    1.0
3    3.0
4    3.0
5    3.0
dtype: float64
--------------------------------平均降序排名
0    4.5
1    4.5
2    6.0
3    2.0
4    2.0
5    2.0
dtype: float64
--------------------------------降序排名（以分组中max值的rank为组中各值统一排名）
0    5.0
1    5.0
2    6.0
3    3.0
4    3.0
5    3.0
dtype: float64


In [38]:
# DataFrame
obj = pd.DataFrame({
    'b':[4.3, 7, -3, 2],
    'a':[0, 1, 0, 1],
    'c':[-2, 5, 8, -2.5]
})

print(obj)

print('-'*32+'通过axis指定按列排名')
print(obj.rank(axis='columns'))

     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5
--------------------------------通过axis指定按列排名
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0


# 4. Summarizing and Computing Descriptive Statistics(汇总和计算描述统计)
pandas objects are equipped with a set of common mathematical and statistical methods. Most of these fall into the category of reductions or summary statistics, methods that extract a single value (like the sum or mean) from a Series or a Series of values from the rows or columns of a DataFrame. Compared with the similar methods found on NumPy arrays, they have built-in **handling for missing data**(NA值会自动被排除， 除非整个切片（ 这里指的是行或列） 都是NA。通过skipna选项可以禁用该功能). 

- axis: Axis to reduce over; 0 for DataFrame’s rows and 1 for columns
- skipna: Exclude missing values; True by default
- level: Reduce grouped by level if the axis is hierarchically indexed (MultiIndex)如果轴是层次化索引的（即MultiIndex），则根据level分组约简。

Descriptive and summary statistics:
- count: Number of non-NA values
- describe: Compute set of summary statistics for Series or each DataFrame column
- min, max: Compute minimum and maximum values
- argmin, argmax: Compute index locations (integers) at which minimum or maximum value obtained, respectively
- idxmin, idxmax: Compute index labels at which minimum or maximum value obtained, respectively
- quantile: Compute sample quantile ranging from 0 to 1
- sum: Sum of values
- mean: Mean of values
- median: Arithmetic median (50% quantile) of values
- mad: Mean absolute deviation from mean value
- prod: Product of all values
- var: Sample variance of values
- std: Sample standard de- viation of values
- skew: Sample skewness (third moment) of values
- kurt: Sample kurtosis (fourth moment) of values
- cumsum: Cumulative sum of values
- cummin, cummax: Cumulative minimum or maximum of values, respectively
- cumprod: Cumulative product of values
- diff: Compute frst arithmetic diﬀerence (useful for time series)
- pct_change: Compute percent changes

## 4.1 sum()、cumsum()

In [49]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
print(df)
print()

print('df.sum()=')
print(df.sum())
print()

print('df.sum(axis=\'columns\')或者df.sum(axis=1)=')
print(df.sum(axis='columns'))
print()

print('skipna=False 不排除缺失值：')
print(df.sum(axis=1,skipna=False))
print()

# 累计型 cumsum()
print('df.cumsum()=')
print(df.cumsum())

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

df.sum()=
one    9.25
two   -5.80
dtype: float64

df.sum(axis='columns')或者df.sum(axis=1)=
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

skipna=False 不排除缺失值：
a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

df.cumsum()=
    one  two
a  1.40  NaN
b  8.50 -4.5
c   NaN  NaN
d  9.25 -5.8


##  4.2  indirect statistic（返回索引）：sinxmin()、inxmax()

In [50]:
print(df.idxmax())

one    b
two    d
dtype: object


## 4.3 describe()：一次性产生多个汇总统计

In [56]:
# 数值型数据
print(df.describe())

# 非数值型数据
print('-'*32+'对非数值型数据describe产生另外一种汇总统计')

print(['a', 'a', 'b', 'c'] * 4)
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
print(obj)
print(obj.describe())

            one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000
--------------------------------对非数值型数据describe产生另外一种汇总统计
['a', 'a', 'b', 'c', 'a', 'a', 'b', 'c', 'a', 'a', 'b', 'c', 'a', 'a', 'b', 'c']
0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object
count     16
unique     3
top        a
freq       8
dtype: object


## 4.4 Correlation and Covariance(相关系数与协方差)
Some summary statistics, like correlation and covariance, are computed from pairs of arguments.   
我们来看几个DataFrame， 它们的数据来自Yahoo!Finance的股票价格和成交量， 使用的是pandas-datareader包（ 可以用conda或pip安装）：  
```python
conda install pandas-datareader
```

- Series的 **corr方法**: 用于计算两个Series中重叠的、 非NA的、 按索引对齐的值的相关系数。   
- **cov** 用于计算协方差。
- axis='columns'：按行进行计算。

In [61]:
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close']
for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
for ticker, data in all_data.items()})

returns = price.pct_change()

print(returns)

                AAPL       IBM      MSFT      GOOG
Date                                              
2009-12-31       NaN       NaN       NaN       NaN
2010-01-04  0.015565  0.011841  0.015420  0.010920
2010-01-05  0.001729 -0.012080  0.000323 -0.004404
2010-01-06 -0.015906 -0.006496 -0.006137 -0.025209
2010-01-07 -0.001848 -0.003462 -0.010400 -0.023280
2010-01-08  0.006648  0.010035  0.006897  0.013331
2010-01-11 -0.008822 -0.010470 -0.012720 -0.001512
2010-01-12 -0.011375  0.007955 -0.006607 -0.017684
2010-01-13  0.014106 -0.002145  0.009312 -0.005741
2010-01-14 -0.005792  0.015972  0.020099  0.004701
2010-01-15 -0.016712 -0.004006 -0.003230 -0.016699
2010-01-19  0.044238  0.017908  0.007777  0.013138
2010-01-20 -0.015392 -0.028999 -0.016399 -0.012270
2010-01-21 -0.017286 -0.009597 -0.018960  0.004428
2010-01-22 -0.049599 -0.027132 -0.034988 -0.056554
2010-01-25  0.026903  0.004940  0.012431 -0.018200
2010-01-26  0.014133 -0.002934  0.006139  0.004481
2010-01-27  0.009420  0.004612 

In [63]:
# Series的corr方法
print('-'*32+'Series的corr方法')
print(returns['MSFT'].corr(returns['IBM']))
# 因为MSTF是一个合理的Python属性， 我们还可以用更简洁的语法选择列
print(returns.MSFT.corr(returns.IBM))      

# Series的cov方法
print('-'*32+'Series的cov方法')
print(returns['MSFT'].cov(returns['IBM']))

--------------------------------Series的corr方法
0.4872944911257091
0.4872944911257091
--------------------------------Series的cov方法
8.646817159663317e-05


In [65]:
# DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵
print('returns.corr()=')
print(returns.corr())
print()

print('returns.cov()=')
print(returns.cov())

returns.corr()=
          AAPL       IBM      MSFT      GOOG
AAPL  1.000000  0.379782  0.453139  0.461067
IBM   0.379782  1.000000  0.487294  0.403301
MSFT  0.453139  0.487294  1.000000  0.537799
GOOG  0.461067  0.403301  0.537799  1.000000

returns.cov()=
          AAPL       IBM      MSFT      GOOG
AAPL  0.000265  0.000076  0.000107  0.000116
IBM   0.000076  0.000151  0.000086  0.000076
MSFT  0.000107  0.000086  0.000208  0.000120
GOOG  0.000116  0.000076  0.000120  0.000238


DataFrame的 **corrwith** 方法：计算其列或行跟另一个Series或DataFrame之间的相关系数。   
- 传入一个Series:将会返回一个相关系数值Series（针对各列进行计算）
- 传入一个DataFrame:则会计算按列名配对的相关系数

In [67]:
print(returns.corrwith(returns.IBM))
print()
print(returns.corrwith(volume))

AAPL    0.379782
IBM     1.000000
MSFT    0.487294
GOOG    0.403301
dtype: float64
AAPL   -0.062555
IBM    -0.156651
MSFT   -0.090247
GOOG   -0.021551
dtype: float64


## 4.5 Unique Values, Value Counts, and Membership（唯一值、 值计数以及成员资格）
### 4.5.1 unique方法：得到Series中的唯一值数组(未排序)

In [70]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c'
, 'c'])
uniques = obj.unique()
print(uniques)
print(uniques.sort())
print(uniques)

['c' 'a' 'd' 'b']
None
['a' 'b' 'c' 'd']


### 4.5.2 value_counts方法：用于计算一个Series中各值出现的频率(降序排列)
Series的value_counts方法还是一个顶级pandas方法， 可用于任何数组或序列。

In [90]:
print(obj.value_counts())
print()

print(pd.value_counts(obj, sort=False))

# DataFrame
print('-'*32+'使用df.apply(pd.value_counts)应用于DataFrame')
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
'Qu2': [2, 3, 1, 2, 3],
'Qu3': [1, 5, 2, 4, 4]})

print(data.apply(pd.value_counts))
print(data.apply(pd.value_counts).fillna(0))

a    3
c    3
b    2
d    1
dtype: int64

c    3
b    2
a    3
d    1
dtype: int64
--------------------------------使用df.apply(pd.value_counts)应用于DataFrame
   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  NaN  2.0  1.0
3  2.0  2.0  NaN
4  2.0  NaN  2.0
5  NaN  NaN  1.0
   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0


### 4.5.3 isin方法：用于判断矢量化集合的成员资格， 可用于过滤Series中或DataFrame列中数据的子集

In [76]:
print(obj)
print()

mask = obj.isin(['b','c'])
print(mask)
print()

print(obj[mask])

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

0    c
5    b
6    b
7    c
8    c
dtype: object


In [79]:
# 与isin有点类似的是Index.get_indexer方法
unique_vals = pd.Series(['b','c'])
print(pd.Index(unique_vals))

print(pd.Index(unique_vals).get_indexer(obj))

Index(['b', 'c'], dtype='object')
[ 1 -1 -1 -1 -1  0  0  1  1]


# . pandas中的函数
## .1 isnull 和 notnull 函数 以及 Series的实例方法
用于检检测缺失数据

In [12]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states = ['California', 'Ohio', 'Oregon', 'Texas']
temp = pd.Series(sdata,index=states)
print(temp)
print()

print(pd.isnull(temp))
print()

print(temp.isnull())
print()

print(pd.notnull(temp))

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool
