# Pandas

## 1. 数据结构

### 1.1 Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。Series的字符串表现形式为：索引在左边，值在右边。

用数组生成Series：

In [1]:
import pandas as pd
import numpy as np

obj = pd.Series([4, 7, -5, 3])
print("用数组生成Series", obj, sep='\r\n')
print("\r\nSeries的值：", obj.values, sep='\r\n')
print("\r\nSeries的索引：", obj.index, sep='\r\n')

用数组生成Series
0    4
1    7
2   -5
3    3
dtype: int64

Series的值：
[ 4  7 -5  3]

Series的索引：
RangeIndex(start=0, stop=4, step=1)


指定Series的index：

In [2]:
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
print('原始Series：', obj2, sep='\r\n')
print("\r\nSeries的值：", obj2.values, sep='\r\n')
print("\r\nSeries的索引：", obj2.index, sep='\r\n')

obj2.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print("\r\n替换index", obj2, sep='\r\n')

原始Series：
d    4
b    7
a   -5
c    3
dtype: int64

Series的值：
[ 4  7 -5  3]

Series的索引：
Index(['d', 'b', 'a', 'c'], dtype='object')

替换index
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


使用字典生成Series，以及Series相加：

In [4]:
obj3 = pd.Series({'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000})
print("使用字典生成Series：", obj3, sep='\r\n')

obj4 = pd.Series({'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}, \
                 index=['California', 'Ohio', 'Oregon', 'Texas'])
print('\r\n使用字典生成Series，并额外指定index，不匹配部分为NaN：', obj4, sep='\r\n')

print("\r\nSeries相加，相同索引部分相加：")
print(obj3 + obj4)

使用字典生成Series：
Ohio      45000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

使用字典生成Series，并额外指定index，不匹配部分为NaN：
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Series相加，相同索引部分相加：
California         NaN
Ohio           90000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


指定Series及其索引的名字：

In [5]:
print("\r\n指定Series及其索引的名字：")
obj4.name = "population"
obj4.index.name = "state"
print(obj4)


指定Series及其索引的名字：
state
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


### 1.2 DataFrame

- DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型等）。
- DataFrame既有行索引也有列索引，它可以看做由Series组成的字典（共用同一个索引）。

以下数据都可以用于构建一个DataFrame：

- 二维ndarray：数据矩阵，还可以传入行标和列标
- 由数组、列表或元组组成的字典：每个序列会变成DataFrame的一列，所有序列的长度必须相同
- NumPy的结构化数组：类似于”由数组组成的字典“
- 由Series组成的字典：每个Series会组成一列。如果没有显式指定索引，则各Series的索引会被合并成结果的行索引。
- 由字典组成的字典：各内层字典会成为一列。键会合并成结果的行索引。跟”由Series组成的字典”情况一样。
- 字典或Series的列表：各项将会成为DataFrame的一行。字典键或Series索引的并集将会成为DataFrame的列标。
- 由列表或元组组成的列表：类似于“二维ndarray”
- 另一个DataFrame：该DataFrame的索引将会被沿用，除非显式指定了其他索引。
- NumPy的MaskedArray：类似于“二维ndarray”的情况，只是掩码值在结果DataFrame会变成NaN缺失值。

典型地，可以用字典生成DataFrame：

In [6]:
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year':[2000, 2001, 2002, 2001, 2002],
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
print("用字典生成DataFrame，key为列的名字，列的顺序默认是乱序的：")
print(pd.DataFrame(data))
print("\r\n可以显式指定列的顺序：")
print(pd.DataFrame(data, columns=['year', 'state', 'pop']))

print("\r\n用字典生成DataFrame，如果显式指定的列中有字典中不存在的列，默认值为NaN。下面这个例子同时指定了索引：")
frame = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])
print(frame)

用字典生成DataFrame，key为列的名字，列的顺序默认是乱序的：
   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002

可以显式指定列的顺序：
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9

用字典生成DataFrame，如果显式指定的列中有字典中不存在的列，默认值为NaN。下面这个例子同时指定了索引：
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN


取一行和取一列的操作：

In [7]:
print("取一列：")
print(frame['state']) # 或者frame.state
print("\r\n取一行：")
print(frame.ix['three']) # loc好像也行

取一列：
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

取一行：
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object


修改一列的值：

In [9]:
frame['debt'] = 16.5
print('使用标量修改一整列的每个值：', frame, sep='\r\n')

frame.debt = np.arange(5)
print('\r\n使用ndarray修改一整列的所有值：', frame, sep='\r\n')

使用标量修改一整列的每个值：
       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5

使用ndarray修改一整列的所有值：
       year   state  pop  debt
one    2000    Ohio  1.5     0
two    2001    Ohio  1.7     1
three  2002    Ohio  3.6     2
four   2001  Nevada  2.4     3
five   2002  Nevada  2.9     4


用Series来修改数据：

In [10]:
print("用Series指定要修改的索引及其对应的值，默认值为NaN")
frame['debt'] = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
print(frame)

用Series指定要修改的索引及其对应的值，默认值为NaN
       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7


新的一列：

In [11]:
frame['eastern'] = (frame.state == 'Ohio')
print(frame)
print("\r\n查看DataFrame有哪些列：")
print(frame.columns)

       year   state  pop  debt eastern
one    2000    Ohio  1.5   NaN    True
two    2001    Ohio  1.7  -1.2    True
three  2002    Ohio  3.6   NaN    True
four   2001  Nevada  2.4  -1.5   False
five   2002  Nevada  2.9  -1.7   False

查看DataFrame有哪些列：
Index(['year', 'state', 'pop', 'debt', 'eastern'], dtype='object')


DataFrame的转置：

In [12]:
# 字典组成的字典来构建DataFrame
pop = {'Nevada':{2001:2.4, 2002:2.9}, 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame2 = pd.DataFrame(pop)
print("原始DataFrame：\r\n", frame2)
print("\r\n转置后的DataFrame：\r\n", frame2.T)

原始DataFrame：
       Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6

转置后的DataFrame：
         2000  2001  2002
Nevada   NaN   2.4   2.9
Ohio     1.5   1.7   3.6


切片：

In [13]:
pdata = {'Ohio': frame2['Ohio'][:-1], 'Nevada':frame2['Nevada'][:2]}
print(pd.DataFrame(pdata))

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7


类似于Series，指定索引和列的名称：

In [14]:
frame2.index.name = "year"
frame2.columns.name = "state"
print(frame2)

state  Nevada  Ohio
year               
2000      NaN   1.5
2001      2.4   1.7
2002      2.9   3.6


### 1.3 索引对象

- pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。
- Index对象是不可修改的(immutable)，因此用户不能对其进行修改。不可修改性非常重要，因为这样才能使Index对象在多个数据结构之间安全共享。

pandas中的主要index对象：

- `Index` 最泛化的index对象，将轴标签为一个由Python对象组成的NumPy数组
- `Int64Index` 针对整数的特殊index
- `MultiIndex` “层次化”索引对象，表示单个轴上的多层索引
- `DatetimeIndex` 存储纳秒级时间戳
- `PeriodIndex` 针对Period数据的特殊索引

index的方法和属性：

- `append` 连接另一个index对象，产生一个新的Index
- `diff` 计算差集，并得到一个Index
- `intersection` 计算交集
- `union` 计算并集
- `isin` 计算一个指示各值是否包含在参数集合中的布尔型数组
- `delete` 删除索引i处的元素，并得到新的Index
- `drop` 删除传入的值，并得到新的索引
- `insert` 将元素插入到索引i处，并得到新的Index
- `is_monotonic` 当各元素均大于等于前一个元素时，返回True
- `is_unique` 当Index没有重复值时，返回True
- `unique` 计算Index中唯一值的数组

获取Index对象：

In [15]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
idx = obj.index
print(idx)
print(idx[1:])

print("\r\n尝试修改index时会报错：")
try:
    idx[1] = 'd'
except Exception as e:
    print(e)

Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')

尝试修改index时会报错：
Index does not support mutable operations


使用Index对象：

In [16]:
idx = pd.Index(np.arange(3))
print("idx: \r\n", idx)

obj2 = pd.Series([1.5, -2.5, 0], index=idx)
print("\r\nobj2: \r\n", obj2)

print("\r\nIndex的is操作：\r\n", obj2.index is idx)

idx: 
 Int64Index([0, 1, 2], dtype='int64')

obj2: 
 0    1.5
1   -2.5
2    0.0
dtype: float64

Index的is操作：
 True


判断列和索引是否存在：

In [17]:
frame = pd.DataFrame({'Nevada':{20001:2.4, 2002:2.9}, 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}})
print('Ohio' in frame.columns)
print(2003 in frame.index)
print(2001 in frame.index)

True
False
True


## 2. 基本功能

### 2.1 重新索引

- 创建一个适应新索引的新对象，该Series的reindex将会根据新索引进行重排。如果某个索引值当前不存在，就引入缺失值
- 对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可达到此目的。

reindex函数的参数：

- `index` 用作索引的新序列。既可以是Index实例，也可以是其他序列型的Python数据结构。Index会被完全使用，就像没有任何复制一样。
- `method` 插值填充方式。ffill或bfill
- `fill_value` 在重新索引的过程中，需要引入缺失值时使用的替代值
- `limit` 向前或向后填充时的最大填充量
- `level` 在MultiIndex的指定级别上匹配简单索引，否则取其子集
- `copy` 默认为True，无论如何都复制。如果为False，则新旧相等就不复制


In [18]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
print(obj)
print("\r\n重新索引，缺失值使用默认的值：")
print(obj.reindex(['a', 'b', 'c', 'd', 'e']))
print("\r\n重新索引，缺失值使用指定的值：")
print(obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0))

print("\r\n重新索引，指定填充元素的方法")
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)
print(obj3.reindex(range(6), method='ffill'))

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

重新索引，缺失值使用默认的值：
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

重新索引，缺失值使用指定的值：
a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

重新索引，指定填充元素的方法
0      blue
2    purple
4    yellow
dtype: object
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


In [19]:
frame = pd.DataFrame(np.arange(9).reshape(3, 3), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
print(frame)
print("\r\n对DataFrame进行重新索引")
print(frame.reindex(['a', 'b', 'c', 'd']))

print("\r\n重新指定column")
print(frame.reindex(columns=['Texas', 'Utah', 'California']))

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8

对DataFrame进行重新索引
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0

重新指定column
   Texas  Utah  California
a      1   NaN           2
c      4   NaN           5
d      7   NaN           8


### 2.2 丢弃指定轴上的项

`drop`方法。丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象。

In [20]:
obj = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
print("Series丢弃某些值：")
print(obj.drop(['c', 'd']))

frame = pd.DataFrame(np.arange(16).reshape(4, 4),
                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
                     columns=['one', 'two', 'three', 'four'])
print()
print(frame)
print("\r\nDataFrame按索引drop：")
print(frame.drop(['Colorado', 'Ohio']))
print("\r\nDataFrame按列drop：")
print(frame.drop('two', axis=1))

Series丢弃某些值：
a    0
b    1
e    4
dtype: int64

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

DataFrame按索引drop：
          one  two  three  four
Utah        8    9     10    11
New York   12   13     14    15

DataFrame按列drop：
          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15


### 2.3 索引以及索引的选取和过滤

- Series索引的工作方式与NumPy相似，但是Series的索引值不只是整数
- 索引是字符串时也可以使用切片，但是与Python中普通的切片不同，其末端是包含的（inclusive）
- 多DataFrame索引就是获取一列或多列，获取行要使用`ix`

In [21]:
obj = pd.Series(np.arange(4), index=['b', 'a', 'c', 'd'])
print("基本索引：")
print(obj['c'])
print("\r\n数字索引依然可以工作：")
print(obj[2])
print(obj[[1, 3]])
print("\r\n字符串索引也可以切片，要注意这个时候是闭区间")
print(obj['b': 'c']) # 注意这里是闭区间
print("\r\n根据条件选择：")
print(obj[obj < 2])

基本索引：
2

数字索引依然可以工作：
2
a    1
d    3
dtype: int64

字符串索引也可以切片，要注意这个时候是闭区间
b    0
a    1
c    2
dtype: int64

根据条件选择：
b    0
a    1
dtype: int64


In [22]:
frame = pd.DataFrame(np.arange(16).reshape(4, 4),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
print(frame)
print("\r\n默认是选择列：")
print(frame['two']) #一列是Series
print("\r\n选择多列：")
print(frame[['three', 'one']]) # 多列是DataFrame

print("\r\n选择行：")
print(frame.ix['Utah']) #一行是Series
print("\r\n通过数字选择行：")
print(frame.ix[[1, 2]]) #多行是DataFrame
print("\r\n同时对行和列进行过滤：")
print(frame.ix[['Utah', 'Ohio'], ['two', 'three']])
print("\r\n切片选择行：")
print(frame[:2])

print("\r\n根据条件选择：")
print(frame[frame.three > 5])

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

默认是选择列：
Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

选择多列：
          three  one
Ohio          2    0
Colorado      6    4
Utah         10    8
New York     14   12

选择行：
one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

通过数字选择行：
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11

同时对行和列进行过滤：
      two  three
Utah    9     10
Ohio    1      2

切片选择行：
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7

根据条件选择：
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


### 2.4 算数运算和数据对齐

- 自动数据对齐在不重叠的索引处引入了NaN值。

In [23]:
print("加法：")
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
print(s1 + s2)

print("\r\nDataFrame加法，索引和列都必须匹配：")
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12).reshape(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1 + df2)

加法：
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

DataFrame加法，索引和列都必须匹配：
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN


In [24]:
print('数据填充：')
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns = list('abcde'))
print("\r\ndf1:\r\n", df1)
print("\r\ndf2:\r\n", df2)
print("\r\ndf1+df2:\r\n", df1.add(df2, fill_value = 0))
print("\r\ndf1的列按照df2的列来：\r\n", df1.reindex(columns = df2.columns, fill_value = 0.0))

数据填充：

df1:
      a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

df2:
       a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0

df1+df2:
       a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0  11.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0

df1的列按照df2的列来：
      a    b     c     d    e
0  0.0  1.0   2.0   3.0  0.0
1  4.0  5.0   6.0   7.0  0.0
2  8.0  9.0  10.0  11.0  0.0


In [25]:
print("numpy array减去其中一行：")
arr = np.arange(12).reshape((3, 4))
print(arr)
print(arr[0])
print(arr - arr[0])

print("\r\nDataFrame减去Series（按行）：")
frame = pd.DataFrame(np.arange(12).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
s = frame.ix[0]
print(frame)
print(s)
print(frame - s)

print("\r\nDataFrame减去Series（按列）：")
s = frame['d']
print(frame.sub(s, axis=0))

numpy array减去其中一行：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[0 1 2 3]
[[0 0 0 0]
 [4 4 4 4]
 [8 8 8 8]]

DataFrame减去Series（按行）：
        b   d   e
Utah    0   1   2
Ohio    3   4   5
Texas   6   7   8
Oregon  9  10  11
b    0
d    1
e    2
Name: Utah, dtype: int64
        b  d  e
Utah    0  0  0
Ohio    3  3  3
Texas   6  6  6
Oregon  9  9  9

DataFrame减去Series（按列）：
        b  d  e
Utah   -1  0  1
Ohio   -1  0  1
Texas  -1  0  1
Oregon -1  0  1


### 2.5 函数应用

- NumPy的元素级函数都可以用于DataFrame和Series。
- DataFrame的`apply`函数可以用于行或列
- DataFrame的`applymap`函数可用于元素级，Series的`map`函数可用于元素级

In [26]:
print("NumPy的元素级函数用于DataFrame：")
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(frame)
print(np.abs(frame))

NumPy的元素级函数用于DataFrame：
               b         d         e
Utah    1.063631  1.275310 -1.144592
Ohio    0.042275 -0.288288 -1.376804
Texas   0.961731 -0.241298 -1.113463
Oregon -0.121275 -0.390414 -1.966412
               b         d         e
Utah    1.063631  1.275310  1.144592
Ohio    0.042275  0.288288  1.376804
Texas   0.961731  0.241298  1.113463
Oregon  0.121275  0.390414  1.966412


In [27]:
f = lambda x: x.max() - x.min()
print("apply函数作用于列：")
print(frame.apply(f))
print("\r\napply函数作用于行：")
print(frame.apply(f, axis=1))

apply函数作用于列：
b    1.184907
d    1.665725
e    0.852948
dtype: float64

apply函数作用于行：
Utah      2.419902
Ohio      1.419079
Texas     2.075194
Oregon    1.845137
dtype: float64


In [28]:
_format = lambda x: "%.2f" % x
print("applymap可以将函数作用于DataFrame的每个元素：")
print(frame.applymap(_format))
print("\r\nmap可以将函数作用于Series的每个元素：")
print(frame['d'].map(_format))

applymap可以将函数作用于DataFrame的每个元素：
            b      d      e
Utah     1.06   1.28  -1.14
Ohio     0.04  -0.29  -1.38
Texas    0.96  -0.24  -1.11
Oregon  -0.12  -0.39  -1.97

map可以将函数作用于Series的每个元素：
Utah       1.28
Ohio      -0.29
Texas     -0.24
Oregon    -0.39
Name: d, dtype: object


### 2.6 排序、排名

- `sort_index`根据索引排序，可以指定轴、升降序、是否原地
- `sort_values`根据值排序
- `rank`得到元素值的排名

In [29]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
print("Series按索引排序：")
print(obj.sort_index())

frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=list('dabc'))
print("\r\nDataFrame按行索引排序：")
print(frame.sort_index())
print("\r\nDataFrame按列索引排序：")
print(frame.sort_index(axis=1))

Series按索引排序：
a    1
b    2
c    3
d    0
dtype: int64

DataFrame按行索引排序：
       d  a  b  c
one    4  5  6  7
three  0  1  2  3

DataFrame按列索引排序：
       a  b  c  d
three  1  2  3  0
one    5  6  7  4


In [30]:
obj = pd.Series([4, 7, -3, 2])
print("Series根据值排序：")
print(obj.sort_values())

frame = pd.DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
print("\r\nDataFrame根据其中一列的值对行排序：")
print(frame.sort_values(by='b')) # 这里尝试使用axis=1根据行的值对列排序时报错了，暂未解决
print("\r\nDataFrame根据多列的值对行排序：")
print(frame.sort_values(by=['a', 'b']))

Series根据值排序：
2   -3
3    2
0    4
1    7
dtype: int64

DataFrame根据其中一列的值对行排序：
   a  b
2  0 -3
3  1  2
0  0  4
1  1  7

DataFrame根据多列的值对行排序：
   a  b
2  0 -3
0  0  4
3  1  2
1  1  7


In [31]:
obj = pd.Series([9, -5, 9, 4, 2, 0, 4])
# 对应排名（从1开始）：-5(1), 0(2), 2(3), 4(4), 4(5), 9(6), 9(7)
print("对Series使用rank函数，得到每个位置的元素值的rank：")
print(obj.rank()) # 第0个位置的值为9，它的排名是6、7的平均值
print("\r\n可以通过method参数指定rank的方法：")
print(obj.rank(method = 'first'))  # 去第一次出现，不求平均值。

frame = pd.DataFrame({'b':[4.3, 7, -3, 2],
                  'a':[0, 1, 0, 1],
                  'c':[-2, 5, 8, -2.5]})
print("\r\nDataFrame的rank：")
print(frame)
print()
print(frame.rank(axis = 1))

对Series使用rank函数，得到每个位置的元素值的rank：
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

可以通过method参数指定rank的方法：
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

DataFrame的rank：
   a    b    c
0  0  4.3 -2.0
1  1  7.0  5.0
2  0 -3.0  8.0
3  1  2.0 -2.5

     a    b    c
0  2.0  3.0  1.0
1  1.0  3.0  2.0
2  2.0  1.0  3.0
3  2.0  3.0  1.0


## 3 汇总和计算描述统计

### 3.1 常用描述和汇总统计函数

- `count` 非NA值的数量
- `describe` 针对Series或各DataFrame列计算汇总统计
- `min`, `max` 计算最小、最大值
- `argmin`, `argmax` 计算能够取到最小、最大值的索引位置（整数）
- `idxmin`, `idxmax` 计算能够取到最小、最大值的索引值
- `sum` 值的总和
- `mean` 值的平均数
- `median` 值的算术中位数
- `mad` 根据平均值计算平均绝对离差
- `var` 样本值的方差
- `std` 样本值的标准差
- `skew` 样本值的偏度（三阶矩）
- `kurt` 样本值的偏度（四阶矩）
- `cumsum` 样本值的累计和
- `cummin`, `cummax` 样本值的累计最大值和累计最小值
- `cumprod` 样本值的累计积
- `diff` 计算一阶差分
- `pct_change` 计算百分数变化

以上方法常用的参数：

- `axis` 指定轴，DataFrame的行用0，列用1。
- `skipna` 排除缺失值，默认值为True。
- `level` 如果轴是层次化索引的(即MultiIndex)，则根据level选取分组。

In [32]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
              index = ['a', 'b', 'c', 'd'],
              columns = ['one', 'two'])
print(df)
print('\r\n按列求和：\r\n', df.sum())  # 按列求和
print('\r\n按行求和：\r\n', df.sum(axis = 1))  # 按行求和

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

按列求和：
 one    9.25
two   -5.80
dtype: float64

按行求和：
 a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64


In [33]:
print('不跳过NA值求平均：\r\n', df.mean(axis = 1, skipna = False))
print('\r\n跳过NA值求平均：\r\n', df.mean(axis = 1))

不跳过NA值求平均：
 a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

跳过NA值求平均：
 a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64


In [34]:
print('最大值的索引值：\r\n', df.idxmax())
print('\r\n累计和：\r\n', df.cumsum())
print('\r\nDataFrame的汇总统计：\r\n', df.describe())

obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
print('\r\nSeries的汇总统计：\r\n', obj.describe())

最大值的索引值：
 one    b
two    d
dtype: object

累计和：
     one  two
a  1.40  NaN
b  8.50 -4.5
c   NaN  NaN
d  9.25 -5.8

DataFrame的汇总统计：
             one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%         NaN       NaN
50%         NaN       NaN
75%         NaN       NaN
max    7.100000 -1.300000

Series的汇总统计：
 count     16
unique     3
top        a
freq       8
dtype: object


  interpolation=interpolation)


### 3.2 相关系数与协方差

- 相关系数：相关系数是用以反映变量之间相关关系密切程度的统计指标。

- 协方差：从直观上来看，协方差表示的是两个变量总体误差的期望。如果两个 变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也 大于自身的期望值，那么两个变量之间的协方差就是正值;如果两个变量的变 化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望 值，那么两个变量之间的协方差就是负值。

In [36]:
import pandas_datareader.data as web
import datetime

start = datetime.datetime(2017, 1, 1)
end = datetime.datetime(2017, 5, 1)

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.DataReader(ticker, 'yahoo', start, end) # 这里有时候会报错，多执行几次，也有可能被墙
    
price = pd.DataFrame({tic: data['Adj Close'] for tic, data in all_data.items()})
volume = pd.DataFrame({tic: data['Volume'] for tic, data in all_data.items()})

print(price.head())
print(volume.tail())

                  AAPL        GOOG         IBM       MSFT
Date                                                     
2017-01-03  115.173210  786.140015  164.273651  61.848385
2017-01-04  115.044304  786.900024  166.307526  61.571655
2017-01-05  115.629341  794.020020  165.757309  61.571655
2017-01-06  116.918411  806.150024  166.572830  62.105343
2017-01-09  117.989319  806.650024  164.725616  61.907681
                AAPL     GOOG      IBM      MSFT
Date                                            
2017-04-25  18871500  1672000  4860400  30242700
2017-04-26  20041200  1237200  4327800  26190800
2017-04-27  14246300  2026800  4122600  34971000
2017-04-28  20860400  3276300  4154100  39548800
2017-05-01  33602900  2116000  4935300  31954400


In [38]:
returns = price.pct_change()

print(returns.tail())
print()
print(returns.MSFT.corr(returns.IBM))
print()
print(returns.corr())  # 相关性，自己和自己的相关性总是1
print()
print(returns.cov()) # 协方差
print()
print(returns.corrwith(returns.IBM))
print()
print(returns.corrwith(volume))

                AAPL      GOOG       IBM      MSFT
Date                                              
2017-04-25  0.006196  0.011058 -0.002240  0.005775
2017-04-26 -0.005881 -0.000653 -0.002058 -0.001325
2017-04-27  0.000766  0.002891  0.001625  0.006487
2017-04-28 -0.000974  0.036271 -0.000187  0.002783
2017-05-01  0.020397  0.007296 -0.009046  0.013877

0.285837447737

          AAPL      GOOG       IBM      MSFT
AAPL  1.000000  0.229457  0.223569  0.111288
GOOG  0.229457  1.000000  0.250617  0.381876
IBM   0.223569  0.250617  1.000000  0.285837
MSFT  0.111288  0.381876  0.285837  1.000000

          AAPL      GOOG       IBM      MSFT
AAPL  0.000085  0.000018  0.000019  0.000007
GOOG  0.000018  0.000070  0.000019  0.000022
IBM   0.000019  0.000019  0.000086  0.000018
MSFT  0.000007  0.000022  0.000018  0.000047

AAPL    0.223569
GOOG    0.250617
IBM     1.000000
MSFT    0.285837
dtype: float64

AAPL    0.676472
GOOG   -0.130896
IBM    -0.332563
MSFT    0.216335
dtype: float64


### 3.3 唯一值及成员资格

- `is_in` 计算一个表示“Series各值是否包含于传入的值序列中”的布尔型数组
- `unique` 计算Series中的唯一值数组，按发现的顺序返回。
- `value_counts` 返回一个Series，其索引为唯一值，其值为频率，按计数值降序排列。

In [39]:
print('去重')
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
print(obj.unique())
print(obj.value_counts())
print()

print('判断元素存在')
mask = obj.isin(['b', 'c'])
print(mask)
print(obj[mask]) #只打印元素b和c

去重
['c' 'a' 'd' 'b']
a    3
c    3
b    2
d    1
dtype: int64

判断元素存在
0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool
0    c
5    b
6    b
7    c
8    c
dtype: object


In [41]:
data = pd.DataFrame({'Qu1':[1, 3, 4, 3, 4],
                  'Qu2':[2, 3, 1, 2, 3],
                  'Qu3':[1, 5, 2, 4, 4]})
print(data)
print()
print(data.apply(pd.value_counts).fillna(0))
print()
print(data.apply(pd.value_counts, axis = 1).fillna(0))

   Qu1  Qu2  Qu3
0    1    2    1
1    3    3    5
2    4    1    2
3    3    2    4
4    4    3    4

   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0

     1    2    3    4    5
0  2.0  1.0  0.0  0.0  0.0
1  0.0  0.0  2.0  0.0  1.0
2  1.0  1.0  0.0  1.0  0.0
3  0.0  1.0  1.0  1.0  0.0
4  0.0  0.0  1.0  2.0  0.0


## 4 处理缺失数据

- `isnull` 是否是null
- `notnull`

In [42]:
print('作为null处理的值')
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
print(string_data)
print()
print(string_data.isnull())

string_data[0] = None
print()
print(string_data.isnull())

作为null处理的值
0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

0    False
1    False
2     True
3    False
dtype: bool

0     True
1    False
2     True
3    False
dtype: bool


### 4.1 滤除缺失数据

- `dropna` DataFrame时，通过axis制定行或列，通过how控制行为，thresh参数控制留下的数量

In [43]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
print(data)
print('\r\n丢弃null：\n', data.dropna(), sep='')
print('\r\n取非null的值：\r\n', data[data.notnull()], sep='')

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

丢弃null：
0    1.0
2    3.5
4    7.0
dtype: float64

取非null的值：
0    1.0
2    3.5
4    7.0
dtype: float64


In [44]:
print('DataFrame对丢弃NA的处理')
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                  [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])

print('\r\n原始DataFrame：', data, sep='\r\n')

print('\r\n默认只要有某行有null就去掉：', data.dropna(), sep='\r\n') # 默认只要某行有NA就全部删除
print('\r\n某一行全部为null才去掉：', data.dropna(how = 'all'), sep='\r\n')  # 全部为NA才删除
data[4] = np.nan  # 新增一列
print('\r\n新增一列：', data, sep='\r\n')
print('\r\n去掉全部为null的列：', data.dropna(axis = 1, how = 'all'), sep='\r\n')

data = pd.DataFrame(np.random.randn(7, 3))
data.ix[:4, 1] = np.nan
data.ix[:2, 2] = np.nan
print('\r\n原始DataFrame：', data, sep='\r\n')
print('\r\n通过thresh参数控制每行至少要有2个非NA元素：', data.dropna(thresh = 2), sep='\r\n') # 每行至少要有2个非NA元素

DataFrame对丢弃NA的处理

原始DataFrame：
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

默认只要有某行有null就去掉：
     0    1    2
0  1.0  6.5  3.0

某一行全部为null才去掉：
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0

新增一列：
     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN

去掉全部为null的列：
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

原始DataFrame：
          0         1         2
0  0.309341       NaN       NaN
1  0.301170       NaN       NaN
2 -0.252570       NaN       NaN
3  1.179454       NaN -0.184781
4 -0.259945       NaN  0.533471
5 -0.226425 -0.068598  0.987732
6 -0.091330  0.649268  2.094282

通过thresh参数控制每行至少要有2个非NA元素：
          0         1         2
3  1.179454       NaN -0.184781
4 -0.259945       NaN  0.533471
5 -0.226425 -0.068598  0.987732
6 -0.091330  0.649268  2.094282


### 4.2 填充缺失数据

- `fillna`

In [45]:
df = pd.DataFrame(np.random.randn(7, 3))
df.ix[:4, 1] = np.nan
df.ix[:2, 2] = np.nan
print('原始DataFrame：', df, sep='\r\n')
print('\r\n填充0：', df.fillna(0), sep='\r\n')
# df.fillna(0, inplace = True)
# print('\r\n原地填充：', df, sep='\r\n')

print('\r\n不同行列填充不同的值')
print(df.fillna({1:0.5, 3:-1}))  # 第3列不存在

df = pd.DataFrame(np.random.randn(6, 3))
df.ix[2:, 1] = np.nan
df.ix[4:, 2] = np.nan
print('\r\n原始DataFrame：', df, sep='\r\n')
print('\r\n不同的填充方式（ffill）：', df.fillna(method = 'ffill'), sep='\r\n')
print('\r\n不同的填充方式（ffill，limit=2）：', df.fillna(method = 'ffill', limit = 2), sep='\r\n')

data = pd.Series([1., np.nan, 3.5, np.nan, 7])
print('\r\n原始Series：', data, sep='\r\n')
print('\r\n用均值填充：', data.fillna(data.mean()), sep='\r\n')

原始DataFrame：
          0         1         2
0  1.582055       NaN       NaN
1 -0.841172       NaN       NaN
2  1.496161       NaN       NaN
3  1.026256       NaN -0.118024
4 -1.015413       NaN -0.106066
5  0.085720 -0.931654 -0.239809
6  1.441084  0.496320 -1.867016

填充0：
          0         1         2
0  1.582055  0.000000  0.000000
1 -0.841172  0.000000  0.000000
2  1.496161  0.000000  0.000000
3  1.026256  0.000000 -0.118024
4 -1.015413  0.000000 -0.106066
5  0.085720 -0.931654 -0.239809
6  1.441084  0.496320 -1.867016

不同行列填充不同的值
          0         1         2
0  1.582055  0.500000       NaN
1 -0.841172  0.500000       NaN
2  1.496161  0.500000       NaN
3  1.026256  0.500000 -0.118024
4 -1.015413  0.500000 -0.106066
5  0.085720 -0.931654 -0.239809
6  1.441084  0.496320 -1.867016

原始DataFrame：
          0         1         2
0  0.116167 -1.052178  0.578936
1 -0.524586 -1.372279  0.065496
2  0.196961       NaN  1.037178
3 -0.320959       NaN  0.309113
4  0.952992       NaN

## 5 层次化索引

- 使你能在一个轴上拥有多个(两个以上)索引级别。抽象的说，它使你能以低 纬度形式处理高维度数据。
- 通过stack与unstack变换DataFrame

In [46]:
data = pd.Series(np.random.randn(10),
              index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                       [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
print('带层次索引的原始数据（Series）：', data, sep='\r\n')
print('\r\n索引：', data.index, sep='\r\n')
print('\r\n列名为”b“的数据：', data.b, sep='\r\n')
print('\r\n列名为”b“和“c”的数据：', data['b':'c'], sep='\r\n')
print('\r\n数字索引为0和1的数据：', data[:2], sep='\r\n')
print('\r\nunstask：', data.unstack(), sep='\r\n')
print('\r\nunstack之后再stack', data.unstack().stack(), sep='\r\n')

带层次索引的原始数据（Series）：
a  1    0.512361
   2    1.021591
   3    0.164692
b  1    0.014108
   2    0.045842
   3   -0.502272
c  1   -0.739917
   2   -0.653791
d  2   -0.775241
   3    0.506287
dtype: float64

索引：
MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

列名为”b“的数据：
1    0.014108
2    0.045842
3   -0.502272
dtype: float64

列名为”b“和“c”的数据：
b  1    0.014108
   2    0.045842
   3   -0.502272
c  1   -0.739917
   2   -0.653791
dtype: float64

数字索引为0和1的数据：
a  1    0.512361
   2    1.021591
dtype: float64

unstask：
          1         2         3
a  0.512361  1.021591  0.164692
b  0.014108  0.045842 -0.502272
c -0.739917 -0.653791       NaN
d       NaN -0.775241  0.506287

unstack之后再stack
a  1    0.512361
   2    1.021591
   3    0.164692
b  1    0.014108
   2    0.045842
   3   -0.502272
c  1   -0.739917
   2   -0.653791
d  2   -0.775241
   3    0.506287
dtype: float64


In [47]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                  index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns = [['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
print('带层次索引的原始数据（DataFrame）：', frame, sep='\r\n')
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
print('\r\n给各行各列命名：', frame, sep='\r\n')
print('\r\n索引为["a", 1]的数据：', frame.ix['a', 1], sep='\r\n')
print('\r\n索引为["a", 2]且列名为Colorado的数据：', frame.ix['a', 2]['Colorado'], sep='\r\n')
print('\r\n行、列都有两个索引：', frame.ix['a', 2]['Ohio']['Red'], sep='\r\n')

带层次索引的原始数据（DataFrame）：
     Ohio     Colorado
    Green Red    Green
a 1     0   1        2
  2     3   4        5
b 1     6   7        8
  2     9  10       11

给各行各列命名：
state      Ohio     Colorado
color     Green Red    Green
key1 key2                   
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11

索引为["a", 1]的数据：
state     color
Ohio      Green    0
          Red      1
Colorado  Green    2
Name: (a, 1), dtype: int64

索引为["a", 2]且列名为Colorado的数据：
color
Green    5
Name: (a, 2), dtype: int64

行、列都有两个索引：
4


In [48]:
print('直接用MultiIndex创建层次索引结构')
print(pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Gree', 'Red', 'Green']],
                             names = ['state', 'color']))

直接用MultiIndex创建层次索引结构
MultiIndex(levels=[['Colorado', 'Ohio'], ['Gree', 'Green', 'Red']],
           labels=[[1, 1, 0], [0, 2, 1]],
           names=['state', 'color'])


### 5.1 重新分级顺序

- `swaplevel` 索引交换
- `sortlevel` 索引重新排序

In [49]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                  index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns = [['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
print('原始数据：', frame, sep='\r\n')
frame.index.names = ['key1', 'key2']
print('\r\n给索引命名：', frame, sep='\r\n')
frame_swapped = frame.swaplevel('key1', 'key2')
print('\r\n索引交换（按索引名）：', frame_swapped, sep='\r\n')
print('\r\n索引交换（按数字索引）：', frame_swapped.swaplevel(0, 1), sep='\r\n')

原始数据：
     Ohio     Colorado
    Green Red    Green
a 1     0   1        2
  2     3   4        5
b 1     6   7        8
  2     9  10       11

给索引命名：
           Ohio     Colorado
          Green Red    Green
key1 key2                   
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11

索引交换（按索引名）：
           Ohio     Colorado
          Green Red    Green
key2 key1                   
1    a        0   1        2
2    a        3   4        5
1    b        6   7        8
2    b        9  10       11

索引交换（按数字索引）：
           Ohio     Colorado
          Green Red    Green
key1 key2                   
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11


In [50]:
print('根据索引排序')
print(frame.sortlevel('key2'))
print('\r\n', frame.swaplevel(0, 1).sortlevel(0), sep='\r\n')

根据索引排序
           Ohio     Colorado
          Green Red    Green
key1 key2                   
a    1        0   1        2
b    1        6   7        8
a    2        3   4        5
b    2        9  10       11


           Ohio     Colorado
          Green Red    Green
key2 key1                   
1    a        0   1        2
     b        6   7        8
2    a        3   4        5
     b        9  10       11


### 5.2 根据级别汇总统计

- 指定索引级别和轴

In [51]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                  index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns = [['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
print('原始数据：', frame, sep='\r\n')
frame.index.names = ['key1', 'key2']
print('\r\n指定索引名：', frame, sep='\r\n')
print('\r\n指定索引级别求和：', frame.sum(level = 'key2'), sep='\r\n')

原始数据：
     Ohio     Colorado
    Green Red    Green
a 1     0   1        2
  2     3   4        5
b 1     6   7        8
  2     9  10       11

指定索引名：
           Ohio     Colorado
          Green Red    Green
key1 key2                   
a    1        0   1        2
     2        3   4        5
b    1        6   7        8
     2        9  10       11

指定索引级别求和：
      Ohio     Colorado
     Green Red    Green
key2                   
1        6   8       10
2       12  14       16


### 5.3 使用DataFrame的列

- 将指定列变为索引
- 移除或保留对象
- reset_index恢复

In [52]:
frame = pd.DataFrame({'a':range(7),
                   'b':range(7, 0, -1),
                   'c':['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd':[0, 1, 2, 0, 1, 2, 3]})
print('原始数据：', frame, sep='\r\n')
print('\r\n把c、d列变成索引：', frame.set_index(['c', 'd']), sep='\r\n')  # 把c/d列变成索引
print('\r\n把c、d列变成索引，列依然保留：', frame.set_index(['c', 'd'], drop = False), sep='\r\n') # 列依然保留


原始数据：
   a  b    c  d
0  0  7  one  0
1  1  6  one  1
2  2  5  one  2
3  3  4  two  0
4  4  3  two  1
5  5  2  two  2
6  6  1  two  3

把c、d列变成索引：
       a  b
c   d      
one 0  0  7
    1  1  6
    2  2  5
two 0  3  4
    1  4  3
    2  5  2
    3  6  1

把c、d列变成索引，列依然保留：
       a  b    c  d
c   d              
one 0  0  7  one  0
    1  1  6  one  1
    2  2  5  one  2
two 0  3  4  two  0
    1  4  3  two  1
    2  5  2  two  2
    3  6  1  two  3


In [53]:
frame2 = frame.set_index(['c', 'd'])
print('set_index: ', frame2, sep='\r\n')
print('\r\nreset_index: ', frame2.reset_index(), sep='\r\n')

set_index: 
       a  b
c   d      
one 0  0  7
    1  1  6
    2  2  5
two 0  3  4
    1  4  3
    2  5  2
    3  6  1

reset_index: 
     c  d  a  b
0  one  0  0  7
1  one  1  1  6
2  one  2  2  5
3  two  0  3  4
4  two  1  4  3
5  two  2  5  2
6  two  3  6  1


## 6 其他话题

### 6.1 整数索引

- 歧义的产生
- 可靠的，不考虑索引类型的，基于位置的索引。

In [54]:
import sys

# Series
ser = pd.Series(np.arange(3.))
print('原始数据：', ser, sep='\r\n')
try:
    print('\r\nindex=-1：', ser[-1], sep='\r\n') # 这里会有歧义
except:
    print('\r\nexception type: ', sys.exc_info()[0], sep='\r\n')

ser2 = pd.Series(np.arange(3.), index = ['a', 'b', 'c'])
print('\r\n原始数据：', ser2, sep='\r\n')
print('\r\nindex=-1：', ser2[-1], sep='\r\n')

ser3 = pd.Series(range(3), index = [-5, 1, 3])
print('\r\n原始数据：', ser3, sep='\r\n')
print('\r\n避免直接用[2]产生的歧义：', ser3.iloc[2], sep='\r\n')  # 避免直接用[2]产生的歧义

原始数据：
0    0.0
1    1.0
2    2.0
dtype: float64

exception type: 
<class 'KeyError'>

原始数据：
a    0.0
b    1.0
c    2.0
dtype: float64

index=-1：
2.0

原始数据：
-5    0
 1    1
 3    2
dtype: int64

避免直接用[2]产生的歧义：
2


In [55]:
# 对DataFrame使用整数索引
frame = pd.DataFrame(np.arange(6).reshape((3, 2)), index = [2, 0, 1])
print('原始数据：', frame, sep='\r\n')
print('\r\n位置索引：', frame.iloc[0], sep='\r\n')
print('\r\n位置索引：', frame.iloc[:, 1], sep='\r\n')

原始数据：
   0  1
2  0  1
0  2  3
1  4  5

位置索引：
0    0
1    1
Name: 2, dtype: int64

位置索引：
2    1
0    3
1    5
Name: 1, dtype: int64


### 6.2 面板（Pannel）数据

- 通过三维ndarray创建pannel对象
- 通过ix[...]选取需要的数据
- 访问顺序:item -> major -> minor
- 通过stack展现面板数据

In [56]:
import pandas_datareader.data as web
import datetime

start = datetime.datetime(2017, 1, 1)
end = datetime.datetime(2017, 1, 15)

pdata = pd.Panel(dict((stk, web.DataReader(stk, 'yahoo', start, end)) for stk in ['AAPL', 'GOOG', 'BIDU', 'MSFT']))
print('Panel原始数据：', pdata, sep='\r\n')
pdata = pdata.swapaxes('items', 'minor')
print('\r\nPanel atfer swapaxes：', pdata, sep='\r\n')

Panel原始数据：
<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 9 (major_axis) x 6 (minor_axis)
Items axis: AAPL to MSFT
Major_axis axis: 2017-01-03 00:00:00 to 2017-01-13 00:00:00
Minor_axis axis: Open to Volume

Panel atfer swapaxes：
<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 9 (major_axis) x 4 (minor_axis)
Items axis: Open to Volume
Major_axis axis: 2017-01-03 00:00:00 to 2017-01-13 00:00:00
Minor_axis axis: AAPL to MSFT


In [57]:
print("访问顺序：# Item -> Major -> Minor")
print(pdata['Adj Close'])
print()
print(pdata[:, '1/5/2017', :])
print()
print(pdata['Adj Close', '1/6/2017', :])

访问顺序：# Item -> Major -> Minor
                  AAPL        BIDU        GOOG       MSFT
Date                                                     
2017-01-03  115.173210  168.300003  786.140015  61.848385
2017-01-04  115.044304  171.960007  786.900024  61.571655
2017-01-05  115.629341  177.470001  794.020020  61.571655
2017-01-06  116.918411  176.380005  806.150024  62.105343
2017-01-09  117.989319  177.160004  806.650024  61.907681
2017-01-10  118.108315  180.309998  804.789978  61.887917
2017-01-11  118.742935  179.320007  807.909973  62.451252
2017-01-12  118.247139  177.570007  806.359985  61.878033
2017-01-13  118.038902  176.479996  807.880005  61.966984

            Open        High         Low       Close   Adj Close      Volume
AAPL  115.919998  116.860001  115.809998  116.610001  115.629341  22193600.0
BIDU  172.649994  177.839996  172.500000  177.470001  177.470001   2733000.0
GOOG  786.080017  794.479980  785.020020  794.020020  794.020020   1335200.0
MSFT   62.189999   62.6

In [58]:
print('Panel与DataFrame相互转换')
stacked = pdata.ix[:, '1/7/2016':, :].to_frame()
print(stacked)
print()
print(stacked.to_panel())

Panel与DataFrame相互转换
                        Open        High         Low       Close   Adj Close  \
Date       minor                                                               
2017-01-03 AAPL   115.800003  116.330002  114.760002  116.150002  115.173210   
           BIDU   166.300003  169.660004  165.820007  168.300003  168.300003   
           GOOG   778.809998  789.630005  775.799988  786.140015  786.140015   
           MSFT    62.790001   62.840000   62.130001   62.580002   61.848385   
2017-01-04 AAPL   115.849998  116.510002  115.750000  116.019997  115.044304   
           BIDU   169.740005  173.259995  168.300003  171.960007  171.960007   
           GOOG   788.359985  791.340027  783.159973  786.900024  786.900024   
           MSFT    62.480000   62.750000   62.119999   62.299999   61.571655   
2017-01-05 AAPL   115.919998  116.860001  115.809998  116.610001  115.629341   
           BIDU   172.649994  177.839996  172.500000  177.470001  177.470001   
           GOOG   78