In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

# 主要功能
- 按轴自动或者显示对齐数据
- 集成时间序列功能
- 既能处理时序数据，也能处理非时序数据的数据结构
- 数学运算和约减可以根据不同的轴执行
- 灵活处理缺失数据
- 合并及其他常见关系型运算

# 数据结构
- Series
- DataFrame

## Series
1. 类似于数组， 但是每个数据有与之相关的索引，默认用下标作为索引
2. 可以通过下标访问，也可以通过索引访问
3. 可以根据数组或者python字典创建，当用字典初始化Series且显式输入索引时，如果有冲突，以索引为准
4. Numpy数学运算会保留索引和值之间的关系
5. 对于许多应多而言，Series最重要的功能是自动在运算中对齐数据
6. Series本身及其所以呢具有name属性，该属性和pandas的其他关键功能关系十分密切
7. 索引可以通过直接赋值的方式修改

In [3]:
# 1: 此时行为类似于一个数组
a = Series([1,2,3,4])
print(a[0])

# 2: 添加索引
a.index = ['a','b','c','d']
print(a['a'])

# 3: 发生冲突
a = Series({'a':1,'b':2,'c':3,'d':4}, index=['b','c','d','e'])
print(a)

# 4: 数学运算
print(a * 2)

# 5: 对齐数据
b = Series([10,11,12,13], index=['c','d','e','f'])
print(a+b)

# 6: name
a.name = "balala"
a.index.name = "xiaomoxian"

# 7: 修改index
a.index = ['w','x','y','z']
print(a)

1
1
b    2.0
c    3.0
d    4.0
e    NaN
dtype: float64
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64
b     NaN
c    13.0
d    15.0
e     NaN
f     NaN
dtype: float64
w    2.0
x    3.0
y    4.0
z    NaN
Name: balala, dtype: float64


## DataFrame
1. 表格型数据结构，可以看做共享索引的Series组成的字典，列间有序。
2. 面向行和列的操作基本平衡，DataFrame中的数据结构是以一个或者多个二维快存放的（而不是列表或字典等一维数据结构）
3. 初始化方式
    - 二维ndarray或类似的python二维结构
    - 由列表组成的字典
    - Numpy结构化/记录数组
    - Series/字典组成的字典
    - Series/字典的列表
    - DataFrame
    - Numpy的MaskedArray
4. 可以获取DataFrame的行或列为Series
    - 通过列name获取列
    - 通过loc或iloc获取行
5. 通过索引方式返回的列只是相应数据的视图，可用copy函数返回副本

In [17]:
df = DataFrame([[1,2,3],[4,5,6]])
print(df)

data = {'a':np.random.randn(5), 'b':np.arange(5)}
df = DataFrame(data)
print(df)

df = DataFrame({'y':{'01':1994,'02':'2011'}, 'm':{'02':12, '03':8}, 'd':{'02':1, '03':15}}, columns=['y', 'm', 'd'])
print(df)

# 通过Series修改列
val = Series([12, 30], index=['01', '03'])
df.d = val
print(df)

   0  1  2
0  1  2  3
1  4  5  6
          a  b
0  1.240677  0
1 -0.154216  1
2 -0.654846  2
3 -1.438807  3
4 -0.053441  4
       y     m     d
01  1994   NaN   NaN
02  2011  12.0   1.0
03   NaN   8.0  15.0
       y     m     d
01  1994   NaN  12.0
02  2011  12.0   NaN
03   NaN   8.0  30.0


## 索引对象
- 负责管理轴标签或者其他元数据（轴名称等）
- 不可变，索引对象自身是imutable的，前面对index的修改只是把Series的index对象替换为另一个index对象
- index对象内置了一些方法，功能十分类似于数组
- index对象见下表

|类|说明|
|:----|:----|
|index|Python对象组成的Numpy数组|
|int64index|针对整数|
|MultiIndex|层次化，表示单个轴上的多层索引|
|DatetimeIndex|纳秒级时间戳|
|PeriodIndex|针对Period|

- index的方法与属性

|方法|说明|
|:----|:----|
|append|连接另一个index|
|diff||
|intersection||
|union||
|isin||
|delete|删除指定位置索引|
|drop|删除指定值索引|
|insert||
|is_monotonic|是否单调递增|
|is_unique|是否无冗余|
|unique|去重|

# 基本功能

## 重新索引
- 返回副本而不是就地修改
- Series再索引时通常要制定插值方法
- DataFrame可以对行或者对列再索引，但是插值只能应用于轴0
- ix标签索引功能也用于reindex功能
- reindex参数有index/columns/method/copy/level/fill_value/limit/tolerance

In [10]:
a = Series([1,2,4], index=['a','b','d'])
print(a.reindex(['a','b','c','d'], method='ffill'))
print(a)
print(a.reindex(['a','b','c','d'], fill_value='-1'))

a = DataFrame(np.arange(9).reshape(3,3), columns=['c1','c2','c3'], index=['r1','r2','r3'])
print(a.ix[['r1','r2','r3'],['c1','c2','c3']])
print(a.ix[['r1','r2','r3','r4'],['c1','c2','c3','c4']])

a    1
b    2
c    2
d    4
dtype: int64
a    1
b    2
d    4
dtype: int64
a     1
b     2
c    -1
d     4
dtype: object
    c1  c2  c3
r1   0   1   2
r2   3   4   5
r3   6   7   8
     c1   c2   c3  c4
r1  0.0  1.0  2.0 NaN
r2  3.0  4.0  5.0 NaN
r3  6.0  7.0  8.0 NaN
r4  NaN  NaN  NaN NaN


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  import sys


## 丢弃指定轴上的项
- 使用drop函数
- 参数：labels/axis/level/inplace/errors
- index接受单个值或者列表
- 对于DataFrame默认删除index指定行，想要删除column中指定列需要指定axis

In [5]:
a = pd.DataFrame(np.arange(9).reshape(3,3), columns=['a','b','c'], index=['a','b','c'])
print("删除一行")
print(a.drop('a'))
print()
print("删除多行")
print(a.drop(['b','c']))
print()
print("删除列")
print(a.drop(['b'], axis=1))
print()

删除一行
   a  b  c
b  3  4  5
c  6  7  8

删除多行
   a  b  c
a  0  1  2

删除列
   a  c
a  0  2
b  3  5
c  6  8



## 索引选取和过滤
1. 对于Series，索引方式类似于numpy数组，可以索引/切片或者花式索引
2. 注意，利用标签索引的取值范围是**闭区间**
3. 对于DaaFrame，直接索引和花式索引是**按列**，切片和一维布尔索引是**按行**
4. Dataframe的二维布尔索引类似于ndarray
5. loc**属性**可以用来替代ix属性，注意不是方法，使用方式是直接通过方括号索引，可接受索引列表或者布尔列表用于选择指定行列的“子块”

索引方式：

|类型|说明|
|:---|:---|
|obj[val]|参考上面的说明|
|obj.loc[val]|一行或多行|
|obj.loc[:,val]|一列或多列|
|obj.loc[val1,val2]|子块|
|reindex||
|xs|指定轴，选取单行或单列|
|get_value, get_values|后者等价于values属性|

In [11]:
a = DataFrame(np.arange(16).reshape(4,4), index=['a','b','c','d'], columns=['e','f','g','h'])

# 按列
print(a['e'])
print()

print(a[['g','f']])
print()

# 按行
# print(a[1]) 不能这么索引行
print(a[:1])
print()

print(a['a':'b'])
print()

print(a[[True,False,True,False]])
print()

a     0
b     4
c     8
d    12
Name: e, dtype: int64

    g   f
a   2   1
b   6   5
c  10   9
d  14  13

   e  f  g  h
a  0  1  2  3

   e  f  g  h
a  0  1  2  3
b  4  5  6  7

   e  f   g   h
a  0  1   2   3
c  8  9  10  11



## 算术运算和数据对齐
- pandas最重要的一个功能就是对不同索引对象进行算术运算，并对齐索引（并集）
- 对齐过程中会产生NAN，NAN与正常值运算会得到NAN，也就是说NAN会不断传播
- 对于Dataframe，对齐同时会发生在两个轴上
- 为了避免NAN的扩散，在算数方法中使用**填充值**
    - add
    - sub
    - div
    - mul
- Dataframe与Series之间的运算会触发广播机制，默认情况是把Series横着运算，然后向下传播，但是可以通过在上述四个方法中传入axis参数来控制方向

In [17]:
a = DataFrame(np.arange(16).reshape(4,4), index=['a','b','c','d'], columns=['e','f','g','h'])
b = DataFrame(np.arange(12).reshape(4,3), index=['a','b','c','d'], columns=['e','f','g'])

print(a+b)
print()

print(a.add(b,fill_value=0))
print()

print(b.add([1,2,3]))
print()

# print(b.add([1,2,3,4])) 会报错
# 我觉得axis的意思是按0轴方向摆放，也就是把列表竖着和DataFrame做运算
print(b.add([1,2,3,4], axis=0))

    e   f   g   h
a   0   2   4 NaN
b   7   9  11 NaN
c  14  16  18 NaN
d  21  23  25 NaN

    e   f   g     h
a   0   2   4   3.0
b   7   9  11   7.0
c  14  16  18  11.0
d  21  23  25  15.0

    e   f   g
a   1   3   5
b   4   6   8
c   7   9  11
d  10  12  14

    e   f   g
a   1   2   3
b   5   6   7
c   9  10  11
d  13  14  15


## 函数应用和映射
- numpy的ufunc函数可以直接作用于pandas对象上的每一个元素
- 将接受一位数组进行计算的函数批量应用于DataFrame的行或者列上，通过apply函数，指定axis
- 通过applymap函数把一个普通函数映射到DataFrame的每一个元素上

## 排序和排名
- Series的sort_index()方法将Series按索引排序，Dataframe同样有这个方法，但是要指定轴。返回副本。
- ascending属性默认为True
- 排序后，缺失值会方法哦排序结果的**末尾**
- Series的order方法可以按值排序
- DataFrame的sort_index方法的by参数可以控制按照某几列或者某几行的值进行排序（要结合axis方法）
- rank其实就是给出排序后的排名, 当method为first时实际上就是按照出现先后稳定排序

In [23]:
a = pd.DataFrame(np.random.randn(3,3), columns=['d','e','f'], index=['a','b','c'])
print(a.sort_index(by='e'))
print()
print(a.sort_index(by='a', axis=1))
print()


b = Series([1,2,4,5,3,4])
print(b)
print()
print(b.rank(method='first'))
# min的感觉就像是现在的比赛，两个值都是4，排名并列第四
print(b.rank(method="min"))
print()

          d         e         f
a  1.803450 -1.287039 -0.097351
c -0.160311  0.602531  1.731192
b -0.241769  1.452160 -0.663688

          e         f         d
a -1.287039 -0.097351  1.803450
b  1.452160 -0.663688 -0.241769
c  0.602531  1.731192 -0.160311

0    1
1    2
2    4
3    5
4    3
5    4
dtype: int64

0    1.0
1    2.0
2    4.0
3    6.0
4    3.0
5    5.0
dtype: float64
0    1.0
1    2.0
2    4.0
3    6.0
4    3.0
5    4.0
dtype: float64



  
  after removing the cwd from sys.path.


## 带有重复值的轴索引
- 轴索引唯一并不是强制性的

# 汇总和计算描述统计
- 通常都会跳过NAN值，但是可以通过将skipna参数设为false来传播NA

|方法|说明|
|:----|:----|
|count||
|describe||
|min, max||
|argmin, argmax|最大最小索引位置|
|idxmin, idxmax|最大最小索引值|
|quantile|分位数|
|sum||
|mean||
|median|中位数|
|mad|根据平均值计算绝对离差|
|var|方差|
|std|标准差|
|skew|偏度（三阶矩）|
|kurt|峰度（四阶矩）|
|cumsum|累积和|
|cummin, cummax|累计极值|
|cumprod|累计积|
|diff|一阶差分（对时间序列很有用）|
|pct_change|百分数变化 (当前值-前一个值)/前一个值|

## 相关系数与协方差

In [None]:
import pandas_datareader.data as web

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2000', '1/1/2000') 

price = pd.DataFrame({tic: data['Adj Close'] for tic, data in all_data.iteritems()})
volume = pd.DataFrame({tic: data['Volume'] for tic, data in all_data.iteritems()})

returns = price.pct_change()

# Series的corr计算Series中重叠的，非NA的，按索引对齐的值的相关系数
# 类似的，cov计算协方差
print(returns.MSFT.corr(returns.IBM))
print(returns.MSFT.cov(returns.IBM))

# DataFrame的coor和cov返回各个列之间的相关系数或协方差矩阵
print(returns.corr())
print(returns.cov())

# DataFrame的corrWith方法
# 当传入一个Series时，返回各列与1输入Serirs的相关系数
# 当传入一个DataFrame时，按照列名匹配计算相关系数


## 唯一值/值计数与成员资格

- unique去重
- value_count值计数
- isin成员资格

In [25]:
# 返回各列一致的直方图

data = DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,2,3],
    'c':[1,5,2,4,4]
})

result = data.apply(pd.value_counts).fillna(0)

print(result)

     a    b    c
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0


# 处理缺失数据

- python内置的None会作为NAN处理
- dropna默认丢弃任何含有缺失值的行，传入how='all'参数将丢弃全部为nan的行，丢弃列需要参数axis=1，
- dropna的thresh参数决定至少有几个非NAM值才予以保留
- fillna默认返回新对象，但是可以通过控制inplace参数为真来就地修改
- method决定插值方法， limit决定最多插几个值

|方法|说明|
|:---|:---|
|dropna|可调节对阈值的容忍度|
|fillna|用指定值或者插值方法填充NA|
|isnull||
|notnull||

# 层次化索引

比较繁琐，留坑待填

# 面板数据