In [78]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

# pandas的数据结构

### Series
类似于一维数组对象，由一组数据和一组与之相关的数据标签（索引）组成，可以看做一个有序字典

In [30]:
# 生成Series
obj=Series([1,2,3,4]) # 没有指定索引时，会自动创建一个从0到N-1的整数索引
obj2=Series([1,2,3,5],index=['a','b','c','d'])
dic={'a':2,'b':3,'c':4,'d':5}
obj3=Series(dic) # 可以通过字典创建Series，没有指定索引时，则以原字典的键为索引
obj4=Series(dic,['a','b','e']) # 指定索引时，按照索引读取字典
obj4

a    2.0
b    3.0
e    NaN
dtype: float64

In [31]:
obj2.values

array([1, 2, 3, 5])

In [32]:
obj2.index

Index([u'a', u'b', u'c', u'd'], dtype='object')

In [33]:
obj2['a']
obj2[['b','c','a']]

b    2
c    3
a    1
dtype: int64

In [34]:
2 in obj2

False

In [35]:
# Series对象本身及其索引都有一个name属性，该属性与pandas其他的关键功能关系非常密切。
obj4.name='p'
obj4.index.name='ix'
obj4

ix
a    2.0
b    3.0
e    NaN
Name: p, dtype: float64

In [36]:
# Series的索引可以通过赋值的方式就地修改
obj.index=['mike','lina','william','tony']
obj

mike       1
lina       2
william    3
tony       4
dtype: int64

**处理缺失值**

In [37]:
pd.isnull(obj)
pd.notnull(obj)
obj.isnull()
obj.notnull()

mike       True
lina       True
william    True
tony       True
dtype: bool

**数据对齐**

numpy数组运算（包括布尔型索引、标量乘法、数学函数应用等）都会保留索引与值的映射

### DataFrame
一个表格型的数据结果，包含一组有序的列，每列可以是不同的值类型。

In [39]:
# 生成DataFrame
dic={'a':[1,2,3,4],'b':[2,3,4,5],'c':[4,5,6,7]}
df=DataFrame(dic) # 使用由等长列表或numpy数组组成的字典
# 使用双层嵌套字典创建DataFrame
nest_dic={'rank':{2011:2,2012:3,2013:4},'sale':{2011:22,2012:23,2013:24,2014:33}}
df=DataFrame(nest_dic) # 外层字典的键被当做列，内层字典的键被当做行索引
df

Unnamed: 0,rank,sale
2011,2.0,22
2012,3.0,23
2013,4.0,24
2014,,33


**可以输入给DataFrame构造器的数据：**
1. 二维ndarray
2. 由数组、列表或元组组成的字典
3. numpy的结构化/记录数组
4. 由Series组成的字典
5. 由字典组成的字典
6. 字典或Series的列表
7. 由列表或元组组成的列表
8. 另一个DataFrame
9. numpy的MaskedArray

In [40]:
df=DataFrame(dic,columns=['c','b','e']) # 调整列顺序，可增加或减少某些列
df

Unnamed: 0,c,b,e
0,4,2,
1,5,3,
2,6,4,
3,7,5,


In [41]:
df.columns

Index([u'c', u'b', u'e'], dtype='object')

In [42]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [43]:
df.values

array([[4, 2, nan],
       [5, 3, nan],
       [6, 4, nan],
       [7, 5, nan]], dtype=object)

In [44]:
df.index.name='ix'
df.columns.name='col'
df

col,c,b,e
ix,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,4,2,
1,5,3,
2,6,4,
3,7,5,


In [45]:
# 获取DataFrame的一列，返回一个Series
df.c
df['c']

ix
0    4
1    5
2    6
3    7
Name: c, dtype: int64

In [46]:
# 获取DataFrame的一行，返回一个Series
df.iloc[1]

col
c      5
b      3
e    NaN
Name: 1, dtype: object

In [47]:
# 赋值（就地修改）
df['e']=12
df

col,c,b,e
ix,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,4,2,12
1,5,3,12
2,6,4,12
3,7,5,12


In [48]:
# 使用Series对DataFrame赋值
s=Series([2,3,4,5],index=[2,3,4,5])
df['e']=s # 会根据索引匹配进行赋值，未匹配到的未NaN（而不会保留上面的数值12）
df

col,c,b,e
ix,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,4,2,
1,5,3,
2,6,4,2.0
3,7,5,3.0


### Index对象

**pandas中主要的index对象：**
1. Index
2. Int64Index：针对整数的Index
3. MultiIndex：层次化索引，一个轴上的多层索引
4. DatetimeIndex：纳秒级时间戳
5. PeriodIndex：针对Period数据（时间间隔）的Index

In [50]:
ix=df.index
col=df.columns
ixcol=ix.append(col) # 连接两个Index对象生成新的Index
ixcol

Index([0, 1, 2, 3, u'b', u'e'], dtype='object')

In [51]:
ixcol.difference(ix) # 返回在ixcol中而不在ix中的index
ixcol.intersection(ix) # 返回交集
ixcol.union(ix) # 返回并集

Index([0, 1, 2, 3, u'b', u'e'], dtype='object')

In [52]:
ixcol.isin(ix) # 返回表示ixcol的每个元素是否在ix中的bool数组

array([ True,  True,  True,  True, False, False], dtype=bool)

In [63]:
ixcol.delete(1) # 删除第1个元素后返回新的索引
ixcol.drop('b') # 删除等于指定值的元素并返回新的索引
ixcol.insert(2,'b') # 在指定位置插入指定元素并返回新的索引
ixcol.is_monotonic # 返回bool值表示元素是否是递增的
ixcol.is_unique # 返回bool值表示元素是否存在重复
ixcol.unique() # 对索引去重

Index([0, 1, 2, 3, u'b', u'e'], dtype='object')

In [54]:
ixcol

Index([0, 1, 2, 3, u'b', u'e'], dtype='object')

# 基本功能

### 重新索引
reindex，根据新索引创建一个新对象

In [76]:
# Series的重索引
obj=Series(['a','b','c','d'],index=[0,1,2,4])
obj.reindex([1,2,4,5],fill_value=0)

1    b
2    c
4    d
5    0
dtype: object

In [88]:
# DataFrame的重索引
df=DataFrame(np.arange(9).reshape((3,3)),index=[1,2,3],columns=['a','b','c'])
df.reindex([2,3,4]) # 默认重索引行
df.reindex(columns=['b','c','e']) # 指定columns参数重索引列
df.reindex([2,3,5],columns=['b','c','e']) # 同时重索引行和列
# 用loc实现更简洁的重索引
df.loc[[2,3,6],['b','c','e']]

Unnamed: 0,a,b,c
1,0,1,2
2,3,4,5
3,6,7,8


In [91]:
# 插值处理方法
obj.reindex(range(5),method='ffill') # 向前填充值（或pad）
obj.reindex(range(5),method='bfill') # 向后填充值（或backfill）
df.reindex([2,3,5,6],columns=['b','c','e'],method='ffill') # DataFrame的插值处理只能按行
df.reindex([2,3,5,6,7],method='ffill',limit=1) # limit指定最大填充次数
df.reindex([2,3,4,5],copy=False) # copy为False时，若新旧值相等则不进行复制，默认为True，即总是复制

Unnamed: 0,a,b,c
2,3.0,4.0,5.0
3,6.0,7.0,8.0
5,6.0,7.0,8.0
6,,,
7,,,


### 丢弃指定轴上的元素

In [92]:
# 使用del实现就地删除
del df['c'] # 不能使用del df.c
df

Unnamed: 0,a,b
1,0,1
2,3,4
3,6,7


In [103]:
# drop方法（非就地删除）
df.drop(1) # （按标签）删除行
df.drop([1,2])
df.drop('a',axis=1) # 若要删除列需要指定axis

Unnamed: 0,b
1,1
2,4
3,7


### 索引、选取和过滤

In [120]:
# Series的索引
obj=Series(np.arange(4),index=['a','b','c','d'])
obj['a'] # 基于标签的索引
obj[1] # 基于位置的索引
obj[[0,2]]
obj[0:2]
obj['a':'c']
obj[obj>2] # bool型索引

d    3
dtype: int64

In [127]:
df

Unnamed: 0,a,b
1,0,1
2,3,4
3,6,7


In [132]:
# DataFrame的索引
df['a'] # 默认索引列
df[:2] # 切片索引行
df[df['a']>0] # bool索引行

Unnamed: 0,a,b
2,3,4
3,6,7


In [148]:
# 用loc索引行
df.loc[1]
df.loc[1,'a':'b']
df.loc[df.a>0,'a']

2    3
3    6
Name: a, dtype: int64

In [153]:
# 用iloc实现基于位置的索引
df.iloc[1]
df.iloc[1,0:2]

a    3
b    4
Name: 2, dtype: int64

### 算数运算和数据对齐
pandas可以对索引不同的对象进行算数运算并自动对齐，返回的结果的索引是原索引的并集。

In [154]:
obj=Series({'a':1,'b':2,'c':3})
obj2=Series({'a':2,'c':4,'d':5})
obj+obj2 # 非重叠的索引处会产生缺失值，缺失值在算术运算中会自动传播

a    3.0
b    NaN
c    7.0
d    NaN
dtype: float64

In [155]:
df=DataFrame(np.arange(9).reshape((3,3)),index=[1,2,3],columns=['a','b','c'])
df2=DataFrame(np.arange(9).reshape((3,3)),index=[2,3,4],columns=['b','c','d'])
df+df2 # DataFrame会同时在两个轴上进行数据对齐

Unnamed: 0,a,b,c,d
1,,,,
2,,4.0,6.0,
3,,10.0,12.0,
4,,,,


In [159]:
# 填充运算产生的缺失值
df.add(df2,fill_value=0) # 只会填充由df2的缺失而产生的缺失值
# 减法sub，除法div，乘法mul

Unnamed: 0,a,b,c,d
1,0.0,1.0,2.0,
2,3.0,4.0,6.0,2.0
3,6.0,10.0,12.0,5.0
4,,6.0,7.0,8.0


In [160]:
df

Unnamed: 0,a,b,c
1,0,1,2
2,3,4,5
3,6,7,8


In [166]:
# DataFrame和Series之间的计算
df-df.loc[1] # 默认会将Series的索引匹配到DataFrame的列，按行进行广播（broadcasting）
df.sub(df['a'],axis=0) # 用sub方法实现按列广播，axis表示希望匹配的轴

Unnamed: 0,a,b,c
1,0,1,2
2,0,1,2
3,0,1,2


### 函数应用和映射

In [169]:
# numpy的ufuncs可以应用于pandas对象
np.abs(df)
np.mod(df,df+1)

Unnamed: 0,a,b,c
1,0,1,2
2,3,4,5
3,6,7,8


In [171]:
# 用apply方法将函数应用到DataFrame的行或列形成的一维数组上
f=lambda x: x.max()-x.min()
df.apply(f,axis=1)

1    2
2    2
3    2
dtype: int64

In [172]:
# 传递给appply的函数还可以返回由多个值组成的Series
def f(x): 
    return Series([x.min(),x.max()],index=['min','max'])
df.apply(f)

Unnamed: 0,a,b,c
min,0,1,2
max,6,7,8


In [176]:
# 应用元素级的函数
# DataFrame的applymap方法
format=lambda x: '%.2f'%x
df.applymap(format)
# Series的map方法
obj.map(format)

a    1.00
b    2.00
c    3.00
dtype: object

### 排序和排名

In [194]:
obj=Series(range(4),index=['d','b','r','a'])
df=DataFrame(np.arange(8).reshape((2,4)),index=[8,6],columns=['d','v','e','h'])

In [186]:
# 按索引排序
obj.sort_index()
df.sort_index(axis=1,ascending=False)

Unnamed: 0,v,h,e,d
8,1,3,2,0
6,5,7,6,4


In [190]:
# 按值排序
obj.sort_values()
df.sort_values(by='d')
df.sort_values(by=['d','e']) # 根据多个列排序

Unnamed: 0,d,v,e,h
8,0,1,2,3
6,4,5,6,7


In [200]:
# 排序时，任何缺失值都会被放在Series的末尾，无论升序还是降序
obj=obj[['a','b','c','d','r']]
obj.sort_values(ascending=False)

a    3.0
r    2.0
b    1.0
d    0.0
c    NaN
dtype: float64

In [209]:
# 排名rank
obj=Series([1,2,3,4,5,-3,-5,3])
obj.rank() # 对于并列排名，默认处理方式是取排名的平均值，如两个3本该分别是5、6名，取平均值则都为5.5名
# first按出现顺序排名，max取最大排名，min取最小排名
obj.rank(method='first')
df.rank(axis=1,ascending=False)

Unnamed: 0,d,v,e,h
8,4.0,3.0,2.0,1.0
6,4.0,3.0,2.0,1.0


### 带有重复值的轴索引

In [234]:
obj=Series(range(5),index=['a','a','a','c','b'])
df=DataFrame(np.arange(6).reshape((2,3)),columns=['a','a','b'])
obj['a'] # 使用存在重复的索引选择数据时，会返回所有符合的数值
df['a']

Unnamed: 0,a,a.1
0,0,1
1,3,4


# 汇总和描述统计

In [240]:
df=DataFrame([[1,np.nan],[np.nan,np.nan],[2,3]],index=[1,2,3],columns=['a','b'])
df

Unnamed: 0,a,b
1,1.0,
2,,
3,2.0,3.0


In [229]:
# 基本汇总
df.sum(axis=1) # 默认axis=0，即按列
df.mean()
df.median()
df.sum(axis=1,skipna=False) # 默认会忽略缺失值，设skipna=False则不忽略空值（存在空值的行/列都会返回NaN）

1    NaN
2    NaN
3    5.0
dtype: float64

In [236]:
# 返回最大值/最小值的索引
df.idxmax(axis=1)

'b'

In [243]:
# 统计方法
df.count() # 非NA值的数量
df.quantile(0.4) # 输入0-1的数值，返回对应的分位数，默认0.5
df.mad() # 根据平均值计算平均绝对离差
df.var() # 方差
df.std() # 标准差

a    1.4
b    3.0
Name: 0.4, dtype: float64

In [227]:
# 累计方法
df.cumsum() # 返回累计和
df.cummin() # 累计最小值（cummax累计最大值）
df.cumprod() # 累计积
df.pct_change() # 百分数变化

Unnamed: 0,a,b
1,1.0,
2,,
3,3.0,3.0


In [230]:
# 数值型的describe
df.describe()

Unnamed: 0,a,b
count,2.0,1.0
mean,1.5,3.0
std,0.707107,
min,1.0,3.0
25%,1.25,3.0
50%,1.5,3.0
75%,1.75,3.0
max,2.0,3.0


In [231]:
# 非数值型的describe
obj=Series(['a','a','q','b'])
obj.describe()

count     4
unique    3
top       a
freq      2
dtype: object

# 处理缺失数据

# 层次化索引

In [None]:
df.mean(level=1) # 对于pandas对象的约简方法，level参数用来设定层次化索引的约简层级

# 面板数据