In [32]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [5]:
# pandas的数据结构介绍
# Series ： 一维数组对象
obj = Series([4, 7, -5, 3])
obj.values
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2.index
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3
# Series最重要的一个功能是：它在算数运算中会自动对齐不同索引

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [21]:
# DataFrame
    # DataFrame 是一个表格型的数据结构，它有一组有序的列，每列可以是不同的值类型。
    # DataFrame 既有行索引也有列索引，它可以被看作有Series组成的字典。
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}
frame = DataFrame(data)
DataFrame(data, columns=['year', 'state', 'pop'])

frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                  index=['one', 'two', 'three', 'four', 'five'])
print(frame2)
frame2.columns

val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['eastern'] = frame2.state == 'Ohio'
pop = {'Nevada': {2001: 2.4, 2002: 2.9}}

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN


Unnamed: 0,Nevada
2001,2.4
2002,2.9
2003,


In [None]:
# 可以输入DataFrame构造器的数据
'''
二维ndarray 数据矩阵，还可以传入行标和列标
由数组，列表或元组组成的字典 每个序列会变成DataFrame的一列。所有序列的长度必须相同
NumPy的结构化/记录数组 类似于“由数组组成的字典”
由Series组成的字典 每个Series会成为一列。如果没有显式指定索引，则各Series的索引会被和滨城结果的行索引
由字典组成的字典 各个内层字典会成为一列。键会被合并成结果的行索引，根“由Series组成的字典”的情况一样
字典或Series的列表 各项将会成为DataFrame的一行。字典键或Series索引的并集将会成为DataFrame的列标
由列表或元组组成的列标 类似于“二维ndarray”
另一个dataframe 该dataframe的索引将会被沿用，除非显示指定了其他索引
NumPy的MaskedArray 类似于“二维ndarray”的情况，只是掩码值在结果DataFrame会变成NA/缺失值
'''

In [25]:
frame3 = DataFrame(pop)
DataFrame(pop, index=[2001, 2002, 2003])
frame3.index.name = 'year'
frame3.columns.name = 'state'

frame3.values
frame2.values

array([[2000, 'Ohio', 1.5, nan, True],
       [2001, 'Ohio', 1.7, nan, True],
       [2002, 'Ohio', 3.6, nan, True],
       [2001, 'Nevada', 2.4, nan, False],
       [2002, 'Nevada', 2.9, nan, False]], dtype=object)

In [34]:
# 索引对象
    # pandas的索引对象负责管理轴标签和其他元数据。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。
    
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index
index[1:]

# Index对象时不可修改的，因此用户不能对其进行修改。
index = pd.Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index=index)
obj2.index is index

True

In [38]:
# pandas中主要的Index对象
'''
index 最泛化的index对象，将轴坐标表示为一个由Python对象组成的numpy数组
Int64Index 针对整数的特殊Index
MultiIndex “层次化”索引对象，表示单个轴上的多层索引。可以看作由元组组成的数组
DatetimeIndex 存储纳秒级时间戳(用NumPy的datatime64类型表示)
PeriodIndex 针对Perriod数据（时间间隔）的特殊Index
'''
frame3
'Ohio' in frame3.columns

# Index的方法和属性
'''
append 链接另一个Index对象，产生一个新的Index
diff 计算差集，并得到一个Index
intersection 计算交集
union 计算并集
isin 计算一个指示各值是否都包含在参数集合中的布尔型数组
is_monotonic 当各元素均大于等于前一个元素时，返回True
is_unique 当Index没有重复值时，返回True
unique 计算Index中唯一值的数组
'''

a    0
b    1
c    2
dtype: int64

In [55]:
# 基本功能
# 重新索引
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

# 对于时间这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可到达此目的，比如ffill方法。
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')

# reindex的（插值）method选项
'''
ffill或pad 前向填充（或搬运）值
bfill或backfill 后向填充（或拌匀）值
'''

# 产生一个例子
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohoi', 'Texas', 'California'])
frame

frame2 = frame.reindex(['a', 'b', 'c', 'd'])
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

# 也可以同时对行和列进行重新索引，而插值则只能按照行应用（即轴0）
# frame.reindex(index=['a', 'b', 'c', 'd'], columns=states, method='ffill')
frame.ix[['a', 'b', 'c', 'd'], states]

'''
index 用索引的新序列。既可以是Index实例，也可以是其他序列型的Python数据结构。Index会被完全使用，就像没有任何复制一样
method 插值（填充）方式，具体参数请参见表5-4
fill_value 在重新索引的过程中，需要引入缺失值时使用的替代值
limit 前向或后向填充时的最大填充量
level 在MultiIndex的指定级别上匹配简单索引，否则选取其子集
copy 默认为True，无论如何都复制；如果为False，则新旧相等就不复制
'''

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [59]:
# 都起指定轴上的项
    # drop方法返回的是一个在指定轴上删除了指定值的新对象
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
new_obj = obj.drop('c')
new_obj

obj.drop(['d', 'c'])
data = DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [77]:
# 索引，选取和过滤
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj['b']
obj[2:4]
obj[1]
obj[['b', 'a', 'd']]
obj[obj < 2]
obj['b': 'd']

data = DataFrame(np.arange(16).reshape((4, 4)), 
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data
data['two']
data[['three', 'one']]
data[:2]
data[data['three']>5]
data < 5
data[data < 5] = 0
data

# ix可以让你通过NumPy式的标记法以及轴标签从DataFrame中选取行和列的子集。
data.ix['Colorado', ['two', 'three']]
data.ix[['Colorado', 'Utah'], [3, 0, 1]]
data.ix[2]
data.ix[:'Utah', 'two']
data.ix[data.three > 5, :3]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated


Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [None]:
# DataFrame的索引选项
'''
obj[val] 选取dataframe的单个列或者一组列。在一些特殊情况下会比较比较便利：布尔型数组，切片，布尔型dataframe
obj.ix[val] 选取DataFrame的单个行或一组行
obj.ix[;, val] 选取单个列或列子集
obj.ix[val1, val2] 同时选取行和列
reindex方法 将一个或多个轴匹配到新索引
xs方法 根据标签选取单个行或列，并返回一个Series
icol，irow方法 根据整数位置选取单列或单行，放回一个Series
get_value,set_value方法 根据行标签和列标签选取单个值
'''

In [84]:
# 算数运算和数据对齐
    # 不同索引对象算数相加，结果就是索引的并集
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'b', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

# 自动对齐在缺失值计算时用NaN，缺失值会在算数运算过程中传播
s1 + s2

# DataFrame的对齐操作会同时发生在行和列上
df1 = DataFrame(np.arange(9.).reshape(3, 3), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = DataFrame(np.arange(12.).reshape(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Colorado'])
df1 + df2

# 在算数方法中填充值：当填充找不到对应可用一个特殊值填充
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df1 + df2
df1.add(df2, fill_value=0)

# 也可以改造成一样的索引，并用特殊值填充改造后值为空的位置
df1.reindex(columns=df2.columns, fill_value=0)
'''
add 加法方法
sub 减法方法
div 除法方法
mul 乘法方法
'''

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [90]:
# DataFrame和Series之间的运算
arr = np.arange(12.).reshape((3, 4))
arr
arr - arr[0] # 广播

# DataFrame和Series之间的算数运算会将Series的索引匹配到DataFrame的列，然后沿着一行向下广播
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.ix[0]
frame - series

# 如果某个索引值在DataFrame的列或者Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集
series2 = Series(range(3), index=['b', 'e', 'f'])
frame + series2
frame - series2

# 匹配行，在列上广播
series3 = frame['d']
frame.sub(series3, axis=0)

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [95]:
# 函数应用和映射
    # Numpy的ufuncs也可以用于操作pandas对象
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame
np.abs(frame)

# 将函数应用到由各列或各行所形成的一纬数组上，apply可以实现行或列操作
f = lambda x: x.max() - x.min()
frame.apply(f)
frame.apply(f, axis=1)

# 传递给apply的函数还可以返回由多个值组成的Series
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-2.078751,-0.312071,-1.107691
max,1.314981,1.109053,0.909697
