<b>Pandas数据结构</b>

Pandas常用的数据结构就两种，一种是Series，另一种是DataFrame。Series底层结构是numpy中的数组，不同的是Series有自己的索引，DataFrame是由多个Series构成的。

In [1]:
import pandas as pd
import numpy as np

<b>1. Series</b>

<b>1.1 构造Series</b>

In [2]:
counts = pd.Series([12, 15, 8, 20])
counts

0    12
1    15
2     8
3    20
dtype: int64

如果定义时未指定index，默认以一个整数序列来充当index，可以通过Series的index属性得到所有index，通过values属性得到所有value

In [3]:
print 'index: \n',counts.index
print 'values: \n',counts.values

index: 
RangeIndex(start=0, stop=4, step=1)
values: 
[12 15  8 20]


当然了，也可以自己指定index。

In [4]:
name_age = pd.Series(data=[12, 15, 8, 20], index=['tom','ken','kitty','jerry'])
name_age

tom      12
ken      15
kitty     8
jerry    20
dtype: int64

我们也可以直接使用字典来构造Series,使用字典来构造Series时，会默认使用字典{key-value}中的key作为Series的index，value作为Series的value。

In [5]:
name_age_dict = {'tom':12, 'ken':15, 'kitty':8, 'jerry':20}
name_age = pd.Series(data=name_age_dict)
name_age

jerry    20
ken      15
kitty     8
tom      12
dtype: int64

使用字典构造Series时也可以自定义index，如果自定义的index没有在字典中找到相应的值，会被标记为缺失值（NaN）。

In [6]:
name_age_dict = {'tom':12, 'ken':15, 'kitty':8, 'jerry':20}
name_age = pd.Series(data=name_age_dict,index=['tom','ken','kitty','xiaoming'])
name_age

tom         12.0
ken         15.0
kitty        8.0
xiaoming     NaN
dtype: float64

<b>1.2 访问Series</b>

如果指定了index，就可以通过index来访问相应的value。可以通过属性（“.index”）的方式来访问，也可以通过“[index名称]”的形式来访问，还可以通过[index角标]的形式来访问。例如，想要得到tom的年龄，通过以下三种方式都可以得到。

In [7]:
print name_age.tom
print name_age['tom']
print name_age[0]

12.0
12.0
12.0


通过索引名称形式访问时，索引也可以是一个序列。下面的语句将得到name中所有以‘y’结尾的数据。

In [8]:
name_age[[name.endswith('y') for name in name_age.index]]

kitty    8.0
dtype: float64

<b>1.3 筛选Series</b>

isnull()和notnul()方法可以判断是缺失值或不是缺失值

In [9]:
name_age.isnull()

tom         False
ken         False
kitty       False
xiaoming     True
dtype: bool

In [10]:
name_age.notnull()

tom          True
ken          True
kitty        True
xiaoming    False
dtype: bool

通过以下两种方法可以去除掉缺失值。

In [11]:
name_age[~name_age.isnull()]

tom      12.0
ken      15.0
kitty     8.0
dtype: float64

In [12]:
name_age[name_age.notnull()]

tom      12.0
ken      15.0
kitty     8.0
dtype: float64

通过Series中的值可以直接进行筛选，例如，得到所有年龄大于平均年龄的数据。

In [13]:
name_age[name_age > np.mean(name_age)]

tom    12.0
ken    15.0
dtype: float64

<b>1.4 对Series使用简单的数学运算</b>

对Series使用简单的数学运算时，Series中的每一个index对应的值都会进行相应的运算，最终并不改变数据结构

In [14]:
name_age/2

tom         6.0
ken         7.5
kitty       4.0
xiaoming    NaN
dtype: float64

In [15]:
name_age%2

tom         0.0
ken         1.0
kitty       0.0
xiaoming    NaN
dtype: float64

两个Series相加时，会将索引值相同的值进行相加

In [16]:
name_age/2 + name_age%2

tom         6.0
ken         8.5
kitty       4.0
xiaoming    NaN
dtype: float64

<b>1.5 使用numpy方法处理Series</b>

使用numpy中的处理序列非聚合函数处理Series时，不会改变数据结构。

In [17]:
np.log(name_age)

tom         2.484907
ken         2.708050
kitty       2.079442
xiaoming         NaN
dtype: float64

In [18]:
np.sin(name_age)

tom        -0.536573
ken         0.650288
kitty       0.989358
xiaoming         NaN
dtype: float64

<b>1.6 Series的有用的属性和方法</b>

In [19]:
name_age.index

Index([u'tom', u'ken', u'kitty', u'xiaoming'], dtype='object')

In [20]:
name_age.values

array([ 12.,  15.,   8.,  nan])

In [21]:
name_age.value_counts() # 得到Series不同值的个数统计

15.0    1
8.0     1
12.0    1
dtype: int64

<b>2. DataFrame</b>

<b>2.1 构造DataFrame</b>

In [22]:
data=[['tom','ken','kitty','jerry'],[12, 15, 8, 20]]
print data
zip(*data)

[['tom', 'ken', 'kitty', 'jerry'], [12, 15, 8, 20]]


[('tom', 12), ('ken', 15), ('kitty', 8), ('jerry', 20)]

In [23]:
dates = pd.date_range(start='20160726',periods=4)
dates

DatetimeIndex(['2016-07-26', '2016-07-27', '2016-07-28', '2016-07-29'], dtype='datetime64[ns]', freq='D')

指定index为生成的日期，指定columns为['name','age']

In [24]:
data = pd.DataFrame(data=zip(*data), index=dates,columns=['name','age'])
data

Unnamed: 0,name,age
2016-07-26,tom,12
2016-07-27,ken,15
2016-07-28,kitty,8
2016-07-29,jerry,20


也可以使用字典来构造DataFrame。

In [25]:
data = pd.DataFrame(data={'name':['tom','ken','kitty','jerry'],'age':[12,15,8,20],},index=dates,columns = ['name','age'])
data

Unnamed: 0,name,age
2016-07-26,tom,12
2016-07-27,ken,15
2016-07-28,kitty,8
2016-07-29,jerry,20


<b>2.2 访问DataFrame</b>

<b>2.2.1 访问列数据</b>

DataFrame是按照列名分类的，我们可以通过属性（“.列名”）的方式来访问该列的数据，也可以通过[column名称]的形式来访问该列的数据。例如，想要得到name列，通过以下两种方式都可以得到。

In [26]:
data.name

2016-07-26      tom
2016-07-27      ken
2016-07-28    kitty
2016-07-29    jerry
Freq: D, Name: name, dtype: object

In [27]:
type(data.name)

pandas.core.series.Series

In [29]:
data['name']

2016-07-26      tom
2016-07-27      ken
2016-07-28    kitty
2016-07-29    jerry
Freq: D, Name: name, dtype: object

通过[column名称]形式可以访问多个列。

In [30]:
data[['age', 'name']] # 可以变换列的顺序

Unnamed: 0,age,name
2016-07-26,12,tom
2016-07-27,15,ken
2016-07-28,8,kitty
2016-07-29,20,jerry


<b>2.2.2 访问行数据</b>

访问行数据可以通过ix,iloc,loc三种方式访问，区别见<a href = "http://blog.csdn.net/xw_classmate/article/details/51333646">Pandas——ix vs loc vs iloc 区别</a>，这里以ix为例来访问。

In [31]:
data.ix[0:1] # 使用index角标访问

Unnamed: 0,name,age
2016-07-26,tom,12


In [32]:
data.ix['2016-07-26':'2016-07-27'] # 使用index名称访问

Unnamed: 0,name,age
2016-07-26,tom,12
2016-07-27,ken,15


<b>2.2.3 访问特定行、列数据</b>

In [33]:
data.ix[0:3,[0,1]]

Unnamed: 0,name,age
2016-07-26,tom,12
2016-07-27,ken,15
2016-07-28,kitty,8


In [34]:
data.ix[0:2,['age','name']]

Unnamed: 0,age,name
2016-07-26,12,tom
2016-07-27,15,ken


<b>2.2.4 访问数据时注意事项</b>

由DataFrame返回的Series引用并没有复制数据本身，也就是说对得到的Series数据的更改会改变原有DataFrame的数值。

In [35]:
vals = data.age
vals

2016-07-26    12
2016-07-27    15
2016-07-28     8
2016-07-29    20
Freq: D, Name: age, dtype: int64

In [36]:
vals[3]=0
vals

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':


2016-07-26    12
2016-07-27    15
2016-07-28     8
2016-07-29     0
Freq: D, Name: age, dtype: int64

In [37]:
data

Unnamed: 0,name,age
2016-07-26,tom,12
2016-07-27,ken,15
2016-07-28,kitty,8
2016-07-29,jerry,0


为了防止这种事情的发生，我们可以使用 copy 方法将原始数据复制一份在做修改。

In [38]:
vals = data.age.copy()
vals
vals[3] = 20
data

Unnamed: 0,name,age
2016-07-26,tom,12
2016-07-27,ken,15
2016-07-28,kitty,8
2016-07-29,jerry,0


<b>2.3 为DataFrame增加数据</b>

通过赋值的方式除了可以修改DataFrame数据之外，还可以给DataFrame增加数据。

In [39]:
data['region'] = 'A区'
data

Unnamed: 0,name,age,region
2016-07-26,tom,12,A区
2016-07-27,ken,15,A区
2016-07-28,kitty,8,A区
2016-07-29,jerry,0,A区


In [40]:
data['region'] = ['A区','C区','D区','B区']
data

Unnamed: 0,name,age,region
2016-07-26,tom,12,A区
2016-07-27,ken,15,C区
2016-07-28,kitty,8,D区
2016-07-29,jerry,0,B区


添加list到DataFrame中，需要保证list长度和DataFrame长度一致（添加Series不需要，缺失的值会填为NaN）才可以添加，否则会出错。

In [41]:
data['region'] = ['A区','C区','D区']
data

ValueError: Length of values does not match length of index

<b>2.4 DataFrame的几个属性</b>

In [42]:
data.index

DatetimeIndex(['2016-07-26', '2016-07-27', '2016-07-28', '2016-07-29'], dtype='datetime64[ns]', freq='D')

In [43]:
data.columns

Index([u'name', u'age', u'region'], dtype='object')

In [44]:
data.values

array([['tom', 12L, 'A\xe5\x8c\xba'],
       ['ken', 15L, 'C\xe5\x8c\xba'],
       ['kitty', 8L, 'D\xe5\x8c\xba'],
       ['jerry', 0L, 'B\xe5\x8c\xba']], dtype=object)

In [45]:
data.T # 转置

Unnamed: 0,2016-07-26 00:00:00,2016-07-27 00:00:00,2016-07-28 00:00:00,2016-07-29 00:00:00
name,tom,ken,kitty,jerry
age,12,15,8,0
region,A区,C区,D区,B区
