# Series
Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。仅由一组数据即可产生最简单的Series：

In [1]:
#设置ast_node_interactivity = "all"使得可以同时输出多条语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import pandas as pd
obj=pd.Series([1,2,3,4,5])
obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

可以通过Series 的values和index属性获取其数组表示形式和索引对象：

In [3]:
obj.values
obj.index

array([1, 2, 3, 4, 5], dtype=int64)

RangeIndex(start=0, stop=5, step=1)

通常，我们希望所创建的Series带有一个可以对各个数据点进行标记的索引：

In [4]:
obj=pd.Series([1,2,3,4],index=['d','c','b','a'])
obj

d    1
c    2
b    3
a    4
dtype: int64

与普通NumPy数组相比，你可以通过索引的方式选取Series中的单个或一组值：

In [6]:
obj['b']
obj[['b','a']]

3

b    3
a    4
dtype: int64

使用NumPy函数或类似NumPy的运算（如根据布尔型数组进行过滤、标量乘法、应用数学函数等）都会保留索引值的链接：

In [7]:
import numpy as np
obj[obj>2]

b    3
a    4
dtype: int64

In [8]:
obj*2

d    2
c    4
b    6
a    8
dtype: int64

In [9]:
np.exp(obj)

d     2.718282
c     7.389056
b    20.085537
a    54.598150
dtype: float64

如果数据被存放在一个Python字典中，也可以直接通过这个字典来创建Series：

In [2]:
dict={'china':3400,'us':2500,'ohio':1200,'oregon':1900}
obj=pd.Series(dict)
obj

china     3400
ohio      1200
oregon    1900
us        2500
dtype: int64

如果只传入一个字典，则结果Series中的索引就是原字典的键（有序排列）。你可以传入排好序的字典的键以改变顺序：

In [3]:
states=['us','ohio','oregon','uk']
obj2=pd.Series(dict,index=states)
obj2

us        2500.0
ohio      1200.0
oregon    1900.0
uk           NaN
dtype: float64

NA表示缺失数据，pandas的isnull和notnull函数可用于检测缺失数据：

In [5]:
pd.isnull(obj2)

us        False
ohio      False
oregon    False
uk         True
dtype: bool

Series也有类似的实例方法：

In [6]:
obj2.isnull()

us        False
ohio      False
oregon    False
uk         True
dtype: bool

对于许多应用而言，Series最重要的一个功能是，它会根据运算的索引标签自动对齐数据：

In [7]:
obj
obj2

china     3400
ohio      1200
oregon    1900
us        2500
dtype: int64

us        2500.0
ohio      1200.0
oregon    1900.0
uk           NaN
dtype: float64

In [8]:
obj+obj2

china        NaN
ohio      2400.0
oregon    3800.0
uk           NaN
us        5000.0
dtype: float64

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切：

In [9]:
obj2.name='population'
obj2.index.name='state'
obj2

state
us        2500.0
ohio      1200.0
oregon    1900.0
uk           NaN
Name: population, dtype: float64

Series的索引可以通过赋值的方式就地修改：

In [10]:
obj=pd.Series(range(4))
obj

0    0
1    1
2    2
3    3
dtype: int64

In [11]:
obj.index=['a','d','c','b']
obj

a    0
d    1
c    2
b    3
dtype: int64

# DataFrame
建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典：

In [12]:
data={'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
     'year':[2000, 2001, 2002, 2001, 2002, 2003],
     'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df=pd.DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


如果指定了列序列，则DataFrame的列就会按照指定顺序进行排列：

In [13]:
pd.DataFrame(data,columns=['state','year','pop'])

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


如果传入的列在数据中找不到，就会在结果中产生缺失值：

In [15]:
df2=pd.DataFrame(data,columns=['state','year','pop','debt'],index=['one','two','three','four','five','six'])
df2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,
two,Ohio,2001,1.7,
three,Ohio,2002,3.6,
four,Nevada,2001,2.4,
five,Nevada,2002,2.9,
six,Nevada,2003,3.2,


通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series：

In [16]:
df2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [17]:
df2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

列可以通过赋值的方式进行修改。例如，我们可以给那个空的"debt"列赋上一个标量值或一组值：

In [18]:
df2['debt']=15
df2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,15
two,Ohio,2001,1.7,15
three,Ohio,2002,3.6,15
four,Nevada,2001,2.4,15
five,Nevada,2002,2.9,15
six,Nevada,2003,3.2,15


In [19]:
df2['debt']=range(6)
df2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,0
two,Ohio,2001,1.7,1
three,Ohio,2002,3.6,2
four,Nevada,2001,2.4,3
five,Nevada,2002,2.9,4
six,Nevada,2003,3.2,5


如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值：

In [20]:
val=pd.Series([1.2,3,4.5,6],index=['one','three','four','six'])
df2['debt']=val
df2

Unnamed: 0,state,year,pop,debt
one,Ohio,2000,1.5,1.2
two,Ohio,2001,1.7,
three,Ohio,2002,3.6,3.0
four,Nevada,2001,2.4,4.5
five,Nevada,2002,2.9,
six,Nevada,2003,3.2,6.0


为不存在的列赋值会创建出一个新列。关键字del用于删除列。

In [21]:
df2['eastern']=(df2['state']=='Ohio')
df2

Unnamed: 0,state,year,pop,debt,eastern
one,Ohio,2000,1.5,1.2,True
two,Ohio,2001,1.7,,True
three,Ohio,2002,3.6,3.0,True
four,Nevada,2001,2.4,4.5,False
five,Nevada,2002,2.9,,False
six,Nevada,2003,3.2,6.0,False


In [22]:
del df2['eastern']
df2.columns

Index([u'state', u'year', u'pop', u'debt'], dtype='object')