In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

## pandas 数据结构入门

pandas 的两个重要数据结构: `Series` 和 `DataFrame`。

### Series

Series是一个一维的类似的数组对象，包含一个数组的数据（<span class="mark">任何NumPy的数据类型</span>）和一个与数组关联的数据标签，被叫做 索引 。最简单的Series是由一个数组的数据构成：

In [2]:
obj = Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Seriers的交互式显示的字符窜表示形式是索引在左边，值在右边。因为我们没有给数据指定索引，一个包含整数0到 N-1 （这里N是数据的长度）的默认索引被创建。 你可以分别的通过它的 values 和 index 属性来获取Series的数组表示和索引对象：

In [3]:
obj.values

array([ 4,  7, -5,  3])

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

通常，需要创建一个带有索引来确定每一个数据点的Series：

In [5]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [6]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

你可以使用索引里的值来选择一个单一值或一个值集:

In [8]:
obj2['a']

-5

In [9]:
obj2[['c', 'a', 'b']]

c    3
a   -5
b    7
dtype: int64

NumPy数组操作，例如通过一个布尔数组过滤，纯量乘法，或使用数学函数，将会保持索引和值间的关联：

In [10]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [11]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [12]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

如果你有一些数据在一个Python字典中，你可以通过传递字典来从这些数据创建一个Series, 结果Series中的索引将是排序后的字典的键:

In [13]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [14]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

NaN （不是一个数），这在pandas中被用来标记数据缺失或 NA 值。我使用“missing”或“NA”来表示数度丢失。在pandas中用函数 isnull 和 notnull 来检测数据丢失。

Series对象本身和它的索引都有一个 name 属性，它和pandas的其它一些关键功能整合在一起：

In [15]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame

一个Datarame表示一个表格，类似电子表格的数据结构，包含一个经过排序的列表集，它们没一个都可以有不同的类型值（数字，字符串，布尔等等）。Datarame有行和列的索引；它可以被看作是一个Series的字典（每个Series共享一个索引）。与其它如 R 的 data.frame 类似Dataframe的结构相比，在DataFrame里的面向行和面向列的操作大致是对称的。在底层，数据是作为一个或多个二维数组存储的，而不是列表，字典，或其它一维的数组集合。

>因为DataFrame在内部把数据存储为一个二维数组的格式，因此你可以采用分层索引以表格格式来表示高维的数据。分层索引是pandas中许多更先进的数据处理功能的关键因素。

有很多方法来构建一个DataFrame，但最常用的一个是用一个相等长度列表的字典或NumPy数组：

In [16]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

由此产生的DataFrame和Series一样，它的索引会自动分配，并且对列进行了排序：

In [17]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


如果你设定了一个列的顺序，DataFrame的列将会精确的按照你所传递的顺序排列：

In [18]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


和Series一样，如果你传递了一个行，但不包括在 data 中，在结果中它会表示为NA值：

In [19]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
index=['one', 'two', 'three', 'four', 'five'])

In [20]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [21]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

和Series一样，在DataFrame中的一列可以通过字典记法或属性来检索：

frame2['state']

In [22]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

注意，返回的Series包含和DataFrame相同的索引，并它们的 name 属性也被正确的设置了。

行也可以使用一些方法通过位置或名字来检索，例如 ix 索引成员（field）

In [23]:
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

通过列表或数组给一列赋值时，所赋的值的长度必须和DataFrame的长度相匹配。如果你使用Series来赋值，它会代替在DataFrame中精确匹配的索引的值，并在说有的空洞插入丢失数据：

In [24]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


给一个不存在的列赋值，将会创建一个新的列。 像字典一样 del 关键字将会删除列：

In [25]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [26]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

>索引DataFrame时返回的列是底层数据的一个视窗，而不是一个拷贝。因此，任何在Series上的就地修改都会影响DataFrame。列可以使用Series的 `copy` 函数来显式的拷贝。

另一种通用的数据形式是一个嵌套的字典的字典格式，如果被传递到DataFrame，它的外部键会被解释为列索引，内部键会被解释为行索引：

In [27]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
   ....: 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [28]:
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


可以对结果转置:

In [29]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


内部字典的键被结合并排序来形成结果的索引。如果指定了一个特定的索引，就不是这样的了：

In [30]:
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


像Series一样， values 属性返回一个包含在DataFrame中的数据的二维ndarray：

In [31]:
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

可能的传递到 DataFrame 的构造器

<table>
<tr>
    <td><b>二维 ndarray</b>
    <td><b>一个数据矩阵，有可选的行标和列标</b>
</tr>
<tr>
    <td>数组，列表或元组的字典
    <td>每一个序列成为DataFrame中的一列。所有的序列必须有相同的长度。
</tr>
<tr>
    <td>NumPy的结构/记录数组
    <td>和“数组字典”一样处理
</tr>
<tr>
    <td>Series的字典
    <td>每一个值成为一列。如果没有明显的传递索引，将结合每一个Series的索引来形成结果的行索引。
</tr>
<tr>
    <td>字典的字典
    <td>每一个内部的字典成为一列。和“Series的字典”一样，结合键值来形成行索引。
</tr>
<tr>
    <td>字典或Series的列表
    <td>每一项成为DataFrame中的一列。结合字典键或Series索引形成DataFrame的列标。
</tr>
<tr>
    <td>列表或元组的列表
    <td>和“二维ndarray”一样处理
</tr>
<tr>
    <td>另一个DataFrame
    <td>DataFrame的索引将被使用，除非传递另外一个
</tr>
<tr>
    <td>NumPy伪装数组（MaskedArray）
    <td>除了蒙蔽值在DataFrame中成为NA/丢失数据之外，其它的和“二维ndarray”一样
</tr>