# 一维数据结构：Series

In [2]:
import numpy as np
import pandas as pd

`Series` 是一维带标记的数组结构，可以存储任意类型的数据（整数，浮点数，字符串，`Python` 对象等等）。

作为一维结构，它的索引叫做 `index`，基本调用方法为

    s = pd.Series(data, index=index)
    
其中，`data` 可以是以下结构：

- 字典
- `ndarray`
- 标量，例如 `5`

`index` 是一维坐标轴的索引列表。

## 从 ndarray 构建

如果 `data` 是个 `ndarray`，那么 `index` 的长度必须跟 `data` 一致：

In [3]:
s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'])
s

a    0.839567
b   -0.753564
c   -0.807884
d    0.639446
e   -0.188632
dtype: float64

查看index

In [4]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

如果index为空，那么index会使用[0,...,len(data)-1]

In [5]:
pd.Series(np.random.randn(5))

0   -0.248737
1    0.552125
2    1.052641
3   -0.482481
4   -0.868087
dtype: float64

## 从字典中构造

如果 `data` 是个 `dict`，如果不给定 `index`，那么 `index` 将使用 `dict` 的 `key` 排序之后的结果：

In [13]:
d = {'a':0., 'd':4, 'c':2}
pd.Series(d)

a    0.0
d    4.0
c    2.0
dtype: float64

如果给定了 `index`，那么将会按照 `index` 给定的值作为 `key` 从字典中读取相应的 `value`，如果 `key` 不存在，对应的值为 `NaN`（not a number, `Pandas` 中的缺失默认值）：

In [14]:
pd.Series(d, index=['b', 'd', 'a'])

b    NaN
d    4.0
a    0.0
dtype: float64

## 从标量值构造

如果 `data` 是标量，那么 `index` 值必须被指定，得到一个值为 `data` 与 `index` 等长的 `Series`：

In [15]:
pd.Series(5., index=['a','b','c','d','e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

## 像ndarray一样使用Series

In [18]:
s

a    0.839567
b   -0.753564
c   -0.807884
d    0.639446
e   -0.188632
dtype: float64

支持数组索引操作

In [19]:
s[0]

0.8395672335149272

切片

In [20]:
s[:3]

a    0.839567
b   -0.753564
c   -0.807884
dtype: float64

mask索引

In [21]:
s[s > s.median()]

a    0.839567
d    0.639446
dtype: float64

花式索引

In [22]:
s[[4,3,1]]

e   -0.188632
d    0.639446
b   -0.753564
dtype: float64

支持numpy数组

In [23]:
np.exp(s)

a    2.315365
b    0.470686
c    0.445800
d    1.895430
e    0.828091
dtype: float64

## 像字典一样使用Series

In [24]:
s['a']

0.8395672335149272

修改数值

In [26]:
s['e'] = 12.
s

a     0.839567
b    -0.753564
c    -0.807884
d     0.639446
e    12.000000
dtype: float64

查询key

In [27]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [28]:
'e' in s

True

In [29]:
'f' in s

False

使用key索引时，如果不确定key在不在里面，可以使用get方法，如果不存在返回None或者指定的默认值

In [31]:
s.get('f', np.nan)

nan

## 向量化操作

简单的向量操作与ndarray的表现一致

In [32]:
s + s

a     1.679134
b    -1.507128
c    -1.615768
d     1.278892
e    24.000000
dtype: float64

In [33]:
s * 2

a     1.679134
b    -1.507128
c    -1.615768
d     1.278892
e    24.000000
dtype: float64

但Series的ndarray不同的地方在于，Series的默认操作是使用index的值进行对齐的，而不是相对位置

In [35]:
s

a     0.839567
b    -0.753564
c    -0.807884
d     0.639446
e    12.000000
dtype: float64

In [34]:
s[1:] + s[:-1]

a         NaN
b   -1.507128
c   -1.615768
d    1.278892
e         NaN
dtype: float64

对于上面两个不能完全对齐的Series，结果的index是两者index的并集，同时不能对齐的部分当做缺失值处理

## Name属性

可以在定义时指定name属性

In [38]:
s = pd.Series(np.random.randn(5), name='something')
s.name

'something'