# Pandas Series

## Series 是什么
- 是一维数组
- 每个值带有索引
- 能够保存任何数据类型：整数，字符串，浮点数，Python对象等

## 怎样创建一个 Series
- s = pd.Series(data, index=index)
- 索引的长度必须与data的长度相同。如果没有传递索引，将创建一个值索引：[0, 1, ..., len(data) - 1]


### 1. 通过 ndrray 创建

In [3]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
print(s)
print("\n")

s = pd.Series(np.random.randn(5))
print(s)

a    0.470602
b    1.966210
c   -2.398726
d    0.007247
e    1.379794
dtype: float64


0    0.374385
1   -1.176727
2    0.961555
3    2.060997
4   -0.226174
dtype: float64


### 2. 通过 dict 创建

In [5]:
d = {"b": 1, "a": 0, "c": 2}
s = pd.Series(d)
print(s)
print("\n")

# 如果传递了索引，则将拉出与索引中的标签相对应的数据中的值
s = pd.Series(d, index=["b", "c", "d", "a"])
print(s)

b    1
a    0
c    2
dtype: int64


b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64


### 3. 通过标量值创建
注意：必须提供索引，Series的长度就是索引的长度

In [6]:
s = pd.Series(5.0, index=["a", "b", "c", "d", "e"])
print(s)

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64


## Series 与 ndarray

Series 与 ndarray 非常类似，并且可作为大多数NumPy函数的有效参数

### 截取数据

In [17]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
print(s)

print("\ns[0]")
print(s[0])

print("\ns[:3]")
print(s[:3])

print("\ns[s > s.median()]")
print(s[s > s.median()])

print("\ns[[4, 3, 1]]")
print(s[[4, 3, 1]])

a   -0.352595
b    1.014601
c   -0.133763
d    0.399827
e    1.527763
dtype: float64

s[0]
-0.352595169281249

s[:3]
a   -0.352595
b    1.014601
c   -0.133763
dtype: float64

s[s > s.median()]
b    1.014601
e    1.527763
dtype: float64

s[[4, 3, 1]]
e    1.527763
d    0.399827
b    1.014601
dtype: float64


### 矢量计算

In [15]:
print("\ns + s")
print(s + s)

print("\ns * 2")
print(s * 2)

print("\nnp.exp(s)")
print(np.exp(s))


s + s
a   -3.247801
b   -2.336944
c    0.971051
d    2.694579
e   -0.737446
dtype: float64

s * 2
a   -3.247801
b   -2.336944
c    0.971051
d    2.694579
e   -0.737446
dtype: float64

np.exp(s)
a    0.197128
b    0.310842
c    1.625029
d    3.846985
e    0.691617
dtype: float64


### 区别
Series 和 ndarray之间的主要区别是 Series 之间的操作会根据标签自动对齐数据。因此无需考虑所涉及的 Series 是否具有相同的标签

In [18]:
print("\ns[1:] + s[:-1]")
print(s[1:] + s[:-1])

print("\nnp.array(s[1:]) + np.array(s[:-1])")
print(np.array(s[1:]) + np.array(s[:-1]))


s[1:] + s[:-1]
a         NaN
b    2.029201
c   -0.267526
d    0.799654
e         NaN
dtype: float64

np.array(s[1:]) + np.array(s[:-1])
[0.66200552 0.88083794 0.26606406 1.92758987]


## Series 与 Dict
Series 就像固定大小的 dict 一样，可以通过索引标签获取和设置值：

In [14]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
print(s["a"])

print(s.get("x"))

print(s.get("x", 0))

# 如果不包含标签，则会引发异常：
print(s["x"])


-1.6239006173797979
None
None 0


KeyError: 'x'