In [1]:
import pandas as pd
import numpy as np

In [None]:
#NOTE: 数据
pd.Series(['a', 'b', 'c', 'd', 'e']) # 列表

0    a
1    b
2    c
3    d
4    e
dtype: object

In [None]:
pd.Series(('a', 'b', 'c', 'd', 'e')) # 元组

0    a
1    b
2    c
3    d
4    e
dtype: object

In [5]:
# ndarray
# 由索引为 a、b.. ， 五个随机浮点数数组组成
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s.index # 查看索引

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [7]:
s = pd.Series(np.random.randn(5)) # 未指定索引
s.index # 查看索引

RangeIndex(start=0, stop=5, step=1)

In [8]:
# 字典 dict 使用字典来生成后，key 为索引，value 为内容，顺序为字典内容的顺序：
d = {'b': 1, 'a': 0, 'c': 2}
s = pd.Series(d)
s

b    1
a    0
c    2
dtype: int64

In [10]:
#  如果指定索引，则会按索引顺序，如无法与索引对应的会产生缺失值
pd.Series(d, index=['b', 'c', 'd', 'a'])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [11]:
# 标量（scalar value）
pd.Series(5.)

0    5.0
dtype: float64

In [12]:
# 指定索引
pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

In [14]:
#NOTE: Series 操作
# 类似 ndarray 操作
s = pd.Series([1,2,3,4,5,6,7,8])
print(s[3]) # 类似列表切片
print(s[2:])
print(s.median()) # 平均值，包括其他的数学函数
print(s[s > s.median()]) # 筛选大于平均值的内容
print(s[[1, 2, 1]]) # 指定索引的内容，括号的列表是索引
print(s.dtype) # 数据类型
print(s.array) # 返回值的数列
print(s.to_numpy()) # 转为 numpy 的 ndarray
print(3 in s) # 逻辑运算，检测索引

4
2    3
3    4
4    5
5    6
6    7
7    8
dtype: int64
4.5
4    5
5    6
6    7
7    8
dtype: int64
1    2
2    3
1    2
dtype: int64
int64
<NumpyExtensionArray>
[np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5), np.int64(6),
 np.int64(7), np.int64(8)]
Length: 8, dtype: int64
[1 2 3 4 5 6 7 8]
True


In [16]:
# 类似字典的操作
s = pd.Series([14.22, 21.34, 5.18], 
              index=['中国', '美国', '日本'], 
              name='人口')
print(s)
print(s['中国']) # 14.22 # 根 key 进行取值，如果没有报 KeyError
s['印度'] = 13.54 # 类似字典一样增加一个数据
print('法国' in s) # False 逻辑运算，检测索引

中国    14.22
美国    21.34
日本     5.18
Name: 人口, dtype: float64
14.22
False


In [18]:
# 向量计算和标签对齐
s = pd.Series([1,2,3,4])
print(s + s) # 同索引相加，无索引位用 NaN 补齐
print(s * 2) # 同索引相乘
print(s[1:] + s[:-1]) # 选取部分进行计算
print(np.exp(s)) # 求e的幂次方

0    2
1    4
2    6
3    8
dtype: int64
0    2
1    4
2    6
3    8
dtype: int64
0    NaN
1    4.0
2    6.0
3    NaN
dtype: float64
0     2.718282
1     7.389056
2    20.085537
3    54.598150
dtype: float64


In [21]:
# 名称属性
s = pd.Series([1,2,3,4], name='数字')
print(s.name) # '数字'
print(s)
s = s.rename("number") # 修改名称
s2 = s.rename("number") # 修改名称并赋值给一个新变量
print(s)
print(s2)

数字
0    1
1    2
2    3
3    4
Name: 数字, dtype: int64
0    1
1    2
2    3
3    4
Name: number, dtype: int64
0    1
1    2
2    3
3    4
Name: number, dtype: int64


In [26]:
# 其他操作
s = pd.Series([1,2,3,4], name='数字')
s.add(1) # 每个元素加1 abs()
s.add_prefix(3) # 给索引前加个3，升位
s.add_suffix(4) # 同上，在后增加
s.sum() # 总和
s.count() # 数量，长度
s.agg('std') # 聚合，仅返回标准差, 与 s.std() 相同
s.agg(['min', 'max']) # 聚合，返回最大最小值
s.align(s2) # 联接
s.any() # 是否有为假的
s.all() # 是否全是真
# 2.0 版本已经取消，用 pd.concat(s1, s2)
pd.concat([s, s2]) # 追加另外一个 Series
s.apply(lambda x:x+1) # 应用方法
s.empty # 是否为空
s3 = s.copy() # 深拷贝
# 等等，以上是常用的，方法非常多