In [1]:
import pandas as pd
import numpy as np

l = [1, 2, 3, 4]
s = pd.Series(l)     # 通过列表创建Series
print(s)

d = {'a': 10, 'b': 20, 'c': 30}     # 通过字典创建Series,Series是有序的
s1 = pd.Series(d)
print(s1)

array_1 = np.arange(10, 16)         # 通过数组array创建Series
s2 = pd.Series(array_1, index=list('abcdef'))
print(s2)

0    1
1    2
2    3
3    4
dtype: int64
a    10
b    20
c    30
dtype: int64
a    10
b    11
c    12
d    13
e    14
f    15
dtype: int32


In [2]:
print(s2.index)             # 获取Series的index
print(s2.index[1])

s2.index = ['aa', 'bb', 'cc', 'dd', 'ee', 'ff']     # 可以通过赋值整体的修改索引值
print(s2)

s2.index.name = 'li'        # 修改index的名称
print(s2)

s2.name = 'length'          # 修改Series的名称
print(s2)

print(s2.values)        # 获取Series的值values
[i for i in s2.values]

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
b
aa    10
bb    11
cc    12
dd    13
ee    14
ff    15
dtype: int32
li
aa    10
bb    11
cc    12
dd    13
ee    14
ff    15
dtype: int32
li
aa    10
bb    11
cc    12
dd    13
ee    14
ff    15
Name: length, dtype: int32
[10 11 12 13 14 15]


[10, 11, 12, 13, 14, 15]

In [3]:
# Series的索引
# 位置索引
print(s2[0])
print(s2[-1])
print(s2[[0, 3, 5]])

# 名称索引
print(s2['aa'])
s2[['aa', 'cc', 'ff']]

10
15
li
aa    10
dd    13
ff    15
Name: length, dtype: int32
10


li
aa    10
cc    12
ff    15
Name: length, dtype: int32

In [4]:
# Series的切片slice
# 索引位置切片
print(s2[1:4])      # 不包含末端

# 索引名称切片
print(s2['aa': 'ee'])       # 包含末端


li
bb    11
cc    12
dd    13
Name: length, dtype: int32
li
aa    10
bb    11
cc    12
dd    13
ee    14
Name: length, dtype: int32


In [5]:
# 修改Series的值
print(s2)
s2['ee'] = 100      # 通过索引名称修改值

s2[2] = 666         # 通过位置修改值
print(s2)

li
aa    10
bb    11
cc    12
dd    13
ee    14
ff    15
Name: length, dtype: int32
li
aa     10
bb     11
cc    666
dd     13
ee    100
ff     15
Name: length, dtype: int32


In [6]:
# 添加Series的值
print(s2)
print(s2.append(pd.Series([22, 33], index=['gg', 'hh'])))  # 批量修改，创建新的对象，并不会修改原Series    
print(s2)

s2['jj'] = 1234        # 增加单个元素，在原处修改
print(s2)

li
aa     10
bb     11
cc    666
dd     13
ee    100
ff     15
Name: length, dtype: int32
aa     10
bb     11
cc    666
dd     13
ee    100
ff     15
gg     22
hh     33
dtype: int64
li
aa     10
bb     11
cc    666
dd     13
ee    100
ff     15
Name: length, dtype: int32
li
aa      10
bb      11
cc     666
dd      13
ee     100
ff      15
jj    1234
Name: length, dtype: int64


In [7]:
# 删除Series的值
print(s2)
del s2['bb']
print(s2)

li
aa      10
bb      11
cc     666
dd      13
ee     100
ff      15
jj    1234
Name: length, dtype: int64
li
aa      10
cc     666
dd      13
ee     100
ff      15
jj    1234
Name: length, dtype: int64


In [8]:
# 过滤Series的值
s = pd.Series([2, 3, 6, 1, 8], index=list('abcde'))
print(s)
print(s[s > 3])
print(s[(s < 2) | (s > 6)])

a    2
b    3
c    6
d    1
e    8
dtype: int64
c    6
e    8
dtype: int64
d    1
e    8
dtype: int64


In [9]:
# Series的缺失值处理
s = pd.Series([3, 5, np.nan, 8, 1, None])
print(s.isnull())           # 判断是否有缺失值
print(s[s.isnull()])

print(s.dropna())      # 删除缺失值，没有改变原Series。可以通过s = s.dropna()原处修改
print(s[~s.isnull()])       # 同s.dropna()一样，和s[s.notnull()]一样

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool
2   NaN
5   NaN
dtype: float64
0    3.0
1    5.0
3    8.0
4    1.0
dtype: float64
0    3.0
1    5.0
3    8.0
4    1.0
dtype: float64


In [10]:
# 填充缺失值
print(s.fillna(value=0))        # 创建新的Series，并没有修改原Series
print(s.fillna(value=0, inplace=True))        # 在原处修改Series
print(s)

s1 = pd.Series([3, 6, np.nan, None, 7])
print(s1.fillna(method='ffill'))      # 通过插值填充缺失值

0    3.0
1    5.0
2    0.0
3    8.0
4    1.0
5    0.0
dtype: float64
None
0    3.0
1    5.0
2    0.0
3    8.0
4    1.0
5    0.0
dtype: float64
0    3.0
1    6.0
2    6.0
3    6.0
4    7.0
dtype: float64


In [11]:
# 排序
s3 = pd.Series([10, 22, 15, 9, 30], index=list('sdfgh'))
print(s3)
print(s3.sort_index())      # 根据索引排序，默认升序
print(s3.sort_index(ascending=False)) 

print(s3.sort_values())     # 根据值排序，默认升序
print(s3.sort_values(ascending=False))

s    10
d    22
f    15
g     9
h    30
dtype: int64
d    22
f    15
g     9
h    30
s    10
dtype: int64
s    10
h    30
g     9
f    15
d    22
dtype: int64
g     9
s    10
f    15
d    22
h    30
dtype: int64
h    30
d    22
f    15
s    10
g     9
dtype: int64


In [12]:
# 排名
s4 = pd.Series([2, 5, 1, 2, 5, 8, 3, 9])
print(s4)
print(s4.rank(ascending=False, method='dense'))     # 中国式排名。method有max，min....

0    2
1    5
2    1
3    2
4    5
5    8
6    3
7    9
dtype: int64
0    5.0
1    3.0
2    6.0
3    5.0
4    3.0
5    2.0
6    4.0
7    1.0
dtype: float64


In [13]:
# 描述性统计
print(s4.value_counts())        # 值的计数
print(s4.max())        # 最大值
print(s4.min())        # 最小值
print(s4.describe().round(2))       # 描述性统计

5    2
2    2
9    1
3    1
1    1
8    1
dtype: int64
9
1
count    8.00
mean     4.38
std      2.92
min      1.00
25%      2.00
50%      4.00
75%      5.75
max      9.00
dtype: float64


In [14]:
# Series的向量化计算
print(s4 + 100)     # 返回一个新的Series，并不会修改原Series。也有+，-，*，/操作

0    102
1    105
2    101
3    102
4    105
5    108
6    103
7    109
dtype: int64


In [15]:
s1 = pd.Series([2, 5, 3, 8, 4], index=list('asdfg'))
s2 = pd.Series([1, 5, 4, 8, 9], index=list('aelgr'))
print(s1 + s2)          # 自动对齐相同索引的值，不同索引的显示NaN

a     3.0
d     NaN
e     NaN
f     NaN
g    12.0
l     NaN
r     NaN
s     NaN
dtype: float64
