In [None]:
## 01 pandas 数据结构之 Series

In [None]:
## Series 概念及创建

In [5]:
# Series 是带有标签的一维数组，可以保存任何数据类型（整数、浮点数、字符串、Python对象等），轴标签统称为索引

import numpy as np
import pandas as pd

s = pd.Series(np.random.rand(5))
print(s,type(s))

print(s.index,type(s.index))    # .index 查看 series 索引
print(s.values,type(s.values))  # .values 查看 series 值

# series 与 ndarray 相比，多了一个自带索引
# series 和 ndarray 较相似，索引切片功能类似
# series 和 dict 相比，series 更像一个有顺序的字典，而dict 本身是没有顺序的，索引原理也相似，index 相当于 key

0    0.981269
1    0.655927
2    0.969507
3    0.720205
4    0.853511
dtype: float64 <class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=5, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
[0.98126872 0.65592748 0.96950709 0.72020486 0.85351058] <class 'numpy.ndarray'>


In [37]:
# Series 创建方法一：由字典创建，字典的 key 对应 index，values 对应 values

dic = {'a':1, 'b':2, 'c':'f', 'd':'d'}
s = pd.Series(dic)
print(s)
print(type(s))

# index 只能是字符串类型；values 的值如果不是同一类型，会显示 dtype:object

a    1
b    2
c    f
4    d
dtype: object
<class 'pandas.core.series.Series'>
d


In [20]:
# Series 创建方法二：由数组创建

ar = np.random.rand(5)
s = pd.Series(ar)
print(ar)
print(s)

s = pd.Series(ar, index=['a','b','c','d','e'], dtype=np.object)
print(s)
# 可以自定义 index，设置数值类型 dtype=

[0.44838438 0.77152237 0.46604912 0.62857955 0.18304865]
0    0.448384
1    0.771522
2    0.466049
3    0.628580
4    0.183049
dtype: float64
a    0.448384
b    0.771522
c    0.466049
d     0.62858
e    0.183049
dtype: object


In [23]:
# Series 创建方法三：由标量（无方向的正负实数）创建

s = pd.Series(10, index=range(5))
print(s)
# 如果是数值是标量，那么必须提供index

0    10
1    10
2    10
3    10
4    10
dtype: int64


In [27]:
# Series 名称属性 .name()/.rename()

s1 = pd.Series(np.random.randn(5))
print(s1)
print('------')

s2 = pd.Series(np.random.randn(5), name='test')
print(s2)
print(s1.name, s2.name, type(s2.name))
print('------')

s3 = s2.rename('new')
print(s3)
print(s3.name, s2.name)

# .rename()重命名一个数组的名称，并且指向一个新数组，原数组不变

0    0.233297
1   -1.018480
2    0.676226
3   -0.254923
4   -1.626825
dtype: float64
------
0    1.229761
1   -0.779140
2   -0.715573
3   -0.855684
4    0.181783
Name: test, dtype: float64
None test <class 'str'>
------
0    1.229761
1   -0.779140
2   -0.715573
3   -0.855684
4    0.181783
Name: new, dtype: float64
new test


In [None]:
## Series 索引： 位置下标索引、index 标签索引、切片索引、布尔型索引

In [45]:
# Series 下标索引，类似序列的操作

s = pd.Series(np.random.rand(5))
print(s)
print(s[0],type(s[0]),s[0].dtype)
print(float(s[0]), type(float(s[0])))

# 可以用 float()函数将 numpy.float 格式转换为 Python float 格式
# 注意：print(s[-1]) 会报错，list[-1]可以，而下标 s[-1]不行

0    0.823723
1    0.891548
2    0.500362
3    0.722128
4    0.744480
dtype: float64
0.8237229902058185 <class 'numpy.float64'> float64
0.8237229902058185 <class 'float'>


In [43]:
# Series 标签索引

s = pd.Series(np.random.rand(5), index=['a','b','c','d','e'])
print(s)
print(s['a'],type(s['a']),s['a'].dtype)
print(s[-1])

sci = s[['a','b','d']]
print(sci,type(sci))
# 选择多个标签的值，用[[]]来表示
# 多标签索引结果是一个新的数组

a    0.035387
b    0.131216
c    0.499214
d    0.798168
e    0.748766
dtype: float64
0.035387358395366664 <class 'numpy.float64'> float64
0.748765602883941
a    0.035387
b    0.131216
d    0.798168
dtype: float64 <class 'pandas.core.series.Series'>


In [42]:
# Series 切片索引

s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index=['a','b','c','d','e'])
print(s1[1:4],s1[4])
print(s2['a':'c'],s2['c'])
print(s2[0:3],s2[3])
# 注意：用 index 做切片时，左闭右闭

print(s2[:-1])
print(s2[::2])
# 和 list 写法一样

1    0.146902
2    0.538890
3    0.525578
dtype: float64 0.9708429064843102
a    0.112546
b    0.439484
c    0.748287
dtype: float64 0.7482870659574029
a    0.112546
b    0.439484
c    0.748287
dtype: float64 0.5759327724737356
a    0.112546
b    0.439484
c    0.748287
d    0.575933
dtype: float64
a    0.112546
c    0.748287
e    0.713497
dtype: float64


In [49]:
# Series 布尔索引

s = pd.Series(np.random.rand(3)*100)
s[4] = None
print(s)
bs1 = s > 50
bs2 = s.isnull()
bs3 = s.notnull()
print(bs1, type(bs1), bs1.dtype)
print(bs2, type(bs2), bs2.dtype)
print(bs3, type(bs3), bs3.dtype)
# 数组根据条件做完判断后，返回的是一个由布尔值组成的新数组
# .isnull() / .notnull() 判断是否为空值，None 代表空值，NaN 代表有问题的数值，两个都会识别为空值

print(s[s > 50])
print(s[bs3])
# 布尔索引：判断条件可以是一个判断表达式，或者是一个布尔型数组。

0    89.9511
1    59.5477
2    31.6409
4       None
dtype: object
0     True
1     True
2    False
4    False
dtype: bool <class 'pandas.core.series.Series'> bool
0    False
1    False
2    False
4     True
dtype: bool <class 'pandas.core.series.Series'> bool
0     True
1     True
2     True
4    False
dtype: bool <class 'pandas.core.series.Series'> bool
0    89.9511
1    59.5477
dtype: object
0    89.9511
1    59.5477
2    31.6409
dtype: object


In [None]:
## Series 基本操作：查看数据.head()/.tail()，重新索引.reindex()，对齐，增删改值 .append()/.drop()

In [50]:
# Series 查看数据

s = pd.Series(np.random.rand(50))
print(s.head(10))
print(s.tail())
# 默认查看前后 5 条

0    0.872118
1    0.763153
2    0.649489
3    0.315336
4    0.418484
5    0.035314
6    0.823797
7    0.133578
8    0.955526
9    0.231410
dtype: float64
45    0.572169
46    0.580004
47    0.171055
48    0.303513
49    0.855993
dtype: float64


In [52]:
# Series 重新索引

s = pd.Series(np.random.rand(3), index=['a','b','c'])
print(s)
s1 = s.reindex(['c','d','a','b'])
print(s1)
# reindex根据当前索引重新排序，如果当前索引不存在，则引入缺失值 NaN

s2 = s.reindex(['c','d','a','b'], fill_value = 0)
print(s2)
# fill_value 填充缺失值

a    0.681117
b    0.040350
c    0.740583
dtype: float64
c    0.740583
d         NaN
a    0.681117
b    0.040350
dtype: float64
c    0.740583
d    0.000000
a    0.681117
b    0.040350
dtype: float64


In [55]:
# Series 对齐

s1 = pd.Series(np.random.rand(3), index=['Jack','Tom','John'])
s2 = pd.Series(np.random.rand(3), index=['John','Hu','Tom'])
print(s1)
print(s2)
print(s1+s2)
# Series 和 ndarray 之间的主要区别是：Series 会根据 index 自动对齐
# 数组计算是根据 index ，和 index 顺序无关
# 空值和任何其他值计算结果仍为空值

Jack    0.431219
Tom     0.560185
John    0.030091
dtype: float64
John    0.944668
Hu      0.415160
Tom     0.394243
dtype: float64
Hu           NaN
Jack         NaN
John    0.974759
Tom     0.954428
dtype: float64


In [60]:
# Series 增加元素：.append() 生成一个新数组，或者 直接通过下标索引/标签索引 添加值会改变原数组

s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index=list('cfegh'))  # 注意：list()
print(s1)
print(s2)
s1[5] = 100
s2['a'] = 100
print(s1)
print(s2)
print('------')

s3 = s1.append(s2)
print(s3)
print(s1)

0    0.150731
1    0.436257
2    0.406722
3    0.762224
4    0.352095
dtype: float64
c    0.407201
f    0.251858
e    0.409498
g    0.860362
h    0.540183
dtype: float64
0      0.150731
1      0.436257
2      0.406722
3      0.762224
4      0.352095
5    100.000000
dtype: float64
c      0.407201
f      0.251858
e      0.409498
g      0.860362
h      0.540183
a    100.000000
dtype: float64
0      0.150731
1      0.436257
2      0.406722
3      0.762224
4      0.352095
5    100.000000
c      0.407201
f      0.251858
e      0.409498
g      0.860362
h      0.540183
a    100.000000
dtype: float64
0      0.150731
1      0.436257
2      0.406722
3      0.762224
4      0.352095
5    100.000000
dtype: float64


In [64]:
# Series 修改元素 : 通过索引直接修改原数组

s = pd.Series(np.random.rand(3), index=['a','b','c'])
print(s)
s['a'] = 10
s[['b','c']] = 20
print(s)

a    0.088253
b    0.537502
c    0.766418
dtype: float64
a    10.0
b    20.0
c    20.0
dtype: float64


In [61]:
# Series 删除元素: .drop() 返回一个新数组

s = pd.Series(np.random.rand(5), index=list('eghyi'))
print(s)
s1 = s.drop('e')
s2 = s.drop(['h','y'])
print(s1)
print(s2)
print(s)
# 如果想要直接删除原数组中的元素，可以添加一个参数（inplace=True）

e    0.768141
g    0.037141
h    0.188189
y    0.007131
i    0.555909
dtype: float64
g    0.037141
h    0.188189
y    0.007131
i    0.555909
dtype: float64
e    0.768141
g    0.037141
i    0.555909
dtype: float64
e    0.768141
g    0.037141
h    0.188189
y    0.007131
i    0.555909
dtype: float64
