# Series 结构

Series 结构，也称 Series 序列，是 Pandas 常用的数据结构之一，它是一种类似于一维数组的结构，由一组数据值（value）和一组标签组成，其中标签与数据值具有对应关系。

标签不必是唯一的，但必须是可哈希类型。该对象既支持基于整数的索引，也支持基于标签的索引，并提供了许多方法来执行涉及索引的操作。ndarray的统计方法已被覆盖，以自动排除缺失的数据（目前表示为NaN）

Series 可以保存任何数据类型，比如整数、字符串、浮点数、Python 对象等，它的标签默认为整数，从 0 开始依次递增。Series 的结构图，如下所示：

<img src="images/15400SM1-0.gif">

通过标签我们可以更加直观地查看数据所在的索引位置。


In [38]:
# 引用numpy
import numpy as np
# 引入pandas
import pandas as pd

# 数据结构Series创建

`pd.Series(data=None, index=None, dtype=None, name=None, copy=False)`
- data 	输入的数据，可以是列表、常量、ndarray 数组等,如果是字典,则保持参数顺序
- index 索引值,必须是可散列的(不可变数据类型（str，bytes和数值类型）)，并且与数据具有相同的长度,允许使用非唯一索引值。如果未提供，将默认为RangeIndex（0，1，2，…，n）
- dtype 输出系列的数据类型。如果未指定，将从数据中推断
- name 为Series定义一个名称
- copy 	表示对 data 进行拷贝，默认为 False,仅影响Series和ndarray数组

### 1.  创建
#### 1) 列表/数组作为数据源创建Series

In [39]:
# 列表作为数据创建Series
ar_list = [3,10,3,4,5]
print(type(ar_list))
# 使用列表创建Series
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

<class 'list'>
0     3
1    10
2     3
3     4
4     5
dtype: int64
<class 'pandas.core.series.Series'>


In [40]:
# 数组作为数据源
np_rand = np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

0    1
1    2
2    3
3    4
4    5
dtype: int32

- <b>通过index 和values属性取得对应的标签和值</b>

In [41]:
# 默认为RangeIndex（0，1，2，…，n）
s1.index

RangeIndex(start=0, stop=5, step=1)

In [42]:
# 可以强制转化为列表输出
list(s1.index)

[0, 1, 2, 3, 4]

In [43]:
# 返回Series所有值,数据类型为ndarray
print(s1.values, type(s1.values))

[1 2 3 4 5] <class 'numpy.ndarray'>


- <b>通过标签取得对应的值,或者修改对应的值</b>

In [44]:
s1[1]  # 取得索引为1 的数据

2

In [45]:
s1[2] = 50 # 改变索引为2的数据值
s1

0     1
1     2
2    50
3     4
4     5
dtype: int32

In [46]:
# s1[-1]

- <b>和列表索引区别:</b>
 - 默认的索引RangeIndex,不能使用负值,来表示从后往前找元素,
 - 获取不存在的索引值对应数据,会报错,但是可以赋值,相当于新增数据
 - 可以新增不同类型索引的数据,新增不同类型索引的数据,索引的类型会发生自动变化
 

In [47]:
# ①.默认的索引RangeIndex,不能使用负值,来表示从后往前找元素,
s1[-1] = 20
s1

 0     1
 1     2
 2    50
 3     4
 4     5
-1    20
dtype: int64

In [48]:
# ②当前索引为-1,不存在,不会报错,可以添加
s1[-1] = 20
print(s1)
print(s1.index)

 0     1
 1     2
 2    50
 3     4
 4     5
-1    20
dtype: int64
Int64Index([0, 1, 2, 3, 4, -1], dtype='int64')


In [49]:
# ③新增不同类型索引的数据,索引的类型会发生自动变化
s1["a"] = 40
s1.index

Index([0, 1, 2, 3, 4, -1, 'a'], dtype='object')

In [50]:
print(s1)
# 因为我标签存在-1 
s1[-1]

0      1
1      2
2     50
3      4
4      5
-1    20
a     40
dtype: int64


20

将s1标签为3的值改为50

#### 2) 字典作为数据源创建Series

In [51]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d)
ser

a    1
b    2
c    3
dtype: int64

- <b>通过index 和values属性取得对应的标签和值</b>

In [52]:
# 标签索引
ser.index

Index(['a', 'b', 'c'], dtype='object')

In [53]:
# Series值
ser.values

array([1, 2, 3], dtype=int64)

- <b>通过标签取得对应的值,或者修改对应的值</b>

In [54]:
ser['a']

1

In [55]:
ser["s"] = 50
ser

a     1
b     2
c     3
s    50
dtype: int64

In [56]:
ser[0]
# 如果标签非数值型,既可以用标签获取值,也可以用标签的下标获取值

1

In [57]:
ser.index

Index(['a', 'b', 'c', 's'], dtype='object')

In [58]:
ser["a"]

1

In [59]:
ser[1]

2

In [60]:
print(ser)
ser[-1]

a     1
b     2
c     3
s    50
dtype: int64


50

In [61]:
d = {'a': 1, 5: 2, 'c': 3}
ser1 = pd.Series(data=d)
ser1

a    1
5    2
c    3
dtype: int64

In [62]:
#ser1["a"]
# 标签如果存在数值型的数据,就不能使用标签的下标获取值
# Series通过索引取值,优先使用是标签索引
ser1[0]
#ser1[1]

KeyError: 0

- <b>取得数据时,先进行标签的检查,如果标签中没有,再进行索引的检查,都不存在则报错</b>

In [95]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d)
print(ser)
print("=============")
# 取得第一个元素
print('ser["a"]:%s'% ser["a"],' ser[0]:%s'% ser[0])
# 取得最后一个元素
print('ser["c"]:%s'% ser["c"],' ser[-1]:%s'% ser[-1])

a    1
b    2
c    3
dtype: int64
ser["a"]:1  ser[0]:1
ser["c"]:3  ser[-1]:3


#### 3) 通过标量创建

In [None]:
s = pd.Series(100,index=range(5))
s

### 2. 参数说明

 - <b>a. index 参数</b>

索引值,必须是可散列的(不可变数据类型（str，bytes和数值类型）)，并且与数据具有相同的长度,允许使用非唯一索引值。如果未提供，将默认为RangeIndex（0，1，2，…，n）

  -   使用“显式索引”的方法定义索引标签

In [None]:
data = np.array(['a','b','c','d'])
#自定义索引标签（即显示索引）, 需要和数据长度一致
s = pd.Series(data,index=[100,101,102,103])
s

- 从指定索引的字典构造序列

In [None]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(d, index=['a', 'b', 'c'])
ser

- 当传递的索引值未匹配对应的字典键时，使用 NaN（非数字）填充。 

In [None]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['x', 'b', 'z'])
ser

<font color="red">请注意，索引是首先使用字典中的键构建的。在此之后，用给定的索引值对序列重新编制索引，因此我们得到所有NaN。</font>

- 通过匹配的索引值,改变创建Series数据的顺序

In [None]:
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['c', 'b', 'a'])
ser

 - <b>b. name参数</b>

我们可以给一个Series对象命名，也可以给一个Series数组中的索引列起一个名字，pandas为我们设计好了对象的属性，并在设置了name属性值用来进行名字的设定。以下程序可以用来完成该操作。

In [67]:
dict_data1 = {
    "Beijing":2200,
    "Shanghai":2500,
    "Shenzhen":1700
}
data1 = pd.Series(dict_data1)
data1

Beijing     2200
Shanghai    2500
Shenzhen    1700
dtype: int64

In [None]:
data1 = pd.Series(dict_data1)
data1.name = "City_Data"
data1.index.name = "City_Name"
print(data1)

In [None]:
data1.name

In [None]:
data1.index.name

In [None]:
data1

>序列的名称，如果是DataFrame的一部分，还包括列名

- 如果用于形成数据帧，序列的名称将成为其索引或列名。每当使用解释器显示序列时，也会使用它。

In [65]:
# 使用Series创建DataFrame类型
df = pd.DataFrame(data1)
print(df,type(df))
print("="*20)
# 输出City_Data列的数据和类型
print(df['City_Data'],type(df['City_Data']))

           City_Data
City_Name           
Beijing         2200
Shanghai        2500
Shenzhen        1700 <class 'pandas.core.frame.DataFrame'>
City_Name
Beijing     2200
Shanghai    2500
Shenzhen    1700
Name: City_Data, dtype: int64 <class 'pandas.core.series.Series'>


In [66]:
print(df['City_Data'])

City_Name
Beijing     2200
Shanghai    2500
Shenzhen    1700
Name: City_Data, dtype: int64


 - <b>c. copy参数</b>
    
copy 表示对 data 进行拷贝，默认为 False,仅影响Series和ndarray数组

In [63]:
# 数组作为数据源
np_rand = np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

0    1
1    2
2    3
3    4
4    5
dtype: int32

In [68]:
# 改变Series标签为1的值
s1[1] = 50

# 输出Series对象s1
print("s1:",s1)
print("="*20)
# 输出数组对象np_rand
print("np_rand:",np_rand)

s1: 0     1
1    50
2     3
3     4
4     5
dtype: int32
np_rand: [ 1 50  3  4  5]


In [69]:
# 当源数据非Series和ndarray类型时,
# 数组作为数据源
my_list = [1,2,3,4,5,6]
# 使用数组创建Series
s2 = pd.Series(my_list)
s2

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [70]:
# 改变Series标签为1的值
s2[1] = 50

# 输出Series对象s2
print("s2:",s2)

# 输出列表对象my_list
print("my_list:",my_list)

s2: 0     1
1    50
2     3
3     4
4     5
5     6
dtype: int64
my_list: [1, 2, 3, 4, 5, 6]


# Series的索引/切片

### 1.下标索引

类似于 列表索引

In [71]:
s = pd.Series(np.random.rand(5))
print(s)
print(s[3], type(s[3]), s[3].dtype)

0    0.284786
1    0.639095
2    0.388391
3    0.078587
4    0.149715
dtype: float64
0.07858717804798221 <class 'numpy.float64'> float64


<font color="red"> 上面的位置索引和标签索引刚好一致,会使用标签索引</font>

当使用负值时,实际并不存在负数的标签索引

### 2. 标签索引

当索引为object类型时,既可以使用标签索引也可以使用位置索引

Series 类似于固定大小的 dict，把 index 中的索引标签当做 key，而把 Series 序列中的元素值当做 value，然后通过 index 索引标签来访问或者修改元素值。

使用索标签访问单个元素值： 

In [72]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print(s["b"], type(s["b"]), s["b"].dtype)

0.3188320131064858 <class 'numpy.float64'> float64


使用索引标签访问多个元素值

In [73]:
s = pd.Series([6,7,8,9,10],index = ['a','b','c','d','e'])
print(s)
# 注意需要选择多个标签的值,用[[]]来表示(相当于[]中包含一个列表)
print(s[['a','c','d']]) # s['a','c','d']

a     6
b     7
c     8
d     9
e    10
dtype: int64
a    6
c    8
d    9
dtype: int64


In [74]:
s1

0     1
1    50
2     3
3     4
4     5
dtype: int32

多标签会创建一个新的数组

In [75]:
s1 = s[["b","a","e"]]
s1["b"] = 10
print("s1:",s1)
print("s源数据:",s)

s1: b    10
a     6
e    10
dtype: int64
s源数据: a     6
b     7
c     8
d     9
e    10
dtype: int64


### 3. 切片
- Series使用标签切片运算与普通的Python切片运算不同：Series使用标签切片时，其末端是包含的。
- Series使用python切片运算即使用位置数值切片，其末端是不包含。

#### 通过下标切片的方式访问 Series 序列中的数据，示例如下：

In [76]:
s = pd.Series(np.random.rand(10))
s

0    0.282416
1    0.916655
2    0.176944
3    0.150554
4    0.830044
5    0.227771
6    0.032622
7    0.718673
8    0.676359
9    0.455448
dtype: float64

In [77]:
# 位置索引和标签索引刚好一致,使用切片时,如果是数值会认为是python切片运算,不包含末端
s[1:5]

1    0.916655
2    0.176944
3    0.150554
4    0.830044
dtype: float64

In [78]:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s)
print(s[1:4])
# print(s[0])  #位置下标
# print(s['a']) #标签

a    1
b    2
c    3
d    4
e    5
dtype: int64
b    2
c    3
d    4
dtype: int64


In [79]:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s[:3])

a    1
b    2
c    3
dtype: int64


In [80]:
# 如果想要获取最后三个元素，也可以使用下面的方式： 
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s[-3:])

c    3
d    4
e    5
dtype: int64


#### 通过标签切片的方式访问 Series 序列中的数据，示例如下：
- Series使用标签切片时，其末端是包含的

In [81]:
s1= pd.Series([6,7,8,9,10],index = ['a','b','c','d','e'])
s1["b":"d"]

b    7
c    8
d    9
dtype: int64

In [82]:
s1= pd.Series([6,7,8,9,10],index = ['e','d','c','b','a'])
s1["c":"a"]

c     8
b     9
a    10
dtype: int64

In [83]:
s1["c":"c"]

c    8
dtype: int64

In [84]:
s1= pd.Series([6,7,8,9,10],index = ['e','d','a','b','a'])
s1

e     6
d     7
a     8
b     9
a    10
dtype: int64

<font color="red">注意：</font>

在上面的索引方式，我们知道了位置索引和标签索引在index为数值类型时候的不同，
- 当index为数值类型的时候，使用位置索引会抛出keyerror的异常，也就是说当index为数值类型的时候，索引使用的是名称索引。
- 但是在切片的时候，有很大的不同，如果index为数值类型的时候，切片使用的是位置切片。总的来说，当index为数值类型的时候：

 - 进行索引的时候，相当于使用的是名称索引；
 - 进行切片的时候，相当于使用的是位置切片；

# Series数据结构 基本技巧

<b>1. 查看前几条和后几条数据</b>

In [85]:
s = pd.Series(np.random.rand(15))
s

0     0.090211
1     0.240557
2     0.598179
3     0.022413
4     0.074316
5     0.867618
6     0.423153
7     0.965001
8     0.122420
9     0.378562
10    0.330948
11    0.714632
12    0.291636
13    0.965475
14    0.349457
dtype: float64

In [86]:

print(s.head()) # 默认查看前5条数据
print(s.head(1)) # 默认查看前1条数据

0    0.090211
1    0.240557
2    0.598179
3    0.022413
4    0.074316
dtype: float64
0    0.090211
dtype: float64


In [87]:
print(s.tail()) # 默认查看后5条数据

10    0.330948
11    0.714632
12    0.291636
13    0.965475
14    0.349457
dtype: float64


<b>2. 重新索引: reindex</b>

使用可选填充逻辑, 使Series符合新索引

将NaN放在上一个索引中没有值的位置。除非新索引等同于当前索引,并且生成新对象。

In [113]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print(s)
print("============s=========")


# 新索引在上一个索引中不存在,生成新对象时,对应的值,设置为NaN
s1 = s.reindex(list("cde"))
print("============s1=========")
print(s1)
print("============s=========")
print(s)

a    0.107319
b    0.513578
c    0.336717
d    0.803976
e    0.765894
dtype: float64
c    0.336717
d    0.803976
e    0.765894
dtype: float64
a    0.107319
b    0.513578
c    0.336717
d    0.803976
e    0.765894
dtype: float64


In [89]:
# 设置填充值
s2 = s.reindex(list("cde12"), fill_value=0)
print(s2)

c    0.415491
d    0.403368
e    0.125655
1    0.000000
2    0.000000
dtype: float64


<b>3.对齐运算</b>

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

In [90]:

s1 = pd.Series(np.random.rand(3), index=["Kelly","Anne","T-C"])

s2 = pd.Series(np.random.rand(3), index=["Anne","Kelly","LiLy"])

print("==========s1=========")
print(s1)
print("==========s2=========")
print(s2)
print("==========s1+s2=========")
print(s1+s2)

Kelly    0.607682
Anne     0.122798
T-C      0.200862
dtype: float64
Anne     0.621447
Kelly    0.719061
LiLy     0.096671
dtype: float64
Anne     0.744245
Kelly    1.326743
LiLy          NaN
T-C           NaN
dtype: float64


<b>4.删除和添加</b>
- 删除

In [91]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print(s)
s1 = s.drop("a") # 返回删除后的值,原值不改变 ,默认inplace=False
print(s1) 
print(s)

a    0.128841
b    0.928757
c    0.114419
d    0.907105
e    0.582816
dtype: float64
b    0.928757
c    0.114419
d    0.907105
e    0.582816
dtype: float64
a    0.128841
b    0.928757
c    0.114419
d    0.907105
e    0.582816
dtype: float64


In [93]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
s1 = s.drop("a",inplace=True) # 原值发生变化,返回None
#s = s.drop("a")
print(s1)
print("="*20)
print(s)

# inplace默认默认为True,返回None

None
b    0.296649
c    0.197335
d    0.683882
e    0.660060
dtype: float64


- 添加

In [94]:
import pandas as pd
# 添加
s1 = pd.Series(np.random.rand(5),index=list("abcde"))
print(s1)

s1["s"] = 100  # 对应的标签没有就是添加,,有就是修改
print(s1)


a    0.718194
b    0.483667
c    0.489811
d    0.210861
e    0.298088
dtype: float64
a      0.718194
b      0.483667
c      0.489811
d      0.210861
e      0.298088
s    100.000000
dtype: float64


## 课堂作业

1.分别通过字典/数组的方式,创建以下要求的Series

Zhangsan 90.0
wangwu   89.5
lilei  68.0
Name:作业1, dtye:float64

In [98]:
x1= pd.Series([90.0,89.5,68.0],index = ['zhangsan','wangwu','lilei',])
x1.name='作业1'
print(x1)
x11 = {
    "zhangsan":90.0,
    "wangwu":89.5,
    "lilei":68.0
}
x12=pd.Series(x11)
x12.name='作业1'
print(x12)



zhangsan    90.0
wangwu      89.5
lilei       68.0
Name: 作业1, dtype: float64
zhangsan    90.0
wangwu      89.5
lilei       68.0
Name: 作业1, dtype: float64


2.创建一个Series,包含1组元素,且每个值为0-100的均匀分布随机值,index为a-j,请分别筛选出
- ① 标签为b,c的值为多少
- ②.Series中第4到第6个值是那些
- ③ Series中大于50 的值有那些

In [111]:
x2=np.random.randint(0,100,size=10)
print(x2)
print("="*20)
x22=pd.Series(x2,index=list("abcdefghij"))
print(x22)
print("="*20)
print(x22['b'],x22['c'])
print("="*20)
print(x22[3:5])
print("="*20)
print(x22[x22>50])

[ 0 17 34 54 99 46  1 91 46  4]
a     0
b    17
c    34
d    54
e    99
f    46
g     1
h    91
i    46
j     4
dtype: int32
17 34
d    54
e    99
dtype: int32
d    54
e    99
h    91
dtype: int32


3.创建以下Series 并按照要求修改得到的结果
创建s:
a   0
b   1
c   2
d   3
e   4
f   5
g   6
h   7
i   8
j   9
dtype:int32

--------------
s修改后:
a   100
c   2
d   3
e   100
f   100
g   6
i   8
j   9

dtype:int32

In [118]:
s= pd.Series(np.arange(10),index = list("abcdefghij"))
print(s)
s['a']=s['e']=s['f']=100
s1=s.reindex(list('acdefgij'))
print(s1)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int32
a    100
c      2
d      3
e    100
f    100
g      6
i      8
j      9
dtype: int32
