# Series 结构

Series 结构，也称 Series 序列，是 Pandas 常用的数据结构之一，它是一种类似于一维数组的结构，由一组数据值（value）和一组标签组成，其中标签与数据值具有对应关系。

标签不必是唯一的，但必须是可哈希类型。该对象既支持基于整数的索引，也支持基于标签的索引，并提供了许多方法来执行涉及索引的操作。ndarray的统计方法已被覆盖，以自动排除缺失的数据（目前表示为NaN）

Series 可以保存任何数据类型，比如整数、字符串、浮点数、Python 对象等，它的标签默认为整数，从 0 开始依次递增。Series 的结构图，如下所示：

<img src="../../Pimages/15400SM1-0.gif">

通过标签我们可以更加直观地查看数据所在的索引位置。


In [1]:
import numpy as np
import pandas as pd

# 数据结构Series创建

`pd.Series(data=None, index=None, dtype=None, name=None, copy=False)`
- data 	输入的数据，可以是列表、常量、ndarray 数组等,如果是字典,则保持参数顺序
- index 索引值,必须是可散列的(不可变数据类型（str，bytes和数值类型）)，并且与数据具有相同的长度,允许使用非唯一索引值。如果未提供，将默认为RangeIndex（0，1，2，…，n）
- dtype 输出系列的数据类型。如果未指定，将从数据中推断
- name 为Series定义一个名称
- copy 	表示对 data 进行拷贝，默认为 False,仅影响Series和ndarray数组

### 1.  创建
#### 1) 列表/数组作为数据源创建Series

In [3]:
# 列表创建 series
ar_list = [3,10,4,5,6,7]
print(type(ar_list))  # <class 'list'>
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

<class 'list'>
0     3
1    10
2     4
3     5
4     6
5     7
dtype: int64
<class 'pandas.core.series.Series'>


In [7]:
# 使用数组创建
np_arr = np.arange(1,6)
# print(type(np_arr))  # <class 'numpy.ndarray'>
s2 = pd.Series(np_arr)
print(s2)

0    1
1    2
2    3
3    4
4    5
dtype: int32


- <b>通过index 和values属性取得对应的标签和值</b>

In [8]:
s2[3] # 通过标签取值

4

In [10]:
list(s2.index)  # 标签

[0, 1, 2, 3, 4]

In [11]:
s2.values  # 数据

array([1, 2, 3, 4, 5])

- <b>通过标签取得对应的值,或者修改对应的值</b>

In [13]:
s2[4]

5

In [14]:
s2[5] ='a'

In [16]:
s2
s2[5]

'a'

In [17]:
s2[4]='ppp'
s2

0      1
1      2
2      3
3      4
4    ppp
5      a
dtype: object

In [18]:
s2[-1]  # 不能使用负数取值


KeyError: -1

In [19]:
s2[-1]=100
s2


 0      1
 1      2
 2      3
 3      4
 4    ppp
 5      a
-1    100
dtype: object

In [22]:
s2[-1]
s2['a']=100000
s2

0          1
1          2
2          3
3          4
4        ppp
5          a
-1       100
a     100000
dtype: object

- <b>和列表索引区别:</b>
 - 默认的索引RangeIndex,不能使用负值,来表示从后往前找元素,
 - 获取不存在的索引值对应数据,会报错,但是可以赋值,相当于新增数据
 - 可以新增不同类型索引的数据,新增不同类型索引的数据,索引的类型会发生自动变化
 

#### 2) 字典作为数据源创建Series

In [23]:
d = {'a':1,'b':2,'c':3}
ser1 = pd.Series(d)
ser1

a    1
b    2
c    3
dtype: int64

- <b>通过index 和values属性取得对应的标签和值</b>

In [24]:
# 标签
ser1.index

Index(['a', 'b', 'c'], dtype='object')

In [25]:
# 值
ser1.values

array([1, 2, 3], dtype=int64)

- <b>通过标签取得对应的值,或者修改对应的值</b>

In [26]:
ser1['a']

1

In [27]:
ser1['a']='you'
ser1

a    you
b      2
c      3
dtype: object

In [35]:
# ser1[0]  # 如果标签是非数字型，可以使用标签的下标取值
ser1[-1]   # 这时候 -1 是标签的下标【索引】

3

In [29]:
ser1['b'] == ser1[1]  

True

In [30]:
d2 = {'a':1,5:3,'c':2}
ser2  = pd.Series(d2)
ser2

a    1
5    3
c    2
dtype: int64

In [31]:
ser2['a']

1

In [32]:

ser2[0]

KeyError: 0

In [33]:
print(ser2.index)

Index(['a', 5, 'c'], dtype='object')


KeyError: -1

- <b>取得数据时,先进行标签的检查,如果标签中没有,再进行索引的检查,都不存在则报错</b>

In [36]:
d3 = {'name':'zy','age':20}
ser3 = pd.Series(d3)
ser3

name    zy
age     20
dtype: object

In [38]:
print(ser3['name'])
print(ser3[0])

zy
zy


In [42]:
print(ser3['age'])
print(ser3[1])
print(ser3[-1])

20
20
20


#### 3) 通过标量创建

In [43]:
s = pd.Series(100,index=range(5))
s

0    100
1    100
2    100
3    100
4    100
dtype: int64

In [44]:
s = pd.Series(100)
s

0    100
dtype: int64

### 2. 参数说明

 - <b>a. index 参数</b>

索引值,必须是可散列的(不可变数据类型（str，bytes和数值类型）)，并且与数据具有相同的长度,允许使用非唯一索引值。如果未提供，将默认为RangeIndex（0，1，2，…，n）

  -   使用“显式索引”的方法定义索引标签

In [45]:
data = np.array(['a','b','c','d'])
ser1 = pd.Series(data)
print(ser1)

0    a
1    b
2    c
3    d
dtype: object


In [46]:
data = np.array(['a','b','c','d'])
ser2 = pd.Series(data,index=[100,101,102,103])
print(ser2)

100    a
101    b
102    c
103    d
dtype: object


- 从指定索引的字典构造序列

In [48]:
d = {'a':1,'b':2,'c':3}
ser3 = pd.Series(d,index=['a','b','c'])
ser3

a    1
b    2
c    3
dtype: int64

- 当传递的索引值未匹配对应的字典键时，使用 NaN（非数字）填充。 

In [49]:
d = {'a':1,'b':2,'c':3}
ser4 = pd.Series(d,index=['x','b','z'])
ser4

x    NaN
b    2.0
z    NaN
dtype: float64

<font color="red">请注意，索引是首先使用字典中的键构建的。在此之后，用给定的索引值对序列重新编制索引，因此我们得到所有NaN。</font>

- 通过匹配的索引值,改变创建Series数据的顺序

In [51]:
d = {'a':1,'b':2,'c':3}
ser5 = pd.Series(d,index=['c','a','b'])
ser5

c    3
a    1
b    2
dtype: int64

 - <b>b. name参数</b>

我们可以给一个Series对象命名，也可以给一个Series数组中的索引列起一个名字，pandas为我们设计好了对象的属性，并在设置了name属性值用来进行名字的设定。以下程序可以用来完成该操作。

In [53]:
dict_data1 = {
    'bj':2200,
    'sh':2500,
    'sz':1700
}
data1 = pd.Series(dict_data1)
data1

bj    2200
sh    2500
sz    1700
dtype: int64

In [56]:
dict_data1 = {
    'bj':2200,
    'sh':2500,
    'sz':1700
}
data1 = pd.Series(dict_data1)
data1.name='City_Data'
data1.index.name = 'City_name'
print(data1)

City_name
bj    2200
sh    2500
sz    1700
Name: City_Data, dtype: int64


In [57]:
data1.name

'City_Data'

In [58]:
data1.index.name

'City_name'

 - <b>c. copy参数</b>
    
copy 表示对 data 进行拷贝，默认为 False,仅影响Series和ndarray数组

In [70]:
# s数据源 是数组
np_li = np.arange(1,6)
sers1 = pd.Series(np_li)
# sers1

In [71]:
# 改变标签为1的值
sers1[1]=58
# sers1
# print(np_li)

In [72]:
# 当源数据非Series和ndarray时
li = [1,2,3,4,5,6,7,8]
sers2 = pd.Series(li)
# sers2

In [67]:
sers2[1]=66

In [68]:
sers2

0     1
1    66
2     3
3     4
4     5
5     6
6     7
7     8
dtype: int64

In [69]:
li

[1, 2, 3, 4, 5, 6, 7, 8]

# Series的索引/切片

### 1.下标索引

类似于 列表索引

In [74]:
s = pd.Series(np.random.rand(5))
print(s)
print(s[3],type(s[3]),s[3].dtype)

0    0.341760
1    0.612798
2    0.760561
3    0.724045
4    0.709672
dtype: float64
0.7240449305488578 <class 'numpy.float64'> float64


<font color="red"> 上面的位置索引和标签索引刚好一致,会使用标签索引</font>

当使用负值时,实际并不存在负数的标签索引

### 2. 标签索引

当索引为object类型时,既可以使用标签索引也可以使用位置索引

Series 类似于固定大小的 dict，把 index 中的索引标签当做 key，而把 Series 序列中的元素值当做 value，然后通过 index 索引标签来访问或者修改元素值。

使用索标签访问单个元素值： 

In [76]:
s1 = pd.Series(np.random.rand(5),index=list('abcde'))
print(s1)
print(s1['a'],type(s1['a']),s1['a'].dtype)

a    0.684439
b    0.293066
c    0.561601
d    0.168847
e    0.667099
dtype: float64
0.6844392373751472 <class 'numpy.float64'> float64


使用索引标签访问多个元素值

In [78]:
s1 = pd.Series(np.random.rand(5),index=list('abcde'))
# print(s1)
# 需要选择多个标签的时候要用【【】】两个中括号（相当于中括号里是一个列表）
print(s1[['a','e']])

a    0.675084
e    0.611408
dtype: float64


多标签会创建一个新的数组

In [81]:
s1 = pd.Series(np.random.rand(5),index=list('abcde')) 
print(s1)
s2 = s1[['a','b','c']]
s2['b']=10
print(s2)

a    0.672584
b    0.253008
c    0.519121
d    0.001457
e    0.541345
dtype: float64
a     0.672584
b    10.000000
c     0.519121
dtype: float64


### 3. 切片
- Series使用标签切片运算与普通的Python切片运算不同：Series使用标签切片时，其末端是包含的。
- Series使用python切片运算即使用位置数值切片，其末端是不包含。

#### 通过下标切片的方式访问 Series 序列中的数据，示例如下：

In [82]:
series1 = pd.Series([6,7,8,9,10],index=['a','b','c','d','e'])
series1

a     6
b     7
c     8
d     9
e    10
dtype: int64

In [83]:
# 使用标签切片，包含末尾
series1['b':'d']

b    7
c    8
d    9
dtype: int64

In [84]:
# 使用标签下标，就不包含末尾
series1[1:3]

b    7
c    8
dtype: int64

In [85]:
print(series1[:3])

a    6
b    7
c    8
dtype: int64


In [86]:
print(series1[-3:])

c     8
d     9
e    10
dtype: int64


#### 通过标签切片的方式访问 Series 序列中的数据，示例如下：
- Series使用标签切片时，其末端是包含的

<font color="red">注意：</font>

在上面的索引方式，我们知道了位置索引和标签索引在index为数值类型时候的不同，
- 当index为数值类型的时候，使用位置索引会抛出keyerror的异常，也就是说当index为数值类型的时候，索引使用的是名称索引。
- 但是在切片的时候，有很大的不同，如果index为数值类型的时候，切片使用的是位置切片。总的来说，当index为数值类型的时候：

 - 进行索引的时候，相当于使用的是名称索引；
 - 进行切片的时候，相当于使用的是位置切片；

# Series数据结构 基本技巧

<b>1. 查看前几条和后几条数据</b>

In [87]:
s = pd.Series(np.random.rand(15))
s

0     0.500778
1     0.074734
2     0.992435
3     0.949595
4     0.363938
5     0.146387
6     0.948277
7     0.691376
8     0.877373
9     0.978165
10    0.118218
11    0.603595
12    0.305793
13    0.699132
14    0.146958
dtype: float64

In [89]:
# head() 方法 默认显示前5条数据
print(s.head())
print('**********************8')
print(s.head(1)) # 显示第一条数据

0    0.500778
1    0.074734
2    0.992435
3    0.949595
4    0.363938
dtype: float64
**********************8
0    0.500778
dtype: float64


In [90]:
# 默认显示后5条数据
print(s.tail())

10    0.118218
11    0.603595
12    0.305793
13    0.699132
14    0.146958
dtype: float64


<b>2. 重新索引: reindex</b>

使用可选填充逻辑, 使Series符合新索引

将NaN放在上一个索引中没有值的位置。除非新索引等同于当前索引,并且生成新对象。

In [91]:
s1 = pd.Series(np.random.rand(5),index=list('abcde'))
s1

a    0.560281
b    0.340416
c    0.476065
d    0.230950
e    0.795936
dtype: float64

In [93]:
s2 = s1.reindex(list('cde'))
print(s2)
print('***************')
print(s1)

c    0.476065
d    0.230950
e    0.795936
dtype: float64
***************
a    0.560281
b    0.340416
c    0.476065
d    0.230950
e    0.795936
dtype: float64


In [94]:
s3 = s1.reindex(list('cde12'),fill_value=0)
s3

c    0.476065
d    0.230950
e    0.795936
1    0.000000
2    0.000000
dtype: float64

<b>3.对齐运算</b>

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

<b>4.删除和添加</b>
- 删除

- 添加

## 课堂作业

1.分别通过字典/数组的方式,创建以下要求的Series

Zhangsan 90.0
wangwu   89.5
lilei  68.0
Name:作业1, dtye:float64

In [None]:
2.创建一个Series,包含1组元素,且每个值为0-100的均匀分布随机值,index为a-j,请分别筛选出
- ① 标签为b,c的值为多少
- ②.Series中第4到第6个值是那些
- ③ Series中大于50 的值有那些

3.创建以下Series 并按照要求修改得到的结果
创建s:
a   0
b   1
c   2
d   3
e   4
f   5
g   6
h   7
i   8
j   9
dtype:int32

--------------
s修改后:
a   100
c   2
d   3
e   100
f   100
g   6
i   8
j   9

dtype:int32