In [1]:
import numpy as np
import pandas as pd

#### Pandas 是 Python 进行数据分析的一个扩展库，是基于 NumPy 的一种工具。能够快速得从不同格式的文件中加载数据（比如 CSV 、Excel文件等），然后将其转换为可处理的对象。
#### Pandas 在 ndarray 的基础上构建出了两种更适用于数据分析的存储结构，分别是 Series（一维数据结构）和 DataFrame（二维数据结构）。在操作Series 和 DataFrame 时，基本上可以看成是 NumPy 中的一维和二维数组来操作，数组的绝大多数操作它们都可以适用。

#### Pandas Series
- Series是一种一维数据结构，每一个元素都带有一个索引，与NumPy 中的一维数组类似
- Series 可以保存任何数据类型，比如整数、字符串、浮点数、Python 对象等，它的索引默认为整数，从 0 开始依次递增。Series的结构图，如下所示：

![Series](picture/Series.png)


#### pd.Series(data=None, index=None, dtype=None, name=None)
- 创建 Series 对象
- data：array-like, dict, or scalar value
- index：索引必须是不可变数据类型，允许相同。不指定时，默认为从 0 开始依次递增的整数
- dtype：数据类型，如果没有指定，则会自动推断得出
- name：设置 Series 的名称

In [2]:
ser = pd.Series(data=78.9)
print(ser)
ser = pd.Series(789)
print(ser)
ser = pd.Series([12, 5, 6])
print(ser)

0    78.9
dtype: float64
0    789
dtype: int64
0    12
1     5
2     6
dtype: int64


#### str创建Series对象: 当作标量一样处理

In [3]:
ser = pd.Series('xyz')
print(ser)

0    xyz
dtype: object


#### ndarray创建Series对象

In [4]:
ser = pd.Series([12, True, 6])
print(ser)
lst = [6, 7, 0, 8, 1, 2]
arr = np.array(lst)
ser = pd.Series(arr)
print(ser)

0      12
1    True
2       6
dtype: object
0    6
1    7
2    0
3    8
4    1
5    2
dtype: int32


#### list创建Series对象

In [5]:
# lst = [[6, 7, 0], [8, 1, 2]]
lst = [[6, 7, 0], [8, 1], 2, {'a': 1}]
ser = pd.Series(lst)
print(ser)

0    [6, 7, 0]
1       [8, 1]
2            2
3     {'a': 1}
dtype: object


#### dict创建Series对象
- 默认用字典的键作为index, 对应字典的值作为数据

In [6]:
data = {'a': 8, 'b': 5, 'c': 6, 'd': 1}
ser = pd.Series(data)
print(ser)

a    8
b    5
c    6
d    1
dtype: int64


#### 标量创建Series对象:
- 标量值按照 index 的数量进行重复，并与其一一对应如果没有指定index, 就只有一个数据

In [7]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 'e', 'f'])
print(ser)

a    6
b    7
c    0
d    8
e    1
f    2
dtype: int64


#### 索引必须是不可变数据类型

In [8]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=['a', 'b', 'c', (), 'e', 'f'])
print(ser['b'])
print(ser[()])

7
8


In [9]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 'b', 'f'])
print(ser['b'])
print(ser['a':'c'])
# KeyError: "Cannot get left slice bound for non-unique label: 'b'"
# print(ser['b':'f']) 

b    7
b    1
dtype: int64
a    6
b    7
c    0
dtype: int64


In [10]:
lst = [6, 7, 0, 8, 1, 2]
arr = np.array(arr, dtype=np.float64)
print(arr)
ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 'e', 'f'], dtype=np.float64)
print(ser)

[6. 7. 0. 8. 1. 2.]
a    6.0
b    7.0
c    0.0
d    8.0
e    1.0
f    2.0
dtype: float64


In [11]:
lst = [6, 7, 0, 8.2, 1, 2]
arr = np.array(lst, dtype=np.int32)
print(arr)
# ValueError: Trying to coerce float values to integers
# ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 'e', 'f'],dtype=np.int32)
# print(ser)
ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 'e', 'f'], dtype=np.object0)
print(ser)

[6 7 0 8 1 2]
a      6
b      7
c      0
d    8.2
e      1
f      2
dtype: object


#### Series 常用属性
- dtype &emsp;&emsp;&emsp; 返回 Series 对象数据类型
- name &emsp;&emsp;&emsp; 返回 Series 对象名称
- shape &emsp;&emsp;&emsp; 返回 Series 对象的形状
- size &emsp;&emsp;&emsp;&emsp;  返回 Series 中的元素数量
- values &emsp;&emsp;&emsp; 以 ndarray 数组的形式返回 Series 中的数据
- index &emsp;&emsp;&emsp; 返回 index

In [12]:
lst = [6, 7, 0, 8.2, 1, 2]
ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 'e', 'f'], name='first-ser')
print(ser)
print(ser.dtype)
print(ser.name)
print(ser.shape)
print(ser.size)
print(ser.values)
print(ser.index)
print(type(ser.index) is pd.Index)
print(ser.keys())


a    6.0
b    7.0
c    0.0
d    8.2
e    1.0
f    2.0
Name: first-ser, dtype: float64
float64
first-ser
(6,)
6
[6.  7.  0.  8.2 1.  2. ]
Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
True
Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')


In [13]:
lst = [6, 7, 0, 8.2, 1, 2]
ser = pd.Series(lst, index=[6, 7, 8, 0, 5, 3])
print(ser)
print(ser.index)
print(ser.values)
print(ser[0])

6    6.0
7    7.0
8    0.0
0    8.2
5    1.0
3    2.0
dtype: float64
Int64Index([6, 7, 8, 0, 5, 3], dtype='int64')
[6.  7.  0.  8.2 1.  2. ]
8.2


In [14]:
lst = [6, 7, 0, 8.2, 1, 2]
ser = pd.Series(lst)
print(ser)
print(ser.index)
print(ser.values)
print(ser[3])

0    6.0
1    7.0
2    0.0
3    8.2
4    1.0
5    2.0
dtype: float64
RangeIndex(start=0, stop=6, step=1)
[6.  7.  0.  8.2 1.  2. ]
8.2


In [15]:
ser.name = 'first-ser'
print(ser)

0    6.0
1    7.0
2    0.0
3    8.2
4    1.0
5    2.0
Name: first-ser, dtype: float64


In [16]:
ser.index = list('abcdef')
print(ser)

a    6.0
b    7.0
c    0.0
d    8.2
e    1.0
f    2.0
Name: first-ser, dtype: float64


In [17]:
ser.index = pd.Index([1, 2, 3, 4, 5, 6], dtype=np.int32)
print(ser)
print(ser.index)

1    6.0
2    7.0
3    0.0
4    8.2
5    1.0
6    2.0
Name: first-ser, dtype: float64
Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')


#### Series 运算
- Series 保留了 NumPy 中的数组运算，且 Series 进行数组运算的时候，索引与值之间的映射关系不会发生改变。在进行 Series 和 Series 的运算时，把两个 Series 中索引一样的值进行运算，其他不一样的做并集，对应的值为 NaN

In [18]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=list('abcdef'))
print(ser + 10)

a    16
b    17
c    10
d    18
e    11
f    12
dtype: int64


In [19]:
lst1 = [6, 7, 0, 8]
ser1 = pd.Series(lst1, index=list('HTFK'))
lst2 = [5, 4, 9]
ser2 = pd.Series(lst2, index=list('FMT'))
print(ser1 + ser2)

F     5.0
H     NaN
K     NaN
M     NaN
T    16.0
dtype: float64


In [20]:
ta = {'a': 8, 'b': 5, 'c': 6, 'd': 1}
ser = pd.Series(data, index=['f', 'd', 'a', 'k', 'c'])
print(ser)

f    NaN
d    1.0
a    8.0
k    NaN
c    6.0
dtype: float64


#### 访问 Series 数据
- 两种方式：位置索引访问、索引标签访问

In [21]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=list('abcdef'))
print(ser[3])
print(ser[-3])
print(ser['d'])

8
8
8


In [22]:
print(ser[[3]])
# ser[1]，ser[3]，ser[-2]的结果合并
print(ser[[1, 3, -2]])
print(ser[['b', 'd', 'e']])

d    8
dtype: int64
b    7
d    8
e    1
dtype: int64
b    7
d    8
e    1
dtype: int64


#### 索引标签切片时, 右边不是开区间

In [23]:
print(ser[1:4:2])
print(ser['b':'d':2])

b    7
d    8
dtype: int64
b    7
d    8
dtype: int64


In [24]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=list('abadef'))
print(ser['a'])
# KeyError: "Cannot get left slice bound for non-unique label: 'a'"
# print(ser['a':'e'])

a    6
a    0
dtype: int64


In [25]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=list('aaceef'))
print(ser['a':'c'])
print(ser['a':'e'])

a    6
a    7
c    0
dtype: int64
a    6
a    7
c    0
e    8
e    1
dtype: int64


In [26]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=list('abcd1f'))
print(ser[1])
print(ser['1'])

7
1


#### 标签有数字类型时，下标不允许用

In [27]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=['a', 'b', 'c', 'd', 1, 'f'])
print(ser[1])
print(ser['a'])
# print(ser[0])

1
6


In [28]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=[5, 2, 3, 1, 4, 6])
print(ser[1])
print(ser[5])

8
6


#### 修改 Series 索引
- 可以通过给 index 属性重新赋值达到修改索引的目的
- 可以通过索引和切片的方式修改数据

In [29]:
lst = [6, 7, 0, 8, 1, 2]
ser = pd.Series(lst, index=list('abcdef'))
ser[0] = 20
ser['b'] = 100
ser['c':'e':2] = 30, 40
ser[['d', 'f']] = 50
ser['d', 'f'] = 70
print(ser)

a     20
b    100
c     30
d     70
e     40
f     70
dtype: int64


In [30]:
ser['h'] = 200
print(ser)

a     20
b    100
c     30
d     70
e     40
f     70
h    200
dtype: int64


In [31]:
del ser['c'], ser['a']
print(ser)

b    100
d     70
e     40
f     70
h    200
dtype: int64
