### Series的创建
- Series可以认为是一维数组，但是除了数据之外还有行索引标签
- 可以使用列表 list[]创建
- 可以使用 ndarray 创建

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [5]:
# 创建6位同学的身高信息
# index不指定时， 会自动按索引位置来创建索引
# name 指定数据集的名称， 代表某一特征名，或某一对象的名称
heights = Series([190, 180, 185, 182,177, 165],  name='height(cm)')
heights

0    190
1    180
2    185
3    182
4    177
5    165
Name: height(cm), dtype: int64

In [7]:
# 创建42位同学的体重信息
weights = Series(np.random.randint(50, 120, size=42), name='weight(kg)')
weights

0      97
1      59
2      56
3      89
4      57
5      56
6     114
7      52
8      86
9      52
10     56
11     84
12     91
13    119
14     98
15     81
16     74
17    105
18     66
19    100
20     91
21     97
22    100
23     80
24    107
25     73
26     77
27     70
28     85
29    111
30     52
31     81
32     52
33    107
34     75
35     95
36     87
37     79
38     52
39     92
40     89
41     54
Name: weight(kg), dtype: int32

In [29]:
# 创建5为同学的python成绩，分别是，disen, jack, mark, rose, jerry
scores = Series(np.random.randint(100, size=5),
               index=['disen', 'jack', 'mark', 'rose', 'jerry'],
               name='python')
scores

disen    26
jack     51
mark     49
rose     85
jerry    51
Name: python, dtype: int32

In [9]:
scores_2 = Series({
    'disen': 100,
    'jack': 90,
    'mark': 92,
    'rose': 75,
    'jerry': 88
}, name='python')
scores_2

disen    100
jack      90
mark      92
rose      75
jerry     88
Name: python, dtype: int64

### Series的索引操作
- s[标签名]
- s.loc[标签名]
- s.iloc[索引位置]

In [10]:
# 查看disen的成绩
scores['disen']

16

In [11]:
# 查看disen和jerry的成绩
scores[['disen', 'jerry']]

disen    16
jerry    12
Name: python, dtype: int32

In [12]:
# 查看前三位同学的成绩
scores['disen': 'mark']   # 索引名可以进行切片操作b

disen    16
jack     30
mark     59
Name: python, dtype: int32

In [13]:
scores.loc['disen']

16

In [14]:
scores.loc[['disen', 'jerry']]

disen    16
jerry    12
Name: python, dtype: int32

In [15]:
# 查看最后两位同学的成绩
scores.iloc[-2:]

rose     20
jerry    12
Name: python, dtype: int32

### Series的属性
- dtype 数据类型
- shape 数据的形状， 如 (43, )
- values 数据集， nadarray类型
- index 行索引名的类表， Index
- name  数据集的名称

In [20]:
# scores.dtype
# scores.shape
# weights.shape
# scores.values  
scores.index

Index(['disen', 'jack', 'mark', 'rose', 'jerry'], dtype='object')

In [23]:
# 使用scores.index索引， 为这位学员创建身高信息
persons_heights = Series(np.random.randint(155, 190, size=5),
                        index=scores.index)
persons_heights

disen    170
jack     185
mark     173
rose     162
jerry    155
dtype: int32

### head() 和 tail()

In [24]:
weights.head() # 默认显示前5条数据

0    97
1    59
2    56
3    89
4    57
Name: weight(kg), dtype: int32

In [26]:
weights.head(n=10) # 显示前10条数据

0     97
1     59
2     56
3     89
4     57
5     56
6    114
7     52
8     86
9     52
Name: weight(kg), dtype: int32

In [25]:
weights.index

RangeIndex(start=0, stop=42, step=1)

In [27]:
weights.tail() # 默认最后5条数据

37    79
38    52
39    92
40    89
41    54
Name: weight(kg), dtype: int32

### NaN(not a num)值的处理
- isnull()
- notnull()

In [30]:
scores

disen    26
jack     51
mark     49
rose     85
jerry    51
Name: python, dtype: int32

In [32]:
# np.NAN/np.NaN/np.nan
#NAN -> Not a Number
scores['jack'] = np.nan  # scores.iloc[1]
scores

disen    26.0
jack      NaN
mark     49.0
rose     85.0
jerry    51.0
Name: python, dtype: float64

In [33]:
scores.isnull()  # 索引对应的值变成bool

disen    False
jack      True
mark     False
rose     False
jerry    False
Name: python, dtype: bool

In [34]:
# 查出没有成绩的人员姓名
# 根据isnull()结果， 将数值为True的索引标签提取，作为scores索引选择的数据
scores[scores.isnull()]  # == scores['jack']

jack   NaN
Name: python, dtype: float64

In [37]:
weights.iloc[[1, 7, 9, 11, 20, 33, 38]] = np.nan
weights

0      97.0
1       NaN
2      56.0
3      89.0
4      57.0
5      56.0
6     114.0
7       NaN
8      86.0
9       NaN
10     56.0
11      NaN
12     91.0
13    119.0
14     98.0
15     81.0
16     74.0
17    105.0
18     66.0
19    100.0
20      NaN
21     97.0
22    100.0
23     80.0
24    107.0
25     73.0
26     77.0
27     70.0
28     85.0
29    111.0
30     52.0
31     81.0
32     52.0
33      NaN
34     75.0
35     95.0
36     87.0
37     79.0
38      NaN
39     92.0
40     89.0
41     54.0
Name: weight(kg), dtype: float64

In [38]:
weights[weights.isnull()]  # 提取没有数值的数据集

1    NaN
7    NaN
9    NaN
11   NaN
20   NaN
33   NaN
38   NaN
Name: weight(kg), dtype: float64

In [39]:
# 提取有数据的数据集
weights[weights.notnull()]

0      97.0
2      56.0
3      89.0
4      57.0
5      56.0
6     114.0
8      86.0
10     56.0
12     91.0
13    119.0
14     98.0
15     81.0
16     74.0
17    105.0
18     66.0
19    100.0
21     97.0
22    100.0
23     80.0
24    107.0
25     73.0
26     77.0
27     70.0
28     85.0
29    111.0
30     52.0
31     81.0
32     52.0
34     75.0
35     95.0
36     87.0
37     79.0
39     92.0
40     89.0
41     54.0
Name: weight(kg), dtype: float64

In [40]:
weights.notnull()

0      True
1     False
2      True
3      True
4      True
5      True
6      True
7     False
8      True
9     False
10     True
11    False
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20    False
21     True
22     True
23     True
24     True
25     True
26     True
27     True
28     True
29     True
30     True
31     True
32     True
33    False
34     True
35     True
36     True
37     True
38    False
39     True
40     True
41     True
Name: weight(kg), dtype: bool

### Series运算
- ndarray的算数运算，完全适合于Series
- 如果对数据中存在Nan值进行预处理，则使用Series本身提供的算数运算的函数

In [44]:
class A:
    def __init__(self, n):
        self.n = n 
        
    def __add__(self, value):
        return self.n + value
    
    def __gt__(self, value):
        if isinstance(value, int):
            return self.n > value
        elif isinstance(value, A):
            return self.n > value.n
        return False

    def __gte__(self, value):
        return self.n >= value
    
    def __str__(self):
        return str(self.n)

In [42]:
a = A(10)
a += 100
print(a)

if a > 100:
    print('ok')

110
ok


In [None]:
a2 = A(90)
if a> a2:
    print('ok')

In [45]:
a2 = A(100)
print(a2)

100


In [46]:
a2 > a

False

In [47]:
scores += 100
scores

disen    126.0
jack       NaN
mark     149.0
rose     185.0
jerry    151.0
Name: python, dtype: float64

In [49]:
# fill_value指定Nan的填充值，add()返回运算后的结果
scores_2 = scores.add(100, fill_value=0) 
scores_2

disen    226.0
jack     100.0
mark     249.0
rose     285.0
jerry    251.0
Name: python, dtype: float64

In [50]:
scores.sub(5, fill_value=0) # 减法

disen    121.0
jack      -5.0
mark     144.0
rose     180.0
jerry    146.0
Name: python, dtype: float64

In [51]:
scores.mul(2, fill_value=0) # 乘法

disen    252.0
jack       0.0
mark     298.0
rose     370.0
jerry    302.0
Name: python, dtype: float64

In [52]:
scores.div(2, fill_value=0)  # 除法

disen    63.0
jack      0.0
mark     74.5
rose     92.5
jerry    75.5
Name: python, dtype: float64

练习3：
1. 想一想Series运算和ndarray运算的规则有什么不同？
2. 新建另一个索引包含“文综”的Series s2，并与s2进行多种算术操作。思考如何保存所有数据

1.Serie和ndarrayde区别
- Series是一个类似一维数组， 而ndarray可以是多维数组
- Series没有广播机制，ndarray有广播机制
- Series的索引操作支持索引标签和.loc[], .iloc[]，而ndarray只能使用索引位置
- Series的数据集可能会存在Nan值，并提供相关的运算函数对Nan预处理，而ndarray中不能存在Nan值。

In [54]:
s2 = Series({
    '政治': 80,
    '历史': 90,
    '地理': 95
},name='文综')
s2

政治    80
历史    90
地理    95
Name: 文综, dtype: int64

In [62]:
s2 += 10

In [63]:
s2 = s2.sub(10)
s2

政治    80
历史    90
地理    95
Name: 文综, dtype: int64

In [64]:
s2.max()

95

In [65]:
# 最大值，最小值， 平均值， 总数， 中位值
# s2.max(), s2.min(), s2.mean(), s2.size(), s2.median
s2.min()

80

In [67]:
s2['语文'] = 80 # 增加新的索引
s2

政治    80
历史    90
地理    95
语文    80
Name: 文综, dtype: int64

In [68]:
s2.unique()  # 去重

array([80, 90, 95], dtype=int64)