## 一、 series的创建

In [1]:
import numpy as np
import pandas as pd
s = pd.Series([10,2,3,4,5], index=['A','B','C','D','E'], name='month')
print(s)

A    10
B     2
C     3
D     4
E     5
Name: month, dtype: int64


In [2]:
# 通过字典来创建
s1 = pd.Series({'a':1, 'b':2, 'c':3, 'd':4, 'e':5, 'f':6, 'g':7, 'h':8})
print(s1)

# 通过index 生成新的Series
s2 = pd.Series(s1, index=['a','c'])
print(s2)

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
dtype: int64
a    1
c    3
dtype: int64


## 二、 Series的属性

In [3]:
# 索引
print(s1.index)

# 值
print(s1.values)

# 形状
print(s1.shape)

# 纬度
print(s1.ndim)

# 大小
print(s1.size)

# 显式索引获取值
print(s1.loc['a'])
      
# 隐式索引获取值
print(s1.iloc[0])

# 显式索引获取值
print(s1.at['a'])

# 隐式索引获取值
print(s1.iat[0])


Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'], dtype='object')
[1 2 3 4 5 6 7 8]
(8,)
1
8
1
1
1
1


## 三、Series常用的方法

### 3.1 访问数据

In [75]:
s3 = pd.Series([1,2,3,np.nan, 4,None,6,6,7,8], index=['a','b','c','d','e','f','g','h','j','k'])

# 直接使用索引获取
# 指定下标，不推荐,虽然能获取，但是会报错
# print(s3[1])

# 访问头部数据, 默认访问前5个
print(s3.head())

# 指定前6行
print(s3.head(6))

# 访问结尾数据，默认后5个
print(s3.tail())

# 指定后3行
print(s3.tail(3))

a    1.0
b    2.0
c    3.0
d    NaN
e    4.0
dtype: float64
a    1.0
b    2.0
c    3.0
d    NaN
e    4.0
f    NaN
dtype: float64
f    NaN
g    6.0
h    6.0
j    7.0
k    8.0
dtype: float64
h    6.0
j    7.0
k    8.0
dtype: float64


### 3.1 series 常用的方法

In [76]:
# 查看描述信息
print(s3.describe())

count    8.000000
mean     4.625000
std      2.503569
min      1.000000
25%      2.750000
50%      5.000000
75%      6.250000
max      8.000000
dtype: float64


In [38]:
# 统计元素个数，忽略缺省值
print(s3.count())

8


In [40]:
# 获取索引，通过方法
print(s3.keys())
# 获取索引，通过属
print(s3.index)

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k'], dtype='object')
Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k'], dtype='object')


In [42]:
# 判断是否缺省值
s3.isna()

a    False
b    False
c    False
d     True
e    False
f     True
g    False
h    False
j    False
k    False
dtype: bool

In [43]:
# 是否在集合中
s3.isin([5,6,12])

a    False
b    False
c    False
d    False
e    False
f    False
g     True
h     True
j    False
k    False
dtype: bool

In [81]:
print('平均值：',s3.mean())
print('求和：',s3.sum())
print('最大值：',s3.max())
print('最小值：',s3.min())
print('标准差：',s3.std())
print('方差：',s3.var())
print('中位数:',s3.median())
print('75%分位数:',s3.quantile(0.75))
print('众数:',s3.mode()) # 出现次数最多的值
print('统计值出现的次数:',s3.value_counts())
print('值排序:',s3.sort_values())
print('索引排序:',s3.sort_index())
print('去重复:',s3.drop_duplicates())
print('去重返回数组:',s3.unique())
# print(':',s3.)
# print(':',s3.)
# print(':',s3.)
# print(':',s3.)
# print(':',s3.)

平均值： 4.625
求和： 37.0
最大值： 8.0
最小值： 1.0
标准差： 2.5035688811888406
方差： 6.267857142857143
中位数: 5.0
75%分位数: 6.25
众数: 0    6.0
dtype: float64
统计值出现的次数: 6.0    2
1.0    1
2.0    1
3.0    1
4.0    1
7.0    1
8.0    1
Name: count, dtype: int64
值排序: a    1.0
b    2.0
c    3.0
e    4.0
g    6.0
h    6.0
j    7.0
k    8.0
d    NaN
f    NaN
dtype: float64
索引排序: a    1.0
b    2.0
c    3.0
d    NaN
e    4.0
f    NaN
g    6.0
h    6.0
j    7.0
k    8.0
dtype: float64
去重复: a    1.0
b    2.0
c    3.0
d    NaN
e    4.0
g    6.0
j    7.0
k    8.0
dtype: float64
去重返回数组: [ 1.  2.  3. nan  4.  6.  7.  8.]


### 3.3 案例学习
- 创建一个10名学生成绩的series，成绩范围在50-100之间，计算平均分、最高分、最低分、找出高于平均分的学生人数

In [90]:
# 设置种子
np.random.seed(33)
score = pd.Series(np.random.randint(50, 101, 10), index=['学生'+str(i) for i in range(1,11)])
# print(score)
print('平均分:',score.mean())
print('最高分:',score.max())
print('最低分:',score.min())
print('高于平均分:',score[score> score.mean()]) # bool 索引
print('高于平均分的人数:',score[score> score.mean()].count())
print('高于平均分的人数:',len(score[score> score.mean()]) )

平均分: 65.4
最高分: 88
最低分: 52
高于平均分: 学生1    70
学生3    74
学生5    68
学生8    88
学生9    69
dtype: int64
高于平均分的人数: 5
高于平均分的人数: 5
