# 3.1 Pandas 之 Series

## 1. Series的创建

In [1]:
import pandas as pd
s = pd.Series([10,2,3,4,5])
# 自定义索引
s = pd.Series([10,2,3,4,5], index=['A', 'B', 'C', 'D', 'E'])
# s = pd.Series([10,2,3,4,5], index=[1,2,3,4,5])
# 定义name
s = pd.Series([10,2,3,4,5], index=['A', 'B', 'C', 'D', 'E'], name = '月份')
print(s)

A    10
B     2
C     3
D     4
E     5
Name: 月份, dtype: int64


In [4]:
# 通过字典来创建
s = pd.Series({"a":1,"b":2,"c":3,"d":4,"e":5})
print(s)

print('-' * 20)

s2 = pd.Series([10,2,3,4,5], index=['A', 'B', 'C', 'D', 'E'], name = '月份')
s1 = pd.Series(s2,index=["A","C"])
print(s1)

a    1
b    2
c    3
d    4
e    5
dtype: int64
--------------------
A    10
C     3
Name: 月份, dtype: int64


## 2. Series的属性

In [5]:
'''
index:Series的索引对象
values:Series的值
dtype或dtypes"Series的元素类型
shape:Series的形状
ndim:Series的维度
size:Series的元素个数
name:Series的名称
loc[]  显式索引，按标签索引或切片
iloc[]  隐式索引，按位置索引或切片
at[]  使用标签访问单个元素
iat[]  使用位置访问单个元素
'''
# print(s.index)
# print(s.values)
# print(s.shape,s.ndim,s.size)
# s.name = 'test'
# print(s.dtype,s.name)
print(s.loc['a']) #显式索引
print(s.iloc[0])  #隐式索引
print(s.at['a'])
print(s.iat[0])

1
1
1
1


In [6]:
# 访问数据
# print(s[1])
# print(s['c'])
# print(s)
# print(s[s<3])
s['f']=6
print(s.head(2))
print(s.tail(1))

a    1
b    2
dtype: int64
f    6
dtype: int64


## 3. Series的常见函数

In [8]:
import numpy as np
s = pd.Series([10,2,np.nan,None,3,4,5], index=['A', 'B', 'C', 'D', 'E','F','G'], name= 'data')
print(s)

A    10.0
B     2.0
C     NaN
D     NaN
E     3.0
F     4.0
G     5.0
Name: data, dtype: float64


In [9]:
s.head(3)  # 默认取前5行的数据
s.tail(2)   #默认取后5行的数据

F    4.0
G    5.0
Name: data, dtype: float64

In [11]:
# 查看所有的描述性信息
s.describe()

count     5.000000
mean      4.800000
std       3.114482
min       2.000000
25%       3.000000
50%       4.000000
75%       5.000000
max      10.000000
Name: data, dtype: float64

In [12]:
# 获取元素个数(忽略缺失值）
print(s.count())

5


In [13]:
# 获取索引
print(s.keys())   # 方法
print(s.index)   # 属性

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')


In [14]:
print(s.isna())  #检查Series里的每一个元素是否为缺失值
s.isna()

A    False
B    False
C     True
D     True
E    False
F    False
G    False
Name: data, dtype: bool


A    False
B    False
C     True
D     True
E    False
F    False
G    False
Name: data, dtype: bool

In [15]:
s.isin([4,5,6])  # 检查每个元素是否在参数集合中

A    False
B    False
C    False
D    False
E    False
F     True
G     True
Name: data, dtype: bool

In [16]:
s.describe()

count     5.000000
mean      4.800000
std       3.114482
min       2.000000
25%       3.000000
50%       4.000000
75%       5.000000
max      10.000000
Name: data, dtype: float64

In [17]:
print(s.mean())  #平均值
print(s.sum())   #总和
print(s.std())   #标准差
print(s.var())   #方差
print(s.min()) #最小值
print(s.max())  #最大值
print(s.median())  #中位数

4.8
24.0
3.1144823004794877
9.700000000000001
2.0
10.0
4.0


In [18]:
print(s)

A    10.0
B     2.0
C     NaN
D     NaN
E     3.0
F     4.0
G     5.0
Name: data, dtype: float64


In [19]:
# print(s.sort_values())
print(s.quantile(0.8)) #分位数
#————————————————
#2  3   4  5   10
#位置 4*0.8=3.2
#值的计算  5 + （10-5）*0.2 = 6

6.000000000000001


In [20]:
#众数
s['H']=4
print(s.mode())

0    4.0
Name: data, dtype: float64


In [21]:
print(s.value_counts())  # 每个元素的计数

data
4.0     2
10.0    1
2.0     1
3.0     1
5.0     1
Name: count, dtype: int64


In [22]:
s.drop_duplicates()  #去重
s.unique()
print(s.nunique()) #去重后的元素个数

5


In [None]:
# 排序  值、索引
s.sort_index()  # 按索引排序
s.sort_values()  #按值排序

# 3.2 Series 案例分析

## 1. 学生成绩统计

In [44]:
'''创建一个包含10名学生数学成绩的Series，成绩范围在50-100之间。
计算平均分、最高分、最低分，并找出高于平均分的学生人数。'''

import pandas as pd
import numpy as np
np.random.seed(42)
values = np.random.randint(50,101,10)
indexes = []
for i in range(1,11):
    indexes.append('学生'+str(i))
scores = pd.Series(values,indexes)
# print(scores)
print('平均分：',scores.mean())
print('最高分：',scores.max())
print('最低分：',scores.min())
# 高于平均分的学生人数
mean = scores.mean()
print('高于平均分的学生人数:',len(scores[scores>mean]))
print('高于平均分的学生人数:',scores[scores>mean].count())

平均分： 73.7
最高分： 92
最低分： 57
高于平均分的学生人数: 4
高于平均分的学生人数: 4


## 2. 温度数据分析

In [23]:
'''温度数据统计
给定某城市一周每天的最高温度Series，完成以下任务：
找出温度超过30度的天数
计算平均温度
将温度从高到低排序
找出温度变化最大的两天
'''
import pandas as pd
import numpy as np
temperatures = pd.Series([28, 31, 29, 32, 30, 27, 33],
                         index=['周一', '周二', '周三', '周四', '周五', '周六', '周日'])

In [24]:
# 找出温度超过30度的天数
n = temperatures[temperatures>30].count()
print('超过30度的天数：',n)

超过30度的天数： 3


In [25]:
# 计算平均温度
print('平均温度：',temperatures.mean())

平均温度： 30.0


In [26]:
# 将温度从高到低排序
t2 = temperatures.sort_values(ascending=False)
print('从高到低排序：',t2)

从高到低排序： 周日    33
周四    32
周二    31
周五    30
周三    29
周一    28
周六    27
dtype: int64


In [45]:
# 找出温度变化最大的两天
# 28 31 29 32 30 27 33
# none 3 -2 3 -2 -3 6
t3 = temperatures.diff().abs()   #计算series的变化值

print('温度变化最大的两天',*(t3.sort_values(ascending=False).keys()[:2].tolist()))

温度变化最大的两天 周日 周二


## 3. 股票价格分析

In [None]:
'''
股票价格分析
给定某股票连续10个交易日的收盘价Series：
计算每日收益率（当日收盘价/前日收盘价 - 1）
找出收益率最高和最低的日期
计算波动率（收益率的标准差）


prices = pd.Series([102.3, 103.5, 105.1, 104.8, 106.2, 107.0, 106.5, 108.1, 109.3, 110.2], index=pd.date_range('2023-01-01', periods=10))
'''

In [28]:
import pandas as pd
import numpy as np
# 日期序列
date = pd.date_range('2000-06-1',periods=60)
print(list(date))

[Timestamp('2000-06-01 00:00:00'), Timestamp('2000-06-02 00:00:00'), Timestamp('2000-06-03 00:00:00'), Timestamp('2000-06-04 00:00:00'), Timestamp('2000-06-05 00:00:00'), Timestamp('2000-06-06 00:00:00'), Timestamp('2000-06-07 00:00:00'), Timestamp('2000-06-08 00:00:00'), Timestamp('2000-06-09 00:00:00'), Timestamp('2000-06-10 00:00:00'), Timestamp('2000-06-11 00:00:00'), Timestamp('2000-06-12 00:00:00'), Timestamp('2000-06-13 00:00:00'), Timestamp('2000-06-14 00:00:00'), Timestamp('2000-06-15 00:00:00'), Timestamp('2000-06-16 00:00:00'), Timestamp('2000-06-17 00:00:00'), Timestamp('2000-06-18 00:00:00'), Timestamp('2000-06-19 00:00:00'), Timestamp('2000-06-20 00:00:00'), Timestamp('2000-06-21 00:00:00'), Timestamp('2000-06-22 00:00:00'), Timestamp('2000-06-23 00:00:00'), Timestamp('2000-06-24 00:00:00'), Timestamp('2000-06-25 00:00:00'), Timestamp('2000-06-26 00:00:00'), Timestamp('2000-06-27 00:00:00'), Timestamp('2000-06-28 00:00:00'), Timestamp('2000-06-29 00:00:00'), Timestamp('20

In [29]:
prices = pd.Series([102.3, 103.5, 105.1, 104.8, 106.2, 107.0, 106.5, 108.1, 109.3, 110.2], index=pd.date_range('2023-01-01', periods=10))

In [46]:
prices

2023-01-01    102.3
2023-01-02    103.5
2023-01-03    105.1
2023-01-04    104.8
2023-01-05    106.2
2023-01-06    107.0
2023-01-07    106.5
2023-01-08    108.1
2023-01-09    109.3
2023-01-10    110.2
Freq: D, dtype: float64

In [47]:
'''计算每日收益率（当日收盘价/前日收盘价 - 1）
找出收益率最高和最低的日期
计算波动率（收益率的标准差）'''
# 计算每日收益率
a = prices.pct_change()  #percent  103.5/102.3 - 1

In [48]:
# 收益率最高的日期
print(a.idxmax())
# 收益率最低的日期
print(a.idxmin())

2023-01-03 00:00:00
2023-01-07 00:00:00


In [33]:
# 波动率
print(a.std())

0.007373623845361105


## 4. 销售数据分析

In [None]:
'''销售数据分析
某产品过去12个月的销售量Series：
计算季度平均销量（每3个月为一个季度）
找出销量最高的月份
计算月环比增长率
找出连续增长超过2个月的月份

sales = pd.Series([120, 135, 145, 160, 155, 170, 180, 175, 190, 200, 210, 220],index=pd.date_range('2022-01-01', periods=12, freq='MS'))'''

In [34]:
a = pd.date_range('2022-01-01', periods=12, freq='MS')

In [35]:
sales = pd.Series([120, 135, 145, 160, 155, 170, 180, 175, 190, 200, 210, 220],index=pd.date_range('2022-01-01', periods=12, freq='MS'))

In [36]:
sales

2022-01-01    120
2022-02-01    135
2022-03-01    145
2022-04-01    160
2022-05-01    155
2022-06-01    170
2022-07-01    180
2022-08-01    175
2022-09-01    190
2022-10-01    200
2022-11-01    210
2022-12-01    220
Freq: MS, dtype: int64

In [38]:
# 季度的平均销量
# (120+135+145)/3 = 400/3
sales.resample('QS').mean()  #重新采样

2022-01-01    133.333333
2022-04-01    161.666667
2022-07-01    181.666667
2022-10-01    210.000000
Freq: QS-JAN, dtype: float64

In [39]:
print('销量最高的月份',sales.idxmax())

销量最高的月份 2022-12-01 00:00:00


In [40]:
print('月环比的增长率')
sales.pct_change()

月环比的增长率


2022-01-01         NaN
2022-02-01    0.125000
2022-03-01    0.074074
2022-04-01    0.103448
2022-05-01   -0.031250
2022-06-01    0.096774
2022-07-01    0.058824
2022-08-01   -0.027778
2022-09-01    0.085714
2022-10-01    0.052632
2022-11-01    0.050000
2022-12-01    0.047619
Freq: MS, dtype: float64

In [41]:
# 找出连续增长超过2个月的月份
sales

2022-01-01    120
2022-02-01    135
2022-03-01    145
2022-04-01    160
2022-05-01    155
2022-06-01    170
2022-07-01    180
2022-08-01    175
2022-09-01    190
2022-10-01    200
2022-11-01    210
2022-12-01    220
Freq: MS, dtype: int64

In [42]:
a = sales.pct_change()
b=a>0
b[b.rolling(3).sum()==3].keys().tolist()

[Timestamp('2022-04-01 00:00:00'),
 Timestamp('2022-11-01 00:00:00'),
 Timestamp('2022-12-01 00:00:00')]

## 5. 每小时销售数据分析

In [None]:
'''每小时销售数据分析
某商店每小时销售额Series：
按天重采样计算每日总销售额
计算每天营业时间（8:00-22:00）和非营业时间的销售额比例
找出销售额最高的3个小时'''

In [43]:
import pandas as pd
import numpy as np
np.random.seed(42)
h = pd.Series(np.random.randint(0,100,24),
          index=pd.date_range('2025-01-01',periods=24,freq='h'))
# 按天重采样计算每日总销售额
day_sales = h.resample('D').sum()
# hours_sales.sum()
# 计算每天营业时间（8:00-22:00）和非营业时间的销售额比例
mask =(h.index.hour>=8) & ((h.index.hour<=22))
b = h[mask]
n_b = h[~mask]
print(b.sum()/n_b.sum())
# 找出销售额最高的3个小时
print(h.nlargest(3).keys())

1.4294354838709677
DatetimeIndex(['2025-01-01 11:00:00', '2025-01-01 01:00:00',
               '2025-01-01 10:00:00'],
              dtype='datetime64[ns]', freq=None)
