## series的创建

In [1]:
import pandas as pd
s=pd.Series([1,2,3,4,5],index=['A','B','C','D','E'],name='月份')    #可以自定义索引和name
print(s)


A    1
B    2
C    3
D    4
E    5
Name: 月份, dtype: int64


In [2]:
# 通过字典创建
s=pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5})
print(s)
s1=pd.Series(s,index=['a','c'])
print(s1)


a    1
b    2
c    3
d    4
e    5
dtype: int64
a    1
c    3
dtype: int64


In [3]:
# seies的属性
'''index：series的索引对象   values：series的值   dtype或dtypes：series的元素类型   shape：series的形状   nidm：series的维度    size：series的元素个数    name：series的名称    loc[]显式索引，按标签索引或切片  iloc[]隐式索引，按位置索引或切片    at[]使用标签访问单个元素   iat[]使用位置访问单个元素'''
print(s.index)
print(s.values)
print(s.shape,s.ndim,s.size)
s.name='test'
print(s.dtype,s.name)
print(s.loc['b':'e'])   #显式索引 支持切片 包含右端点 显式按照标签 隐式按照位置
print(s.iloc[1:4])    #隐式索引 支持切片 不包含右端点
print(s.at['a'])    #显式 不支持切片 获取单个值
print(s.iat[1])     #隐式



Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[1 2 3 4 5]
(5,) 1 5
int64 test
b    2
c    3
d    4
e    5
Name: test, dtype: int64
b    2
c    3
d    4
Name: test, dtype: int64
1
2


In [4]:
# 访问数据
print(s['c'])
print(s.head())    # 默认返回前五行数据
print(s.tail())    # 默认后五行数据

3
a    1
b    2
c    3
d    4
e    5
Name: test, dtype: int64
a    1
b    2
c    3
d    4
e    5
Name: test, dtype: int64


In [5]:
# 常见函数
import numpy as np
s=pd.Series([10,2,np.nan,3,None,4,5],
            index=['A','B','C','D','E','F','G'],
            name='data')
print(s)

A    10.0
B     2.0
C     NaN
D     3.0
E     NaN
F     4.0
G     5.0
Name: data, dtype: float64


In [6]:
s.head(3).to_frame()

Unnamed: 0,data
A,10.0
B,2.0
C,


In [7]:
s.tail(5).to_frame()

Unnamed: 0,data
C,
D,3.0
E,
F,4.0
G,5.0


In [8]:
# 查看所有的描述性信息
s.describe().to_frame()

Unnamed: 0,data
count,5.0
mean,4.8
std,3.114482
min,2.0
25%,3.0
50%,4.0
75%,5.0
max,10.0


In [9]:
# 获取元素个数(忽略缺失值)
print(s.count())

5


In [10]:
# 获取索引
print(s.keys()) # 通过方法获取
print(s.index)  # 通过属性获取 pandas自身属性

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')


In [11]:
# 检查series中的每一个元素是否是缺失值
s.isna()

A    False
B    False
C     True
D    False
E     True
F    False
G    False
Name: data, dtype: bool

In [12]:
# 用来检查每个元素是否在参数集合中
s.isin([10,3])

A     True
B    False
C    False
D     True
E    False
F    False
G    False
Name: data, dtype: bool

### 统计值相关

In [13]:
s.describe().to_frame()

Unnamed: 0,data
count,5.0
mean,4.8
std,3.114482
min,2.0
25%,3.0
50%,4.0
75%,5.0
max,10.0


In [14]:
print('平均值：',s.mean(),'标准差：',s.std(),'最大值:',s.max(),'最小值：',s.min(),'方差：',s.var(),'中位数：',s.median())
print(s.quantile(0.25)) # 分位数 与numpy不同 quantile
# 众数 
s['H']=4
print('众数：',s.mode())
# 每个元素的计数 排序好的
print(s.value_counts())
# 去重操作
print(s.drop_duplicates())

平均值： 4.8 标准差： 3.1144823004794877 最大值: 10.0 最小值： 2.0 方差： 9.700000000000001 中位数： 4.0
3.0
众数： 0    4.0
Name: data, dtype: float64
data
4.0     2
10.0    1
2.0     1
3.0     1
5.0     1
Name: count, dtype: int64
A    10.0
B     2.0
C     NaN
D     3.0
F     4.0
G     5.0
Name: data, dtype: float64


In [15]:
# 排序 值，索引
print(s.sort_index())   # 按照索引来排序
print(s.sort_values())  # 按照值来排序

A    10.0
B     2.0
C     NaN
D     3.0
E     NaN
F     4.0
G     5.0
H     4.0
Name: data, dtype: float64
B     2.0
D     3.0
F     4.0
H     4.0
G     5.0
A    10.0
C     NaN
E     NaN
Name: data, dtype: float64


## 学生成绩统计
### 创建一个包含10名学生数学成绩Series，成绩范围在50-100之间。
### 计算平均分、最高分、最低分，并找出高于平均分的学生人数。

In [16]:
np.random.seed(0)
score=pd.Series(np.random.randint(50,101,10),
                index=['学生'+str(i)for i in range(1,11)])
print(score)
print('平均分：',score.mean(),'最高分：',score.max(),'最低分：',score.min())
print(score[score>score.mean()])
print('高于平均分的人数：',(score>score.mean()).sum())

学生1      94
学生2      97
学生3      50
学生4      53
学生5      53
学生6      89
学生7      59
学生8      69
学生9      71
学生10    100
dtype: int32
平均分： 73.5 最高分： 100 最低分： 50
学生1      94
学生2      97
学生6      89
学生10    100
dtype: int32
高于平均分的人数： 4


## 温度数据分析
### 给定某城市一周每天的最高温度Series，完成以下任务
### 找出温度超过30度的天数
### 计算平均温度
### 将温度从高到低排序
### 找出温度变化最大的两天

In [17]:
temperatures=pd.Series([28,31,29,32,30,27,33],
                       index=['周一','周二','周三','周四','周五','周六','周日'],
                       name='温度')
temperatures[temperatures>30].to_frame()
print('温度大于30度的天数：',(temperatures>30).sum())
print('平均气温：',temperatures.mean())
print('温度高到低:\n',temperatures.sort_values(ascending=False))
# 1. 相邻温差
delta = temperatures.diff().abs()

# 2. 最大温差
max_delta = delta.max()

# 3. 最大温差出现的位置（后一天）
max_day = delta.idxmax()

# 4. 前一天
prev_day = temperatures.index[temperatures.index.get_loc(max_day) - 1]

print(f'温度变化最大的两天：{prev_day} 与 {max_day}，温差 {max_delta} ℃')


温度大于30度的天数： 3
平均气温： 30.0
温度高到低:
 周日    33
周四    32
周二    31
周五    30
周三    29
周一    28
周六    27
Name: 温度, dtype: int64
温度变化最大的两天：周六 与 周日，温差 6.0 ℃


## 股票价格分析
### 给定某股票连续10个交易日的收盘价Series
### 计算每日收益率（当前收盘价/前日收盘价-1）
### 找出收益率最高和最低的日期
### 计算波动率（收益率的标准差）

In [51]:
money=pd.Series([102.3,103.5,105.1,104.8,106.2,107.0,106.5,108.1,109.3,110.2],
                index=pd.date_range('2025-12-15',periods=10,name='日期'),
                name='收盘价')
# print(money.to_frame())
print('**************')
ret=money.pct_change()
print('每日收益率：\n',ret)
max_date=ret.idxmax()
min_date=ret.idxmin()
print(f'收益率最高日：{max_date:%y-%m-%d}  {ret[max_date]:.4f}')
print(f'收益率最低日：{min_date:%y-%m-%d} {ret[min_date]:.4f}')
vol=ret.std()
print(f'波动率：{vol:.6f}')

**************
每日收益率：
 日期
2025-12-15         NaN
2025-12-16    0.011730
2025-12-17    0.015459
2025-12-18   -0.002854
2025-12-19    0.013359
2025-12-20    0.007533
2025-12-21   -0.004673
2025-12-22    0.015023
2025-12-23    0.011101
2025-12-24    0.008234
Freq: D, Name: 收盘价, dtype: float64
收益率最高日：25-12-17  0.0155
2025-12-17 00:00:00 0.015458937198067568
收益率最低日：25-12-21 -0.0047
波动率：0.007374


## 销售数据分析
### 某产品过去12个月的销售量Series
### 计算季度平均销量（每3个月为一个季度）
### 找出销量最高的月份
### 计算月环比增长率、
### 找出连续增长超过2个月的月份

In [83]:
#   AI
import pandas as pd

# 1. 数据准备（复现截图中的数据）
sale = pd.Series(
    [120, 135, 145, 160, 155, 170, 180, 175, 190, 200, 210, 220],
    index=pd.date_range('2022-01-01', periods=12, freq='ME', name='日期'),
    name='销量'
)

print("--- 原始数据 ---")
print(sale)
print("\n" + "="*30 + "\n")

# ---------------------------------------------------------

# 任务一：计算季度平均销量
# 思路：使用 resample 按季度('Q' 或 'QE')重采样，然后求均值
quarterly_avg = sale.resample('QE').mean()
print("1. 季度平均销量：")
print(quarterly_avg)
print("-" * 20)

# 任务二：找出销量最高的月份
# 思路：使用 idxmax() 找到最大值对应的索引（日期）
max_month_date = sale.idxmax()
max_month_value = sale.max()
print(f"2. 销量最高的月份是：{max_month_date.strftime('%Y-%m')}, 销量为：{max_month_value}")
print("-" * 20)

# 任务三：计算月环比增长率
# 思路：使用 pct_change() 计算当前元素与前一个元素的百分比变化
mom_growth = sale.pct_change()
print("3. 月环比增长率 (部分展示)：")
print(mom_growth.head()) # 也就是 (本月-上月)/上月
print("-" * 20)

# 任务四：找出连续增长超过2个月的月份
# 思路：这是难点。我们需要计算连续增长的累积次数。
# 1. 算出每月是否增长 (Diff > 0)
# 2. 对连续的True进行分组计数

# 计算每日变动
diff = sale.diff()

# 标记增长的月份 (True/False)
is_increase = diff > 0

# 核心逻辑：计算连续增长的计数
# 下面这行代码通过比较当前行与上一行是否相同来生成分组ID，然后对分组内的增长进行累加
growth_counts = is_increase.groupby((is_increase != is_increase.shift()).cumsum()).cumsum()

# 筛选出连续计数超过2的月份
# 注意：这里筛选出的是"达成连续增长超过2个月那一刻"的月份
result_months = sale[is_increase & (growth_counts > 2)]

print("4. 连续增长超过2个月的月份：")
for date, value in result_months.items():
    # 算出当前是连续增长的第几个月
    count = growth_counts[date]
    print(f"{date.strftime('%Y-%m')} (已连续增长 {count} 个月)")

--- 原始数据 ---
日期
2022-01-31    120
2022-02-28    135
2022-03-31    145
2022-04-30    160
2022-05-31    155
2022-06-30    170
2022-07-31    180
2022-08-31    175
2022-09-30    190
2022-10-31    200
2022-11-30    210
2022-12-31    220
Freq: ME, Name: 销量, dtype: int64


1. 季度平均销量：
日期
2022-03-31    133.333333
2022-06-30    161.666667
2022-09-30    181.666667
2022-12-31    210.000000
Freq: QE-DEC, Name: 销量, dtype: float64
--------------------
2. 销量最高的月份是：2022-12, 销量为：220
--------------------
3. 月环比增长率 (部分展示)：
日期
2022-01-31         NaN
2022-02-28    0.125000
2022-03-31    0.074074
2022-04-30    0.103448
2022-05-31   -0.031250
Freq: ME, Name: 销量, dtype: float64
--------------------
4. 连续增长超过2个月的月份：
2022-04 (已连续增长 3 个月)
2022-11 (已连续增长 3 个月)
2022-12 (已连续增长 4 个月)


In [115]:
sale=pd.Series([120,135,145,160,155,170,180,175,190,200,210,220],
               index=pd.date_range('2022-01-01',periods=12,freq='ME',name='日期'),
               name='销量')
# print(sale)
print('='*20)
# 季度平均销量
print('1.季度平均销量：\n',sale.resample('QE').mean())    # 重新采样
print('='*20)


# 销量最多的月份 最少的月份    思路：使用 idxmax() 找到最大值对应的索引（日期）
max_month_date=sale.idxmax()
max_month_value=sale.max()
min_month_date=sale.idxmin()
min_month_value=sale.min()


print(f'2.销量最多的月份：{max_month_date.strftime('%Y-%m')} 销量为：{max_month_value}\n销量最少的月份：{min_month_date.strftime('%Y-%m')} 销量为：{min_month_value}')
print('='*20)
# 计算月环比增长率 月环比增长率 = （本月销量 − 上月销量） ÷ 上月销量
mom_growth=sale.pct_change() # month-over-month


print('3.月环比增长率为：\n',mom_growth)    # 还可在后面添加head()查看前五行数据
print('='*20)
# 连续增长超过两个月的月份
# 思路 需要计算连续增长的累积次数 1.算出每月是否增长（diff>0）2.对连续的True进行分组计数
# 计算每月变动
diff=sale.diff()
 
# 标记增长的月份
is_increase=diff>0
 
 # 核心逻辑：计算连续增长的计数
# 下面这行代码通过比较当前行与上一行是否相同来生成分组ID，然后对分组内的增长进行累加
growth_counts=is_increase.groupby((is_increase !=is_increase.shift()).cumsum()).cumsum()

# 筛选出连续计数超过2的月份
# 注意：这里筛选出的是"达成连续增长超过2个月那一刻"的月份
result_months=sale[is_increase & (growth_counts>2)]
print(f'4.连续增长超过两个月的月份：')
for date,value in result_months.items():
    # 算出当前是连续增长的第几个月
    count=growth_counts[date]
    print(f'{date.strftime('%Y-%m')} (已连续增长{count}个月)')

1.季度平均销量：
 日期
2022-03-31    133.333333
2022-06-30    161.666667
2022-09-30    181.666667
2022-12-31    210.000000
Freq: QE-DEC, Name: 销量, dtype: float64
2.销量最多的月份：2022-12 销量为：220
销量最少的月份：2022-01 销量为：120
3.月环比增长率为：
 日期
2022-01-31         NaN
2022-02-28    0.125000
2022-03-31    0.074074
2022-04-30    0.103448
2022-05-31   -0.031250
2022-06-30    0.096774
2022-07-31    0.058824
2022-08-31   -0.027778
2022-09-30    0.085714
2022-10-31    0.052632
2022-11-30    0.050000
2022-12-31    0.047619
Freq: ME, Name: 销量, dtype: float64
4.连续增长超过两个月的月份：
2022-04 (已连续增长3个月)
2022-11 (已连续增长3个月)
2022-12 (已连续增长4个月)


## 每小时销售数据分析
### 某商店每小时销售额Series
### 按每天重采样计算每日总销售额
### 计算每天营业时间（8：00-22：00）和非营业时间的销售额比例
### 找出销售额最高的3个小时

In [155]:
np.random.seed(0)
hourly_sales=pd.Series(np.random.randint(0,100,24),
                       index=pd.date_range('2025-01-01',periods=24,freq='h',name='时间'),
                       name='销售额')
print(hourly_sales.head()) # 先查看前五行
print('='*20) # 分割线

# 按每天重采样计算每日总销售额
print('1.\n每日总销售额\n',hourly_sales.resample('d').sum())

# 计算每天营业时间（8：00-22：00）和非营业时间的销售额比例
'''思路：将时间切割开 使用between_time。
计算总销售额和营业时间销售额 利用差值得出非营业时间销售额
最后做除得出比例
'''
total_sales=hourly_sales.sum() # 总销售额
business_sales=hourly_sales.between_time('8:00','22:00').sum() # 营业时间销售额
non_business_sales=total_sales-business_sales # 非营业时间销售额
ratio=business_sales/non_business_sales

print(f'2.\n总销售额为：{total_sales}\n营业时间销售额为：{business_sales}\n非营业时间销售额为：{non_business_sales}\n两者比例为：{ratio:.4f}:1')
print('='*20)

# 找出销售额最高的3个小时
top3_hour=hourly_sales.nlargest(3)
print('销售额最高的三小时为：')
for time,value in top3_hour.items():
    print(f'时间：{time.strftime('%H:00')} 卖了{value}')

时间
2025-01-01 00:00:00    44
2025-01-01 01:00:00    47
2025-01-01 02:00:00    64
2025-01-01 03:00:00    67
2025-01-01 04:00:00    67
Freq: h, Name: 销售额, dtype: int32
1.
每日总销售额
 时间
2025-01-01    1386
Freq: D, Name: 销售额, dtype: int32
2.
总销售额为：1386
营业时间销售额为：907
非营业时间销售额为：479
两者比例为：1.8935:1
销售额最高的三小时为：
时间：11:00 卖了88
时间：12:00 卖了88
时间：19:00 卖了88
