## 学生成绩统计

创建一个包含10名学生数学成绩的Series，成绩范围在50-100之间，并计算平均分、最高分、最低分，找出高于平均分的学生人数<br>
其中：随机种子设置为200，学生姓名以：“学生” + 1,2,3,....表示

In [1]:
import pandas as pd
import numpy as np

In [12]:
np.random.seed(200)
stu = pd.Series(
    np.random.randint(50, 101, 10), 
    index=[f"学生{i}" for i in range (1, 11)]
)
mean_ = stu.mean()
print("学生：\n", stu)
print("平均分： ", mean_)
print("最高分： ", stu.max())
print("最低分： ", stu.min())

cnt = 0
for i in stu:
    if i > mean_: cnt +=1
print("高于平均分的人数： ", cnt)

# 利用 bool 索引可以直接定位获取序列中的对应bool值为True的元素
print("高于平均分的人数： ", len(stu[stu>mean_])) 

学生：
 学生1     76
学生2     91
学生3     66
学生4     54
学生5     92
学生6     62
学生7     65
学生8     75
学生9     64
学生10    77
dtype: int32
平均分：  72.2
最高分：  92
最低分：  54
高于平均分的人数：  5
高于平均分的人数：  5


## 温度数据分析
给定某城市一周每天的最高温度Series，完成以下任务：
- 1， 找出温度超过30℃的天数
- 2， 计算平均气温
- 3， 将温度从高到低排序
- 4， 找出温度变化最大的两天

其中：temperatures = pd.Series([28, 31, 29, 32, 30, 27, 33], 
                        index=['周一', '周二', '周三', '周四', '周五', '周六', '周日'])

In [26]:
import pandas as pd
import numpy as np

temperatures = pd.Series(
    [28, 31, 29, 32, 30, 27, 33], 
    index=['周一', '周二', '周三', '周四', '周五', '周六', '周日']
)

days = (temperatures > 30).sum()
print("温度超过30℃的天数： ", days)

print("平均气温： ", temperatures.mean())

print("气温从高到低排序: ")
print(temperatures.sort_values(ascending=False)) # 默认从低到高排序，指定ascending=False则从高到低排序

# 使用 diff 函数计算 Series 中相邻两值之差
diff = temperatures.diff().abs().sort_values(ascending=False).keys()
print("气温变化最大的两天： ", diff[:2].tolist()) # tolist()函数将序列转换成列表形式


温度超过30℃的天数：  3
平均气温：  30.0
气温从高到低排序: 
周日    33
周四    32
周二    31
周五    30
周三    29
周一    28
周六    27
dtype: int64
气温变化最大的两天：  ['周日', '周二']


## 股票价格分析

给定某股票连续10个交易日的收盘价Series：

- 计算每日收益率（当日收盘价/前日收盘价 - 1）
- 找出收益率最高和最低的日期
- 计算波动率（收益率的标准差）

股票相关的Series信息如下：
prices = pd.Series([102.3, 103.5, 105.1, 104.8, 106.2, 107.0, 106.5, 108.1, 109.3, 110.2], index=pd.date_range('2023-01-01', periods=10))

In [41]:
import pandas as pd
import numpy as np

prices = pd.Series(
    [102.3, 103.5, 105.1, 104.8, 106.2, 107.0, 106.5, 108.1, 109.3, 110.2], 
    index=pd.date_range('2023-01-01', periods=10)
)
score = prices.pct_change() # pct_change  函数专门用于计算每日收益
print("每日收益： \n", score)
print("收益最高的日期： \n", score.idxmax())
print("收益最低的日期： \n", score.idxmin())
print("收益波动率： ", score.std())


每日收益： 
 2023-01-01         NaN
2023-01-02    0.011730
2023-01-03    0.015459
2023-01-04   -0.002854
2023-01-05    0.013359
2023-01-06    0.007533
2023-01-07   -0.004673
2023-01-08    0.015023
2023-01-09    0.011101
2023-01-10    0.008234
Freq: D, dtype: float64
收益最高的日期： 
 2023-01-03 00:00:00
收益最低的日期： 
 2023-01-07 00:00:00
收益波动率：  0.007373623845361105


# 销售数据分析任务

某产品过去12个月的销售量Series：

sales = pd.Series([120, 135, 145, 160, 155, 170, 180, 175, 190, 200, 210, 220],
                 index=pd.date_range('2022-01-01', periods=12, freq='M'))
                 
请完成以下任务：
- 计算季度平均销量（每3个月为一个季度）
- 找出销量最高的月份
- 计算月环比增长率
- 找出连续增长超过2个月的月份

In [24]:
import numpy as np
import pandas as pd

sales = pd.Series(
    [120, 135, 145, 160, 155, 170, 180, 175, 190, 200, 210, 220],
    index=pd.date_range('2022-01-01', periods=12, freq='MS') # freq-> frequen：频率，M表示以月为平频率，Q表示季度为频率，S表示start，E表示end
)

print(sales.keys())

# 使用resample()函数可以对序列进行重采样
aver_Q = sales.resample("QS")
print("季度平均销量： ")
print(round(aver_Q.mean(), 3))

print("销量最高的月份：")
print(sales.idxmax())

print("月环比增长率：")
roll = sales.pct_change()
print(roll)

print("连续增长超过两个月的月份：")
roll = roll > 0
roll[roll.rolling(3).sum()==3].index # rolling(num) 函数模拟实现滑动窗口，以 num为窗口大小滚动

DatetimeIndex(['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01',
               '2022-05-01', '2022-06-01', '2022-07-01', '2022-08-01',
               '2022-09-01', '2022-10-01', '2022-11-01', '2022-12-01'],
              dtype='datetime64[ns]', freq='MS')
季度平均销量： 
2022-01-01    133.333
2022-04-01    161.667
2022-07-01    181.667
2022-10-01    210.000
Freq: QS-JAN, dtype: float64
销量最高的月份：
2022-12-01 00:00:00
月环比增长率：
2022-01-01         NaN
2022-02-01    0.125000
2022-03-01    0.074074
2022-04-01    0.103448
2022-05-01   -0.031250
2022-06-01    0.096774
2022-07-01    0.058824
2022-08-01   -0.027778
2022-09-01    0.085714
2022-10-01    0.052632
2022-11-01    0.050000
2022-12-01    0.047619
Freq: MS, dtype: float64
连续增长超过两个月的月份：


DatetimeIndex(['2022-04-01', '2022-11-01', '2022-12-01'], dtype='datetime64[ns]', freq=None)

# 商店销售数据分析任务

某商店每小时销售额Series：
```python
np.random.seed(42)

hourly_sales = pd.Series(np.random.randint(0, 100, 24),
                        index=pd.date_range('2025-01-01', periods=24, freq='H'))
```

请完成以下内容：  
- 按天重新采样计算每日总销售额
- 计算每天营业时间（8:00-22:00）和非营业时间的销售额比例
- 找出销售额最高的3个小时

In [41]:
import numpy as np
import pandas as pd

np.random.seed(42)

hourly_sales = pd.Series(
    np.random.randint(0, 100, 24),
    index=pd.date_range('2025-01-01', periods=24, freq='h')
)
# print(hourly_sales)

print("按天重新采样计算每日总销售额")
print(hourly_sales.resample("D").sum())

diff = hourly_sales.between_time("8:00", "22:00").sum() # between_time函数能够筛选出一段时间内的序列
other = hourly_sales.sum() - diff
print("营业时间和非营业时间销售额之比：")
print(round(diff/other, 3))

roll = hourly_sales.nlargest(3)
print(roll.keys())

按天重新采样计算每日总销售额
2025-01-01    1205
Freq: D, dtype: int32
营业时间和非营业时间销售额之比：
1.429
DatetimeIndex(['2025-01-01 11:00:00', '2025-01-01 01:00:00',
               '2025-01-01 10:00:00'],
              dtype='datetime64[ns]', freq=None)
