In [None]:
from nbdev.showdoc import *

# Pandas Part3
> Pandas 常用方法

## ewm 指数加权移动平均
wm代表指数加权移动平均（Exponential Weighted Moving Average）。ewm方法用于计算指数加权移动平均，并在时间序列数据的分析和处理中非常有用。

ewm方法的一般语法如下：
```
DataFrame.ewm(com=alpha, span=window_span, min_periods=min_periods, adjust=True, ignore_na=False).mean()
```
参数说明：

- com：衰减因子（通常表示为alpha）。它控制着观测值的衰减速度，取值范围为(0, 1]。较小的值表示较快的衰减，较大的值表示较慢的衰减。com和span参数只能选择其中一个进行指定。
- span：衰减因子对应的时间跨度。它表示衰减因子的衰减速度相当于多少个观测值的时间跨度。com和span参数只能选择其中一个进行指定。
- min_periods：指定需要进行计算的最小观测值数量。
- adjust：是否对结果进行调整，以考虑初始值的影响。
- ignore_na：是否忽略缺失值。


In [None]:
import pandas as pd

# 创建示例数据
data = {'date': pd.date_range(start='2021-01-01', periods=20),
        'value': [2, 2, 2, 2, 2, 2, 2, 18, 2, 2, 2, 2, 2, 2, 2, 2, 2, 18, 16, 20]}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,date,value
0,2021-01-01,2
1,2021-01-02,2
2,2021-01-03,2
3,2021-01-04,2
4,2021-01-05,2


In [None]:
df['value'].ewm(span=3).mean()[:3]

0    2.0
1    2.0
2    2.0
Name: value, dtype: float64

In [None]:

# 对 'value' 列进行指数平滑
df['smooth'] = df['value'].ewm(alpha=0.3).mean()

df.head()

Unnamed: 0,date,value,smooth
0,2021-01-01,2,2.0
1,2021-01-02,2,2.0
2,2021-01-03,2,2.0
3,2021-01-04,2,2.0
4,2021-01-05,2,2.0


# 数据填充 bfill与fillna
在Pandas中,bfill()方法是用来进行向后填充(backfilling)的。

bfill的主要作用是:

- 用序列中后面出现的值,填充前面的值对应的NaN数据。

bfill()常用于时间序列数据的填充,它默认会从后往前填充,即使用后面最新的数据填充前面缺失的值。

bfill()还接受一些参数:

- axis:操作的轴方向,默认为0,即行方向
- limit:最大填充范围,默认无限制
- inplace:是否直接修改原对象,默认False

所以总结起来,bfill()的主要作用是:

- 对时间序列进行填充
- 使用后面最近出现的值填充前面缺失的数据
- 沿着行方向进行填充

它是处理时间序列缺失数据的重要方法之一。

In [None]:
import pandas as pd

# 创建示例数据
data = {'date': pd.date_range(start='2021-01-01', periods=20),
        'value': [2, pd.NA, pd.NA, pd.NA, pd.NA, 2, 2, 18, 2, 2, 3, pd.NA, pd.NA, pd.NA, 3, 2, 2, 18, 16, pd.NA]}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,date,value
0,2021-01-01,2.0
1,2021-01-02,
2,2021-01-03,
3,2021-01-04,
4,2021-01-05,


In [None]:
df.bfill()

Unnamed: 0,date,value
0,2021-01-01,2.0
1,2021-01-02,2.0
2,2021-01-03,2.0
3,2021-01-04,2.0
4,2021-01-05,2.0
5,2021-01-06,2.0
6,2021-01-07,2.0
7,2021-01-08,18.0
8,2021-01-09,2.0
9,2021-01-10,2.0


In [None]:
df.fillna(1)

Unnamed: 0,date,value
0,2021-01-01,2
1,2021-01-02,1
2,2021-01-03,1
3,2021-01-04,1
4,2021-01-05,1
5,2021-01-06,2
6,2021-01-07,2
7,2021-01-08,18
8,2021-01-09,2
9,2021-01-10,2
