# 08.  이동집계함수

In [1]:
# 이동평균, 이동 표준편차 등 구간을 이동하면서 특정 통계지표를 산출하는 방식

## 데이터프레임명["컬럼명"].rolling(window=5, center=True, min_periods=1).mean()

In [2]:
# "컬럼명" : 대상컬럼
# window : 구간
# center : 기준점
# min_period : 최소 구간
# mean() : 함수

## rolling 사용 시, 주의할 포인트

In [3]:
# 구하는 내용이 연속적인 패턴이 있기 때문에. 정렬이 되어있어야 의미있는 산출이 될 수 있다.

In [4]:
import pandas as pd

In [5]:
selloutData = pd.read_csv("../dataset/kopo_product_volume.csv")
selloutData

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201415,810144
1,A01,ST0002,201415,128999
2,A01,ST0001,201418,671464
3,A01,ST0002,201418,134467
4,A01,ST0001,201413,470040
...,...,...,...,...
260,A01,ST0002,201614,148835
261,A01,ST0001,201641,746061
262,A01,ST0002,201412,151750
263,A01,ST0001,201420,645626


In [6]:
sortKey = ["REGIONID", "PRODUCTGROUP", "YEARWEEK"]

In [7]:
sortedData = selloutData.sort_values(sortKey)

In [8]:
sortedData # 지역, 그룹, 연주차별로 정렬된 데이터를 확인할 수 있다.

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
33,A01,ST0001,201401,513598
21,A01,ST0001,201402,438251
27,A01,ST0001,201403,420290
35,A01,ST0001,201404,458431
23,A01,ST0001,201405,482381
...,...,...,...,...
236,A01,ST0002,201622,214929
226,A01,ST0002,201623,161983
234,A01,ST0002,201624,171592
242,A01,ST0002,201625,157283


In [9]:
sortedData = sortedData.reset_index(drop=True)

In [10]:
sortedData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME
0,A01,ST0001,201401,513598
1,A01,ST0001,201402,438251
2,A01,ST0001,201403,420290
3,A01,ST0001,201404,458431
4,A01,ST0001,201405,482381


In [11]:
sortedData["MA"] = sortedData.VOLUME.rolling(window = 5,center=True).mean()

In [12]:
sortedData.head()
# 420290이 center가 되어서, VOLUME 컬럼의 0~4까지의 평균이 MA 컬럼의 2에 들어간다. 

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME,MA
0,A01,ST0001,201401,513598,
1,A01,ST0001,201402,438251,
2,A01,ST0001,201403,420290,462590.2
3,A01,ST0001,201404,458431,473953.0
4,A01,ST0001,201405,482381,510381.2


In [13]:
sortedData["MA2"] = sortedData.VOLUME.rolling(window = 5,center=False).mean()

In [14]:
sortedData.head()
# 기준점이 없기 때문에 volume의 값이 5개가 되지 않아서 MA2 컬럼의 0~3까지는 NaN이다. 

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME,MA,MA2
0,A01,ST0001,201401,513598,,
1,A01,ST0001,201402,438251,,
2,A01,ST0001,201403,420290,462590.2,
3,A01,ST0001,201404,458431,473953.0,
4,A01,ST0001,201405,482381,510381.2,462590.2


In [15]:
sortedData["MA3"] = sortedData.VOLUME.rolling(window = 5,center=True, min_periods=1).mean()
# min_periods=1로 설정해주어서, 하나라도 있으면 구하게끔 했다. 
# 513598이 center가 되고 VOLUME 컬럼의 0~2까지의 값의 평균이 MA3 컬럼의 0에 들어간다. 

In [16]:
sortedData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME,MA,MA2,MA3
0,A01,ST0001,201401,513598,,,457379.666667
1,A01,ST0001,201402,438251,,,457642.5
2,A01,ST0001,201403,420290,462590.2,,462590.2
3,A01,ST0001,201404,458431,473953.0,,473953.0
4,A01,ST0001,201405,482381,510381.2,462590.2,510381.2


In [17]:
sortedData["MA4"] = sortedData.VOLUME.rolling(window = 5,center=False, min_periods=1).mean()
# 기준점이 없고 구간이 5이지만, 최소 구간이 1이기 때문에 volume의 0의 값이 MA4 컬럼 0에 들어간다. 

In [18]:
sortedData.head()

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME,MA,MA2,MA3,MA4
0,A01,ST0001,201401,513598,,,457379.666667,513598.0
1,A01,ST0001,201402,438251,,,457642.5,475924.5
2,A01,ST0001,201403,420290,462590.2,,462590.2,457379.666667
3,A01,ST0001,201404,458431,473953.0,,473953.0,457642.5
4,A01,ST0001,201405,482381,510381.2,462590.2,510381.2,462590.2


In [19]:
sortedData["RATIO"] = sortedData.VOLUME / sortedData.MA4 # 평균 대비 실제 판매량을 알 수 있다. 

In [20]:
sortedData

Unnamed: 0,REGIONID,PRODUCTGROUP,YEARWEEK,VOLUME,MA,MA2,MA3,MA4,RATIO
0,A01,ST0001,201401,513598,,,457379.666667,513598.000000,1.000000
1,A01,ST0001,201402,438251,,,457642.500000,475924.500000,0.920841
2,A01,ST0001,201403,420290,462590.2,,462590.200000,457379.666667,0.918908
3,A01,ST0001,201404,458431,473953.0,,473953.000000,457642.500000,1.001723
4,A01,ST0001,201405,482381,510381.2,462590.2,510381.200000,462590.200000,1.042783
...,...,...,...,...,...,...,...,...,...
260,A01,ST0002,201622,214929,183080.2,179473.2,183080.200000,179473.200000,1.197555
261,A01,ST0002,201623,161983,182354.2,179357.8,182354.200000,179357.800000,0.903128
262,A01,ST0002,201624,171592,180455.2,183080.2,180455.200000,183080.200000,0.937250
263,A01,ST0002,201625,157283,,182354.2,171836.750000,182354.200000,0.862514
