## 재샘플링(resample)
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html
- https://pandas.pydata.org/docs/reference/api/pandas.Series.resample.html
- 시계열 데이터의 주기를 변경하는 작업
- 재샘플링 유형
- 다운 샘플링 : 데이터 빈도(frequency)를 더 낮은 주기로 설정
- 업 샘플링 : 데이터 빈도를 더 높은 주기로 업샘플링

## 1. 다운샘플링 간단 예제

1. 주어진 데이터의 빈도를 낮추는 작업
- 데이터가 일별로 주어졌을 때 주간, 월간 등 더 낮은 주기로 데이터를 집계
1. 다운샘플링할 주기를 나타내는 문자열 또는 오프셋 문자열을 인자로 전달
1. 다운샘플링 시에는 **집계(aggregation) 함수를 사용**하여 데이터를 요약

In [2]:
import pandas as pd

In [4]:
# 데이터 생성
data = {'value': [10, 20, 30, 40, 50]}
index = pd.date_range('2021-01-01', periods=5, freq='D')
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,value
2021-01-01,10
2021-01-02,20
2021-01-03,30
2021-01-04,40
2021-01-05,50


In [10]:
# 주간 평균으로 다운샘플링 
week_df=df.resample('W').mean()
week_df

Unnamed: 0,value
2021-01-03,20.0
2021-01-10,45.0


## 2. 업샘플링 간단 예제
- https://pandas.pydata.org/docs/reference/api/pandas.core.resample.Resampler.asfreq.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html
- https://pandas.pydata.org/docs/reference/api/pandas.core.resample.Resampler.interpolate.html
1. 주어진 데이터의 빈도를 높이는 작업
    - 데이터가 월별로 주어졌을 때 일별, 시간별 등 더 높은 주기로 데이터를 채움
1. 업샘플링할 주기를 나타내는 문자열 또는 오프셋 문자열을 인자로 전달
1. 업샘플링 시에는 **보간(interpolation)을 통해 데이터를 채움**
1. 보간 방식을 `method=` 로 정해줘야함

In [12]:
# 원본 데이터 생성
data = {'value': [10, 20]}
index = pd.to_datetime(['2021-01-01', '2021-02-01'])
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,value
2021-01-01,10
2021-02-01,20


In [26]:
# 일별로 업샘플링하고 선형 보간으로 데이터 채우기
# 1. freq 를정함 . resemple 객체 2. asfreq() 3.interpolate() 보간
daily_df=df.resample('D').asfreq().interpolate()
daily_df

Unnamed: 0,value
2021-01-01,10.0
2021-01-02,10.322581
2021-01-03,10.645161
2021-01-04,10.967742
2021-01-05,11.290323
2021-01-06,11.612903
2021-01-07,11.935484
2021-01-08,12.258065
2021-01-09,12.580645
2021-01-10,12.903226


### 보간(Interpolation)
- 주어진 데이터 사이에 누락값을 추정하는 방법
- 선형 보간, 최근접 이웃 보간, 다항식 보간 등

### .asfreq()
- 업샘플링 시에 사용되는 함수
- 주어진 주기에 맞게 데이터를 새로운 인덱스로 재구성
- 누락된 데이터를 NaN 값으로 채움

### .interpolate()
- 업샘플링 시에 사용되는 함수로, 보간을 수행하여 누락된 값을 추정
- method 매개변수를 사용하여 다른 보간 방법을 선택

### .interpolate() 의 method= 
알아야할 기초우선순위를 두어 정리해보았다.

| 순서 | 보간방식 | 키워드 | 보간 설명 |
| :----|:----|:----:|:------|
| 1| 선형 | **linear** | 인덱스를 무시하고 값들을 일정 간격으로 취급하여 보간 |
| 2| 시간 | **time** | 일별 및 더 높은 해상도의 데이터에 대해 지정된 길이의 간격으로 보간 |
| 3| 인덱스 | **index**, **values**| 인덱스의 실제 숫자 값을 사용하여 보간 |
| 4| 패드 | **pad**| 기존 값들을 사용하여 NaN 값을 채움 |
| 5| 가장 가까운 값 | **nearest**, **zero** | 가장 가까운 값 또는 0 값을 사용하여 보간 |
| 6| 선형 스플라인 | **slinear** | 선형 스플라인 보간을 수행. 인접한 두 지점을 직선으로 연결하여 보간 |
| 7| 2차 스플라인 | **quadratic** | 2차 스플라인 보간을 수행. 인접한 세 지점을 포함하는 2차 곡선으로 보간 |
| 8| 3차 스플라인 | **cubic** | 3차 스플라인 보간을 수행. 인접한 네 지점을 포함하는 3차 곡선으로 보간 |
| 9| 다항식 | **polynomial** | 다항식 보간을 수행. 차수(order를 지정하여 다항식으로 데이터를 보간 |
| 10 | 스플라인 | **spline** | 스플라인 보간을 수행. 곡선을 이용하여 데이터를 보간. 차수(order를 지정해야 함. |
| 11 | 다양한 SciPy 보간 방법 | **krogh**, **piecewise_polynomial**, **pchip**, **akima**, **cubicspline** | SciPy 라이브러리의 다양한 보간 방법을 활용 |
| 12 | 도함수를 이용한 보간 | **from_derivatives** | 도함수를 이용하여 보간 |


## 본 데이터 실습 - 다운샘플링

### [다시보는] Offset aliases
- https://pandas.pydata.org/docs/user_guide/timeseries.html#offset-aliases
- 다양한 시계열 빈도에 대해 유용한 문자열 별칭
- 원하는 빈도에 맞게 데이터를 처리하고 분석

| Alias | Description  |
|-------|--------------------------------------|
| B  | 영업일 빈도 |
| D  | 달력 일 빈도|
| W  | 주간 빈도|
| M  | 월말 빈도|
| SM | 반월말 빈도 (15일과 월말)  |
| BM | 영업 월말 빈도 |
| MS | 월초 빈도|
| SMS| 반월초 빈도 (1일과 15일)|
| BMS| 영업 월초 빈도 |
| Q  | 분기말 빈도 |
| BQ | 영업 분기말 빈도  |
| QS | 분기초 빈도 |
| BQS| 영업 분기초 빈도  |
| A, Y  | 연말 빈도|
| BA, BY| 영업 연말 빈도 |
| AS, YS| 연초 빈도|
| BAS, BYS| 영업 연초 빈도 |
| BH | 영업 시간 빈도 |
| H  | 시간별 빈도 |
| T, min| 분별 빈도|
| S  | 초별 빈도|
| L, ms | 밀리초 빈도 |
| U, us | 마이크로초 빈도|
| N  | 나노초 빈도 |

In [28]:
import pandas as pd

In [30]:
cols = ['date', 'open', 'high', 'low', 'close']

In [32]:
stocks = pd.read_csv('AAPL.csv', usecols=cols, index_col='date', parse_dates=['date'])

In [34]:
stocks

Unnamed: 0_level_0,close,high,low,open
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-05-27 00:00:00+00:00,132.045,132.260,130.0500,130.34
2015-05-28 00:00:00+00:00,131.780,131.950,131.1000,131.86
2015-05-29 00:00:00+00:00,130.280,131.450,129.9000,131.23
2015-06-01 00:00:00+00:00,130.535,131.390,130.0500,131.20
2015-06-02 00:00:00+00:00,129.960,130.655,129.3200,129.86
...,...,...,...,...
2020-05-18 00:00:00+00:00,314.960,316.500,310.3241,313.17
2020-05-19 00:00:00+00:00,313.140,318.520,313.0100,315.03
2020-05-20 00:00:00+00:00,319.230,319.520,316.2000,316.68
2020-05-21 00:00:00+00:00,316.850,320.890,315.8700,318.66


## 1. 연 단위로 resample (= groupby 데이터 유사)

In [46]:
st_y=stocks.resample('AS')
#연초 빈도 단위로 다운 샘플링
st_y

<pandas.core.resample.DatetimeIndexResampler object at 0x000001E89F8C7AD0>

In [52]:
# 다운 샘플링 데이터는 groupby 처럼 다룰 수 있다.  인덱스와 벨유가 어떻게 매칭되어있는지 볼수있다.
# 시계열은 보통 정렬되어있음 , 연초빈도 단위로 묶었을때 153인덱스까지 묶여있음
st_y.groups

{Timestamp('2015-01-01 00:00:00+0000', tz='UTC'): 153,
 Timestamp('2016-01-01 00:00:00+0000', tz='UTC'): 405,
 Timestamp('2017-01-01 00:00:00+0000', tz='UTC'): 656,
 Timestamp('2018-01-01 00:00:00+0000', tz='UTC'): 907,
 Timestamp('2019-01-01 00:00:00+0000', tz='UTC'): 1159,
 Timestamp('2020-01-01 00:00:00+0000', tz='UTC'): 1258}

우측의 숫자는 경계선에 있는 데이터의 인덱스 위치

In [44]:
stocks.iloc[[152,153]]

Unnamed: 0_level_0,close,high,low,open
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-12-31 00:00:00+00:00,105.26,107.03,104.82,107.01
2016-01-04 00:00:00+00:00,105.35,105.368,102.0,102.61


In [58]:
# 다운 샘플링 데이터는 groupby 처럼 다룰 수 있다. 2 + 시계열 장점인 '2020-01-01'는 안됨
# 해당 인덱스에 맞는 행들 보여줌 
st_y.get_group('2017-01-01 00:00:00+0000')

Unnamed: 0_level_0,close,high,low,open
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-01-03 00:00:00+00:00,116.15,116.3300,114.760,115.80
2017-01-04 00:00:00+00:00,116.02,116.5100,115.750,115.85
2017-01-05 00:00:00+00:00,116.61,116.8642,115.810,115.92
2017-01-06 00:00:00+00:00,117.91,118.1600,116.470,116.78
2017-01-09 00:00:00+00:00,118.99,119.4300,117.940,117.95
...,...,...,...,...
2017-12-22 00:00:00+00:00,175.01,175.4240,174.500,174.68
2017-12-26 00:00:00+00:00,170.57,171.4700,169.679,170.80
2017-12-27 00:00:00+00:00,170.60,170.7800,169.710,170.10
2017-12-28 00:00:00+00:00,171.08,171.8500,170.480,171.00


## 2. 다운샘플링 이후 집계함수

In [64]:
# 집계함수 mean으로 년도별 평균 구하기
st_y.mean(2).round()

Unnamed: 0_level_0,close,high,low,open
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-01-01 00:00:00+00:00,118.0,119.0,117.0,118.0
2016-01-01 00:00:00+00:00,105.0,105.0,104.0,105.0
2017-01-01 00:00:00+00:00,151.0,151.0,149.0,150.0
2018-01-01 00:00:00+00:00,189.0,191.0,187.0,189.0
2019-01-01 00:00:00+00:00,208.0,210.0,206.0,208.0
2020-01-01 00:00:00+00:00,292.0,296.0,287.0,291.0


In [66]:
# agg()로 집계함수 max, min, mean 년도별 결과 구하기
st_y.agg(['max','min','mean'])

Unnamed: 0_level_0,close,close,close,high,high,high,low,low,low,open,open,open
Unnamed: 0_level_1,max,min,mean,max,min,mean,max,min,mean,max,min,mean
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
2015-01-01 00:00:00+00:00,132.07,103.12,117.83281,132.97,107.03,119.02978,131.1,92.0,116.65117,132.85,94.87,117.93366
2016-01-01 00:00:00+00:00,118.25,90.34,104.604008,118.69,91.67,105.427063,117.45,89.47,103.690212,118.18,90.0,104.507698
2017-01-01 00:00:00+00:00,176.42,116.02,150.551056,177.2,116.33,151.406005,174.86,114.76,149.487555,175.11,115.8,150.450847
2018-01-01 00:00:00+00:00,232.07,146.83,189.053426,233.47,151.55,190.994052,229.78,146.59,187.18342,230.78,148.15,189.105536
2019-01-01 00:00:00+00:00,293.65,142.19,208.255933,293.97,145.72,209.831616,289.52,142.0,206.273003,291.12,143.98,207.869179
2020-01-01 00:00:00+00:00,327.2,224.37,291.787273,327.85,228.4997,295.886668,323.35,212.61,287.022926,324.73,228.08,290.749934


타임스탬프보다는 period 타입으로 나오는것이 더 나을것같은데? 기간만 나오게!


## 진행된 다운 샘플링의 문제점
1. 다운 샘플링.집계()로 만들어지는 데이터프레임 index가 Timestamp
    - 시간이 그룹화되면 기간이 되어야 하는 거 아닌가?

## kind= : {‘timestamp’, ‘period’}, optional, default None
- timestamp : 결과 인덱스를 날짜/시간 인덱스로 변환
- period : 기간 인덱스로 변환

In [80]:
# 'AS'로 하면 : ValueError: Invalid frequency: <YearBegin: month=1> 년초는 안됨...! 초단위는안됨
sty1=stocks.resample('A', kind='period')
sty1

<pandas.core.resample.DatetimeIndexResampler object at 0x000001E8A0EB79D0>

In [88]:
# 월 단위로 집계 결과 보기  
st_m=stocks.resample('M', kind='period')
st_m

<pandas.core.resample.DatetimeIndexResampler object at 0x000001E89F796610>

In [90]:
# 월 단위로 .agg() 결과 보기 1
st_m.agg(['max','min','mean'])

Unnamed: 0_level_0,close,close,close,high,high,high,low,low,low,open,open,open
Unnamed: 0_level_1,max,min,mean,max,min,mean,max,min,mean,max,min,mean
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
2015-05,132.045,130.28,131.368333,132.26,131.4500,131.886667,131.10,129.90,130.350000,131.86,130.34,131.143333
2015-06,130.535,124.53,127.806364,131.39,126.1200,128.761136,130.05,124.48,127.240645,131.20,125.46,128.055227
2015-07,132.070,120.07,125.335455,132.97,122.5699,126.203518,130.70,119.22,124.340000,132.85,121.94,125.450455
2015-08,119.720,103.12,113.394762,122.57,108.8000,115.500000,117.52,92.00,111.290476,121.50,94.87,113.445000
2015-09,116.410,107.72,112.797619,116.89,110.4500,114.207262,115.44,107.36,111.523624,116.58,108.97,112.998095
...,...,...,...,...,...,...,...,...,...,...,...,...
2020-01,324.340,297.43,311.916190,327.85,299.9600,314.326186,321.38,292.75,308.831181,324.45,293.79,311.170881
2020-02,327.200,273.36,311.270526,327.22,278.4100,315.252632,323.35,256.37,306.726805,324.73,257.26,310.313158
2020-03,302.740,224.37,262.444091,304.00,228.4997,269.692714,293.13,212.61,254.846364,303.67,228.08,261.073409
2020-04,293.800,240.91,272.386190,294.53,245.1500,275.781071,288.35,236.90,268.084490,289.96,240.34,271.811429


In [94]:
# 월 단위로 .agg() 결과 보기 2
st_m.agg({'high': ['max','min'], 'low':['max','min']} )

Unnamed: 0_level_0,high,high,low,low
Unnamed: 0_level_1,max,min,max,min
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2015-05,132.26,131.4500,131.10,129.90
2015-06,131.39,126.1200,130.05,124.48
2015-07,132.97,122.5699,130.70,119.22
2015-08,122.57,108.8000,117.52,92.00
2015-09,116.89,110.4500,115.44,107.36
...,...,...,...,...
2020-01,327.85,299.9600,321.38,292.75
2020-02,327.22,278.4100,323.35,256.37
2020-03,304.00,228.4997,293.13,212.61
2020-04,294.53,245.1500,288.35,236.90
