In [2]:
import pandas as pd
import numpy as np

### DatatimeIndex
- 시계열 자료 : 인덱스에 날짜나 시간이 오는 데이터
- 판다스에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야함.
- 주로 사용하는 함수
 - pd.to_datetime(): 문자열을 날짜/시간형 자료(datetime)로 바꿔주는 함수
 - pd.date_range(): 기간(시작일과 종료일)이 잡혀있으면 범위 내의 인덱스를 자동 생성하는 함수
 
 #### to_datetime()

In [4]:
# 문자열로 날자자료형을 가진 함수
date_str = ['2018, 1, 1','2018, 1, 4','2018, 1, 5','2018, 1, 6']
print(type(date_str))

<class 'list'>


In [5]:
## 시계열 자료로 변환
idx = pd.to_datetime(date_str)
idx # 객체가 바뀐걸 확인할 수 있음. freq 연속된 데이터 입니까?

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [7]:
# 시리즈 데이터 생성
s = pd.Series(np.random.randn(4), index = idx)
s # 시계열 데이터

2018-01-01    1.077950
2018-01-04   -0.324325
2018-01-05   -0.979690
2018-01-06   -0.678520
dtype: float64

#### pd.date_range()

In [8]:
# 시작일과 종료일 설정
pd.date_range('2022-4-2','2022-4-30') # freq default = day(D)

DatetimeIndex(['2022-04-02', '2022-04-03', '2022-04-04', '2022-04-05',
               '2022-04-06', '2022-04-07', '2022-04-08', '2022-04-09',
               '2022-04-10', '2022-04-11', '2022-04-12', '2022-04-13',
               '2022-04-14', '2022-04-15', '2022-04-16', '2022-04-17',
               '2022-04-18', '2022-04-19', '2022-04-20', '2022-04-21',
               '2022-04-22', '2022-04-23', '2022-04-24', '2022-04-25',
               '2022-04-26', '2022-04-27', '2022-04-28', '2022-04-29',
               '2022-04-30'],
              dtype='datetime64[ns]', freq='D')

In [9]:
# 기간 설정
pd.date_range(start = '2022-10-1',periods = 30)

DatetimeIndex(['2022-10-01', '2022-10-02', '2022-10-03', '2022-10-04',
               '2022-10-05', '2022-10-06', '2022-10-07', '2022-10-08',
               '2022-10-09', '2022-10-10', '2022-10-11', '2022-10-12',
               '2022-10-13', '2022-10-14', '2022-10-15', '2022-10-16',
               '2022-10-17', '2022-10-18', '2022-10-19', '2022-10-20',
               '2022-10-21', '2022-10-22', '2022-10-23', '2022-10-24',
               '2022-10-25', '2022-10-26', '2022-10-27', '2022-10-28',
               '2022-10-29', '2022-10-30'],
              dtype='datetime64[ns]', freq='D')

#### freq매개변수로 특정 날짜만 생성되도록 설정
- s : second, 초
- T : minute, 분
- H : hour, 시간
- D : day, 일
- B : weekday, 평일
- W : sunday
- W-MON : 주(월요일
- M : 각 달의 마지막 날
- MS : 각 달의 첫날 ...
- https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects 참고

In [10]:
pd.date_range('2022-10-1','2022-10-31', freq='D')

DatetimeIndex(['2022-10-01', '2022-10-02', '2022-10-03', '2022-10-04',
               '2022-10-05', '2022-10-06', '2022-10-07', '2022-10-08',
               '2022-10-09', '2022-10-10', '2022-10-11', '2022-10-12',
               '2022-10-13', '2022-10-14', '2022-10-15', '2022-10-16',
               '2022-10-17', '2022-10-18', '2022-10-19', '2022-10-20',
               '2022-10-21', '2022-10-22', '2022-10-23', '2022-10-24',
               '2022-10-25', '2022-10-26', '2022-10-27', '2022-10-28',
               '2022-10-29', '2022-10-30', '2022-10-31'],
              dtype='datetime64[ns]', freq='D')

In [11]:
pd.date_range('2022-10-1','2022-12-31', freq='W-SUN')

DatetimeIndex(['2022-10-02', '2022-10-09', '2022-10-16', '2022-10-23',
               '2022-10-30', '2022-11-06', '2022-11-13', '2022-11-20',
               '2022-11-27', '2022-12-04', '2022-12-11', '2022-12-18',
               '2022-12-25'],
              dtype='datetime64[ns]', freq='W-SUN')

In [12]:
pd.date_range('2022-10-1','2022-12-31', freq='W-MON')

DatetimeIndex(['2022-10-03', '2022-10-10', '2022-10-17', '2022-10-24',
               '2022-10-31', '2022-11-07', '2022-11-14', '2022-11-21',
               '2022-11-28', '2022-12-05', '2022-12-12', '2022-12-19',
               '2022-12-26'],
              dtype='datetime64[ns]', freq='W-MON')

#### shift
- 시계열 데이터의 인덱스에서 날짜단위로 이동을 할 떄 사용하는 함수

In [15]:
ts = pd.Series(np.random.randn(4), index = pd.date_range('2018-1-1', periods = 4, freq='M'))
ts

2018-01-31    3.360361
2018-02-28    0.314985
2018-03-31    0.272509
2018-04-30    0.019621
Freq: M, dtype: float64

In [16]:
# 날짜는 그대로 값만 옆으로 한칸씩
ts.shift(1)
## ㄴ없어진 값은 누락값으로

2018-01-31         NaN
2018-02-28    3.360361
2018-03-31    0.314985
2018-04-30    0.272509
Freq: M, dtype: float64

In [17]:
# 반대는 -1
ts.shift(-1)

2018-01-31    0.314985
2018-02-28    0.272509
2018-03-31    0.019621
2018-04-30         NaN
Freq: M, dtype: float64

In [18]:
# 인덱스를 이동하고 싶다면, freq옵션
ts.shift(1, freq='M')

2018-02-28    3.360361
2018-03-31    0.314985
2018-04-30    0.272509
2018-05-31    0.019621
Freq: M, dtype: float64

In [19]:
ts.shift(1, freq='W')

2018-02-04    3.360361
2018-03-04    0.314985
2018-04-01    0.272509
2018-05-06    0.019621
dtype: float64

#### resample
- 날짜/시간의 간격을 재조정할 때 사용
- 업샘플링, 다운샘플링
 - 모델의 데이터양이 너무 많거나(down-sample) 적을때(up-sample) 데이터의 양을 조정하기 위한 작업 

In [20]:
ts = pd.Series(np.random.randn(100), index = pd.date_range('2018-1-1', 
                                                           periods = 100, freq='D'))
ts

2018-01-01    0.008317
2018-01-02    0.787628
2018-01-03   -1.361326
2018-01-04   -2.114075
2018-01-05    1.440033
                ...   
2018-04-06    1.041590
2018-04-07   -0.231426
2018-04-08    0.091264
2018-04-09   -1.483658
2018-04-10    1.249991
Freq: D, Length: 100, dtype: float64

##### Down Sample
- 다운 샘플링의 경우는 원본 데이터가 그룹화 되는것.
- 그룹을 묶어버리니깐 그 그룹의 대표가 될수있는 대푯값(보통 평균)이 있어야함.

In [21]:
ts.resample('W').mean()

2018-01-07   -0.301772
2018-01-14    0.286334
2018-01-21    0.150420
2018-01-28    0.467533
2018-02-04   -0.398122
2018-02-11    0.100586
2018-02-18    0.793809
2018-02-25    0.524890
2018-03-04    0.509726
2018-03-11   -0.011956
2018-03-18   -0.285613
2018-03-25   -0.364557
2018-04-01    0.519268
2018-04-08    0.014945
2018-04-15   -0.116834
Freq: W-SUN, dtype: float64

In [22]:
## 그룹화에 자주 사용되는 first, last 사용
# first: 첫번쨰 값
ts.resample('M').first()

2018-01-31    0.008317
2018-02-28    0.175385
2018-03-31   -0.015877
2018-04-30    1.222902
Freq: M, dtype: float64