판다스는 시계열(time series) 데이터를 다루는 여러가지 기능을 제공한다. 
특정한 시점을 기록하는 것을 **Timestamp**, 두 시점 사이의 기간을 나타내는 **Period**가 있다.

<h3> 다른 자료형을 시계열 객체로 변환 </h3>

데이터를 처리할 때 시간 데이터들이 시간 자료형으로 기록되지 않고, 문자열이나 숫자로 저장되는 경우가 많다. 판다스는 다른 자료형 데이터를 시간 자료형으로 변환하는 기능을 제공한다.

<h4> 문자열을 Timestamp로 변환 <h4>

판다스의 **to_datetime() 함수는** 다른 자료형을 Timestamp를 나타내는 datetime64 자료형으로 변환할 수 있다. <br>
아래 CSV 파일을 확인해보면 'Date' 열의 날짜 데이터가 문자열로 저장되어 있는 것을 확인할 수 있다.

In [6]:
import pandas as pd

df = pd.read_csv('stock-data.csv')

print(df.head())
print('\n')
print(df.info())

         Date  Close  Start   High    Low  Volume
0  2018-07-02  10100  10850  10900  10000  137977
1  2018-06-29  10700  10550  10900   9990  170253
2  2018-06-28  10400  10900  10950  10150  155769
3  2018-06-27  10900  10800  11050  10500  133548
4  2018-06-26  10800  10900  11000  10700   63039


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB
None


이 문자열 데이터를 datetime64 자료형을 변환해보자. <br>
결과를 확인해보면 자료형은 datetime64이며 각 원소는 Timestamp 객체인 것을 확인할 수 있다.

In [7]:
df['new_Date'] = pd.to_datetime(df['Date'])

print(df.head())
print('\n')
print(df.info())
print(type(df['new_Date'][0]))

         Date  Close  Start   High    Low  Volume   new_Date
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   new_Date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB
None
<class 'pandas._libs.tslibs.timestamps.Tim

자료형을 바꾼 'new_Date' 열을 행 인덱스로 설정해보자. 시계열 값을 행 인덱스로 지정하면 판다스는 DatetimeIndex로 저장한다. 시계열 인덱스를 행으로 지정하면 인덱싱 또는 슬라이싱에 편리하다.

In [8]:
df.set_index('new_Date', inplace = True)
df.drop('Date', axis = 1, inplace = True)

print(df.head())
print('\n')
print(df.info())

            Close  Start   High    Low  Volume
new_Date                                      
2018-07-02  10100  10850  10900  10000  137977
2018-06-29  10700  10550  10900   9990  170253
2018-06-28  10400  10900  10950  10150  155769
2018-06-27  10900  10800  11050  10500  133548
2018-06-26  10800  10900  11000  10700   63039


<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20 entries, 2018-07-02 to 2018-06-01
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Close   20 non-null     int64
 1   Start   20 non-null     int64
 2   High    20 non-null     int64
 3   Low     20 non-null     int64
 4   Volume  20 non-null     int64
dtypes: int64(5)
memory usage: 960.0 bytes
None


<h4> Timestamp를 Period로 변환 </h4>

to_period() 메소드로 Timestamp 객체를 Period 객체로 변환할 수 있다. <br>
**freq 매개변수**에 기준이 되는 기간을 설정한다.

* freq 매개변수의 종류 <br>
D: day(1일) / W: week(1주일) / M: month end(월말) / MS: month begin(월초) /<br> Q: quarter end(분기말) / QS: quarter begin(분기초) / A: year end(연말) / AS: year begin(연초) 등등 ...

In [9]:
dates = ['2019-01-01', '2020-03-01', '2021-06-01']

ts_dates = pd.to_datetime(dates)
print(ts_dates)
print('\n')

pr_day = ts_dates.to_period(freq = 'D')
pr_month = ts_dates.to_period(freq = 'M')
pr_year = ts_dates.to_period(freq = 'A')
print(pr_day)
print(pr_month)
print(pr_year)

DatetimeIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='datetime64[ns]', freq=None)


PeriodIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='period[D]', freq='D')
PeriodIndex(['2019-01', '2020-03', '2021-06'], dtype='period[M]', freq='M')
PeriodIndex(['2019', '2020', '2021'], dtype='period[A-DEC]', freq='A-DEC')


<h3> 시계열 데이터 만들기 </h3>
<h4> Timestamp 배열 <h4>

판다스의 **date_range() 함수**를 사용하면 여러 개의 날짜(Timestamp)가 들어 있는 배열 형태의 시계열 데이터를 만들 수 있다. <br>
**start 매개변수**에 시작일을 설정해야하고, **end 매개변수**에 마지막 날을 설정해야한다. end 매개변수는 None으로 지정할 수 있다. **periods 매개변수**로 생성할 시계열 데이터의 개수를 입력한다. **freq 매개변수**에는 기준이 되는 기간을 입력해야한다. **tz 매개변수**로 한국 시간대를 설정할 수 있다.

In [10]:
ts_ms = pd.date_range(start = '2019-01-01',
                      end = None,
                      periods = 6,
                      freq = 'M',
                      tz = 'Asia/Seoul')
print(ts_ms)

DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-02-28 00:00:00+09:00',
               '2019-03-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-05-31 00:00:00+09:00', '2019-06-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='M')


In [11]:
ts_ms = pd.date_range(start = '2019-01-01',
                      end = None,
                      periods = 6,
                      freq = 'A',
                      tz = 'Asia/Seoul')
print(ts_ms)
print('\n')
ts_ms = pd.date_range(start = '2019-01-01',
                      end = None,
                      periods = 6,
                      freq = 'AS',
                      tz = 'Asia/Seoul')
print(ts_ms)

DatetimeIndex(['2019-12-31 00:00:00+09:00', '2020-12-31 00:00:00+09:00',
               '2021-12-31 00:00:00+09:00', '2022-12-31 00:00:00+09:00',
               '2023-12-31 00:00:00+09:00', '2024-12-31 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='A-DEC')


DatetimeIndex(['2019-01-01 00:00:00+09:00', '2020-01-01 00:00:00+09:00',
               '2021-01-01 00:00:00+09:00', '2022-01-01 00:00:00+09:00',
               '2023-01-01 00:00:00+09:00', '2024-01-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='AS-JAN')


만약 1개월이 아니라 3개월 간격으로 만드려면 '3M'과 같이 입력하면 된다.

In [12]:
ts_me = pd.date_range('2019-01-01', periods = 6, 
                      freq = 'M', 
                      tz = 'Asia/Seoul')
print(ts_me)
print('\n')

ts_3m = pd.date_range('2019-01-01', periods = 6,
                      freq = '3M',
                      tz = 'Asia/Seoul')
print(ts_3m)

DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-02-28 00:00:00+09:00',
               '2019-03-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-05-31 00:00:00+09:00', '2019-06-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='M')


DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-07-31 00:00:00+09:00', '2019-10-31 00:00:00+09:00',
               '2020-01-31 00:00:00+09:00', '2020-04-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='3M')


<h4> Period 배열 </h4>

판다스의 **period_range() 함수**로 여러 개의 기간(Period)이 들어 있는 시계열 데이터를 만들 수 있다. tz 매개변수를 제외하고 date_range() 함수와 동일하게 **start, end, periods, freq 매개변수**를 사용한다.

In [13]:
pr_m = pd.period_range(start = '2019-01-01',
                      end = None,
                      periods = 6,
                      freq = 'A')
print(pr_m)
print('\n')

pr_m = pd.period_range(start = '2019-01-10',
                      end = None,
                      periods = 6,
                      freq = 'A')
print(pr_m)

PeriodIndex(['2019', '2020', '2021', '2022', '2023', '2024'], dtype='period[A-DEC]', freq='A-DEC')


PeriodIndex(['2019', '2020', '2021', '2022', '2023', '2024'], dtype='period[A-DEC]', freq='A-DEC')


2019, 2020 과 같은 데이터는 해당 연도 전체 기간을 의미한다.

In [14]:
pr_m = pd.period_range(start = '2019-01-01',
                      end = None,
                      periods = 6,
                      freq = 'M')
print(pr_m)
print('\n')

pr_m = pd.period_range(start = '2019-01-10',
                      end = None,
                      periods = 6,
                      freq = 'M')
print(pr_m)

PeriodIndex(['2019-01', '2019-02', '2019-03', '2019-04', '2019-05', '2019-06'], dtype='period[M]', freq='M')


PeriodIndex(['2019-01', '2019-02', '2019-03', '2019-04', '2019-05', '2019-06'], dtype='period[M]', freq='M')


2019-01. 2019-02 와 같은 데이터는 2월과 3월 전체 기간을 나타낸다.

In [15]:
pr_h = pd.period_range(start = '2019-01-01',
                       end = None,
                       periods = 3,
                       freq = 'H')
print(pr_h)
print('\n')

pr_2h = pd.period_range(start = '2019-01-01',
                        end = None,
                        periods = 3,
                        freq = '2H')
print(pr_2h)

PeriodIndex(['2019-01-01 00:00', '2019-01-01 01:00', '2019-01-01 02:00'], dtype='period[H]', freq='H')


PeriodIndex(['2019-01-01 00:00', '2019-01-01 02:00', '2019-01-01 04:00'], dtype='period[2H]', freq='2H')


간격을 다르게 하고 싶다면 date_range() 함수와 동일하게 숫자를 붙여 2H와 같이 사용할 수 있다.

<h3> 시계열 데이터 활용 </h3>
<h4> 날짜 데이터 분리 </h4>

시계열 데이터의 **dt 속성**을 이용하면 연-월-일 날짜 데이터에서 일부를 분리하여 추출할 수 있다. dt.year로 연도, dt.month로 월, dt.day로 일 데이터를 추출할 수 있다.

In [16]:
df = pd.read_csv('stock-data.csv')

df['new_Date'] = pd.to_datetime(df['Date'])
print(df.head())
print('\n')

df['Year'] = df['new_Date'].dt.year
df['Month'] = df['new_Date'].dt.month
df['Day'] = df['new_Date'].dt.day
print(df.head())

         Date  Close  Start   High    Low  Volume   new_Date
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26


         Date  Close  Start   High    Low  Volume   new_Date  Year  Month  Day
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02  2018      7    2
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29  2018      6   29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28  2018      6   28
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27  2018      6   27
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26  2018      6   26


to_period() 메소드로 Timestamp 객체를 Period 객체로 변환하여 연-월 또는 연도를 추출할 수 있다.

In [19]:
df['Date_yr'] = df['new_Date'].dt.to_period(freq = 'A')
df['Date_m'] = df['new_Date'].dt.to_period(freq = 'M')
print(df.head())
print('\n')

print(type(df['Date_yr']), type(df['Date_m']))
print(type(df['Date_yr'][0]), type(df['Date_m'][0]))

         Date  Close  Start   High    Low  ...  Year Month  Day  Date_yr   Date_m
0  2018-07-02  10100  10850  10900  10000  ...  2018     7    2     2018  2018-07
1  2018-06-29  10700  10550  10900   9990  ...  2018     6   29     2018  2018-06
2  2018-06-28  10400  10900  10950  10150  ...  2018     6   28     2018  2018-06
3  2018-06-27  10900  10800  11050  10500  ...  2018     6   27     2018  2018-06
4  2018-06-26  10800  10900  11000  10700  ...  2018     6   26     2018  2018-06

[5 rows x 12 columns]


<class 'pandas.core.series.Series'> <class 'pandas.core.series.Series'>
<class 'pandas._libs.tslibs.period.Period'> <class 'pandas._libs.tslibs.period.Period'>


추출한 날짜 정보를 행 인덱스로 지정할 수 있다.

In [20]:
df.set_index('Date_m', inplace = True)
print(df.head())

               Date  Close  Start   High  ...  Year  Month Day  Date_yr
Date_m                                    ...                          
2018-07  2018-07-02  10100  10850  10900  ...  2018      7   2     2018
2018-06  2018-06-29  10700  10550  10900  ...  2018      6  29     2018
2018-06  2018-06-28  10400  10900  10950  ...  2018      6  28     2018
2018-06  2018-06-27  10900  10800  11050  ...  2018      6  27     2018
2018-06  2018-06-26  10800  10900  11000  ...  2018      6  26     2018

[5 rows x 11 columns]


<h4> 날짜 인덱스 활용 </h4>

Timestamp로 구성된 열을 행 인덱스로 지정하면 DatetimeIndex라는 고유 속성으로 변환된다. Period로 구성된 열을 행 인덱스로 지정하면 PeriodIndex라는 속성을 갖는다. 이와 같은 날짜 인덱스를 활용하면 시계열 데이터에 대한 인덱싱과 슬라이싱이 편리하다.

In [21]:
df = pd.read_csv('stock-data.csv')

df['new_Date'] = pd.to_datetime(df['Date'])
df.set_index('new_Date', inplace = True)

print(df.head())
print('\n')
print(df.index)

                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977
2018-06-29  2018-06-29  10700  10550  10900   9990  170253
2018-06-28  2018-06-28  10400  10900  10950  10150  155769
2018-06-27  2018-06-27  10900  10800  11050  10500  133548
2018-06-26  2018-06-26  10800  10900  11000  10700   63039


DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='new_Date', freq=None)


날짜 인덱스를 사용하면 아래와 같이 데이터에 접근할 수 있다.

In [22]:
df_y = df['2018']
print(df_y.head())
print('\n')

df_ym = df.loc['2018-07'] # loc 인덱서 사용
print(df_ym.head())
print('\n')

df_ym_cols = df.loc['2018-07', 'Start':'High'] # 열 범위 슬라이싱
print(df_ym_cols)
print('\n')

df_ymd = df['2018-07-02'] 
print(df_ymd)
print('\n')

df_ymd_range = df['2018-06-25':'2018-06-20']  # 날짜 범위 지정
print(df_ymd_range)

                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977
2018-06-29  2018-06-29  10700  10550  10900   9990  170253
2018-06-28  2018-06-28  10400  10900  10950  10150  155769
2018-06-27  2018-06-27  10900  10800  11050  10500  133548
2018-06-26  2018-06-26  10800  10900  11000  10700   63039


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977


            Start   High
new_Date                
2018-07-02  10850  10900


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-06-25  2018-06-25  11150  1

Timestamp 객체로 두 날짜 사이의 시간 간격을 구할 수도 있다.

In [25]:
today = pd.to_datetime('2018-12-25')
df['time_delta'] = today - df.index
df.set_index('time_delta', inplace = True)
df_180 = df['180 days':'189 days']
print(df_180)

                  Date  Close  Start   High    Low  Volume
time_delta                                                
180 days    2018-06-28  10400  10900  10950  10150  155769
181 days    2018-06-27  10900  10800  11050  10500  133548
182 days    2018-06-26  10800  10900  11000  10700   63039
183 days    2018-06-25  11150  11400  11450  11000   55519
186 days    2018-06-22  11300  11250  11450  10750  134805
187 days    2018-06-21  11200  11350  11750  11200  133002
188 days    2018-06-20  11550  11200  11600  10900  308596
189 days    2018-06-19  11300  11850  11950  11300  180656
